Accéder directement au contenu Accéder directement à la navigation
Nouvelle interface
Communication dans un congrès

Word Representations Concentrate and This is Good News!

Abstract : This article establishes that, unlike the legacy tf*idf representation, recent natural language representations (word embedding vectors) tend to exhibit a so-called concentration of measure phenomenon, in the sense that, as the representation size p and database size n are both large, their behavior is similar to that of large dimensional Gaussian random vectors. This phenomenon may have important consequences as machine learning algorithms for natural language data could be amenable to improvement, thereby providing new theoretical insights into the field of natural language processing.
Type de document :
Communication dans un congrès
Liste complète des métadonnées

https://hal.univ-grenoble-alpes.fr/hal-03356609
Contributeur : Anne-Christine Jacob Connectez-vous pour contacter le contributeur
Soumis le : lundi 4 octobre 2021 - 13:35:53
Dernière modification le : mercredi 6 juillet 2022 - 04:12:59
Archivage à long terme le : : mercredi 5 janvier 2022 - 18:02:28

Fichier

CouilletRomain_CinarYagmurGize...
Fichiers éditeurs autorisés sur une archive ouverte

Licence


Distributed under a Creative Commons Paternité 4.0 International License

Identifiants

Collections

Citation

Romain Couillet, Yagmur Gizem Cinar, Éric Gaussier, Muhammad Imran. Word Representations Concentrate and This is Good News!. CoNLL 2020 - 24th Conference on Computational Natural Language Learning, Association for Computational Linguistics (ACL), Nov 2020, Online, France. pp.325-334, ⟨10.18653/v1/2020.conll-1.25⟩. ⟨hal-03356609⟩

Partager

Métriques

Consultations de la notice

65

Téléchargements de fichiers

47