Les représentations contextuelles stéréotypées dans les modèles de langue français : mieux les identifier pour ne pas les reproduire - Université de Paris - Faculté Sociétés et Humanités
Communication Dans Un Congrès Année : 2024

Les représentations contextuelles stéréotypées dans les modèles de langue français : mieux les identifier pour ne pas les reproduire

Pierre-Jean Larpin
  • Fonction : Auteur
Antoine Simoulin

Résumé

Nous présentons une étude pour mieux identifier comment les stéréotypes se reflètent dans les modèles de langue français. Nous adaptons le jeu de données StereoSet à la langue française et suivons le même protocole expérimental que celui utilisé pour l'anglais. Alors que les stéréotypes sont connus pour évoluer en fonction des contextes culturels et temporels, notre étude identifie des similitudes avec les résultats observés pour l'anglais, notamment en ce qui concerne la corrélation entre les capacités linguistiques des modèles et la présence de biais mesurables. Nous étendons notre étude en examinant des architectures de réseaux neuronaux similaires pré-entraînées sur des corpus linguistiques différents. Nos résultats mettent en évidence l'impact crucial des données de pré-entraînement sur les biais constatés dans les modèles français. De plus, nous observons que l'utilisation de corpus multilingues pour le pré-entraînement peut avoir un effet positif sur l'atténuation des biais.
Fichier principal
Vignette du fichier
9822.pdf (403.21 Ko) Télécharger le fichier
Origine Fichiers éditeurs autorisés sur une archive ouverte

Dates et versions

hal-04623013 , version 1 (01-07-2024)

Licence

Identifiants

  • HAL Id : hal-04623013 , version 1

Citer

Léandre Adam-Cuvillier, Pierre-Jean Larpin, Antoine Simoulin. Les représentations contextuelles stéréotypées dans les modèles de langue français : mieux les identifier pour ne pas les reproduire. 35èmes Journées d'Études sur la Parole (JEP 2024) 31ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN 2024) 26ème Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RECITAL 2024), Jul 2024, Toulouse, France. pp.130-143. ⟨hal-04623013⟩

Relations

115 Consultations
96 Téléchargements

Partager

More