An investigation into contact-induced semantic shifts in Quebec English : conciliating corpus-based vector models and variationist sociolinguistic inquiry - Université Toulouse 3 Accéder directement au contenu
Thèse Année : 2022

An investigation into contact-induced semantic shifts in Quebec English : conciliating corpus-based vector models and variationist sociolinguistic inquiry

Étude des glissements de sens induits par le contact de langues en anglais québécois : apports conjoints de la modélisation vectorielle sur corpus et de l'approche sociolinguistique variationniste

Filip Miletic
  • Fonction : Auteur
  • PersonId : 1394345
  • IdRef : 267594852

Résumé

This dissertation investigates contact-induced semantic shifts in Quebec English, i.e., preexisting English words which are used with a different meaning due to the potential influence of French. I propose a novel approach at the intersection of natural language processing and variationist sociolinguistics, aiming to provide a more comprehensive descriptive account as well as assess the contributions of the implemented methods.In order to conduct computational analyses of semantic variation, I created a corpus containing 78.8 million tweets from Montreal, Toronto, and Vancouver. It was used to implement different types of vector space models, i.e., computational representations of word meaning. Type-level models were used to identify new semantic shifts based on the semantic differences between Montreal and the other two cities. Token-level models were used in finer-grained analyses and allowed to further characterize their use. Despite promising results, systematic quantitative evaluation and extensive qualitative analyses suggest that these methods are hampered by noise related to their inherent characteristics as well as corpus structure.These large-scale approaches were complemented with finer-grained data collected through sociolinguistic interviews with 15 speakers living in Montreal. Varying correlations between lexical items and a range of sociodemographic factors, coupled with qualitative remarks on their use, point to four distinct patterns of synchronic variation; these in turn reflect potential diachronic processes. Interspeaker variability suggests that the use of semantic shifts is driven by speakers who tend to be younger and proficient in both English and French. The acceptability ratings are weakly correlated with computational variation measures, suggesting that they capture different dimensions of semantic variation.Overall, this dissertation has provided the first systematic description of contact-induced semantic shifts in Quebec English, and highlighted the complementarity of approaches used in different disciplines. These considerations have provided a pathway towards a better-informed use of corpus-based computational methods in studies of sociolinguistic phenomena.
Cette thèse étudie les glissements de sens induits par le contact de langues en anglais québécois, à savoir des mots anglais préexistants utilisés avec un sens différent en raison d’une influence potentielle du français. Nous proposons une approche novatrice à l’intersection du traitement automatique des langues et de la sociolinguistique variationniste, afin de fournir une description exhaustive de ce phénomène ainsi que d’évaluer les contributions des approches sur corpus mises en œuvre ici.Afin d’effectuer des analyses computationnelles de variation sémantique, nous avons constitué un corpus composé de 78,8 millions de tweets de Montréal, Toronto et Vancouver. Le corpus a été utilisé pour mettre en œuvre différents types de modèles vectoriels, à savoir des représentations computationnelles du sens des mots. Les modèles statiques ont permis d’identifier de nouveaux glissements de sens, alors que les modèles contextuels ont permis de caractériser plus finement leurs utilisations. Malgré des résultats prometteurs, ces méthodes sont limitées par le bruit lié à leurs caractéristiques intrinsèques et à la structure du corpus.Ces approches ont été complétées par des données plus fines recueillies au moyen d’entretiens sociolinguistiques avec 15 locuteurs vivant à Montréal. Les corrélations entre les variables linguistiques et différents facteurs sociodémographiques, ainsi que les remarques qualitatives sur leur utilisation, indiquent quatre patterns de variation synchronique ; ceux-ci pourraient à leur tour refléter des processus diachroniques. Par ailleurs, la variabilité inter-locuteurs suggère un rôle important des locuteurs bilingues et plus jeunes dans l'utilisation des glissements de sens. Enfin, les scores d'acceptabilité sont faiblement corrélés avec les mesures computationnelles, ce qui suggère que ceux-ci reflètent d’autres dimensions de variation sémantique.Dans l'ensemble, cette thèse a fourni la première description systématique des glissements de sens en anglais québécois. Elle a également mis en évidence la complémentarité des approches développées dans des disciplines différentes. Ces considérations ouvrent la voie à une utilisation plus avisée des méthodes computationnelles basées sur corpus dans des études de phénomènes sociolinguistiques.
Fichier principal
Vignette du fichier
Miletic_Filip.pdf (3.16 Mo) Télécharger le fichier
Origine Version validée par le jury (STAR)

Dates et versions

tel-04620083 , version 1 (21-06-2024)

Identifiants

  • HAL Id : tel-04620083 , version 1

Citer

Filip Miletic. An investigation into contact-induced semantic shifts in Quebec English : conciliating corpus-based vector models and variationist sociolinguistic inquiry. Linguistics. Université Toulouse le Mirail - Toulouse II, 2022. English. ⟨NNT : 2022TOU20034⟩. ⟨tel-04620083⟩
16 Consultations
11 Téléchargements

Partager

Gmail Mastodon Facebook X LinkedIn More