Self-supervised and multilingual learning applied to the Wolof, Swahili and Fongbe - Unité de modélisation mathématique et informatique des systèmes complexes
Pré-Publication, Document De Travail (Preprint/Prepublication) Année : 2024

Self-supervised and multilingual learning applied to the Wolof, Swahili and Fongbe

Apprentissage auto-supervisé et multilingue appliqué au Wolof, au Swahili et au Fongbe

Résumé

Under-resourced languages encounter substantial obstacles in speech recognition owing to the scarcity of resources and limited data availability, which impedes their development and widespread adoption. This paper presents a representation learning model that leverages existing frameworks based on self-supervised learning techniques—specifically, Contrastive Predictive Coding (CPC), wav2vec, and a bidirectional variant of CPC—by integrating them with multilingual learning approaches. We apply this model to three African languages: Wolof, Swahili, and Fongbe. Our evaluation of the resulting representations in a downstream task, automatic speech recognition, utilizing an architecture analogous to DeepSpeech, reveals the model’s capacity to discern language specific linguistic features. The results demonstrate promising performance, achieving Word Error Rates (WER) of 61% for Fongbe, 72% for Wolof, and 88% for Swahili. These findings underscore the potential of our approach in advancing speech recognition capabilities for under-resourced languages, particularly within the African linguistic landscape.
Les langues sous-dotées rencontrent d'importants obstacles en reconnaissance vocale en raison du manque de ressources et de la disponibilité limitée des données, ce qui freine leur développement et leur adoption à grande échelle. Cet article présente un modèle d'apprentissage de représentations qui s'appuie sur des cadres existants basés sur des techniques d'apprentissage auto-supervisé — en particulier le Contrastive Predictive Coding (CPC), wav2vec, et une variante bidirectionnelle du CPC — en les intégrant à des approches d'apprentissage multilingue. Nous appliquons ce modèle à trois langues africaines : le wolof, le swahili et le fongbe. L'évaluation des représentations obtenues dans une tâche en aval, la reconnaissance automatique de la parole, en utilisant une architecture similaire à DeepSpeech, montre la capacité du modèle à discerner des caractéristiques linguistiques propres à chaque langue. Les résultats démontrent des performances prometteuses, avec des taux d'erreur de mots (WER) de 61 % pour le fongbe, 72 % pour le wolof et 88 % pour le swahili. Ces résultats soulignent le potentiel de notre approche pour faire progresser les capacités de reconnaissance vocale des langues sous-dotées, en particulier dans le contexte linguistique africain.
Fichier principal
Vignette du fichier
Papier_ARIMA.pdf (552.89 Ko) Télécharger le fichier
Response to the reviewers.pdf (36.64 Ko) Télécharger le fichier
Origine Fichiers produits par l'(les) auteur(s)
Origine Fichiers produits par l'(les) auteur(s)

Dates et versions

hal-04547298 , version 1 (15-04-2024)
hal-04547298 , version 2 (30-09-2024)

Licence

Identifiants

  • HAL Id : hal-04547298 , version 2

Citer

Prestilien Djionang Pindoh, Paulin Melatagia Yonta. Self-supervised and multilingual learning applied to the Wolof, Swahili and Fongbe. 2024. ⟨hal-04547298v2⟩
94 Consultations
62 Téléchargements

Partager

More