Self-supervised and multilingual learning applied to the Wolof, Swahili and Fongbe

Prestilien Djionang Pindoh; Paulin Melatagia Yonta

Pré-Publication, Document De Travail (Preprint/Prepublication) Année : 2024

Self-supervised and multilingual learning applied to the Wolof, Swahili and Fongbe

Apprentissage auto-supervisé et multilingue appliqué au Wolof, au Swahili et au Fongbe

(1) , (2, 1)

1
2

Prestilien Djionang Pindoh

Fonction : Auteur
PersonId : 1375210

Département d'Informatique [Yaoundé I]

Paulin Melatagia Yonta

Fonction : Auteur
PersonId : 981725
ORCID : 0000-0003-3479-2627
IdRef : 273745646

Unité de modélisation mathématique et informatique des systèmes complexes [Bondy]

Département d'Informatique [Yaoundé I]

Résumé

Under-resourced languages encounter substantial obstacles in speech recognition owing to the scarcity of resources and limited data availability, which impedes their development and widespread adoption. This paper presents a representation learning model that leverages existing frameworks based on self-supervised learning techniques—specifically, Contrastive Predictive Coding (CPC), wav2vec, and a bidirectional variant of CPC—by integrating them with multilingual learning approaches. We apply this model to three African languages: Wolof, Swahili, and Fongbe. Our evaluation of the resulting representations in a downstream task, automatic speech recognition, utilizing an architecture analogous to DeepSpeech, reveals the model’s capacity to discern language specific linguistic features. The results demonstrate promising performance, achieving Word Error Rates (WER) of 61% for Fongbe, 72% for Wolof, and 88% for Swahili. These findings underscore the potential of our approach in advancing speech recognition capabilities for under-resourced languages, particularly within the African linguistic landscape.

Les langues sous-dotées rencontrent d'importants obstacles en reconnaissance vocale en raison du manque de ressources et de la disponibilité limitée des données, ce qui freine leur développement et leur adoption à grande échelle. Cet article présente un modèle d'apprentissage de représentations qui s'appuie sur des cadres existants basés sur des techniques d'apprentissage auto-supervisé — en particulier le Contrastive Predictive Coding (CPC), wav2vec, et une variante bidirectionnelle du CPC — en les intégrant à des approches d'apprentissage multilingue. Nous appliquons ce modèle à trois langues africaines : le wolof, le swahili et le fongbe. L'évaluation des représentations obtenues dans une tâche en aval, la reconnaissance automatique de la parole, en utilisant une architecture similaire à DeepSpeech, montre la capacité du modèle à discerner des caractéristiques linguistiques propres à chaque langue. Les résultats démontrent des performances prometteuses, avec des taux d'erreur de mots (WER) de 61 % pour le fongbe, 72 % pour le wolof et 88 % pour le swahili. Ces résultats soulignent le potentiel de notre approche pour faire progresser les capacités de reconnaissance vocale des langues sous-dotées, en particulier dans le contexte linguistique africain.

Mots clés

Self-supervised learning Multilingual representation learning Automatic speech recognition Under-resourced languages

Apprentissage auto-supervisé Apprentissage de représentations multilingues Reconnaissance automatique de la parole Langues peu dotées

Domaines

Informatique [cs]

Fichier principal

Papier_ARIMA.pdf (552.89 Ko)

Response to the reviewers.pdf (36.64 Ko)

Origine	Fichiers produits par l'(les) auteur(s)

Origine	Fichiers produits par l'(les) auteur(s)

Prestilien Djionang Pindoh : Connectez-vous pour contacter le contributeur

https://inria.hal.science/hal-04547298

Soumis le : lundi 30 septembre 2024-13:56:37

Dernière modification le : mercredi 4 décembre 2024-10:20:03

Dates et versions

hal-04547298 , version 1 (15-04-2024)

hal-04547298 , version 2 (30-09-2024)

Licence

Paternité

Identifiants

HAL Id : hal-04547298 , version 2

Citer

Prestilien Djionang Pindoh, Paulin Melatagia Yonta. Self-supervised and multilingual learning applied to the Wolof, Swahili and Fongbe. 2024. ⟨hal-04547298v2⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

IRD AFRIQ SORBONNE-UNIVERSITE SU-SCIENCES UMI-209

94 Consultations

62 Téléchargements

Self-supervised and multilingual learning applied to the Wolof, Swahili and Fongbe

Apprentissage auto-supervisé et multilingue appliqué au Wolof, au Swahili et au Fongbe

Résumé

Mots clés

Domaines

Dates et versions

Licence

Identifiants

Citer

Exporter

Collections

Partager