Vers une simplification automatique de la parole en français
Résumé
La Simplification Automatique de Textes (SAT) est un domaine du TAL qui vise à réduire automatiquement la complexité linguistique des textes, sans pour autant perdre leur signification originale. Bien qu’il s’agisse d’une tâche importante d’un point de vue sociétal et computationnel, automatiser la simplification linguistique est souvent contrainte par la rareté de corpus parallèles associant des phrases complexes et simples. Ceci est encore plus prégnant dans le cas du français, où les ressources existantes sont insuffisantes pour l’entraînement de modèles basés sur l’apprentissage automatique (Brouwers et al., 2012 ; Cardon & Grabar, 2019). De plus, la majorité des travaux précédents se sont penchés sur la simplification linguistique de sources écrites et peu d’études ont examiné des méthodes servant à simplifier la parole (Buet & Yvon, 2021).
Notre travail cherche à pallier ces deux lacunes de manière séquentielle. Tout d’abord, nous proposons une méthode d’exploitation de corpus permettant d’extraire automatiquement des paires de phrases pertinentes pour la SAT. Cela facilite ensuite l’entraînement de modèles de simplification phrastique et permet d’étendre par la suite la tâche de la simplification automatique à une modalité orale.
Origine | Fichiers produits par l'(les) auteur(s) |
---|