Apport des modèles neuronaux de bout-en-bout pour la compréhension automatique de la parole dans l'habitat intelligent - Université Grenoble Alpes Accéder directement au contenu
Thèse Année : 2020

Contribution of end-to-end deep learning models for spoken language understanding in smart homes

Apport des modèles neuronaux de bout-en-bout pour la compréhension automatique de la parole dans l'habitat intelligent

Résumé

Smart speakers offer the possibility of interacting with smart home systems, and make it possible to issue a range of requests about various subjects. They represent the first ambient voice interfaces that are frequently available in home environments. Very often they are only capable of inferring voice commands of a simple syntax in short utterances in the realm of smart homes that promote home care for senior adults. They support them during everyday situations by improving their quality of life, and also providing assistance in situations of distress. The design of these smart homes mainly focuses on the safety and comfort of its habitants. As a result, these research projects frequently concentrate on human activity detection, resulting in a lack of attention for the communicative aspects in a smart home design. Consequently, there are insufficient speech corpora, specific to the home automation field, in particular for languages other than English. However the availability of these corpora are crucial for developing interactive communication systems between the smart home and its inhabitants. Such corpora at one’s disposal could also contribute to the development of a generation of smart speakers capable of extracting more complex voice commands. As a consequence, part of our work consisted in developing a corpus generator, producing home automation domain specific voice commands, automatically annotated with intent and concept labels. The extraction of intents and concepts from these commands, by a Spoken Language Understanding (SLU) system is necessary to provide the decision-making module with the information, necessary for their execution. In order to react to speech, the natural language understanding (NLU) module is typically preceded by an automatic speech recognition (ASR) module, automatically converting speech into transcriptions. As several studies have shown, the interaction between ASR and NLU in a sequential SLU approach accumulates errors. Therefore, one of the main motivations of our work is the development of an end-to-end SLU module, extracting concepts and intents directly from speech. To achieve this goal, we first develop a sequential SLU approach as our baseline approach, in which a classic ASR method generates transcriptions that are passed to the NLU module, before continuing with the development of an End-to-end SLU module. These two SLU systems were evaluated on a corpus recorded in the home automation domain. We investigate whether the prosodic information that the end-to-end SLU system has access to, contributes to SLU performance. We position the two approaches also by comparing their robustness, facing speech with more semantic and syntactic variation.The context of this thesis is the ANR VocADom project.
Les enceintes intelligentes offrent la possibilité d’interagir avec les systèmes informatiques de la maison. Elles permettent d’émettre un éventail de requêtes sur des sujets divers et représentent les premières interfaces vocales disponibles couramment dans les environnements domestiques. La compréhension des commandes vocales concerne des énoncés courts ayant une syntaxe simple, dans le domaine des habitats intelligents destinés à favoriser le maintien à domicile des personnes âgées. Ils les assistent dans leur vie quotidienne, améliorant ainsi leur qualité de vie, mais peuvent aussi leur porter assistance en situations de détresse. La conception de ces habitats se concentre surtout sur les aspects de la sécurité et du confort, ciblant fréquemment sur la détection de l’activité humaine. L’aspect communication est moins pris en compte, c’est pourquoi il existe peu de corpus de parole spécifiques au domaine domotique, en particulier pour des langues autres que l’anglais, alorsqu’ils sont essentiels pour développer les systèmes de communication entre l’habitat et ses habitants. La disponibilité de tels corpus, pourrait contribuer au développement d’une génération d’enceintes intelligentes qui soient capables d’extraire des commandes vocales plus complexes. Pour contourner une telle contrainte, une partie de notre travail consiste à développer un générateur de corpus, produisant des commandes vocales spécifiques au domaine domotique, automatiquement annotées d’étiquettes d’intentions et de concepts. Un système de compréhension de la parole (SLU - Spoken Language Understanding) est nécessaire afin d’extraire les intentions et les concepts des commandes vocales avant de les fournir au module de prise de décision en charge de l’exécution des commandes. De manière classique, un module de compréhension du langage naturel (NLU - Natural Language Understanding) est précédé par un module de reconnaissance automatique de la parole (RAP), convertissant automatiquement la parole en transcriptions. Comme plusieurs études l’ont montré, l’enchaînement entre RAP et NLU dans une approche séquentielle de SLU cumule les erreurs. Par conséquent, l’une des motivations principales de nos travaux est le développement d’un module de SLU de bout en bout (End-to-End) visant à extraire les concepts et les intentions directement de la parole. À cette fin, nous élaborons d’abord une approche SLU séquentielle comme approche de référence, dans laquelle une méthode classique de RAP génère des transcriptions qui sont transmises au module NLU, avant de poursuivre par le développement d’un module de SLU de bout en bout. Ces deux systèmes de SLU sont évalués sur un corpus enregistré spécifiquement au domaine de la domotique. Nous étudions si l’information prosodique, à laquelle la SLU de bout en bout a accès, contribue à augmenter les performances. Nous comparons aussi la robustesse des deux approches lorsqu’elles sont confrontées à un style de parole aux niveaux sémantiques et syntaxiques plus varié.Cette étude est menée dans le cadre du projet VocADom financé par l’appel à projets génériques de l’ANR.
Fichier principal
Vignette du fichier
DESOT_2020_archivage.pdf (10.37 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-03192050 , version 1 (07-04-2021)

Identifiants

  • HAL Id : tel-03192050 , version 1

Citer

Thierry Desot. Apport des modèles neuronaux de bout-en-bout pour la compréhension automatique de la parole dans l'habitat intelligent. Réseau de neurones [cs.NE]. Université Grenoble Alpes [2020-..], 2020. Français. ⟨NNT : 2020GRALM069⟩. ⟨tel-03192050⟩
255 Consultations
212 Téléchargements

Partager

Gmail Facebook X LinkedIn More