Neural Conversion of Social Attitudes in Speech Signals

Clément Le Moine Veillon

Résumé

As social animals, humans communicate with each other by transmitting various types of information about the world and about themselves. At the heart of this process, the voice allows the transmission of linguistic messages denoting a strict meaning that can be decoded by the interlocutor. By conveying other information such as attitudes or emotions that connote the strict meaning, the voice enriches and enhances the communication process. In the last few decades, the digital world has become an important part of our lives. In many everyday situations, we are moving away from keyboards, mice and even touch screens to interactions with voice assistants or even virtual agents that enable human-like communication with machines. In the emergence of a hybrid world where physical and virtual reality coexist, it becomes crucial to enable machines to capture, interpret, and replicate the emotions and attitudes conveyed by the human voice.This research focuses on speech social attitudes, which can be defined - in a context of interaction - as speech dispositions towards others and aims to develop algorithms for their conversion. Fulfilling this objective requires data, i.e. a collection of audio recordings of utterances conveying various vocal attitudes. This research is thus built out of this initial step in gathering raw material - a dataset dedicated to speech social attitudes. Designing such algorithms involves a thorough understanding of what these attitudes are both in terms of production - how do individuals use their vocal apparatus to produce attitudes? - and perception - how do they decode those attitudes in speech? We therefore conducted two studies, a first uncovering the production strategies of speech attitudes and a second - based on a Best Worst Scaling (BWS) experiment - mainly hinting at biases involved in the perception such vocal attitudes, thus providing a twofold account for how speech attitudes are communicated by French individuals. These findings were the basis for the choice of speech signal representation as well as the architectural and optimisation choices for the design of a speech attitude conversion algorithm. In order to extend the knowledge on the perception of vocal attitudes gathered during this second study to the whole database, we worked on the elaboration of a BWS-Net allowing the detection of mis-communicated attitudes, and thus provided clean data for conversion learning. In order to learn how to convert vocal attitudes, we adopted a transformer-based approach in a many-to-many conversion paradigm with mel-spectrogram as speech signal representation. Since early experiments revealed a loss of intelligibility in the converted utterances, we proposed a linguistic conditioning of the conversion algorithm through incorporation of a speech-to-text module. Both objective and subjective measures have shown the resulting algorithm achieves better performance than the baseline transformer both in terms of intelligibility and attitude conveyed.

En tant qu’animaux sociaux, les humains communiquent entre eux en se transmettant divers types d’information sur le monde et sur eux-mêmes. Au cœur de ce processus, la voix permet la transmission de messages linguistiques dénotant un sens strict qui peut être décodé par l’interlocuteur. En transmettant d’autres informations telles que des attitudes ou des émotions qui connotent le sens strict, la voix enrichit et facilite le processus de communication. Au cours des dernières décennies, l’importance des technologies numériques dans nos vies n’a cessé de croître. Dans de nombreuses situations quotidiennes, nous délaissons les claviers, les souris et même les écrans tactiles au profit d’interactions avec des assistants vocaux ou même des agents virtuels qui permettent de communiquer avec les machines comme on le fait avec nos congénères. Avec l’émergence d’un monde hybride où coexistent réalités physique et virtuelle, il devient crucial de permettre aux machines de capter, d’interpréter et de reproduire les émotions et les attitudes véhiculées par la voix humaine. Cette recherche se concentre sur les attitudes sociales de la parole, qui peuvent être définies dans un contexte d’interaction comme des dispositions vocales envers les autres, et vise à développer des algorithmes pour leur conversion. Pour atteindre cet objectif, des données - c’est-à-dire une collection d’enregistrements audio d’énoncés véhiculant diverses attitudes vocales - sont nécessaires. Cette recherche est donc construite à partir de cette étape initiale de collecte d’une matière première, à savoir un jeu de données dédié aux attitudes sociales de la parole. La conception d’algorithmes de conversion des attitudes vocales implique de comprendre ce qui les définit, à la fois en termes de production - comment les individus utilisent-ils leur appareil vocal pour produire des attitudes ? - et de perception - comment décodent-ils ces attitudes dans la parole?. Nous avons donc mené deux études, une première mettant en évidence les stratégies de production des attitudes vocales et une seconde - basée sur une expérience de Best Worst Scaling (BWS) - mettant principalement en évidence les biais impliqués dans la perception de ces attitudes vocales, fournissant ainsi une double compréhension de la manière dont les attitudes vocales sont communiquées par les individus français. Ces résultats nous ont permis de motiver notre choix de représentation du signal vocal ainsi que nos choix d’architecture et d’optimisation pour la conception d’algorithmes de conversion des attitudes vocales. Afin d’étendre à l’ensemble de la base de données les connaissances sur la perception des attitudes vocales recueillies lors de cette seconde étude, nous avons travaillé à l’élaboration d’un BWS-Net permettant la détection des attitudes mal communiquées, fournissant ainsi des données propres pour l’apprentissage de la conversion. Afin d’apprendre à convertir les attitudes vocales, nous avons adopté une approche basée sur un réseau transformer dans un paradigme de conversion many-to-many utilisant le mel-spectrogramme comme représentation du signal de parole. Les premières expériences ayant révélé une perte d’intelligibilité dans les échantillons convertis, nous avons proposé un conditionnement linguistique de l’algorithme de conversion en lui incorporant un module de reconnaissance de parole. Des mesures objectives et subjectives ont montré que l’algorithme résultant obtient de meilleures performances que le transformer de référence aussi bien en termes d’intelligibilité et d’attitude véhiculée.

Neural Conversion of Social Attitudes in Speech Signals

Conversion neuronale des attitudes sociales dans les signaux de parole

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager