Gaze Direction in the context of Social Human-Robot Interaction - Université Grenoble Alpes Accéder directement au contenu
Thèse Année : 2018

Gaze Direction in the context of Social Human-Robot Interaction

Étude de la direction du regard dans le cadre d’interactions sociales incluant un robot

Résumé

Robots are expected to be more and more present in our everyday environment. They are likely not only to share physical spaces with humans but also to interact with them. In this context, robots are expected to understand both verbal and non-verbal cues, some of which being ambiguous, routinely used in natural human-to-human interactions. In particular, gaze direction (where are people looking at?), and visual focus of attention or VFOA (to whom or to what are people looking at?), are very valuable sources of information to understand the social behavior of each person, as well as the inter-person interaction dynamics. To estimate the VFOAs, the robot must solve multiple tasks. (a) Find and keep people in its camera field of view. The robot needs a suitable gaze control strategy, i.e. a strategy that uses sensory information to move its camera. (b) Estimate people gaze directions. The participants are expected to frequently look either at each other or at an object of interest; therefore their eyes are not always visible. Gaze estimation based on eye image patch is unreliable. However, the correlation between eye gaze and head movements can be exploited. (c) Locate the objects of interest. When the locations of objects of interest are unknown and outside the camera field of view, the presence of such objects can only be detected by following the gaze of participants. (d) Combine these data to derive the VFOAs. In this thesis, we address the problem of simultaneously estimating the visual focus of attention of multiple people involved in a social interaction, from the point-of-view of an active humanoid robot. Along the way, we address the problem of robot gaze control, and the detection of out-of-view objects from gaze following. The proposed contributions are data-driven and are detailed as follows.First, we suppose that the locations of objects of interest are known. In this context, we model the gaze behavior with a Bayesian network, using findings from psychophysics. More precisely, we introduce a temporal model that describes the dependency between head poses, object locations, eye-gaze directions, and VFOAs. The proposed formulation is based on a switching linear dynamical system. It leads to a tractable learning procedure and to an efficient algorithm that simultaneously tracks gaze and VFOA. Second, we propose a model able to locate objects by combining people's gaze directions over time. The sequence of head poses is encoded into a heat-map representation adopting a top-view perspective. We propose several encoder/decoder convolutional neural networks that predict object locations and compare them with heuristics and simpler learning approaches. Third, We propose a novel reinforcement learning method for robotic gaze control. The model is based on a recurrent neural network architecture to learn a value function. The robot autonomously learns a strategy for moving its head (and camera) using audio and visual observations. It is able to focus on groups of people in a changing environment. Finally, all contributions have been tested on publicly available datasets. Moreover, two methods that simulate synthetic scenarios are proposed for data augmentation, and are used for training and test.
Les robots sont de plus en plus présents dans l'environnement quotidien. Il ne suffit plus de partager l'espace avec des humains, mais aussi d'interagir avec eux. Dans ce cadre, il est attendu du robot qu'il comprenne un certain nombre de signaux ambigus, verbaux et visuels, couramment utilisés pour communiquer entre humains. En particulier, la direction du regard (où les gens regardent-ils?) et la cible d'attention visuelle (qui ou quoi les gens regardent-ils?) contiennent beaucoup d'informations sur le comportement social individuel ainsi que sur la dynamique de groupe à l'oeuvre. Afin d'estimer la (ou les) cible d'attention visuelle, désignée par l'acronyme anglais VFOA pour visual focus of attention, le robot doit résoudre plusieurs tâches. (a) Trouver les gens et les garder dans le champ de vision. Le robot a besoin d'une stratégie appropriée de pilotage du regard pour orienter la caméra en fonction de ses données sensorielles. (b) Estimer la direction du regard de chacun. Les gens sont libres d'orienter la tête à leur convenance, ainsi les yeux ne sont pas toujours clairement visibles. Il n'est pas fiable de compter sur des images des yeux pour deviner l'orientation du regard. Toutefois, les mouvements de la tête et des yeux sont souvent liés, et cette corrélation peut être utilisée. (c) Repérer les objets d'intérêt. Un objet d'intérêt peut être en dehors du champ de vision de la caméra. Détecter la présence d'un tel objet peut seulement se faire en suivant les regards. (d) Combiner ces informations pour estimer les VFOAs. Dans cette thèse, nous proposons une méthode pour estimer simultanément la cible d'attention visuelle (VFOA) de plusieurs personnes engagées dans un processus d'interaction sociale, depuis le point de vue d'un robot humanoïde. De plus, deux problèmes rencontrés en chemin ont attiré notre attention: piloter le regard du robot, et suivre le regard des gens pour détecter les positions des objets en dehors du champ de vision. Les différentes contributions, décrites en détail ci-après, reposent sur l'apprentissage automatique à partir de données. Premièrement, nous supposons connues les positions des objets d'intérêt. Dans ce cadre, nous modélisons la dynamique du regard avec un réseau Bayésien, en s'inspirant d'observations psychophysiques. Plus précisément, nous introduisons un modèle temporel qui décrit, dans un groupe de plusieurs personnes, les dépendances entre les têtes, les objets, les regards et les VFOAs. Ce modèle, basé sur un système Markovien à dynamiques multiples, permet d'obtenir une méthode d'apprentissage des paramètres ainsi qu'un algorithme efficace pour estimer, en continu, la direction du regard et le VFOA. Deuxièmement, nous proposons d'estimer la position des objets d'intérêt en combinant les regards au cours du temps. La succession des mouvements de tête de chacun est encodée sous forme de carte de chaleur vue du dessus. Nous avons élaboré et entraîné plusieurs réseaux de convolution de type encodeur/décodeur pour prédire les positions qui contiennent vraisemblablement des objets d'intérêt. D'autres méthodes plus simples sont présentées pour comparaison. Troisièmement, nous présentons une méthode d'apprentissage par renforcement pour piloter le regard du robot. Un réseau de neurones récurrents est entraîné pour prédire la valeur d'action. Le robot utilise ses observations audio et visuelles pour apprendre de manière autonome une stratégie efficace pour orienter sa tête. Cela lui permet de cibler des groupes de personnes dans un environnement évolutif. Enfin, toutes les contributions sont validées sur des jeux de données disponibles publiquement. De plus, deux méthodes de simulation de scénarios synthétiques ont été développées afin d'enrichir les jeux de données. Les scénarios générés peuvent être utilisés pour l'entraînement ou la validation.
Fichier principal
Vignette du fichier
main.pdf (19.63 Mo) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

tel-01936821 , version 1 (27-11-2018)
tel-01936821 , version 2 (15-02-2019)

Identifiants

  • HAL Id : tel-01936821 , version 1

Citer

Benoit Massé. Gaze Direction in the context of Social Human-Robot Interaction. Computer Vision and Pattern Recognition [cs.CV]. Université Grenoble - Alpes, 2018. English. ⟨NNT : ⟩. ⟨tel-01936821v1⟩
520 Consultations
305 Téléchargements

Partager

Gmail Facebook X LinkedIn More