Gaze direction in the context of social human-robot interaction - Université Grenoble Alpes Accéder directement au contenu
Thèse Année : 2018

Gaze direction in the context of social human-robot interaction

Etude de la direction du regard dans le cadre d'interactions sociales incluant un robot

Résumé

Robots are more and more used in a social context. They are required notonly to share physical space with humans but also to interact with them. Inthis context, the robot is expected to understand some verbal and non-verbalambiguous cues, constantly used in a natural human interaction. In particular,knowing who or what people are looking at is a very valuable information tounderstand each individual mental state as well as the interaction dynamics. Itis called Visual Focus of Attention or VFOA. In this thesis, we are interestedin using the inputs from an active humanoid robot – participating in a socialinteraction – to estimate who is looking at whom or what.On the one hand, we want the robot to look at people, so it can extractmeaningful visual information from its video camera. We propose a novelreinforcement learning method for robotic gaze control. The model is basedon a recurrent neural network architecture. The robot autonomously learns astrategy for moving its head (and camera) using audio-visual inputs. It is ableto focus on groups of people in a changing environment.On the other hand, information from the video camera images are used toinfer the VFOAs of people along time. We estimate the 3D head poses (lo-cation and orientation) for each face, as it is highly correlated with the gazedirection. We use it in two tasks. First, we note that objects may be lookedat while not being visible from the robot point of view. Under the assump-tion that objects of interest are being looked at, we propose to estimate theirlocations relying solely on the gaze direction of visible people. We formulatean ad hoc spatial representation based on probability heat-maps. We designseveral convolutional neural network models and train them to perform a re-gression from the space of head poses to the space of object locations. Thisprovide a set of object locations from a sequence of head poses. Second, wesuppose that the location of objects of interest are known. In this context, weintroduce a Bayesian probabilistic model, inspired from psychophysics, thatdescribes the dependency between head poses, object locations, eye-gaze di-rections, and VFOAs, along time. The formulation is based on a switchingstate-space Markov model. A specific filtering procedure is detailed to inferthe VFOAs, as well as an adapted training algorithm.The proposed contributions use data-driven approaches, and are addressedwithin the context of machine learning. All methods have been tested on pub-licly available datasets. Some training procedures additionally require to sim-ulate synthetic scenarios; the generation process is then explicitly detailed.
Les robots sont de plus en plus utilisés dans un cadre social. Il ne suffit plusde partager l’espace avec des humains, mais aussi d’interagir avec eux. Dansce cadre, il est attendu du robot qu’il comprenne un certain nombre de signauxambiguës, verbaux et visuels, nécessaires à une interaction humaine. En particulier, on peut extraire beaucoup d’information, à la fois sur l’état d’esprit despersonnes et sur la dynamique de groupe à l’œuvre, en connaissant qui ou quoichaque personne regarde. On parle de la Cible d’attention visuelle, désignéepar l’acronyme anglais VFOA. Dans cette thèse, nous nous intéressons auxdonnées perçues par un robot humanoı̈de qui participe activement à une in-teraction sociale, et à leur utilisation pour deviner ce que chaque personneregarde.D’une part, le robot doit “regarder les gens”, à savoir orienter sa tête(et donc la caméra) pour obtenir des images des personnes présentes. Nousprésentons une méthode originale d’apprentissage par renforcement pourcontrôler la direction du regard d’un robot. Cette méthode utilise des réseauxde neurones récurrents. Le robot s’entraı̂ne en autonomie à déplacer sa tête enfonction des données visuelles et auditives. Il atteint une stratégie efficace, quilui permet de cibler des groupes de personnes dans un environnement évolutif.D’autre part, les images du robot peuvent être utilisée pour estimer lesVFOAs au cours du temps. Pour chaque visage visible, nous calculons laposture 3D de la tête (position et orientation dans l’espace) car très fortementcorrélée avec la direction du regard. Nous l’utilisons dans deux applications.Premièrement, nous remarquons que les gens peuvent regarder des objets quine sont pas visible depuis le point de vue du robot. Sous l’hypothèse quelesdits objets soient regardés au moins une partie du temps, nous souhaitonsestimer leurs positions exclusivement à partir de la direction du regard despersonnes visibles. Nous utilisons une représentation sous forme de carte dechaleur. Nous avons élaboré et entraı̂né plusieurs réseaux de convolutions afinde d’estimer la régression entre une séquence de postures des têtes, et les posi-tions des objets. Dans un second temps, les positions des objets d’intérêt, pou-vant être ciblés, sont supposées connues. Nous présentons alors un modèleprobabiliste, suggéré par des résultats en psychophysique, afin de modéliserla relation entre les postures des têtes, les positions des objets, la directiondu regard et les VFOAs. La formulation utilise un modèle markovien à dy-namiques multiples. En appliquant une approches bayésienne, nous obtenonsun algorithme pour calculer les VFOAs au fur et à mesure, et une méthodepour estimer les paramètres du modèle.Nos contributions reposent sur la possibilité d’utiliser des données, afind’exploiter des approches d’apprentissage automatique. Toutes nos méthodessont validées sur des jeu de données disponibles publiquement. De plus, lagénération de scénarios synthétiques permet d’agrandir à volonté la quantitéde données disponibles; les méthodes pour simuler ces données sont explicite-ment détaillée.
Fichier principal
Vignette du fichier
MASSE_2018_archivage.pdf (19.72 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)
Loading...

Dates et versions

tel-01936821 , version 1 (27-11-2018)
tel-01936821 , version 2 (15-02-2019)

Identifiants

  • HAL Id : tel-01936821 , version 2

Citer

Benoît Massé. Gaze direction in the context of social human-robot interaction. Artificial Intelligence [cs.AI]. Université Grenoble Alpes, 2018. English. ⟨NNT : 2018GREAM055⟩. ⟨tel-01936821v2⟩
517 Consultations
303 Téléchargements

Partager

Gmail Facebook X LinkedIn More