Influence du son lors de l’exploration de scènes naturelles dynamiques : prise en compte de l’information sonore dans un modèle d’attention visuelle - Thèses du Laboratoire Grenoble Images Parole Signal Automatique Accéder directement au contenu
Thèse Année : 2014

Influence of sound on visual exploration of dynamic natural scenes : integration of auditory information in a visual attention model

Influence du son lors de l’exploration de scènes naturelles dynamiques : prise en compte de l’information sonore dans un modèle d’attention visuelle

Antoine Coutrot

Résumé

We study the influence of different audiovisual features on the visualexploration of dynamic natural scenes. We show that, whilst the way a person explores a scene primarily relies on its visual content, sound sometimes significantly influences eye movements. Sound assures a better coherence between the eye positions of different observers, attracting their attention and thus their gaze toward the same regions. The effect of sound is particularly strong in conversation scenes, where the related speech signal boosts the number of fixations on speakers' faces, and thus increases the consistency between scanpaths. We propose an audiovisual saliency model able to automatically locate speakers' faces so as to enhance their saliency. These results are based on the eye movements of 148 participants recorded on more than 75,400 frames (125 videos) in 5 different experimental conditions.
Nous étudions l'influence de différents attributs audiovisuels sur l'exploration visuelle de scènes naturelles dynamiques. Nous démontrons que si la façon dont nous explorons une scène dépend avant tout de son contenu visuel, dans certaines situations le son influence significativement les mouvements oculaires. La présence de son assure une meilleure cohérence entre les positions oculaires de différents observateurs, attirant leur attention et donc leur regard vers les mêmes régions. L'effet du son se retrouve tout particulièrement dans les scènes de conversation, où la présence du signal de parole associé augmente le nombre de fixations sur le visage des locuteurs, et donc la cohérence entre les scanpaths. Nous proposons un modèle de saillance audiovisuelle repérant automatiquement le visage des locuteurs afin d'en rehausser la saillance. Ces résultats s'appuient sur les mouvements oculaires de 148 participants enregistrés sur un total de plus de 75 400 frames (125 vidéos) dans 5 conditions expérimentales différentes.
Fichier principal
Vignette du fichier
COUTROT_2014_archivage.pdf (18.39 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)
Loading...

Dates et versions

tel-01113073 , version 1 (04-02-2015)
tel-01113073 , version 2 (18-05-2016)

Identifiants

  • HAL Id : tel-01113073 , version 2

Citer

Antoine Coutrot. Influence du son lors de l’exploration de scènes naturelles dynamiques : prise en compte de l’information sonore dans un modèle d’attention visuelle. Traitement du signal et de l'image [eess.SP]. Université de Grenoble, 2014. Français. ⟨NNT : 2014GRENT119⟩. ⟨tel-01113073v2⟩
425 Consultations
541 Téléchargements

Partager

Gmail Facebook X LinkedIn More