Structured modeling and recognition of human actions in video

Guilhem Chéron 1, 2
1 WILLOW - Models of visual object recognition and scene understanding
DI-ENS - Département d'informatique de l'École normale supérieure, Inria de Paris
2 Thoth - Apprentissage de modèles à partir de données massives
Inria Grenoble - Rhône-Alpes, LJK - Laboratoire Jean Kuntzmann
Résumé : La compréhension automatique de vidéos devrait impacter notre vie de tous les jours dans de nombreux domaines comme la conduite autonome, les robots domestiques, la recherche et le filtrage de contenu, les jeux vidéo, la défense ou la sécurité. Le nombre de vidéos croît plus vite chaque année, notamment sur les plateformes telles que YouTube, Twitter ou Facebook. L’analyse automatique de ces données est indispensable pour permettre à de nouvelles applications de voir le jour. L’analyse vidéo, en particulier en environnement non contrôlé, se heurte à plusieurs problèmes comme la variabilité intra-classe (les échantillons d’un même concept paraissent très différents) ou la confusion inter-classe (les exemples provenant de deux activités distinctes se ressemblent). Bien que ces difficultés puissent être traitées via des algorithmes d’apprentissage supervisé, les méthodes pleinement supervisées sont souvent synonymes d’un coût d’annotation élevé. Dépendant à la fois de la tâche à effectuer et du niveau de supervision requis, la quantité d’annotations nécessaire peut être prohibitive. Dans le cas de la localisation d’actions, une approche pleinement supervisée nécessite les boîtes englobantes de l’acteur à chaque image où l’action est effectuée. Le coût associé à l’obtention d’un telle annotation empêche le passage à l’échelle et limite le nombre d’échantillons d’entraînement. Trouver un consensus entre les annotateurs est également difficile et mène à des ambiguïtés dans l’étiquetage (Où commence l’action ? Quand se termine-t-elle ? Que doit inclure la boîte englobante ? etc.). Cette thèse adresse les problèmes évoqués ci-dessus dans le contexte de deux tâches, la classification et la localisation d’actions humaines. La classification consiste à reconnaître l’activité effectuée dans une courte vidéo limitée à la durée de l’action. La localisation a pour but de détecter en temps et dans l’espace des activités effectuées dans de plus longues vidéos. Notre approche pour la classification d’actions tire parti de l’information contenue dans la posture humaine et l’intègre avec des descripteurs d’apparence et de mouvement afin d’améliorer les performances. Notre approche pour la localisation d’actions modélise l’évolution temporelle des actions à l’aide d’un réseau récurrent entraîné à partir de suivis de personnes. Enfin, la troisième méthode étudiée dans cette thèse a pour but de contourner le coût prohibitif des annotations de vidéos et utilise le regroupement discriminatoire pour analyser et combiner différents types de supervision.
Type de document :
Thèse
Computer Vision and Pattern Recognition [cs.CV]. Ecole normale supérieure - ENS PARIS, 2018. English
Liste complète des métadonnées

https://hal.inria.fr/tel-01975247
Contributeur : Guilhem Chéron <>
Soumis le : mercredi 9 janvier 2019 - 12:02:06
Dernière modification le : mardi 29 janvier 2019 - 15:05:42

Fichier

thesis_guilhem_cheron.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : tel-01975247, version 1

Collections

Citation

Guilhem Chéron. Structured modeling and recognition of human actions in video. Computer Vision and Pattern Recognition [cs.CV]. Ecole normale supérieure - ENS PARIS, 2018. English. 〈tel-01975247〉

Partager

Métriques

Consultations de la notice

274

Téléchargements de fichiers

210