Unsupervised domain adaptive multiple person tracking and visual identification for human-robot interaction

Guillaume Delorme

Résumé

Human robot interaction requires the robot to have an accurate knowledge ofits environment, especially who is present, and where, to enable an interactiveconversation. In this context, this thesis proposes to exploit image informa-tion recorded by the embedded camera to perform Multiple Object Tracking(MOT), leveraging localization and identification by exploiting temporal andspatial proximity to produce ID-exploitable trajectories. State-of-the-art meth-ods rely on deep learning approaches, which are known to heavily depend onthe training data, and suffer from poor generalization ability. More specifi-cally, most of MOT implementations embed a person re-identification modelto use as appearance cue, while those are widely known to be sensitive tobackground changes and illumination conditions. Consequently, this work fo-cuses on investigating adaptation strategies to new domains for MOT and re-ID models. A probabilistic generative model is first proposed to derive a MOTimplementation which, combined with a deep appearance model updated withpast track annotations, is able to adapt to the target domain on the fly, andis suitable for robotic application. It is quantitatively evaluated on a stan-dard MOT dataset while a robotic implementation provides qualitative results.Then, inspired by the domain adaptation literature, a camera-wise adversarialstrategy is proposed to address unsupervised person re-ID, and demonstratescompetitive performance compared to state-of-the-art re-ID models. It is thenfurther investigated in the novel framework of clustering and finetuning. Aconditional adversarial approach is proposed to address the negative transferproblem caused by the non-uniform distribution of IDs across cameras. Thisstrategy is implemented on two state-of-the-art unsupervised re-ID models,and shown to outperform them, thus yielding state-of-the-art performance. Fi-nally, the adversarial domain adaptation framework is further investigated inthe context of MOT. The interest for unsupervised domain adaptation MOT isdemonstrated, and combined with a tracking and finetuning strategy, an adver-sarial training scheme is derived and shown to outperform simpler adaptationstrategies.

L’interaction homme-robot nécessite que ce dernier ait une connaissance précise de son environnement, tout particulièrement qui est présent et où, afin de permettre une conversation réaliste et interactive. À cette fin, cette thèse propose d’exploiter l’information contenue dans les images récoltées par la caméra du robot afin de réaliser du suivi multi-partie, utilisant la proximité temporelle et spatiale afin de produire des trajectoires exploitable à des fins d’identification. L’état de l’art est basé sur des approches d’apprentissage pro-fond, qui sont connus pour dépendre grandement des données utilisées lors de l'entraı̂nement et, ont donc une mauvaise capacité de généralisation à de nouveaux domaines. Une grande partie des modèles de suivis utilisent notamment des modèles de ré-identification de personnes comme descripteur d’apparence, alors que ceux-ci sont connu comme étant très sensible aux changements d’arrière plan, ou de conditions d’illumination. Ce travail se concentre donc sur l’investigation des stratégies d’adaptation à de nouveaux domaines pour les modèles de suivis et de ré-identification de personnes. Un modèle probabiliste est d’abord proposé pour implémenter un algorithme de suivi multi-partie qui, combiné avec un modèle d’apparence profond mis à jour en utilisant les annotations des trajectoires passées, est capable de s’adapter au domaine cible en temps réel, ceci dans un contexte robotique. Cette stratégie est quantitativement évaluée sur un datas et standard de suivi multi-partie, et une implémentation sur une plateforme robotique fournit des résultats qualitatifs. Ensuite, inspiré de la littérature de l’adaptation aux nouveaux domaines, une stratégie d’entraı̂nement adversaire basée sur l’information de caméra est proposée dans le cadre de la ré-identification de personne non supervisée. Cette approche démontre une performance compétitive comparé à l’état de l’art en ré-identification. Cette approche est davantage explorée à travers la nouvelle stratégie de partitionnement et d’entraı̂nement. Une variante conditionnelle est explorée pour atténuer le problème de transfert négatif, causé par la répartition non uniforme des identités d’entraı̂nement sur les caméras. Cette idée est implémentée sur deux modèles de l’état de l’art, et permet de les améliorer. Enfin, le cadre de l’adaptation de domaine adversaire est explorée dans le contexte du suivi multi-partie, et combiné avec une stratégie de suivi et d’entraı̂nement, un algorithme d’apprentissage est proposé, et sa supériorité vis à vis des stratégies d’adaptation concurrentes est démontrée.

Unsupervised domain adaptive multiple person tracking and visual identification for human-robot interaction

Adaptation de domaine non supervisée pour modèle de suivi multi-partie et identification visuelle appliquée à l'interaction homme-robot

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager