Multimodal estimation of movement and depth based on events for scene analysis
Estimation multimodale du mouvement et de la profondeur basée sur les évènements pour l'analyse de scène
Résumé
With their asynchrony and independence to illumination conditions, event cameras open new perception capabilities. They allow for the analysis of highly dynamic scenes with complex lighting, a situation in which traditional framebased cameras show their limits. In the context of this thesis, two low-level perception tasks were examined in particular, as they constitute the foundation of many higher level tasks required for scene analysis: (1) optical flow and (2) depth estimation. In the case of optical flow, an optimization-based approach was developed,allowing for the estimation of optical flow in real-time with a single highresolution event camera. Short temporal windows of events are converted into frame-like representations, with denoising and with a novel negated exponential densification applied. A state-of-the-art low-latency frame-based optical flow method is then used to compute the final optical flow. This heuristic approach provides accurate results, and is still to this day the only event-based optical flow method working in real-time with high-resolution event cameras. As for the depth estimation, a learning-based data-fusion method between a LiDAR and an event camera was proposed for estimating dense depth maps. For that purpose, a convolutional neural network was proposed, named ALED. It is composed of two separate asynchronous encoding branches for the LiDAR point clouds and for the events, central memory units where the asynchronous fusions are applied, and a final decoding branch. A novel notion of “two depths per event” was also proposed, with a theoretical analysis as to why this notion is fundamental given the change-based nature of events. A simulated dataset was finally proposed, containing high-resolution LiDAR and event data, as well as perfect depth maps used as ground truth. Compared to the state of the art, an error reduction of up to 61% was achieved, demonstrating the quality of the network and the benefits brought by the use of our novel dataset. An extension to this depth estimation work was also proposed, this time using an attention-based network for a better modeling of the spatial and temporal relations between the LiDAR and the event data. Initial experiments were conducted on a fully sparse network, able to directly output the two depths for each event without relying on a dense representation, but both theoretical and technical limitations were met. A subsequent rework of the method, this time on dense inputs and outputs, allowed us to overcome these limitations. The proposed network, DELTA, is both recurrent and attention-based. It is composed of two encoding branches for the LiDAR point clouds and the events, a propagation mechanism for inferring LiDAR data at a higher rate, a central memory unit where the fusion between the two modalities is applied, and a final decoding branch. Compared to ALED, DELTA is able to improve results across all metrics, and especially for short ranges (which are the most criticalfor robotic applications), where the average error is reduced up to four times.
Grâce à leurs propriétés uniques en termes d’asynchronisme et d’indépendance aux conditions de luminosités, les caméras à évènements ouvrent aujourd’hui de nouvelles portes dans le monde de la perception. Elles rendent possible l’analyse de scènes hautement dynamiques et avec un éclairage complexe, des situations pour lesquelles les caméras traditionnelles reposant sur des images montrent leurs limites. Dans le cadre de cette thèse, deux tâches de perception bas niveau ont été considérées en particulier, car constituant la fondation de nombreuses tâches de plus haut niveau requises pour l’analyse de scènes : (1) le flot optique et (2) l’estimation de profondeur. En ce qui concerne le flot optique, une approche basée optimisation a été développée, permettant l’estimation de flot optique en temps réel avec une unique caméra à évènements haute définition. Pour cela, de courtes fenêtres temporelles d’évènements sont converties vers une représentation dense basée image, après application d’une étape de débruitage, et d’une densification inversement exponentielle proposée dans le cadre de ce travail. Une méthode de flot optique de l’état de l’art basée images est ensuite appliquée afin de calculer le flot optique final avec une latence basse. Cette approche heuristique permet de fournir des résultats justes, et est à ce jour la seule méthode de flot optique basée évènements capable d’opérer en temps réel avec des caméras à évènements haute définition. Pour ce qui est de l’estimation de profondeur, une méthode basée apprentissage pour de la fusion de données a été proposée, permettant de combiner les informations provenant d’un LiDAR et d’une caméra à évènements afin d’estimer des cartes de profondeur denses. Dans le cadre de ce travail, un réseau de neurones à convolution, appelé ALED, a été proposé. Il est composé de deux branches d’encodage asynchrones pour les nuages de points LiDAR et les évènements, de mémoires centrales où la fusion asynchrone des deux types de données est réalisée, et d’une branche de décodage. En particulier, une nouvelle notion de “deux profondeurs par évènement” a également été proposée, accompagnée d’une analyse théorique sur l’importance fondamentale de cette notion à cause du fait que les évènements soient indicatifs d’un changement. Enfin, un jeu de données enregistré en simulation a également été proposé, contenant des données LiDAR et évènements haute définition, ainsi que des cartes de profondeur servant de vérité terrain. En comparaison avec l’état de l’art, une réduction jusqu’à 61% de l’erreur moyenne a pu être atteinte, démontrant la qualité de notre réseau et des bénéfices apportés par l’utilisation de notre nouveau jeu de données. Une extension de ce travail sur l’estimation de profondeur a également été proposée, utilisant cette fois-ci un réseau de neurones basé attention pour une meilleure modélisation des relations spatiales et temporelles entre les données LiDAR et évènements. Des expérimentations ont été menées dans un premier temps dans l’objectif de proposer un réseau entièrement épars, capable d’associer directement à chaque évènement ses deux profondeurs, sans avoir besoin de passer par des représentations denses. À cause de limitations à la fois théoriques et techniques, une refonte de cette méthode a été proposée, cette fois-ci sur des entrées et sorties denses, afin de pouvoir s’affranchir de ces limitations. Le réseau final proposé dans le cadre de ce travail, DELTA, combine à la fois un aspect récurrent et une approche basée attention. Il est composé de deux branches d’encodage pour les nuages de points LiDAR et les évènements, d’un mécanisme de propagation afin d’être capable d’inférer les données LiDAR a une plus haute fréquence que celle d’entrée, d’une unique mémoire centrale pour la fusion des modalités, et d’une branche de décodage. En comparaison avec ALED, DELTA améliore les résultats pour l’ensemble des métriques considérées.
Origine | Version validée par le jury (STAR) |
---|