Date :
Anass EL MOUNDI soutiendra sa thèse intitulée "Estimation de profondeur avec un banc stéréoscopique de caméras événementielles pour le véhicule intelligent", Lundi 26 janvier à 14h00 dans l' Amphithéâtre D, UFR ST, site du Madrillet, Saint-Étienne-du-Rouvray
Le jury de thèse est composé de:
Samia Bouchafa-Bruneau — Université Évry – Paris-Saclay (Examinatrice)
Vincent Fremont — École Centrale de Nantes (Rapporteur)
Julien Moreau — Université de Technologie de Compiègne (Examinateur)
Désiré Sidibé — Université Évry – Paris-Saclay (Rapporteur)
Sébastien Kramm — Université de Rouen Normandie (Co-encadrant)
Fabio Morbidi — Université de Picardie Jules Verne (Co-encadrant)
Rémi Boutteau — Université de Rouen Normandie (Directeur de thèse)
Résumé:
Les caméras événementielles enregistrent des variations de luminosité asynchrones plutôt que des images à fréquence fixe. Leur latence de l’ordre de la microseconde, l’absence quasi totale de flou de mouvement et une plage dynamique supérieure à 120 dB les rendent particulièrement adaptées à la conduite autonome. Cependant, la parcimonie et la très grande précision temporelle de leurs données compliquent l’usage des pipelines de vision classiques lorsque l’on vise une profondeur dense et métriquement précise. Cette thèse étudie l’estimation de profondeur stéréoscopique à partir d’événements à travers trois contributions complémentaires couvrant la géométrie, l’apprentissage et les données.Premièrement, nous étendons la notion de Disparity Space Image (DSI) aux flux d’événements stéréoscopiques en fusionnant les événements sur de courtes fenêtres temporelles afin de produire des cartes de profondeur denses. Nous introduisons également un estimateur d’ego-mouvement auto-cohérent qui aligne des surfaces temporelles locales sur des cartes de profondeur provisoires, permettant un raffinement conjoint de la pose et de la profondeur à haute fréquence sur des séquences de conduite.Deuxièmement, nous proposons une méthode d’estimation de profondeur guidée par les données, fondée sur un module de fusion spatio-temporelle qui apprend à sélectionner les événements passés les plus informatifs et à les fusionner avec les observations courantes. Cette compensation de mouvement implicite et cette agrégation de contexte améliorent la précision tout en conservant une faible complexité de calcul.Troisièmement, nous présentons SPECTRA, un jeu de données de conduite multi-modal à grande échelle, comprenant une caméra événementielle stéréoscopique synchronisée avec des caméras RGB, un LiDAR, une IMU, ainsi que des annotations riches (masques sémantiques et d’instances, boîtes de détection 2D). Enregistré en conditions urbaines et périurbaines complexes, ce jeu de données fournit les signaux nécessaires à l’apprentissage supervisé et auto-supervisé pour diverses tâches de perception événementielle.Dans l’ensemble, ces contributions font progresser l’état de l’art de l’estimation de profondeur événementielle pour les véhicules autonomes et rapprochent la perception 3D à faible latence d’un déploiement réel.