Thèse de doctorat

...

Context


Cette thèse en informatique se situe dans les domaines de la modélisation et du traitement de données spatiales et temporelles via des modèles fondés sur les graphes, et de l’analyse de données historiques. Son encadrement bénéficie de l’expertise de chercheurs en informatique et en histoire.

L'objectif général se place dans un cadre plus large issu d’un besoin de chercheurs en histoire qui souhaitent développer une procédure d'analyse des dynamiques spatiales des peuplements à partir de sources de données de différents types (e.g. plans cadastraux, photographies aériennes, documents dépourvus de plan comme des registres fiscaux). Cette procédure doit rendre possible l’analyse des dynamiques spatiales (e.g. changements dans la structure des parcellaires, figure de droite) non seulement sur les 200 à 300 dernières années, mais aussi de remonter aux derniers siècles du Moyen Age lorsque la documentation le permet. Un des verrous à cette problématique est l’aspect incomplet et sporadique des données qui complique les approches fondées sur des modèles statistiques.

Dans ce but, l’idée générale est que la transformation des différents types de données dans un modèle commun (i.e. un graphe) peut permettre à la fois d’extraire plus facilement de l’information et de pouvoir les comparer. L’intérêt est notamment de détecter des patterns spécifiques (e.g. des forêts, qui ne sont pas inscrites dans les registres car non imposées ; connexions entre parcelles particulières) et des patterns de changement. Pour ces derniers, on s’intéresse particulièrement à des changements de haut niveau (e.g. périodes de division/fusion de parcelles ; identification de zone dynamique vs. stable en termes de changement).

Des outils pour aider les historiens
Les travaux réalisés dans cette thèse sont directement liés à ceux menés dans le cadre d’une ANR (Modelespace3, porteur Florent Hautefeuille), dans laquelle a été proposé un modèle de graphe d’adjacence pour modéliser les données. Il s’avère que ce modèle atteint rapidement ses limites en termes d’expressivité permettant de caractériser les patterns spatiaux et temporels, a fortiori sur des données non géolocalisées. Il n’y a pas eu non plus d’automatisation d’extraction de patterns dans ce projet. Il s’agit donc dans cette thèse d’aller au- delà de ce modèle et de proposer les algorithmes d’extraction de patterns sur un nouveau modèle de graphe via des méthodes de modélisation et d’analyse de graphes. On se restreindra aux données parcellaires de type cadastre, géolocalisées ou non (et qui s’appuient ou non sur les supports planimétriques).

L’information spatiale dans les graphes dynamiques : une dimension à prendre en compte
Dans le cadre de ce travail, un pattern est déterminé non seulement par les contraintes proposées par les experts du domaine, mais aussi par les contraintes géographiques, ces dernières étant fournies dans une première approche par le biais de graphes d'adjacence. Un pattern spatio-temporel est une séquence de sous-graphes où chaque sous-graphe est extrait d'un graphe statique. Les relations temporelles entre les sous graphes sont rajoutées, créant ainsi un sous-graphe dynamique. Les temps associés à ce sous-graphe dynamique sont un sous-ensemble consécutif de temps disponible. Ce pattern spatio-temporel peut caractériser l'évolution particulière d'un ensemble de parcelles au cours du temps, pour permettre une étude plus approfondie par les historiens.

Une étude à plusieurs niveaux d’abstraction
Pour atteindre ces objectifs, il est potentiellement nécessaire d'utiliser une analyse multi-échelle (c'est- à-dire abstraire les détails dans différentes couches) en raison de la nature incomplète et potentiellement ambiguë des données. On peut imaginer représenter une série de partitions de l'espace liées entre elles à différents niveaux de détail, et la relier à une description qualitative du changement de granularité. L’objectif étant de structurer le modèle spatio-temporel mis en œuvre selon plusieurs niveaux de granularité afin de pouvoir les exploiter lors de l’analyse des données.

Description

Résumé des principaux objectifs de la thèse et perspectives

  1. Proposer un nouveau modèle adapté permettant de dépasser les limites du modèle basé sur le graphe d’adjacence
  2. Définir formellement les typologies des patterns spatiaux et temporels. Il y a a minima deux catégories de patterns, ceux au niveau local (une parcelle) et ceux au niveau global (groupe de parcelles).
  3. Élaborer les algorithmes de recherche de ces patterns
Ces objectifs sont dans un premier temps à réaliser en utilisant des graphes déjà spatialisés. Mais le deuxième challenge de la thèse repose sur l’usage de données non géolocalisées qui nécessitent un prétraitement pour faire correspondre (appariement) les parcelles d’un temps à un autre (figure de droite). Une technique envisagée en cas de changement localisé à petite échelle consiste à rechercher des correspondances entre des versions moins détaillées des graphes afin d'identifier les aspects inchangés (i.e. analyse multi-échelle). Dans tous les cas, les travaux menés sur les graphes spatialisés serviront de baseline pour cette extension du travail. Une attention particulière sera apportée à l’importance de la généricité des approches développées. Des données immédiatement disponibles (voir détail ci-dessous) concernent les régions du sud de la France (Odars, Toulouse). Plusieurs autres corpus sont identifiés et facilement mobilisables dans la même aire (Verfeil, Saint Jean Lherm, Vallesvilles...) ; mais nous prévoyons de tester les approches sur de plus grands jeux de données concernant d’autres régions (données opendata Etalab), dont la région Normandie.

En effet, si ce travail de thèse est focalisé sur la recherche de patterns historiques, caractériser des patterns dans d’autres domaines est possible. Dans la mesure où les caractéristiques de ces patterns se fondent sur les dimensions spatiale et temporelle des données, la transposition des méthodes proposées dans un nouveau cadre est tout à fait envisageable. Dans ces conditions, l’étude de données environnementales en lien avec des parcellaires agricoles ou la mobilité pourrait être une application à moyen terme des méthodes développées dans cette thèse.

Fiche

Fiche de poste
How to apply ?

Démarrage : septembre 2023
Contacts geraldine.del_mondo@insa-rouen.frbenoit.gauzere@insa-rouen.fr
Lieu LITISINSA Rouen
Profil attendu : Master 2 en informatique/IA, des compétences minimales en théorie des graphes sont requises
Salaire mensuel brut : 2044,12 euros