Soutenance de thèse de Denis Coquenet le jeudi 29 septembre à 10h Amphithéâtre A (UFR Sciences et Techniques)

Date : 2022-09-29

Denis Coquenet soutiendra sa thèse le jeudi 29 Septembre à 10h à l'amphithéâtre A (UFR Sciences et Techniques), au campus du Madrillet (Saint-Etienne-du-Rouvray).

Cette thèse a été réalisée à l'Université de Rouen au sein de l'équipe Apprentissage du LITIS et s'intitule :

"Towards End-to-end Handwritten Document Recognition" ("Vers la reconnaissance de bout-en-bout de documents manuscrits").

La soutenance aura lieu devant le jury composé de :

- Christian Wolf, Maître de conférences (HDR) à l'INSA de Lyon, Rapporteur
- Mathieu Aubry, Maître de conférences (HDR) à l'École des Ponts ParisTech, Rapporteur
- Elisa Fromont, Professeure à l'Université de Rennes 1, Examinatrice
- Harold Mouchère, Professeur à l'Université de Nantes, Examinateur
- Thierry Paquet, Professeur à l'Université de Rouen, Directeur de thèse
- Clément Chatelain, Maître de conférences (HDR) à l'INSA de Rouen, Co-encadrant de thèse

Résumé

La reconnaissance de textes manuscrits a été largement étudiée au cours des dernières décennies pour ses nombreuses applications. Aujourd’hui, l’approche à l’état de l’art repose sur un processus en trois étapes. Le document est segmenté en lignes de texte, qui sont ensuite ordonnées et reconnues. Cependant, cette approche en trois étapes présente de nombreux inconvénients. Les trois étapes sont traitées indépendamment alors qu’elles sont étroitement liées. Les erreurs s’accumulent d’une étape à l’autre. L’étape d’ordonnancement est basée sur des règles heuristiques qui empêchent son utilisation pour des documents à la mise en page complexe ou pour des documents hétérogènes. L’étape de segmentation nécessite ses propres annotations supplémentaires.

Dans cette thèse, nous proposons un nouveau paradigme pour pallier ces différentes limitations ; il s'agit du premier paradigme capable de conjointement reconnaître et analyser des documents entiers, en une seule étape. Nous verrons comment l'utilisation de réseaux de neurones profonds à attention a permis d'implémenter ce nouveau paradigme basé sur un ordre de lecture appris, allant de caractères en caractères. Les résultats obtenus sont comparables à l'état de l'art en termes de taux d'erreur de reconnaissance. Dans cette thèse, nous détaillons le cheminement qui nous a permis d'atteindre ces résultats : nous avons progressivement augmenté la difficulté de la tâche de reconnaissance, en passant de lignes isolées à des paragraphes, puis à des documents entiers.