Soutenance de thèse de Yujin YAN, le 21 juin 2024 à 10h30 - Amphi DU BRJ 02 INSA Rouen Normandie

Date : 2024-06-21

Yujin YAN soutiendra sa thèse vendredi 21 juin à 10h30 dans l'amphithéâtre DU B RJ 02 (Marie Curie) du bâtiment Dumont-d'Urville de l'INSA Rouen Normandie.

Cette thèse, réalisée aux laboratoires LITIS et LMI de l'INSA Rouen s'intitule :

“Analyse de données mobiles : alignement robuste et méthodes de clustering flexibles”

La soutenance aura lieu devant le jury composé de :

M. Zacharie ALES, Associate Professor - HDR, ENSTA

M. Cédric Du MOUZA, Professeur des universités, conservatoire national des arts et métiers, Rapporteur

M. François-Xavier JOLOIS, Maître de conférences, Université Paris Cité

M. Arnaud KNIPPEL, Maître de conférences, INSA de Rouen, Co-encadrant de thèse

Mme Marie-Jeanne LESOT, Professeur des universités, Sorbonne Université

M. Michel MAINGUENAUD, Professeur des universités, INSA de Rouen

M. Viet Hung NGUYEN, Directeur de recherche, Université Clermont Auvergne, Rapporteur

M. Alexandre PAUCHET, Maître de conférences HDR, INSA de Rouen, Directeur de thèse

Résumé

La popularité des appareils mobiles dans la vie moderne a révolutionné la communication, la navigation et les activités quotidiennes. Les appareils mobiles génèrent une grande quantité de données, y compris un large éventail de comportements des utilisateurs, allant du suivi de la localisation aux modèles de communication et aux données des capteurs. Ces données à multiples facettes ne saisissent pas seulement les interactions entre les individus et leurs appareils, mais révèlent également les tendances et les préférences sociales. Reconnaissant l'importance des données mobiles, nos recherches sont consacrées à l'exploration et à l'exploitation des comportements quotidiens des utilisateurs enregistrés par les appareils mobiles.

Dans un premier temps, nous nous concentrons sur l'analyse des données de trajectoire, un composant des données mobiles qui est généralement représenté sous la forme d'une séquence spatio-temporelle. En utilisant les informations sémantiques intégrées dans les points de trajectoire, nous pouvons obtenir des informations sur les comportements et les activités des utilisateurs. Cependant, l'intégration des dimensions spatiales et temporelles augmente la complexité de l'analyse. Nous proposons une architecture de regroupement de trajectoires basée sur la sémantique pour analyser les données de trajectoires, qui comprend le prétraitement des données, l'exploration de la similarité et les méthodes de regroupement. En outre, nous introduisons un modèle d'exploration des similitudes fondé sur la programmation dynamique pour quantifier la similitude entre les trajectoires, améliorant ainsi notre compréhension des données mobiles. Une analyse expérimentale complète est menée sur un ensemble de données réelles afin de comparer notre modèle avec des méthodes de référence. Les résultats de la comparaison montrent la capacité de notre algorithme à examiner efficacement les associations au sein des données de trajectoire. Pour améliorer le contrôle expérimental, nous proposons un modèle de génération de données simulant des scénarios de la vie quotidienne en générant des données aléatoires fondées sur des données d'utilisateurs réels. Grâce à des comparaisons quantitatives entre l'architecture proposée et d'autres approches, notre algorithme démontre des performances acceptables.

En passant des données de trajectoire aux données mobiles multivariées, nous sommes confrontés au défi d'utiliser efficacement divers types de capteurs pour extraire des informations subtiles sur le comportement de l'utilisateur. En introduisant l'algorithme d'alignement de séquences multivariées unidimensionnelles (1D MSA) et l'algorithme d'alignement de séquences multivariées bidimensionnelles (2D MSA), nous facilitons une analyse complète des données mobiles multivariées. Alors que l'algorithme 1D MSA privilégie l'efficacité de calcul, l'algorithme 2D MSA 2D excelle dans l'extraction de similitudes subtiles entre les séquences, ce qui permet une analyse plus détaillée. Parallèlement, nous utilisons différentes méthodes de regroupement pour analyser les sous-séquences similaires obtenues par les deux algorithmes et nous avons obtenu des résultats de regroupement similaires, voire identiques. En outre, les états de l'utilisateur représentés par chaque catégorie dans les résultats du regroupement sont très faciles à interpréter. Cela indique que nos algorithmes peuvent obtenir des résultats stables et cohérents sur des problèmes réels. En outre, nous comparons les sous-séquences similaires obtenues par l'algorithme 2D MSA et les méthodes de référence. Les résultats montrent que l'algorithme 2D MSA que nous proposons est plus performant lorsqu'il s'agit de capturer des similarités subtiles à partir des données. Cette performance robuste fait de l'algorithme 2D MSA un outil puissant pour extraire des sous-séquences significatives dans des données mobiles multivariées, contribuant ainsi à une meilleure interprétation des données et à des applications pratiques.