PhD: Optimizing decision policy learning for a team of social robots

Context

L'apprentissage par renforcement (RL) est une technique d'apprentissage non supervisé dans laquelle un agent apprend une politique d'action par essais et erreurs, en obtenant une récompense de l'environnement pour les actions entreprises. Le domaine du problème, c'est-à-dire l'espace d'entrée, est souvent modélisé à l'aide d'un ensemble fini d'états, et l'objectif de l’agent est, à chaque étape, de choisir l'action qui maximise la récompense à long terme pour un état donné. Pour modéliser un problème à l’aide d’un processus RL, la discrétisation de l'espace des états, des actions et des récompenses doit être spécifiée. La méthode la plus courante est de discrétiser manuellement l'espace des états et des actions, en utilisant des connaissances expertes du domaine. Cela n'est cependant pas facilement réalisable dans des situations où l’espace d’états et l’espace d’actions doivent être dérivés automatiquement à partir des entrées/sorties du système (perception et contrôle bruts), ou quand ils doivent s’adapter au fur et à mesure des interactions entre l’agent et son environnement, potentiellement composé d’autres agents.
Les états représentent alors une vision imparfaite/floue de l'état du système, biaisée par une connaissance incomplète ou imparfaite de la réalité (POM) ; cette représentation peut elle-même être distribuée sur plusieurs entités, par exemple lors de l'exploration d'un espace inconnu par une flotte d'agents. Lorsque la politique de prise de décision repose sur un mécanisme par renforcement (POM-DP), la difficulté majeure demeure la taille de l'espace à explorer.

Description

L'objectif principal de cette thèse est d'optimiser l'apprentissage de la politique de prise de décision en diminuant l'espace d'exploration et en répartissant cette exploration auprès des différents agents.
La première des pistes envisagées est d'utiliser des algorithmes d'apprentissage non supervisé afin de (S1) diminuer l'espace d'exploration par regroupement d'états représentant des contextes similaires (axe 1 : stratégie guidée par simplification de l'espace des états). La littérature propose principalement des approches basées sur fonctions d’approximation pour adapter l’espace des états en RL (Samejima 1999), mais la génération de ces fonctions rend l’abstraction peu interprétable pour les systèmes qui les utilisent. Une autre solution est d’utiliser des algorithmes d’apprentissage non-supervisés (type clustering) afin de générer dynamiquement de nouvelles partitions de la perception des agents (Viera 2013, Guériau 2019). La problématique qui reste à explorer est d’améliorer la partie génération tout en permettant à ce type de représentation plus abstraite d’être transférable entre différents agents, cela afin de faciliter l’apprentissage dans des contextes similaires explorés en parallèle par plusieurs systèmes.
La seconde piste consiste en la (S2) génération de plans de plus haut niveau, soit en exploitant une hiérarchie d'actions, soit en identifiant des sous-séquences similaires (axe 2 : stratégie guidée par simplification de l'espace des actions). La littérature recense plusieurs types d’approches qui pourraient être utilisées ici, sous le champ de recherche de l’ « apprentissage hiérarchique » (Barto 2003). Parmi les plus pertinentes, on retrouve l’agrégation d’actions sous la forme d’options (Sutton 1999) ou encore de compétences (Thrun 1994). Dans ce travail de thèse, nous souhaitons proposer des méthodes d’apprentissage (ou de génération) de ces abstractions tout en permettant le partage de ces représentations entre différents agents, dans la veine des travaux connexes sur les techniques (Konidaris 2007) et la partie applicative (Saleh 2020).
Ces deux stratégies de réduction de l'espace d'exploration (S1 et S2), associées à une répartition intelligente entre différents agents (type apprentissage par transfert (Taylor 2019)), devraient permettre d’accélérer leur processus d’apprentissage et de limiter et/ou mitiger la problématique du « curse of dimensionality » (Barto 2003) qui anime la communauté RL depuis plusieurs années.
D’un point de vue applicatif, il s'agira d'exploiter cette approche théorique et de la valider lorsque plusieurs robots sociaux en interaction avec des utilisateurs doivent apprendre à réaliser de la meilleure manière possible une tâche collective d'assistance (par exemple, dans le cadre de la Robocup@Home, prendre des commandes de cocktails auprès d'utilisateurs, préparer ces cocktails et les servir; et afin de démontrer la généralisation de ce type d’approche à d’autres contextes : l’exploration collaborative par des robots mobiles). Du point de vue de l'acceptabilité, la formalisation de la politique de prise de décision par des plans (abstraits ou non) permettrait de faciliter l'explicabilité des prises de décision (politique) auprès des utilisateurs, ce qui a été identifié comme une piste essentielle pour les approches à base de RL (Milani 2023, Zelvelder 2021).
Contributions attendues et valorisation
Les prototypes développés : d’abord en simulation, puis en reprenant des briques existantes sur les robots sociaux et/ou mobiles ; serviront à la fois de démonstrateurs (journées portes ouverte, fête de la science, accueil d’industriels ...), mais permettront aussi la poursuite d’autres travaux de recherche. Par exemple, une perspective évidente serait la transposition des modèles développés dans cette thèse sur une flotte de robots mobiles modélisant des configurations/problématiques rencontrées par le véhicule autonome, où une collaboration entre les véhicules via l’élaboration de plans/politiques explicables, simplifiées et/ou plus abstraites pourrait faciliter la prise de décision dans des contextes particuliers (ex : scénarios limites qui mettent en défaut la perception).
Références
(Arnold 2021) Arnold, T., Kasenberg, D., Scheutz, M. (2021). Explaining in time: Meeting interactive standards of explanation for robotic systems. ACM Transactions on Human-Robot Interaction (THRI), 10(3), pp.1-23.
(Barto 2003) Barto, A. G., & Mahadevan, S. (2003). Recent advances in hierarchical reinforcement learning.
Discrete event dynamic systems, 13(1-2), 41-77.
(Guériau 2019) Guériau, M., Cardozo, N., & Dusparic, I. (2019). Constructivist approach to state space adapta-
tion in reinforcement learning. In 2019 IEEE 13th International Conference on Self-Adaptive and Self-
Organizing Systems (SASO) (pp. 52-61). IEEE.
(Malik 2021) Malik U, Barange M, Saunier J, Pauchet A: A novel focus encoding scheme for addressee detec-
tion in multiparty interaction using machine learning algorithms. J. Multimodal User Interfaces 15(2): 1-14
(2021).
(Milani 2023) Milani, S., Topin, N., Veloso, M., & Fang, F. (2023). Explainable reinforcement learning: A survey
and comparative review. ACM Computing Surveys.
(Konidaris 2007) Konidaris, G. D., & Barto, A. G. (2007, January). Building Portable Options: Skill Transfer in
Reinforcement Learning. IJCAI (Vol. 7, pp. 895-900).
(Orr 2023) Orr, J., Ayan D. (2023). Multi-agent deep reinforcement learning for multi-robot applications: A
survey. Sensors (vol 23.7, pp. 3625).
(Rasendrasoa 2022) Rasendrasoa S, Pauchet A, Saunier J, Adam S: Real-Time Multimodal Emotion Recogni- tion in Conversation for Multi-Party Interactions. ICMI 2022: 395-403.
(Saleh 2020) Saleh, A., Jaques, N., Ghandeharioun, A., Shen, J., & Picard, R. (2020). Hierarchical reinforcement learning for open-domain dialog. In Proceedings of the AAAI conference on artificial intelligence (Vol. 34, No. 05, pp. 8741-8748).
(Samejima 1999) Samejima, K., & Omori, T. (1999). Adaptive internal state space construction method for reinforcement learning of a real-world agent. Neural Networks, 12(7-8), 1143-1155.
(Sutton 1999) Sutton, R. S., Precup, D., & Singh, S. (1999). Between MDPs and semi-MDPs: A framework for temporal abstraction in reinforcement learning. Artificial intelligence, 112(1-2), 181-211.
(Taylor 2009) Taylor, M. E., & Stone, P. (2009). Transfer learning for reinforcement learning domains: A sur- vey. Journal of Machine Learning Research, 10(7).
(Taylor 2019) Taylor, A., Dusparic, I., Guériau, M., & Clarke, S. (2019, July). Parallel transfer learning in multi- agent systems: What, when and how to transfer?. In 2019 International Joint Conference on Neural Networks (IJCNN) IEEE.
(Thrun 1994) Thrun, S., & Schwartz, A. (1994). Finding structure in reinforcement learning. Advances in neu- ral information processing systems, 7.
(Viera 2013) Vieira, D. C. D. L., Adeodato, P. J. L., & Goncalves, P. M. (2013). A temporal difference gng-based approach for the state space quantization in reinforcement learning environments. In 2013 IEEE 25th Inter- national Conference on Tools with Artificial Intelligence (pp. 561-568). IEEE.
(Zelvelder 2021) Zelvelder, A. E., Westberg, M., & Främling, K. (2021). Assessing explainability in reinforce- ment learning. In International Workshop on Explainable, Transparent Autonomous Agents and Multi-Agent Systems (pp. 223-240). Springer International Publishing.

Fiche

Fiche de poste
How to apply ?

  1. Mots-clefs
    Abstraction de représentation, apprentissage par renforcement, apprentissage explicable, apprentissage hiérarchique, robotique sociale
    Profil recherché
    Master en informatique (ou en robotique), avec une spécialisation ou un intérêt pour les techniques basées sur l'IA distribuée et/ou l'apprentissage par renforcement ;
    Solides compétences en communication écrite et orale en anglais et/ou en français.
    Des connaissances et/ou une expérience dans les domaines suivants seraient grandement appréciées :
    Systèmes multi-agents ;
    Techniques d’apprentissage (par renforcement, profond ou non) ;
    Environnements robotiques.
    Encadrement
    Alexandre Pauchet (Maître de conférences, HDR) et Maxime Guériau (Maître de conférences) à l’INSA de Rouen Normandie, membres des équipes Multi-Agent, Interaction, Décision (MIND) et Systèmes de Transport Intelligents (STI) au LITIS (Laboratoire d'Informatique, de Traitement de l'Information et des Systèmes).
  2. Les candidatures doivent comprendre :
    1. • un CV complet et à jour, avec une liste des publications éventuelles ;
      • une lettre de motivation ;
      • les informations de contact de 1-2 personnes références, si disponible ; • un relevé de notes du Master ;
      et être envoyées par email avec l’objet « candidature thèse Appodéroso » à :
      alexandre.pauchet@insa-rouen.fr, maxime.gueriau@insa-rouen.fr,
    1. au plus tard le vendredi 24 mai 2024