ISCApad #275 |
Thursday, May 13, 2021 by Chris Wellekens |
**** If you don't read French and are interested in a PhD position in AI/NLP please Les réponses doivent nous parvenir de préférence **avant le 10 mai**. PROPOSITION SUJETS DE THESES CONTRATS DOCTORAUX 2021-2024 Appel cible (merci de cocher la case correspondante): X Contrat doctoral ministeriel ED 536 □ Contrat doctoral ministeriel ED 537 ------------------------------------------------------------------------------------------------------------------------ Directeur de these : Fabrice LEFEVRE Co-directeur eventuel : Co-encadrant eventuel : Bassam JABAIAN Titre en francais : Transformer et renforcer pour le transfert et l’apprentissage en ligne des agents conversationnels vocaux Titre en anglais : Transformer and Reinforce for transfer and online learning of vocal conversational agents Mots-cles : IA, natural language processing , human-machine vocal interactions, deep learning, deep reinforcement learning, transfer learning Co tutelle : XXX - Non Pays : Opportunites de mobilite a l’international du doctorant dans le cadre de sa these : oui Profil du candidat : Le candidat doit avoir un master en informatique avec une composante sur les méthodes d'apprentissage automatique et/ou sur l’ingénierie de la langue. La bourse de thèse fera l’objet d’un concours au sein de l’Ecole Doctorale 536 de l’université d’Avignon, avec une audition du candidat retenu par les encadrants de thèse. Pour postuler merci d’envoyer un mail avant le 10 mai 2021 à Fabrice Lefèvre (fabrice.lefevre@univ-avignon.fr) et Bassam Jabaian (bassam.jabaian@univ-avignon.fr) incluant : votre CV, une lettre de motivation avec votre positionnement sur les propositions d’études ci-dessous, d’éventuelles lettres de recommandation et vos relevés de notes. Presentation detaillee du sujet : Domaine / Thematique : IA/NLP Objectif : Permettre le transfert et l'apprentissage en ligne des agents conversationnels vocaux avec une combinaison Transformers/Renforcement Contexte et enjeux : Parmi les activités de recherche en intelligence artificielle, améliorer l'interaction vocale avec les machines reste un défi majeur d’actualité. Le LIA traite de multiples aspects liés à l’interaction vocale mais cherche à travers cette thèse à approfondir en particulier la recherche sur les techniques d’apprentissage des agents conversationnels vocaux à base de réseaux de neurones profonds supervisés et renforcés. De tels agents dialoguant sont un enjeu primordial afin d’améliorer les capacités de nos sociétés à gérer une distanciation sociale contrôlée, notamment par la délégation de certaines tâches risquées à des artefacts matériels efficients, et bien acceptés par le grand public. Les récentes évolutions en réseaux de neurones ont permis d’élaborer des systèmes de génération de texte (ou modèles de langage) de grande qualité. Ils sont pour cela appris sur des quantités gigantesques de documents, mais permettent en contrepartie une couverture très large du langage humain. Les représentants les plus avancés dans ce domaine sont les Transformers, qui permettent d’éliminer le recours à la récurrence dans les réseaux (couteux en calcul) en privilégiant un mécanisme d’attention démultipliée (multi-head self-attention). De nombreux dérivés de ces modèles existent et ont permis des gains conséquents en performance sur de nombreuses tâches impliquant la génération de texte en langage naturel. Ainsi BERT [1] et GPT forment les grandes familles (et leurs multiples descendants distilBERT, alBERT, GPT-2…). Mais si de tels modèles permettent de porter à un plus haut niveau de performance nos capacités de modélisation du langage, il reste encore à savoir les mettre en oeuvre pour des tâches plus spécifiques ou exigeantes, comme les systèmes d’interaction orale. Ainsi le problème de leur application au cas des agents conversationnels reste ouvert car à la fois l’interaction directe avec les humains accentue l’impact des erreurs et imperfections des modèles et d’autre part la gestion des interactions se fait dans un contexte finalisé, où l’objectif n’est pas le simple échange de données langagières mais la réussite d’un objectif latent (obtenir une information précise, réaliser ou faire réaliser une action…). Aussi le challenge principal que nous souhaitons porter dans la thèse est de permettre une adaptation sur une tache particuliere des capacites d’un Transformer pre-entraine, notamment pour l’elaboration d’un agent conversationnel. Des approches par transfert d’apprentissage ont déjà été initiées mais leurs résultats sont contrastés et doivent être renforcés [2]. Nous identifions deux axes majeurs pour la thèse : Axe 1/ Transfert et apprentissage en ligne / Tout d’abord les approches de transfert reposent toujours sur le recours à de nouvelles données pré-collectées auxquelles sont confrontés les modèles [2]. Ainsi, dans la continuité de nos précédents travaux sur l’apprentissage en ligne des systèmes de dialogue, nous souhaiterions élaborer et évaluer des strategies efficaces pour permettre le recours a des apprentissages par renforcement [3, 4]. Pour rendre les systèmes artificiels capables d'apprendre à partir des données, deux hypothèses fortes sont généralement faites : (1) la stationnarité du système (l'environnement de la machine ne change pas avec le temps), (2) l'interdépendance entre la collecte des données et le processus d'apprentissage (l'utilisateur ne modifie pas son comportement dans le temps). Or les utilisateurs ont une tendance naturelle à adapter leur comportement en fonction des réactions de la machine, ce qui gêne la convergence de l'apprentissage vers un équilibre lui permettant de satisfaire en permanence les attentes de l'utilisateur. Aussi les interfaces vocales doivent évoluer vers une nouvelle génération de systèmes interactifs, capables d'apprendre dynamiquement sur le long terme à partir d'interactions, tout en anticipant les variations du comportement des humains, étant eux-mêmes vu comme des systèmes évolutifs. L’enjeu est alors, dans le contexte de l’apprentissage par renforcement profond [5] de pouvoir démontrer l’optimalité de la convergence des algorithmes utilisés pour mettre à jour les poids de certaines couches du modèle au fur et à mesure des interactions avec des utilisateurs, sans prendre le risque d’une atténuation des performances initiales. La détermination optimale des paramètres à modifier doit pouvoir être automatisée. Ce projet s’inscrit aussi dans le cadre de l’apprentissage en continu (continual learning) [6] d’un agent conversationnel. Axe 2/ Modelisation de l’oral / Ensuite l’essentiel des modèles pré-cités modélisent exclusivement le langage écrit et intègrent peu de mécanismes dédiés à la nature du langage parlé. Aussi nous souhaiterions augmenter les capacités de telles machines à faire face à : 1) des entrées utilisateurs plus naturelles, et comprenant donc de nombreux écarts vis-à-vis de l’écrit (agrammaticalité, confusions, reprises, corrections, hésitations…) et 2) des erreurs dans les transcriptions dues au composant de reconnaissance de la parole. Il est donc nécessaire de pouvoir interfacer le composant d’analyse de la parole avec la chaine de modelisation du langage qui suit (analyse sémantique, suivi de l’état de dialogue, gestion du dialogue, génération et synthèse de parole) de manière à prendre en compte les multiples hypotheses realistes (et non plus seulement la meilleure). Et enfin permettre un arbitrage entre ces hypothèses qui prenne en compte les traitements suivants, en conformité avec le processus cognitif humain équivalent (capable de re-traiter ses hypothèses acoustiques les plus probables en cas de conflit avec ses inférences sémantiques). Cette étude pourra être menée dans plusieurs cadres applicatifs, à préciser au démarrage de la thèse : par exemple un robot Pepper dialoguant affecté à la gestion de l’accueil d’un lieu public (par exemple dans un hôpital ou un musée). Il sera alors possible de déléguer des tâches de premier contact et d’orientation à des artefacts insensibles aux transmissions biologiques, ce qui constitue un atout hautement stratégique afin d’améliorer la gestion d’une situation de crise, du type de la pandémie mondiale de coronavirus en cours. [1] J. Devlin, M.-W. Chang, K. Lee, and K. Toutanova, “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding,” arXiv.org, Oct. 2018. [2] T. Wolf, V. Sanh, J. Chaumond, and C. Delangue, “TransferTransfo: A Transfer Learning Approach for Neural Network Based Conversational Agents,” arXiv.org, Jan. 2019. [3] E. Ferreira, B. Jabaian, and F. Lefèvre, “Online adaptative zero-shot learning spoken language understanding using word-embedding,” in Proceedings of 2015 IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP 2015, 2015, pp. 5321–5325. [4] M. Riou, B. Jabaian, S. Huet, and F. Lefèvre, “Joint On-line Learning of a Zero-shot Spoken Semantic Parser and a Reinforcement Learning Dialogue Manager,” in IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP 2019, Brighton, United Kingdom, May 12-17, 2019, 2019, pp. 3072–3076. [5] K. Arulkumaran, M. P. Deisenroth, M. Brundage, and A. A. Bharath, “A Brief Survey of Deep Reinforcement Learning,” IEEE SIGNAL Process. Mag. Spec. ISSUE Deep Learn. IMAGE Underst., Aug. 2017. [6] Z. Chen and B. Liu, Lifelong Machine Learning, Second Edition, vol. 12, no. 3. Morgan & Claypool Publishers, 2018. Les sujets devront être adressés à secretariat-ed@univ-avignon.fr |
Back | Top |