ISCA - International Speech
Communication Association


ISCApad Archive  »  2021  »  ISCApad #278  »  Jobs  »  (2021-04-02) PhD at Université d'Avignon, France

ISCApad #278

Monday, August 09, 2021 by Chris Wellekens

6-9 (2021-04-02) PhD at Université d'Avignon, France
  

**** If you don't read French and are interested in a PhD position in AI/NLP please
contact us directly for further information. French speaking is not required for the
position. ****

 Les réponses doivent nous parvenir de préférence **avant le 10 mai**.

PROPOSITION SUJETS DE THESES

CONTRATS DOCTORAUX 2021-2024

Appel cible (merci de cocher la case correspondante):

X Contrat doctoral ministeriel ED 536

□ Contrat doctoral ministeriel ED 537

------------------------------------------------------------------------------------------------------------------------

Directeur de these : Fabrice LEFEVRE

Co-directeur eventuel :

Co-encadrant eventuel : Bassam JABAIAN

Titre en francais : Transformer et renforcer pour le transfert et l’apprentissage en ligne des

agents conversationnels vocaux

Titre en anglais : Transformer and Reinforce for transfer and online learning of vocal

conversational agents

Mots-cles : IA, natural language processing , human-machine vocal interactions, deep learning,

deep reinforcement learning, transfer learning

Co tutelle : XXX - Non Pays :

Opportunites de mobilite a l’international du doctorant dans le cadre de sa these : oui

Profil du candidat :

Le candidat doit avoir un master en informatique avec une composante sur les méthodes

d'apprentissage automatique et/ou sur l’ingénierie de la langue. La bourse de thèse fera l’objet

d’un concours au sein de l’Ecole Doctorale 536 de l’université d’Avignon, avec une audition du

candidat retenu par les encadrants de thèse.

Pour postuler merci d’envoyer un mail avant le 10 mai 2021 à Fabrice Lefèvre

(fabrice.lefevre@univ-avignon.fr) et Bassam Jabaian (bassam.jabaian@univ-avignon.fr)

incluant : votre CV, une lettre de motivation avec votre positionnement sur les propositions

d’études ci-dessous, d’éventuelles lettres de recommandation et vos relevés de notes.

Presentation detaillee du sujet :

Domaine / Thematique : IA/NLP

Objectif : Permettre le transfert et l'apprentissage en ligne des agents conversationnels vocaux

avec une combinaison Transformers/Renforcement

Contexte et enjeux : Parmi les activités de recherche en intelligence artificielle, améliorer

l'interaction vocale avec les machines reste un défi majeur d’actualité. Le LIA traite de

multiples aspects liés à l’interaction vocale mais cherche à travers cette thèse à approfondir en

particulier la recherche sur les techniques d’apprentissage des agents conversationnels vocaux

à base de réseaux de neurones profonds supervisés et renforcés. De tels agents dialoguant

sont un enjeu primordial afin d’améliorer les capacités de nos sociétés à gérer une

distanciation sociale contrôlée, notamment par la délégation de certaines tâches risquées à

des artefacts matériels efficients, et bien acceptés par le grand public.

Les récentes évolutions en réseaux de neurones ont permis d’élaborer des systèmes de

génération de texte (ou modèles de langage) de grande qualité. Ils sont pour cela appris sur

des quantités gigantesques de documents, mais permettent en contrepartie une couverture

très large du langage humain. Les représentants les plus avancés dans ce domaine sont les

Transformers, qui permettent d’éliminer le recours à la récurrence dans les réseaux (couteux

en calcul) en privilégiant un mécanisme d’attention démultipliée (multi-head self-attention).

De nombreux dérivés de ces modèles existent et ont permis des gains conséquents en

performance sur de nombreuses tâches impliquant la génération de texte en langage naturel.

Ainsi BERT [1] et GPT forment les grandes familles (et leurs multiples descendants distilBERT,

alBERT, GPT-2…). Mais si de tels modèles permettent de porter à un plus haut niveau de

performance nos capacités de modélisation du langage, il reste encore à savoir les mettre en

oeuvre pour des tâches plus spécifiques ou exigeantes, comme les systèmes d’interaction

orale.

Ainsi le problème de leur application au cas des agents conversationnels reste ouvert car à la

fois l’interaction directe avec les humains accentue l’impact des erreurs et imperfections des

modèles et d’autre part la gestion des interactions se fait dans un contexte finalisé, où

l’objectif n’est pas le simple échange de données langagières mais la réussite d’un objectif

latent (obtenir une information précise, réaliser ou faire réaliser une action…). Aussi le

challenge principal que nous souhaitons porter dans la thèse est de permettre une adaptation

sur une tache particuliere des capacites d’un Transformer pre-entraine, notamment pour

l’elaboration d’un agent conversationnel. Des approches par transfert d’apprentissage ont

déjà été initiées mais leurs résultats sont contrastés et doivent être renforcés [2]. Nous

identifions deux axes majeurs pour la thèse :

Axe 1/ Transfert et apprentissage en ligne / Tout d’abord les approches de transfert reposent

toujours sur le recours à de nouvelles données pré-collectées auxquelles sont confrontés les

modèles [2]. Ainsi, dans la continuité de nos précédents travaux sur l’apprentissage en ligne

des systèmes de dialogue, nous souhaiterions élaborer et évaluer des strategies efficaces pour

permettre le recours a des apprentissages par renforcement [3, 4]. Pour rendre les systèmes

artificiels capables d'apprendre à partir des données, deux hypothèses fortes sont

généralement faites : (1) la stationnarité du système (l'environnement de la machine ne

change pas avec le temps), (2) l'interdépendance entre la collecte des données et le processus

d'apprentissage (l'utilisateur ne modifie pas son comportement dans le temps). Or les

utilisateurs ont une tendance naturelle à adapter leur comportement en fonction des réactions

de la machine, ce qui gêne la convergence de l'apprentissage vers un équilibre lui permettant

de satisfaire en permanence les attentes de l'utilisateur. Aussi les interfaces vocales doivent

évoluer vers une nouvelle génération de systèmes interactifs, capables d'apprendre

dynamiquement sur le long terme à partir d'interactions, tout en anticipant les variations du

comportement des humains, étant eux-mêmes vu comme des systèmes évolutifs.

L’enjeu est alors, dans le contexte de l’apprentissage par renforcement profond [5] de pouvoir

démontrer l’optimalité de la convergence des algorithmes utilisés pour mettre à jour les poids

de certaines couches du modèle au fur et à mesure des interactions avec des utilisateurs, sans

prendre le risque d’une atténuation des performances initiales. La détermination optimale des

paramètres à modifier doit pouvoir être automatisée. Ce projet s’inscrit aussi dans le cadre de

l’apprentissage en continu (continual learning) [6] d’un agent conversationnel.

Axe 2/ Modelisation de l’oral / Ensuite l’essentiel des modèles pré-cités modélisent

exclusivement le langage écrit et intègrent peu de mécanismes dédiés à la nature du langage

parlé. Aussi nous souhaiterions augmenter les capacités de telles machines à faire face à : 1)

des entrées utilisateurs plus naturelles, et comprenant donc de nombreux écarts vis-à-vis de

l’écrit (agrammaticalité, confusions, reprises, corrections, hésitations…) et 2) des erreurs dans

les transcriptions dues au composant de reconnaissance de la parole. Il est donc nécessaire de

pouvoir interfacer le composant d’analyse de la parole avec la chaine de modelisation du

langage qui suit (analyse sémantique, suivi de l’état de dialogue, gestion du dialogue,

génération et synthèse de parole) de manière à prendre en compte les multiples hypotheses

realistes (et non plus seulement la meilleure). Et enfin permettre un arbitrage entre ces

hypothèses qui prenne en compte les traitements suivants, en conformité avec le processus

cognitif humain équivalent (capable de re-traiter ses hypothèses acoustiques les plus

probables en cas de conflit avec ses inférences sémantiques).

Cette étude pourra être menée dans plusieurs cadres applicatifs, à préciser au démarrage de la

thèse : par exemple un robot Pepper dialoguant affecté à la gestion de l’accueil d’un lieu public

(par exemple dans un hôpital ou un musée). Il sera alors possible de déléguer des tâches de

premier contact et d’orientation à des artefacts insensibles aux transmissions biologiques, ce

qui constitue un atout hautement stratégique afin d’améliorer la gestion d’une situation de

crise, du type de la pandémie mondiale de coronavirus en cours.

[1] J. Devlin, M.-W. Chang, K. Lee, and K. Toutanova, “BERT: Pre-training of Deep Bidirectional

Transformers for Language Understanding,” arXiv.org, Oct. 2018.

[2] T. Wolf, V. Sanh, J. Chaumond, and C. Delangue, “TransferTransfo: A Transfer Learning

Approach for Neural Network Based Conversational Agents,” arXiv.org, Jan. 2019.

[3] E. Ferreira, B. Jabaian, and F. Lefèvre, “Online adaptative zero-shot learning spoken

language understanding using word-embedding,” in Proceedings of 2015 IEEE International

Conference on Acoustics, Speech and Signal Processing, ICASSP 2015, 2015, pp. 5321–5325.

[4] M. Riou, B. Jabaian, S. Huet, and F. Lefèvre, “Joint On-line Learning of a Zero-shot Spoken

Semantic Parser and a Reinforcement Learning Dialogue Manager,” in IEEE International

Conference on Acoustics, Speech and Signal Processing, ICASSP 2019, Brighton, United

Kingdom, May 12-17, 2019, 2019, pp. 3072–3076.

[5] K. Arulkumaran, M. P. Deisenroth, M. Brundage, and A. A. Bharath, “A Brief Survey of Deep

Reinforcement Learning,” IEEE SIGNAL Process. Mag. Spec. ISSUE Deep Learn. IMAGE Underst.,

Aug. 2017.

[6] Z. Chen and B. Liu, Lifelong Machine Learning, Second Edition, vol. 12, no. 3. Morgan &

Claypool Publishers, 2018.

Les sujets devront être adressés à

secretariat-ed@univ-avignon.fr




Back  Top


 Organisation  Events   Membership   Help 
 > Board  > Interspeech  > Join - renew  > Sitemap
 > Legal documents  > Workshops  > Membership directory  > Contact
 > Logos      > FAQ
       > Privacy policy

© Copyright 2024 - ISCA International Speech Communication Association - All right reserved.

Powered by ISCA