|    | Contexte:
   Le projet ANR PROPICTO vise à développer un axe de recherche autour de  la communication alternative et augmentée en se focalisant sur la  transcription automatique de la parole sous forme pictographique.  PROPICTO répond à la fois à des besoins forts dans le domaine du  handicap et relève de nombreux défis de recherche autour du traitement  automatique de la langue naturelle. PROPICTO a la volonté d'être  pluridisciplinaire en coopérant avec des linguistes et le milieu du  handicap. La finalité du projet est de proposer un système qui est  capable de transcrire directement de la parole sous la forme d?une  suite de pictogrammes.
   La thèse sera co-encadrée par Benjamin Lecouteux et Maximin Coavoux
 
   Sujet:
   Cette thèse a pour objectif principal de développer un module d?analyse  syntaxique automatique qui sera intégré dans la chaîne de traitement  parole->pictogrammes mise en ?uvre dans le projet PROPICTO. L?analyse  de la parole spontanée pose de nombreux problèmes pour le TAL  (disfluences, chevauchements, segmentation en phrases). Par ailleurs,  la grande majorité des travaux en analyse syntaxique automatique se  concentrent sur des jeux de données issues de textes écrits.
   Dans un premier temps, nous proposons d?évaluer les méthodes  état-de-l?art en analyse syntaxique sur les treebanks de parole  existants pour le français, en particulier en utilisant des modèles de  langage préentraînés tels que FlauBERT (Le et al 2019). Dans un second  temps, nous proposons de poursuivre 2 axes de recherche : -   Analyse end-to-end : dans un contexte applicatif, une partie des       erreurs de l?analyse syntaxique sont liées à des erreurs de       reconnaissance de la parole (propagation d?erreurs). Nous proposons       (i) d?étudier si l?ajout d?informations sur le signal sonore       permettent de réduire la propogation d?erreur (ii) d?étudier la       faisabilité d?une approche end-to-end qui prédirait conjointement       la transcription du signal sonore et son analyse syntaxique. -   Analyse syntaxique incrémentale : les analyseurs état-de-l'art       actuels ne sont pas incrémentaux, ils ont besoin d'avoir accès à la       phrase entière pour commencer l'analyse (modèle de langue       préentraîné bidirectionnel). Dans le cadre applicatif « online » de       PROPICTO, il est intéressant de considérer des algorithmes       d?analyse syntaxique qui puissent commencer l?analyse au fur et à       mesure où arrive la phrase d?input, à la manière de certains       systèmes d?analyse par transition. Cela rend l?utilisation de       modèles bidirectionnels (FlauBERT) impossibles, et nécessitera de       développer des stratégies pour garantir la robustesse de       l?analyseur.
   Profil recherché:
  -   Master ayant une forte composante Traitement Automatique des       Langues ou linguistique computationnelle -   Expérience en programmation et machine learning pour le TAL -   Bonne connaissance du français
   Détails pratiques:
  -   Début de la thèse envisagé entre septembre et novembre 2021 -   Contrat doctoral à temps plein au LIG (équipe Getalp) pour 3 ans       (salaire: min 1768e brut mensuel, plus en cas d'enseignement) -   Date limite pour postuler: 29 juin -   Pour postuler, le dossier de candidature doit comprendre: cv,       lettre de motivation, notes de master. Les candidat?es       sélectionné?es devront également transmettre leur mémoire de master       (si disponible).
   Contacts (pour toutes questions ou pour postuler): maximin.coavoux@univ-grenoble-alpes.fr et benjamin.lecouteux@univ-grenoble-alpes.fr  |