| Contexte:
Le projet ANR PROPICTO vise à développer un axe de recherche autour de la communication alternative et augmentée en se focalisant sur la transcription automatique de la parole sous forme pictographique. PROPICTO répond à la fois à des besoins forts dans le domaine du handicap et relève de nombreux défis de recherche autour du traitement automatique de la langue naturelle. PROPICTO a la volonté d'être pluridisciplinaire en coopérant avec des linguistes et le milieu du handicap. La finalité du projet est de proposer un système qui est capable de transcrire directement de la parole sous la forme d?une suite de pictogrammes.
La thèse sera co-encadrée par Benjamin Lecouteux et Maximin Coavoux
Sujet:
Cette thèse a pour objectif principal de développer un module d?analyse syntaxique automatique qui sera intégré dans la chaîne de traitement parole->pictogrammes mise en ?uvre dans le projet PROPICTO. L?analyse de la parole spontanée pose de nombreux problèmes pour le TAL (disfluences, chevauchements, segmentation en phrases). Par ailleurs, la grande majorité des travaux en analyse syntaxique automatique se concentrent sur des jeux de données issues de textes écrits.
Dans un premier temps, nous proposons d?évaluer les méthodes état-de-l?art en analyse syntaxique sur les treebanks de parole existants pour le français, en particulier en utilisant des modèles de langage préentraînés tels que FlauBERT (Le et al 2019). Dans un second temps, nous proposons de poursuivre 2 axes de recherche : - Analyse end-to-end : dans un contexte applicatif, une partie des erreurs de l?analyse syntaxique sont liées à des erreurs de reconnaissance de la parole (propagation d?erreurs). Nous proposons (i) d?étudier si l?ajout d?informations sur le signal sonore permettent de réduire la propogation d?erreur (ii) d?étudier la faisabilité d?une approche end-to-end qui prédirait conjointement la transcription du signal sonore et son analyse syntaxique. - Analyse syntaxique incrémentale : les analyseurs état-de-l'art actuels ne sont pas incrémentaux, ils ont besoin d'avoir accès à la phrase entière pour commencer l'analyse (modèle de langue préentraîné bidirectionnel). Dans le cadre applicatif « online » de PROPICTO, il est intéressant de considérer des algorithmes d?analyse syntaxique qui puissent commencer l?analyse au fur et à mesure où arrive la phrase d?input, à la manière de certains systèmes d?analyse par transition. Cela rend l?utilisation de modèles bidirectionnels (FlauBERT) impossibles, et nécessitera de développer des stratégies pour garantir la robustesse de l?analyseur.
Profil recherché:
- Master ayant une forte composante Traitement Automatique des Langues ou linguistique computationnelle - Expérience en programmation et machine learning pour le TAL - Bonne connaissance du français
Détails pratiques:
- Début de la thèse envisagé entre septembre et novembre 2021 - Contrat doctoral à temps plein au LIG (équipe Getalp) pour 3 ans (salaire: min 1768e brut mensuel, plus en cas d'enseignement) - Date limite pour postuler: 29 juin - Pour postuler, le dossier de candidature doit comprendre: cv, lettre de motivation, notes de master. Les candidat?es sélectionné?es devront également transmettre leur mémoire de master (si disponible).
Contacts (pour toutes questions ou pour postuler): maximin.coavoux@univ-grenoble-alpes.fr et benjamin.lecouteux@univ-grenoble-alpes.fr |