ISCA Services

ISCA - International Speech
Communication Association

ISCApad Archive » 2022 » ISCApad #283 » Jobs » (2021-10-20) PhD position Orléans/Grenble France

ISCApad #283

Monday, January 10, 2022 by Chris Wellekens

6-17 (2021-10-20) PhD position Orléans/Grenble France

Lieu : Orléans/Grenoble, France
Contacts : Emmanuel Schang (emmanuel.schang@univ-orleans.fr), Benjamin Lecouteux (benjamin.lecouteux@univ-grenoble-alpes.fr)

Nous cherchons un?e candidat?e pour une thèse en Sciences du Langage sur le thème du traitement automatique de la parole.
La thèse s?effectuera au sein du Laboratoire Ligérien de Linguistique (LLL, UMR 7270), avec une possibilité d'accueil au LIG-GETALP (Grenoble). Le financement se fera dans le cadre du projet ANR CREAM (Documentation des langues CREoles Assistée par la Machine https://sites.google.com/view/creamproject/home).

Termes-clés : langues créoles, traitement automatique de la parole, détection de mot clé, alignement bilingue, creole languages, speech processing, keyword spotting, bilingual alignment.

Objectifs
Le projet CREAM vise à proposer aux linguistes travaillant sur les langues créoles des outils novateurs dans la collecte et le traitement des données orales sur des langues disposant de peu de ressources.
Dans le contexte particulier de diglossie qui caractérise souvent l'espace créolophone, le passage par l'étape de la transcription de corpus est fréquemment ressenti comme une difficulté par les linguistes de terrain. Une conséquence est le manque de corpus disponibles.

L'objectif de ce projet est d'ouvrir la voie à des méthodes novatrices en matière de documentation linguistique et de création de ressources sur les langues créoles. En utilisant des technologies d'apprentissage automatique de pointe, nous cherchons à changer la façon dont la documentation linguistique est mise en ?uvre en termes de construction de ressources linguistiques et de traitement des corpus parlés.

L'accent sera mis sur deux tâches en particulier :
- Query-by-example : la recherche de segments similaires dans des corpus en langue créole,
- Alignement bilingue automatisé entre des segments de parole dans une langue créole et une langue proche (français, anglais, portugais, suivant les créoles).

Selon les avancées, les recherches pourront s'étendre à d'autres tâches du TAL :

- la reconnaissance automatique de la parole (étude du transfert d'apprentissage entre langues lexificatrices et langues créoles)

- traduction automatique ...

Bibiographie sélective
- G. Adda, et al.. (2016). Breaking the unwritten language barrier: the BULB project. In SLTU-2016 5th Workshop on Spoken Language Technologies for Under-resourced languages, Yogyakarta, Indonesia, May 2016.
- A. Baevski, et al. (2020). wav2vec 2.0: A framework for self-supervised learning of speech representations. arXiv preprint arXiv:2006.11477.
- D. Blachon, et al. (2016). Parallel Speech Collection for Under-resourced Language Studies Using the Lig-Aikuma Mobile Device App. In Workshop on Spoken Language Technologies for Under-resourced Languages (SLTU), Yogyakarta, Indonesia, May 2016.
- P. Godard et al. (2018). Unsupervised Word Segmentation from Speech with Attention. In Interspeech 2018, Hyderabad, India, September 2018.
- Y.-A. Chung, et al. (2016). Audio word2vec: Unsupervised learning of audio segment representations using sequence-to-sequence autoen- coder, Interspeech 2016 pp. 765?769.
- H. Kamper, (2019). Truly unsupervised acoustic word embeddings using weak top-down constraints in encoder-decoder models, ICASSP 2019-2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), IEEE, pp. 6535?39.
- H. Kamper, Anastassiou, A. and Livescu, K. (2019). Semantic query-by-example speech search using visual grounding, ICASSP 2019-2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), IEEE, pp. 7120?24.
- S. Schneider, et al. (2019). Wav2vec: Unsupervised Pretraining for Speech Recognition. Interspeech. Graz, Austria, 2019.
- V. Velupillai. (2015). Pidgins, creoles and mixed languages. John Benjamins Publishing Company.

Profil recherché
Les candidat.e.s auront un master en linguistique ou en informatique et montreront un intérêt certain pour le traitement automatique de la parole et les langues dites 'rares'. Une autonomie dans le codage en python est indispensable, ainsi que des bases en machine learning.

Candidature : les candidat.e.s enverront une lettre de motivation ainsi qu?un CV détaillé. Des documents complémentaires pourront être demandés si le ou la candidat.e est retenu.e pour une audition.

Encadrement
Emmanuel SCHANG (Docteur HDR en Sciences du Langage)
Benjamin LECOUTEUX (Docteur en Informatique)

Candidature à envoyer à Emmanuel Schang (emmanuel.schang@univ-orleans.fr), Benjamin Lecouteux (benjamin.lecouteux@univ-grenoble-alpes.fr).

Calendrier :

Date limite d?envoi des dossiers : 05 novembre 2021

Les dates des auditions seront communiquées aux candidat.e.s retenu.e.s sur dossier.

Back

Top

Organisation	Events	Membership	Help
> Board	> Interspeech	> Join - renew	> Sitemap
> Legal documents	> Workshops	> Membership directory	> Contact
> Logos			> FAQ
			> Privacy policy