ISCA - International Speech
Communication Association


ISCApad Archive  »  2018  »  ISCApad #240  »  Jobs  »  (2017-12-15) Internship 1 at LIA, Avignon, France

ISCApad #240

Tuesday, June 12, 2018 by Chris Wellekens

6-7 (2017-12-15) Internship 1 at LIA, Avignon, France
  

Adaptation des réseaux de neurones profonds pour les systèmes 

de transcription de la parole 
 
Mots-clés : système de transcription de la parole, modèle de langage, adaptation nonsupervisée 
 
Description La Reconnaissance Automatique de la Parole (RAP) consiste à transcrire en texte les mots 

prononcés dans un enregistrement audio ou vidéo. Les systèmes de RAP les plus robustes reposent 

souvent sur une architecture multi-passe (Gauvain et Lee 1994) (Gales 1998), 

chaque passe permettant d’obtenir une transcription du signal audio qui se veut de meilleure qualité 

que la précédente. 

Ainsi, dans certains cas, les sorties de la passe précédente sont utilisées pour adapter les modèles de la 

passe en cours. L’idée de cette adaptation est d’obtenir des modèles spécialisés à l’enregistrement, et 

donc d’être plus robuste face aux « variabilités » des enregistrements audio (conditions acoustiques différentes,

 locuteurs inconnus, spontanéité de la parole, bruits de l’environnement...). 
 
L’objectif général du stage est de faire progresser l’état de l’art sur la transcription automatique de la parole.  

Plus précisément, le stage explorera l’adaptation non-supervisée des réseaux de neurones profonds. 

Un des principaux challenges est d’utiliser les réseaux de neurones en tant que modèle de langage et de pouvoir 

les adapter à une première transcription issue du décodage. 
 
Ce sujet pourra donner lieu à une thèse. 
 
Profil du candidat Etudiant en Master 2 en informatique. Le candidat devra posséder un bon niveau en 

programmation (C/C++ et/ou Python). Des notions en Traitement Automatique de la Langue, Traitement de la parole 

ou Apprentissage automatique serait un plus. 
 
Lieu du stage LIA, 339, chemin des Meinajariès, 84911 Avignon 
 
Durée et rémunération 6 mois, environ 580€ par mois. 
 
Contact Mickaël Rouvier – Maître de conférence – mickael.rouvier@univ-avignon.fr Richard Dufour – Maître de conférence – richard.dufour@univ-avignon.fr 
 
Bibliographie Gales, Mark JF. «Maximum likelihood linear transformations for HMM-based speech recognition.» 

Computer Speech and Language (CSL), 1998. Gauvain, Jean-Luc, et Chin-Hui Lee. «Maximum 

a posteriori estimation for multivariate Gaussian mixture observations of Markov chains.» IEEE Transactions on 

Speech and Audio Processing (TASP), 1994. 


Back  Top


 Organisation  Events   Membership   Help 
 > Board  > Interspeech  > Join - renew  > Sitemap
 > Legal documents  > Workshops  > Membership directory  > Contact
 > Logos      > FAQ
       > Privacy policy

© Copyright 2024 - ISCA International Speech Communication Association - All right reserved.

Powered by ISCA