ISCA Services

ISCA - International Speech
Communication Association

ISCApad Archive » 2018 » ISCApad #236 » Jobs » (2017-12-15) Internship 1 at LIA, Avignon, France

ISCApad #236

Saturday, February 10, 2018 by Chris Wellekens

6-43 (2017-12-15) Internship 1 at LIA, Avignon, France

Adaptation des réseaux de neurones profonds pour les systèmes

de transcription de la parole

Mots-clés : système de transcription de la parole, modèle de langage, adaptation nonsupervisée

Description La Reconnaissance Automatique de la Parole (RAP) consiste à transcrire en texte les mots

prononcés dans un enregistrement audio ou vidéo. Les systèmes de RAP les plus robustes reposent

souvent sur une architecture multi-passe (Gauvain et Lee 1994) (Gales 1998),

chaque passe permettant d’obtenir une transcription du signal audio qui se veut de meilleure qualité

que la précédente.

Ainsi, dans certains cas, les sorties de la passe précédente sont utilisées pour adapter les modèles de la

passe en cours. L’idée de cette adaptation est d’obtenir des modèles spécialisés à l’enregistrement, et

donc d’être plus robuste face aux « variabilités » des enregistrements audio (conditions acoustiques différentes,

locuteurs inconnus, spontanéité de la parole, bruits de l’environnement...).

L’objectif général du stage est de faire progresser l’état de l’art sur la transcription automatique de la parole.

Plus précisément, le stage explorera l’adaptation non-supervisée des réseaux de neurones profonds.

Un des principaux challenges est d’utiliser les réseaux de neurones en tant que modèle de langage et de pouvoir

les adapter à une première transcription issue du décodage.

Ce sujet pourra donner lieu à une thèse.

Profil du candidat Etudiant en Master 2 en informatique. Le candidat devra posséder un bon niveau en

programmation (C/C++ et/ou Python). Des notions en Traitement Automatique de la Langue, Traitement de la parole

ou Apprentissage automatique serait un plus.

Lieu du stage LIA, 339, chemin des Meinajariès, 84911 Avignon

Durée et rémunération 6 mois, environ 580€ par mois.

Contact Mickaël Rouvier – Maître de conférence – mickael.rouvier@univ-avignon.fr Richard Dufour – Maître de conférence – richard.dufour@univ-avignon.fr

Bibliographie Gales, Mark JF. «Maximum likelihood linear transformations for HMM-based speech recognition.»

Computer Speech and Language (CSL), 1998. Gauvain, Jean-Luc, et Chin-Hui Lee. «Maximum

a posteriori estimation for multivariate Gaussian mixture observations of Markov chains.» IEEE Transactions on

Speech and Audio Processing (TASP), 1994.

Back

Top

Organisation	Events	Membership	Help
> Board	> Interspeech	> Join - renew	> Sitemap
> Legal documents	> Workshops	> Membership directory	> Contact
> Logos			> FAQ
			> Privacy policy