ISCA Services

ISCA - International Speech
Communication Association

ISCApad Archive » 2012 » ISCApad #172 » Jobs » (2012-05-01) PhD Reconnaissance automatique de la parole continue : parole spontanée LORIA Nancy France

ISCApad #172

Sunday, October 07, 2012 by Chris Wellekens

6-7 (2012-05-01) PhD Reconnaissance automatique de la parole continue : parole spontanée LORIA Nancy France

Sujet de thèse :Reconnaissance automatique de la parole continue : parole spontanée

Encadrants pour ce sujet :
– Irina Illina, Maitre de conférences, HDR, Université de Lorraine, bureau C147, tel. 03 83 59 84 90, mel. illina@loria.fr
– Denis Jouvet, Directeur de recherches INRIA, HDR bureau C147, tel. 03 54 95 86 26, mel. denis.jouvet@inria.fr
Type de financement CONTRAT DOCTORAL

Lieu : Inria-LORIA Nancy

Le sujet est affiché sur le site de l'école doctorale IAEM http://www.iaem.uhp-nancy.fr/ , rubrique 'propositions contrats doctoraux'.

Date limite du depot de candidature : le 1-er juin

Conetxte : La reconnaissance de la parole est un processus par lequel un ordinateur transforme le signal acoustique de la parole prononcée en texte. Pendant ce processus, le système de reconnaissance utilise des modèles acoustiques, des modèles de langage et un lexique de prononciations.
La parole spontanée est définie comme un énoncé perçu et conçu au fil de son élocution. Par rapport à la parole préparée, la parole spontanée se caractérise par :
– des insertions (hésitations, répétitions, pauses, reprises, faux départs) ;
– des variations de prononciations (contraction de mots ou de phonèmes) ;
– des environnements difficiles (rires, parole superposée) ;
– des phrases agrammaticales.
La parole spontanée est présente sous plusieurs formes : interviews, débats, dialogues. Ces spécificités sont peu ou pas prises en compte dans les systèmes de reconnaissance de la parole.
Afin d’améliorer la performance de systèmes de reconnaissance il est nécessaire de s’attaquer à deux problèmes ouverts :
– d’un part, détecter automatiquement ces événements de la parole spontanée ;
– et d’autre part, les prendre en compte dans le système de reconnaissance au niveau acoustique ainsi qu’au niveau linguistique.
Pour caractériser et détecter la parole spontanée, [Dufour et al.2009] propose un ensemble de caractéristiques acoustiques (la durée et le débit phonétique) et linguistiques (morphèmes spécifiques, répétitions et faux départs). Concernant la prise en compte de la parole spontanée, certaines pistes de recherche se sont avérées intéressantes telles que l’analyse de prononciation latente avec les connaissances à priori [Lin2007], l’utilisation de dictionnaires avec des prononciations multiples issues de la parole spontanée et l’étude de différents contextes acoustiques de phonèmes [Dupont et al.2005].

L’objet de cette thèse est d’apporter des éléments de solution à ce problème en proposant de nouvelles méthodes qui permettent de mieux prendre en compte les caractéristiques de la prononciation spontanée dans le cadre de la reconnaissance automatique de la parole.
Le premier objectif de cette thèse concerne l’augmentation de nos connaissances de la variabilité de la parole spontanée dans différents types de parole (interviews, dialogues, etc.). Nous allons surtout nous intéresser aux aspects segmentaux et acoustiques du problème. Les aspects prosodiques pourraient également être envisagés.
Le second objectif concerne la détection et la localisation de ces phénomènes de parole spontanée, et surtout leur prise en compte pour améliorer la reconnaissance de la parole. Ceci reposera sur l’enrichissement des modèles pour tenir compte des connaissance acquises, ainsi que sur la mise en ouvre de techniques de détection de ces phénomènes. Le travail s’effectuera au sein de l’équipe PAROLE au LORIA en utilisant le système ANTS [Brun et al.2005]. Après une étude bibliographique, l’étudiant aura à analyser des corpus de parole, à développer des modules de traitement de la parole spontanée et à les intégrer dans notre système de reconnaissance de la parole. Puis il devra d’évaluer les améliorations sur différents
corpus de parole. Notre équipe possède déjà un corpus riche en parole spontanée : le corpus d’émissions radiophoniques et télévisées, issu des campagnes d’évaluation ESTER et ETAPE.
Les validations éventuelles sur un corpus de parole de personnes âgées (dans un but d’assistance aux personnes à domicile) nous permettraient probablement de dégager et d’étudier d’autres phénomènes de la parole spontanée.
Les domaines abordés par ce sujet sont : la reconnaissance automatique de la parole,
la modélisation probabiliste, la parole spontanée, modélisation acoustique, modèle de langage.

Références : [Brun et al.2005] A. Brun, C. Cerisara, D. Fohr et I. Illina. ANTS : le système de transcription automatique du LORIA. WorkShop ESTER, 2005.
[Dufour et al.2009] R. Dufour, V. Jousse, Y. Estève, F. Bechet et G. Linares. Spontaneous speech characterization and detection in large audio database. SpeCom, 2009.
[Dupont et al.2005] S. Dupont, C. Ris, L. Couvreur et J.-M. Boite. A study of implicit and explicit modeling of coarticulation and pronunciation variation. Interspeech, 2005.
[Lin2007] L.-S. Lin, C.-K. Lee. Pronunciation modeling for spontaneous speech recognition using latent analysis (LPA) and prior knowledge. ICASSP, 2007

Back

Top

Organisation	Events	Membership	Help
> Board	> Interspeech	> Join - renew	> Sitemap
> Legal documents	> Workshops	> Membership directory	> Contact
> Logos			> FAQ
			> Privacy policy