ISCA Services

ISCA - International Speech
Communication Association

ISCApad Archive » 2012 » ISCApad #172 » Jobs » (2012-04-20) PhD grant: Prosodic markers at IRIT Toulouse

ISCApad #172

Sunday, October 07, 2012 by Chris Wellekens

6-5 (2012-04-20) PhD grant: Prosodic markers at IRIT Toulouse

Modélisation de trajectoires de marqueurs prosodiques et linguistiques ; application à la caractérisation des intentions des intervenants dans les discours audiovisuels

Contact

Jérôme Farinas, jfarinas@irit.fr équipe SAMOVA http://www.irit.fr/recherches/SAMOVA/

Description du sujet

Dans le domaine du traitement automatique de l'audio, les systèmes actuels sont parvenus à une assez grande maturité pour extraire de façon plutôt fiable des informations sur les locuteurs présents, la langue utilisée et la transcription de la parole. Un des objectifs de la recherche actuelle consiste à utiliser ces informations afin de structurer les interventions des locuteurs et plus largement le contenu radiophonique et télévisuel.

Dans ce contexte, l'équipe SAMOVA de l'IRIT a acquis ces dernières années de fortes compétences en modélisation et segmentation automatique en locuteurs [Louradour 2007, El Khoury 2010], en identification automatique de langues [Pellegrino 1998, Farinas 2002, Rouas 2005], en segmentation parole/musique/chant [Pinquier 2004, Lachambre 2009], en extraction de jingle [Pinquier 2004], en transcription de la parole [Campagne ESTER 2004], en recherche de zones de parole conversationnelle [Projet EPAC 2010] et de mots-clés [Le Blouch 2009]. En s'appuyant sur ces travaux, l'équipe travaille sur la structuration des émissions en se basant sur les interventions des locuteurs et leurs interactions [Bigot 2011] ainsi que sur la vidéo [Ercolessi 2011].

A partir d'une caractérisation du rôle des intervenants (présentateur, locuteur dominant...) notre objectif est d'étudier plus précisément les interactions entre locuteurs afin de distinguer ce qui dans le message relève de l'interaction (ouverture, clôture, présentation d'un invité, gestion des tours de parole) et des échanges d'opinion. Plus largement, le sujet de thèse proposé vise à étudier l'intention dans les interventions audiovisuelles de personnes.

La modélisation des intentions est principalement basée sur la modélisation de la prosodie, qui a travers l'intonation et le rythme permet d'influer sur la forme du discours. Cette modélisation devra prendre en compte la prosodie à court ou long terme [Farinas2002,Rouas2004]. Deux niveaux de modélisations seront donc mis en œuvre afin de caractériser la modalité de la phrase et la modification de la prosodie des mots. Cela passera par la choix de paramètres prosodiques appropriée (F0, energie) et la modélisation statistique de ces paramètres. L'évolution temporelle pourra être prise en compte en utilisant des modélisations stochastiques, des modélisations de trajectoires.

Cette étude se déroulera en deux phases :

dans un premier temps elle portera sur la détermination de marqueurs linguistiques (par le biais de la détection d'expressions clés) et prosodiques (emphase, modalité de la phrase, intonation locale) caractéristiques de certaines fonctions communicatives présentes dans les interactions entre personnes. Ces indicateurs permettront de localiser les zones du document dans lesquelles les informations sur l'intervenant (son nom, son statut) sont potentiellement présentes et apporteront des précisions sur le contexte dans lequel la personne intervient (interview, débat, …). Ces informations pourront d'une part aider à mieux décrire le contenu et d'autre part renforcer les résultats issues de la reconnaissance de la parole particulièrement difficile en situation de débat et de parole spontanée.
dans un second temps, à partir des informations disponibles sur les intervenants, l'étude portera sur l'analyse de leurs intentions. Par exemple, pour un présentateur il s'agira de déterminer les zones qui correspondent à la présentation des invités, la gestion des tours de parole, l'ouverture ou la clôture des débats tandis que pour un invité, il s'agira plutôt de qualifier ses tours de parole afin de caractériser l'objectif de son intervention (donner un avis, apporter une contradiction...) à travers, entre autres, du message, du ton, du comportement, du mode d'expression, de la prosodie locale mais également d'indications issues de la vidéo (texte incrusté, ...).

Les applications de cette recherche concernent la structuration de contenus audiovisuels pour aider à l'archivage documentaire et la recherche d'information dans ces contenus. Cette structuration et caractérisation de zones d'interaction présente également un intérêt pour la constitution de résumés audio-visuels.

Le candidat devra posséder un Master avec de fortes compétences en informatique. Des connaissances en traitement du signal, en reconnaissance de la parole seraient souhaitables (reconnaissance de la parole et prosodie).

Références

[Louradour 2007] Noyaux de séquences pour la vérification du locuteur par Machines à Vecteurs de Support. Thèse de doctorat, Université Paul Sabatier, janvier 2007

[El Khoury 2010] Unsupervised Video Indexing based on Audiovisual Characterization of Persons. Thèse de doctorat, Université de Toulouse, juin 2010

[Pellegrino 1998] Une approche phonétique en identification automatique des langues : la modélisation acoustique des systèmes vocaliques. Thèse de doctorat, Université Paul Sabatier, décembre / december 1998.

[Farinas 2002] Une modélisation automatique du rythme pour l'identification des langues. Thèse de doctorat, Université Paul Sabatier, novembre 2002.

[Rouas 2005] Caractérisation et identification automatique des langues. Thèse de doctorat, Université Paul Sabatier, mars 2005.

[Pinquier 2004] Indexation sonore : recherche de composantes primaires pour une structuration audiovisuelle. Thèse de doctorat, Université Paul Sabatier, décembre 2004.

[Lachambre 2009] Caractérisation de l'environnement musical dans les documents audiovisuels. Thèse de doctorat, Université de Toulouse, décembre 2009.

[Campagne ESTER 2004] G. Gravier, J.F. Bonastre, S. Galliano, E. Geoffrois, K. Mc Tait and K. Choukri. ESTER, une campagne d'évaluation des systèmes d'indexation d'émissions radiophoniques, Proc. Journées d'Etude sur la Parole, Avril 2004.

[projet EPAC 2010] Yannick Estève, Thierry Bazillon, Jean-Yves Antoine, Frédéric Béchet, Jérôme Farinas. The EPAC corpus: manual and automatic annotations of conversational speech in French broadcast news (regular paper). Dans : Language Resources and Evaluation Conference (LREC 2010), Valletta, Malte, 19/05/2010-21/05/2010, Nicoletta Calzolari, Khalid Choukri, Bente Maegaard, Joseph Mariani, Jan Odijk (Eds.), European Language Resources Association (ELRA), p. 1686-1689, 2011.

[Le Blouch 2009] Décodage acoustico-phonétique et applications à l'indexation audio automatique. Thèse de doctorat, Université Paul Sabatier, juin 2009.

[Bigot 2011] Benjamin Bigot, Isabelle Ferrané, Julien Pinquier, Régine André-Obrecht. Speaker Role Recognition to help Spontaneous Conversational Speech Detection (regular paper). Dans : International workshop on Searching Spontaneous Conversational Speech SCSS (SCSS 2010), Firenze, Italy, 25/10/2010-29/10/2010, ACM, p. 5-10, octobre 2010.

[Ercolessi 2011] Philippe Ercolessi, Hervé Bredin, Christine Sénac and Philippe Joly, Segmenting TV series into scenes using speaker diarization, WIAMIS 12^th International Workshop on Image Analysis for Multimedia Interactive Services, Delft, Pays-Bas,13-15 avril 2011.

Mots clés

Traitement automatique de la parole, décodage phonétique, recherche de mots clés, prosodie, acoustique, structuration en émissions, vidéo

Kewords

Automatic Speech Processing, Phonetic Decoding, Keyword Spotting, Prosody, Acoustic, Structuring Programs, Video

Back

Top

Organisation	Events	Membership	Help
> Board	> Interspeech	> Join - renew	> Sitemap
> Legal documents	> Workshops	> Membership directory	> Contact
> Logos			> FAQ
			> Privacy policy