ISCApad Archive » 2012 » ISCApad #168 » Jobs » (2012-04-20) PhD grant: Prosodic markers at IRIT Toulouse |
ISCApad #168 |
Sunday, June 10, 2012 by Chris Wellekens |
Modélisation de trajectoires de marqueurs prosodiques et linguistiques ; application à la caractérisation des intentions des intervenants dans les discours audiovisuels
Contact Jérôme Farinas, jfarinas@irit.fr équipe SAMOVA http://www.irit.fr/recherches/SAMOVA/
Description du sujet Dans le domaine du traitement automatique de l'audio, les systèmes actuels sont parvenus à une assez grande maturité pour extraire de façon plutôt fiable des informations sur les locuteurs présents, la langue utilisée et la transcription de la parole. Un des objectifs de la recherche actuelle consiste à utiliser ces informations afin de structurer les interventions des locuteurs et plus largement le contenu radiophonique et télévisuel.
Dans ce contexte, l'équipe SAMOVA de l'IRIT a acquis ces dernières années de fortes compétences en modélisation et segmentation automatique en locuteurs [Louradour 2007, El Khoury 2010], en identification automatique de langues [Pellegrino 1998, Farinas 2002, Rouas 2005], en segmentation parole/musique/chant [Pinquier 2004, Lachambre 2009], en extraction de jingle [Pinquier 2004], en transcription de la parole [Campagne ESTER 2004], en recherche de zones de parole conversationnelle [Projet EPAC 2010] et de mots-clés [Le Blouch 2009]. En s'appuyant sur ces travaux, l'équipe travaille sur la structuration des émissions en se basant sur les interventions des locuteurs et leurs interactions [Bigot 2011] ainsi que sur la vidéo [Ercolessi 2011].
A partir d'une caractérisation du rôle des intervenants (présentateur, locuteur dominant...) notre objectif est d'étudier plus précisément les interactions entre locuteurs afin de distinguer ce qui dans le message relève de l'interaction (ouverture, clôture, présentation d'un invité, gestion des tours de parole) et des échanges d'opinion. Plus largement, le sujet de thèse proposé vise à étudier l'intention dans les interventions audiovisuelles de personnes. La modélisation des intentions est principalement basée sur la modélisation de la prosodie, qui a travers l'intonation et le rythme permet d'influer sur la forme du discours. Cette modélisation devra prendre en compte la prosodie à court ou long terme [Farinas2002,Rouas2004]. Deux niveaux de modélisations seront donc mis en œuvre afin de caractériser la modalité de la phrase et la modification de la prosodie des mots. Cela passera par la choix de paramètres prosodiques appropriée (F0, energie) et la modélisation statistique de ces paramètres. L'évolution temporelle pourra être prise en compte en utilisant des modélisations stochastiques, des modélisations de trajectoires. Cette étude se déroulera en deux phases :
Les applications de cette recherche concernent la structuration de contenus audiovisuels pour aider à l'archivage documentaire et la recherche d'information dans ces contenus. Cette structuration et caractérisation de zones d'interaction présente également un intérêt pour la constitution de résumés audio-visuels.
Le candidat devra posséder un Master avec de fortes compétences en informatique. Des connaissances en traitement du signal, en reconnaissance de la parole seraient souhaitables (reconnaissance de la parole et prosodie).
Références [Louradour 2007] Noyaux de séquences pour la vérification du locuteur par Machines à Vecteurs de Support. Thèse de doctorat, Université Paul Sabatier, janvier 2007 [El Khoury 2010] Unsupervised Video Indexing based on Audiovisual Characterization of Persons. Thèse de doctorat, Université de Toulouse, juin 2010 [Pellegrino 1998] Une approche phonétique en identification automatique des langues : la modélisation acoustique des systèmes vocaliques. Thèse de doctorat, Université Paul Sabatier, décembre / december 1998. [Farinas 2002] Une modélisation automatique du rythme pour l'identification des langues. Thèse de doctorat, Université Paul Sabatier, novembre 2002. [Rouas 2005] Caractérisation et identification automatique des langues. Thèse de doctorat, Université Paul Sabatier, mars 2005. [Pinquier 2004] Indexation sonore : recherche de composantes primaires pour une structuration audiovisuelle. Thèse de doctorat, Université Paul Sabatier, décembre 2004. [Lachambre 2009] Caractérisation de l'environnement musical dans les documents audiovisuels. Thèse de doctorat, Université de Toulouse, décembre 2009. [Campagne ESTER 2004] G. Gravier, J.F. Bonastre, S. Galliano, E. Geoffrois, K. Mc Tait and K. Choukri. ESTER, une campagne d'évaluation des systèmes d'indexation d'émissions radiophoniques, Proc. Journées d'Etude sur la Parole, Avril 2004. [projet EPAC 2010] Yannick Estève, Thierry Bazillon, Jean-Yves Antoine, Frédéric Béchet, Jérôme Farinas. The EPAC corpus: manual and automatic annotations of conversational speech in French broadcast news (regular paper). Dans : Language Resources and Evaluation Conference (LREC 2010), Valletta, Malte, 19/05/2010-21/05/2010, Nicoletta Calzolari, Khalid Choukri, Bente Maegaard, Joseph Mariani, Jan Odijk (Eds.), European Language Resources Association (ELRA), p. 1686-1689, 2011. [Le Blouch 2009] Décodage acoustico-phonétique et applications à l'indexation audio automatique. Thèse de doctorat, Université Paul Sabatier, juin 2009. [Bigot 2011] Benjamin Bigot, Isabelle Ferrané, Julien Pinquier, Régine André-Obrecht. Speaker Role Recognition to help Spontaneous Conversational Speech Detection (regular paper). Dans : International workshop on Searching Spontaneous Conversational Speech SCSS (SCSS 2010), Firenze, Italy, 25/10/2010-29/10/2010, ACM, p. 5-10, octobre 2010. [Ercolessi 2011] Philippe Ercolessi, Hervé Bredin, Christine Sénac and Philippe Joly, Segmenting TV series into scenes using speaker diarization, WIAMIS 12th International Workshop on Image Analysis for Multimedia Interactive Services, Delft, Pays-Bas,13-15 avril 2011.
Mots clés Traitement automatique de la parole, décodage phonétique, recherche de mots clés, prosodie, acoustique, structuration en émissions, vidéo
Kewords Automatic Speech Processing, Phonetic Decoding, Keyword Spotting, Prosody, Acoustic, Structuring Programs, Video |
Back | Top |