ISCApad #156 |
Tuesday, June 21, 2011 by Chris Wellekens |
Financement : thèse CIFRE en traitement automatique de la langue parlée Sujet : L'extraction d'information à partir de données acoustiques de parole lance aujourd'hui un défi important aux chercheurs du traitement automatique de la parole: aller au-delà de la transformation du signal sonore en une simple suite de mots (transcription automatique) en y intégrant des informations sémantiques. Ces informations sémantiques sont notamment utilisées pour indexer les données acoustiques en fonction des thèmes abordés, des sujets traités, voire même des opinions exprimées sur ces sujets. De nombreuses recherches portées par la communauté TAL (traitement automatique des langues) abordent également la problématique de l'extraction d'information à partir de données textuelles de plus en plus variées et de sources hétérogènes (blogs, forum de discussions, etc.). En particulier, l'utilisation de techniques issues de l'indexation de documents textuels, appliquées à la transcription automatique de parole constitue un thème de recherche en plein essor qui soulève de nombreux problèmes scientifiques. Ces problèmes sont liés au traitement de la variabilité dans la parole, aux erreurs (ou au bruit) de la transcription automatique ainsi qu'aux modes d'expressions spontanés différents de ceux de l'expression écrite. Le sujet de thèse porte sur l'extraction d'information dans des données conversationnelles EDF à partir des transcriptions automatiques. Ce travail est à la fois concerné par l'extraction d'information à partir du texte et par l'analyse et la gestion des aspects liés à l'expression orale via le traitement des erreurs de transcription automatique. Les données conversationnelles EDF (centres d'appel, enquêtes de satisfaction) représentent un corpus riche fournissant un cadre de travail particulièrement motivant en termes de recherche fondamentale et d'enjeux applicatifs. La palette thématique et expressive est à la fois large et circonscrite par le cadre applicatif. Les sources de variabilités (variantes de prononciation, phénomènes dits « disfluents » et structures dites «agrammaticales», accents (étrangers, régionaux etc., bruits environnants etc.) sont particulièrement présentes dans ces données. Le travail envisagé portera sur: 1. la modélisation sémantique de l'information à extraire. (i) Un premier volet portera sur l'indexation thématique en fonction des données exploitées et des besoins opérationnels (ex: repérer les conversations où les clients abordent un thème donné). (ii) Un deuxième volet de recherche visera à expliciter les raisons de satisfaction ou d'insatisfaction. Le travail effectué sera examiné dans le cadre des recherches sur la fouille d'opinions (opinion mining). 2. l'adaptation aux transcriptions. Il s'agira d'adapter les techniques d'extraction d'information aux spécificités de l'oral: disfluences, faible cohérence syntaxique, marqueurs pragmatiques (ex: marqueurs de discours, indices dialogiques). Des traitements spécifiques seront à envisager afin de minimiser l'impact du bruit de transcription automatique (erreurs de transcription). Une étape préalable consistera à faire une analyse systématique des erreurs de transcription automatique en fonction de l'information recherchée et du cadre dialogique (profils conseiller/client). Profil recherché : Bac+5 dans le domaine du TALN et/ou du traitement de la parole. Français et Anglais courant. Contexte : Cette thèse s'effectuera entre le LIMSI, groupe TLP (Traitement du Langage Parlé) et le département ICAME (Innovation Commerciale pour l'Analyse des Marchés et de leur Environnement) d'EDF R&D Candidature : Envoyer un CV, une lettre de motivation, et les coordonnées d'au moins un référent universitaire à l'ensemble des adresses suivantes : chloe.clavel@edf.fr , anne.peradotto@edf.fr madda@limsi.fr, ioana@limsi.fr, sophie.rosset@limsi.fr |
Back | Top |