ISCApad Archive » 2015 » ISCApad #199 » Jobs » (2015-01-05) Proposition de post-doc au LORIA (Nancy, France) |
ISCApad #199 |
Sunday, January 18, 2015 by Chris Wellekens |
Proposition de post-doc au LORIA (Nancy, France)
Reconnaissance automatique de la parole : contextualisation du modèle de langage par ajustement dynamique
Cadre du projet ANR ContNomina
Les technologies impliquées dans la recherche d?informations dans de grandes bases de données audio/vidéo reposent le plus souvent sur l'analyse de grands corpus fermés et sur des techniques d'apprentissage automatique et de modélisation statistique du langage écrit ou oral. L'efficacité de ces approches est maintenant unanimement reconnue mais elles présentent néanmoins des défauts majeurs, en particulier pour la prise en charge des noms propres, qui sont cruciales pour l'interprétation des contenus.
Dans le cadre des données diachroniques (qui évoluent dans le temps) de nouveaux noms propres apparaissent continuellement ce qui nécessite de gérer dynamiquement les lexiques et modèles de langage utilisés par le système de reconnaissance de la parole.
En conséquence, le projet ANR ContNomina (2013-2017) se concentre sur le problème des noms propres dans les systèmes de traitement automatique des contenus audio en exploitant au mieux le contexte des documents traités. Pour ce faire, le sujet de ce post-doc se focalisera sur la contextualisation de la reconnaissance à travers l?ajustement dynamique du modèle de langage de manière à le rendre plus précis.
Sujet du post-doc
On dispose du modèle de langage du système reconnaissance (n gram appris d?un grand corpus de texte). Le problème est d?estimer la probabilité d?un mot ajouté en fonction de son contexte. Plusieurs pistes pourront être explorées: adapter le modèle de langage, utiliser un modèle de classe ou étudier la notion d?analogie.
Notre équipe a développé un système complet de reconnaissance automatique de la parole permettant de transcrire une émission de radio à partir du fichier audio correspondant. Le post-doctorant devra développer un nouveau module dont la fonction est d?intégrer de nouveaux noms propres dans le modèle de langage.
Compétences demandées
Avoir obtenu une thèse en TAL (Traitement Automatique des Langues), être familier avec les outils de reconnaissance automatique de la parole, avoir de bonnes bases en statistiques et maîtriser les langages de programmation C et Perl.
Durée
Environ 12 mois, début durant 2014 (la date de début est flexible)
Localisation et contact
Laboratoire Loria, équipe Parole, Nancy, France
Envoyer par mail un CV détaillé avec une liste de publications, diplômes et une lettre de motivations
Post-doc position at LORIA (Nancy, France)
Framework of ANR project ContNomina
The technologies involved in information retrieval in large audio/video databases are often based on the analysis of large, but closed, corpora, and on machine learning techniques and statistical modeling of the written and spoken language. The effectiveness of these approaches is now widely acknowledged, but they nevertheless have major flaws, particularly for what concern proper names, that are crucial for the interpretation of the content.
In the context of diachronic data (data which change over time) new proper names appear constantly requiring dynamic updates of the lexicons and language models used by the speech recognition system.
As a result, the ANR project ContNomina (2013-2017) focuses on the problem of proper names in automatic audio processing systems by exploiting in the most efficient way the context of the processed documents. To do this, the postdoc student will address the contextualization of the recognition module through the dynamic adjustment of the language model in order to make it more accurate.
Post-doc subject
The language model of the recognition system (n gram learned from a large corpus of text) is available. The problem is to estimate the probability of a new proper name depending on its context. Several tracks will be explored: adapting the language model, using a class model or studying the notion of analogy.
Our team has developed a fully automatic system for speech recognition to transcribe a radio broadcast from the corresponding audio file. The postdoc will develop a new module whose function is to integrate new proper names in the language model.
Required skills
A PhD in NLP (Natural Language Processing), be familiar with the tools for automatic speech recognition, background in statistics and computer program skills (C and Perl).
Post-doc duration
12 months, start during 2014 (these is some flexibility)
Localization and contacts
Loria laboratory, Speech team, Nancy, France
Candidates should email a letter of application, a detailed CV with a list of publications and diploma
|
Back | Top |