ISCA Services

ISCA - International Speech
Communication Association

ISCApad Archive » 2013 » ISCApad #177 » Jobs » (2013-01-12) Stage de Master à IRIT Toulouse F

ISCApad #177

Sunday, March 10, 2013 by Chris Wellekens

6-23 (2013-01-12) Stage de Master à IRIT Toulouse F

Nous sommes à la recherche d'une personne pour un stage de Master 2 recherche qui sera suivi d'un financement CIFRE de 3 ans avec AIRBUS. Merci de me contacter en m'envoyant un CV et une lettre de motivation le plus rapidement possible.

Contact
~~~~~~
Jérôme Farinas
Equipe SAMOVA
Institut de Recherche en Informatique de Toulouse
Tél : 05 61 55 74 34
Mèl : jfarinas@irit.fr

Mots clés
~~~~~~~
Parole spontanée, son, bruit, audio, reconnaissance, transcription, apprentissage.

Contexte de l’étude
~~~~~~~~~~~~~~~
Lors d’un vol, tous les paramètres sont enregistrés dans deux calculateurs distincts, le DFDR (Digital Flight Data Recorder) et le CVR (Cockpit Voice Recorder). Le DFDR enregistre les paramètres techniques du vol. Le CVR enregistre toutes les conversations entre l’équipage, le personnel de cabine, les centres au sol (navigation aérienne, compagnie…). Sont également enregistrés toutes les alarmes qui peuvent survenir à bord ainsi que tous les bruits qui peuvent être entendus dans le poste de pilotage.

Intérêt de l’étude
~~~~~~~~~~~~~
Au sein du département avionique, le contenu du CVR, suite à un vol d’essais et plus particulièrement ceux liés à une certification, est analysé afin de corréler tous les évènements tracés par les pilotes et ingénieurs navigants avec le contenu de l’enregistrement. Cette analyse a aussi pour but d’identifier et de caractériser tous les évènements sonores imprévus. L’analyse et la transcription sont faites par une simple écoute.
Afin d’améliorer la fiabilité, la pertinence, l’exhaustivité et la répétitivité des analyses effectuées, l’intérêt de l’étude est de proposer des algorithmes capables d’extraire du bruit ambiant du poste de pilotage, de la voix, des sons synthétiques et des bruits caractéristiques afin de les transcrire automatiquement.

Principaux objectifs de l’étude
~~~~~~~~~~~~~~~~~~~~~~~~
Ce stage adresse à la fois des problématiques liées à la reconnaissance de sons prédéfinis (existence d’une référence audio), la détection de bruits spécifiques et la transcription de la parole spontanée.
Ce sujet de stage est lié à une thèse qui sera financée avec un financement CIFRE avec AIRBUS. La thèse est divisée en 3 parties correspondant à l’étude de chacune des trois catégories de sons explorées ; les approches seront de fait différentes :
1. Pour la reconnaissance des sons (alarmes, code morse…), il est possible de définir des prototypes ou références. C’est pourquoi l’étude s’orientera vers l’emploi d’une part d’algorithmes de détection de fréquences caractéristiques en prenant en compte les contraintes d’un environnement hétérogène (bruit, recouvrement…) et d’autre part de méthodes de reconnaissance des formes classiques appliqués à l’audio tels que ceux employés en reconnaissance de motifs sonores [13].
2. La détection des bruits représentatifs (régime moteur, train d’atterrissage…) ou inattendus (usure anormale, parasite…), passera par une analyse des signatures
acoustiques caractéristiques pour en déduire une modélisation. Cette détection nécessitera une phase d’apprentissage.
Pour ces deux premières parties, le titulaire s’appuiera sur les résultats d’un stage de fin de cycle d’ingénieur pour lequel un prototype a déjà été développé. Il s’agira
d’enrichir la démarche scientifique, puis de compléter et de confirmer les choix techniques qui ont été proposés.
3. La reconnaissance de la parole qui est de loin la plus importante, s’orientera d’abord vers une étude de faisabilité. Les deux principales difficultés sont liées à la production même de la parole qui est quasi « spontanée » et à l’environnement dans lequel la prise de son est faite.
Dans un premier temps, le titulaire devra effectuer une analyse très précise de l’environnement, bien plus contraignant que les environnements « conventionnels »
dans lesquels sont développés la majorité des systèmes de reconnaissance de la parole (parole téléphonique, journaux d'information en anglais [1], français [2],
sessions du parlement européen [3]). Il existe des études sur l'influence de la dégradation due aux environnements bruités : dans le secteur de la construction [4],
dans le secteur aéronautique [5]. Les travaux dans ce dernier secteur ont principalement pour objectif depuis les années 1980 de réaliser une simple
commande vocale dans les cockpits. L'analyse de la parole à partir d'enregistrements CVR n’a jamais fait l'objet d'étude, seules des recherches sur les sons d'alerte ont été menées [6,7].
Dans un second temps et une fois l’analyse effectuée, le titulaire s’attachera à définir les spécifications du système de reconnaissance automatique, tout en respectant les contraintes suivantes :
- Contraintes liées à un environnement fortement bruité et altéré par des événements sonores liés à l’exploitation de l’avion (recouvrement).
- Contraintes liées à une population multiculturelle : langue (capacité à changer de langue pour un même locuteur), accent, vocabulaire.
- Contraintes liées aux conditions dans lesquelles le locuteur opère : augmentation du débit, stress, fatigue.
Les principales pistes de recherche envisagées se déclinent selon deux axes :
- La compensation au niveau de la paramétrisation : une première analyse des différents bruits des enregistrements CVR permettra de cibler les traitements pour lutter contre le bruit existant (soustraction cepstrale, normalisation de la variance, filtrage ARMA, filtres RASTA...). Un deuxième axe consiste à s’appuyer sur des résultats récents en compensation de bruit dans le domaine cepstral, domaine de paramétrisation le plus performant en reconnaissance de parole. Il s’agit de décomposer l’espace de représentation en une composante utile pour la reconnaissance et une composante dite de nuisance qui rend compte de la variabilité de la session d’enregistrement [14]. Dans le cas présent et le cadre particulier des cockpits, cette variabilité représenterait l’environnement bruité, mais elle pourrait aussi rendre compte des conditions de stress du locuteur.
- L’adaptation au niveau des modèles acoustiques et linguistiques : les modélisations de la parole devront être adaptées aux différentes formes de parole présentes dans les enregistrements. Il s’agira de regarder plus précisément les vocabulaires employés pour les enrichir éventuellement, et tenir compte de la spontanéité au travers des modèles de langage (le traitement de la spontanéité reste à ce jour un défi très important à relever). Les techniques d'adaptation des lois des modèles acoustiques par Maximum Likelihood Linear Regression (MLLR) [8] et Maximum A Posteriori (MAP) [9] et les techniques d’adaptation au niveau de la modélisation elle-même (analyse factorielle appliquée aux modèles de Markov cachés [10,11]) seront les points de départs. Les adaptations des lexiques et des modèles de langage devront être étendues à ce type de dialogues [12].
Durant le stage, les parties 1 et 2 devront donner lieu à un prototype utilisable. La partie 3 pourra être concrétisé par la mise en place d’un système de reconnaissance de la parole de base.

Back

Top

Organisation	Events	Membership	Help
> Board	> Interspeech	> Join - renew	> Sitemap
> Legal documents	> Workshops	> Membership directory	> Contact
> Logos			> FAQ
			> Privacy policy