ISCApad #235 |
Wednesday, January 10, 2018 by Chris Wellekens |
Adaptation des réseaux de neurones profonds pour les systèmes de transcription de la parole prononcés dans un enregistrement audio ou vidéo. Les systèmes de RAP les plus robustes reposent souvent sur une architecture multi-passe (Gauvain et Lee 1994) (Gales 1998), chaque passe permettant d’obtenir une transcription du signal audio qui se veut de meilleure qualité que la précédente. Ainsi, dans certains cas, les sorties de la passe précédente sont utilisées pour adapter les modèles de la passe en cours. L’idée de cette adaptation est d’obtenir des modèles spécialisés à l’enregistrement, et donc d’être plus robuste face aux « variabilités » des enregistrements audio (conditions acoustiques différentes, locuteurs inconnus, spontanéité de la parole, bruits de l’environnement...). Plus précisément, le stage explorera l’adaptation non-supervisée des réseaux de neurones profonds. Un des principaux challenges est d’utiliser les réseaux de neurones en tant que modèle de langage et de pouvoir les adapter à une première transcription issue du décodage. programmation (C/C++ et/ou Python). Des notions en Traitement Automatique de la Langue, Traitement de la parole ou Apprentissage automatique serait un plus. Computer Speech and Language (CSL), 1998. Gauvain, Jean-Luc, et Chin-Hui Lee. «Maximum a posteriori estimation for multivariate Gaussian mixture observations of Markov chains.» IEEE Transactions on Speech and Audio Processing (TASP), 1994. |
Back | Top |