ISCApad #218 |
Wednesday, August 10, 2016 by Chris Wellekens |
Proposition de travaux de these, IRISA, equipe Expression Titre : Optimisation de scripts d'enregistrement pour la lecture expressive de livres audio Mots-clefs : synthese de la parole expressive ; optimisation et apprentissage. Contexte : Le projet vise a etudier la realisation automatique de livres audio a l'aide d'une voix de synthese. La duree d'ecoute de l'integralite d'une uvre necessite une voix de haute qualite a l'expressivite adaptee. Un systeme de synthese vocale a partir du texte (TTS) produit un signal de parole correspondant a une vocalisation d'un texte donne. Ces dernieres annees, la TTS a fait de nombreux progres en termes de qualite acoustique et d'intelligibilite, mais la production d'une voix expressive de tres bonne qualite reste un verrou scientique (voir [1] et ses references). Cette qualite vocale depend fortement du systeme TTS (parametrique, ou par selection et concatenation d'unites sonores) et du corpus de parole utilise. Frequemment, la creation d'un tel corpus de parole necessite l'enregistrement de la lecture d'un script specique avec des types d'expressivite donnes. Ce processus d'enregistrement etant complexe et co^uteux, de nombreux travaux portent sur la creation d'un script permettant de couvrir un maximun d'evenements souhaites tout en minimisant sa duree (voir [2, 3, 4] et leurs references). Proposition : La problematique etudiee dans ce projet de these est la creation de livres audio sous une forme hybride : il s'agit d'enregistrer une partie minimale des livres vises pour produire une voix de synthese la mieux adaptee au texte restant a vocaliser. Plus generalement, le sujet porte sur l'etude des methodes de construction et d'enrichissement automatique de scripts d'enregistrement an de produire une voix de synthese de haute qualite pour des textes pre-denis d'expressivite variee. Cette approche se formalise en un probleme d'optimisation d'un compromis entre qualite des messages acoustiques naux et quantite de texte a enregistrer. Un premier axe de travail concerne la problematique de l'evaluation subjective et objective. Dans le cadre general de la synthese de la parole, l'evaluation de la qualite des signaux produits est un probleme qui fait l'objet de nombreuses etudes (voir par exemple [5, 6, 7]) mais qui reste dicile. En quoi le fait de conna^tre a l'avance le texte a vocaliser ou de disposer de signaux de parole naturelle realises dans le m^eme contexte permet de simplier ce probleme ? D'un autre cote, le livre audio produit sera un melange de signaux naturels et de signaux de synthese. Il sera donc necessaire d'etudier et de proposer des approches speciques pour evaluer de tels objets et, en particulier, depasser l'evaluation subjective a l'echelle de la phrase. Un deuxieme axe de travail porte sur la construction automatique du script d'enregistrement et la denition d'un compromis entre la qualite des signaux et la taille de l'enregistrement associe. Plusieurs verrous sont deja identies. Comment les descripteurs textuels inuencent-ils la qualite nale ? En particulier, quelles methodes d'apprentissage, guidees par des mesures objectives de qualite, conduisent aux jeux de descripteurs optimaux ? Un dernier axe de travail porte sur l'etude de la prise en compte des alterations entre le resultat theorique attendu lie au script d'enregistrement et le signal acoustique reel issu de la phase d'enregistrement. Comment detecter ces variations et adapter dynamiquement le script an de conserver la qualite acoustique nale initialement attendue ? Environnement de travail : le projet sera realise au sein de l'equipe Expression de l'IRISA, dans sa composante lannionnaise specialisee sur les problematiques de synthese de la parole et de traitement automatique des langues. Il sera encadre conjointement par Damien Lolive 1 et Jonathan Chevelu (IRISA-ENSSAT Lannion, Universite de Rennes1) et beneciera d'un nancement sur trois ans (nancement des conseils departemental et regional). L'equipe dispose d'un moteur de synthese de la parole par corpus, d'un moteur statistique (HTS), d'un studio d'enregistrement, d'une plate-forme de tests d'ecoute [8] et d'une collection de livres audio annotes [9] qu'elle enrichit dans le cadre d'un projet ANR. Prol du candidat : Le candidat sera dipl^ome d'un master informatique ou de toute autre formation equivalente. Compte-tenu du sujet, des competences avancees en algorithmique et programmation seront requises. Le candidat disposera de la motivation et des facultes necessaires pour aborder les domaines de recherche de la synthese de la parole, de l'apprentissage articiel et du traitement automatique des langues. Contacts : Damien LOLIVE (damien.lolive@irisa.fr) et Jonathan CHEVELU (jonathan.chevelu@irisa.fr) Bibliographie [1] D. Govind, S. R. Mahadeva Prasanna, Expressive speech synthesis : a review, Int. J. of Speech Tech., p. 1-24, 2013. [2] H. Francois, Synthese de la parole par concatenation d'unites acoustiques : construction et exploitation d'une base de parole continue, these de l'Univ. de Rennes 1, 2002 [3] D. Cadic, Optimisation du procede de creation de voix en synthese par selection, these de l'Univ. de Paris 11, 2011 [4] N. Barbot, O. Boe SCP algorithms, Computational Linguistics 41(3) : 355-383, 2015 [5] N. Campbell, Evaluation of speech synthesis : from reading machines to talking machines, Evaluation of Text and Speech Synthesis, (L. Dybjoer at al. Eds.) , Chapitre 2, 2007 [6] J. Chevelu, D. Lolive, S. Le Maguer, D. Guennec, How to compare TTS systems : a new subjective evaluation methodology focused on di [7] C.-T. Do, M. Evrard, A. Leman, C. d'Alessandro, A. Rilliard, J.-L. Crebouw, Objective evaluation of HMM-based Speech synthesis system using Kullback-Liebler divergence, Interspeech, 2015 [8] L. Blin, O. Boe and speech conversion evaluation, LREC, 2008 [9] O. Boe of audio books for TTS, LREC, 2012 2 |
Back | Top |