ISCA Services

ISCA - International Speech
Communication Association

ISCApad Archive » 2016 » ISCApad #218 » Jobs » (2016-06-18) Postdoc à l'IRISA, Rennes, France

ISCApad #218

Wednesday, August 10, 2016 by Chris Wellekens

6-21 (2016-06-18) Postdoc à l'IRISA, Rennes, France

Proposition de travaux de these, IRISA, equipe Expression

Titre : Optimisation de scripts d'enregistrement pour la lecture expressive de livres audio

Mots-clefs : synthese de la parole expressive ; optimisation et apprentissage.

Contexte : Le projet vise a etudier la realisation automatique de livres audio a l'aide d'une

voix de synthese. La duree d'ecoute de l'integralite d'une uvre necessite une voix de haute

qualite a l'expressivite adaptee.

Un systeme de synthese vocale a partir du texte (TTS) produit un signal de parole

correspondant a une vocalisation d'un texte donne. Ces dernieres annees, la TTS a fait de

nombreux progres en termes de qualite acoustique et d'intelligibilite, mais la production

d'une voix expressive de tres bonne qualite reste un verrou scientique (voir [1] et ses

references). Cette qualite vocale depend fortement du systeme TTS (parametrique, ou par

selection et concatenation d'unites sonores) et du corpus de parole utilise.

Frequemment, la creation d'un tel corpus de parole necessite l'enregistrement de la lecture

d'un script specique avec des types d'expressivite donnes. Ce processus d'enregistrement

etant complexe et co^uteux, de nombreux travaux portent sur la creation d'un script

permettant de couvrir un maximun d'evenements souhaites tout en minimisant sa duree

(voir [2, 3, 4] et leurs references).

Proposition : La problematique etudiee dans ce projet de these est la creation de livres

audio sous une forme hybride : il s'agit d'enregistrer une partie minimale des livres vises

pour produire une voix de synthese la mieux adaptee au texte restant a vocaliser. Plus

generalement, le sujet porte sur l'etude des methodes de construction et d'enrichissement

automatique de scripts d'enregistrement an de produire une voix de synthese de haute

qualite pour des textes pre-denis d'expressivite variee. Cette approche se formalise en un

probleme d'optimisation d'un compromis entre qualite des messages acoustiques naux et

quantite de texte a enregistrer.

Un premier axe de travail concerne la problematique de l'evaluation subjective et objective.

Dans le cadre general de la synthese de la parole, l'evaluation de la qualite des signaux

produits est un probleme qui fait l'objet de nombreuses etudes (voir par exemple [5, 6, 7])

mais qui reste dicile. En quoi le fait de conna^tre a l'avance le texte a vocaliser ou de

disposer de signaux de parole naturelle realises dans le m^eme contexte permet de simplier

ce probleme ? D'un autre cote, le livre audio produit sera un melange de signaux naturels

et de signaux de synthese. Il sera donc necessaire d'etudier et de proposer des approches

speciques pour evaluer de tels objets et, en particulier, depasser l'evaluation subjective a

l'echelle de la phrase.

Un deuxieme axe de travail porte sur la construction automatique du script d'enregistrement

et la denition d'un compromis entre la qualite des signaux et la taille de l'enregistrement

associe. Plusieurs verrous sont deja identies. Comment les descripteurs textuels

inuencent-ils la qualite nale ? En particulier, quelles methodes d'apprentissage, guidees

par des mesures objectives de qualite, conduisent aux jeux de descripteurs optimaux ?

Un dernier axe de travail porte sur l'etude de la prise en compte des alterations entre le

resultat theorique attendu lie au script d'enregistrement et le signal acoustique reel issu de

la phase d'enregistrement. Comment detecter ces variations et adapter dynamiquement le

script an de conserver la qualite acoustique nale initialement attendue ?

Environnement de travail : le projet sera realise au sein de l'equipe Expression de l'IRISA,

dans sa composante lannionnaise specialisee sur les problematiques de synthese de la parole

et de traitement automatique des langues. Il sera encadre conjointement par Damien Lolive

et Jonathan Chevelu (IRISA-ENSSAT Lannion, Universite de Rennes1) et beneciera d'un

nancement sur trois ans (nancement des conseils departemental et regional). L'equipe

dispose d'un moteur de synthese de la parole par corpus, d'un moteur statistique (HTS),

d'un studio d'enregistrement, d'une plate-forme de tests d'ecoute [8] et d'une collection de

livres audio annotes [9] qu'elle enrichit dans le cadre d'un projet ANR.

Prol du candidat : Le candidat sera dipl^ome d'un master informatique ou de toute autre

formation equivalente. Compte-tenu du sujet, des competences avancees en algorithmique

et programmation seront requises. Le candidat disposera de la motivation et des facultes

necessaires pour aborder les domaines de recherche de la synthese de la parole, de l'apprentissage

articiel et du traitement automatique des langues.

Contacts :

Damien LOLIVE (damien.lolive@irisa.fr) et Jonathan CHEVELU (jonathan.chevelu@irisa.fr)

Bibliographie

[1] D. Govind, S. R. Mahadeva Prasanna, Expressive speech synthesis : a review, Int. J. of

Speech Tech., p. 1-24, 2013.

[2] H. Francois, Synthese de la parole par concatenation d'unites acoustiques : construction

et exploitation d'une base de parole continue, these de l'Univ. de Rennes 1, 2002

[3] D. Cadic, Optimisation du procede de creation de voix en synthese par selection, these

de l'Univ. de Paris 11, 2011

[4] N. Barbot, O. Boe
ard, J. Chevelu, A. Delhay, Large linguistic corpus reduction with

SCP algorithms, Computational Linguistics 41(3) : 355-383, 2015

[5] N. Campbell, Evaluation of speech synthesis : from reading machines to talking machines,

Evaluation of Text and Speech Synthesis, (L. Dybjoer at al. Eds.) , Chapitre 2,

2007

[6] J. Chevelu, D. Lolive, S. Le Maguer, D. Guennec, How to compare TTS systems : a

new subjective evaluation methodology focused on di
erences, Interspeech, 2015

[7] C.-T. Do, M. Evrard, A. Leman, C. d'Alessandro, A. Rilliard, J.-L. Crebouw, Objective

evaluation of HMM-based Speech synthesis system using Kullback-Liebler divergence,

Interspeech, 2015

[8] L. Blin, O. Boe
ard, V. Barreaud, WEB-based listening test system for speech synthesis

and speech conversion evaluation, LREC, 2008

[9] O. Boe
ard, L. Charonnat, S. Le Maguer, D. Lolive, Towards fully automatic annotation

of audio books for TTS, LREC, 2012

Back

Top

Organisation	Events	Membership	Help
> Board	> Interspeech	> Join - renew	> Sitemap
> Legal documents	> Workshops	> Membership directory	> Contact
> Logos			> FAQ
			> Privacy policy