ISCA - International Speech
Communication Association


ISCApad Archive  »  2020  »  ISCApad #259  »  Jobs  »  (2019-12-07) Stage à l'IRCAM, Paris, France

ISCApad #259

Friday, January 10, 2020 by Chris Wellekens

6-50 (2019-12-07) Stage à l'IRCAM, Paris, France
  

Deep Disentanglement of Speaker Identity and Phonetic Content for Voice

Conversion

Dates : 01/02/2020 au 30/06/2020

Laboratoire : STMS Lab (IRCAM / CNRS / Sorbonne Université)

Lieu : IRCAM – Analyse et Synthèse des Sons

Responsables : Nicolas Obin, Axel Roebel

Contact : Nicolas.Obin@ircam.fr, Axel.Roebel@ircam.fr

Contexte :

La conversion de l’identité de la voix consiste à modifier les caractéristiques d’une voix

« source » pour reproduire les caractéristiques d’une voix « cible » à imiter, à partir

d’une collection d’exemples de la voix « cible ». La tâche de conversion d’identité de la

voix s’est largement popularisée ces dernières années avec l’apparition des « deep

fakes », avec comme objectif de transposer les réussites réalisées dans le domaine de

l’image au domaine de la parole. Ainsi, les lignes de recherche actuelles reposent sur des

architectures neuronales comme les modèles séquence-à-séquence, les réseaux

antagonistes génératifs (GAN, [Goodfellow et al., 2014]) et ses variantes pour

l’apprentissage à partir de données non appareillées (Cycle-GAN [Kaneko and

Kamaeoka, 2017] ou AttGAN [He et al., 2019]). Les challenges majeurs de la conversion

d’identité comprennent la possibilité d’apprendre des transformation d’identité

efficacement à partir de petites bases de données (qq minutes) et de séparer les

facteurs de variabilité de la parole afin de modifier uniquement l’identité d’un locuteur

sans modifier ou dégrader le contenu linguistique et expressif de la voix.

Objectifs :

Le travail effectué dans ce stage concernera l’extension du système de conversion

neuronal de l’identité vocale actuellement développée dans le cadre du projet ANR

TheVoice (https://www.ircam.fr/projects/pages/thevoice/). Le focus principal du

stage sera d’intégrer efficacement l’information du contenu linguistique au système de

conversion neuronal existant. Cet objectif passera par la réalisation des tâches

suivantes :

- Développement d’une représentation de l’information phonétique (par ex. sous

forme de Phonetic PosteriorGrams [Sun et al., 2016]) et intégration au système de

conversion actuel.

- Application et approfondissement de techniques de « disentanglement » de l’identité

du locuteur et du contenu phonétique pour l’apprentissage de la conversion

[Mathieu et al., 2016 ; Hamidreza et al., 2019]

- Evaluation des résultats obtenus par comparaison à des systèmes de conversion de

l’état de l’art, sur des bases de référence comme VCC2018 ou LibriSpeech.

Les problèmes abordés pendant le stage seront sélectionnés en début du stage après une

phase d’orientation et une étude bibliographique. Les solutions réalisées au cours du

stage seront intégrées au système de conversion d’identité de la voix de l’Ircam, avec

possibilité d’exploitation industrielle et professionnelle. Par exemple, le système de

conversion d’identité développé à l’Ircam a été exploité dans des projets de production

professionnelle pour recréer des voix de personnalités historiques : le maréchal Pétain

dans le documentaire « Juger Pétain » en 2012, et Louis de Funès dans le film « Pourquoi

j’ai pas mangé mon père » de Jamel Debbouze en 2015.

Le stage s’appuiera sur les connaissances de l’équipe Analyse et Synthèse des Sons du

laboratoire STMS (IRCAM/CNRS/Sorbonne Université) en traitement du signal de parole

et en apprentissage de réseaux de neurones, et sur une grande expérience en

conversion d’identité de la voix [Villavicencio et al., 2009 ; Huber, 2015].

Compétences attendues :

- Maîtrise de l’apprentissage automatique, en particulier de l’apprentissage par

réseaux de neurones ;

- Maîtrise du traitement du signal audio numérique (analyse temps-fréquence, analyse

paramétrique de signaux audio, etc…) ;

- Bonne maîtrise de la programmation Python et de l’environnement TensorFlow ;

- Autonomie, travail en équipe, productivité, rigueur et méthodologie.

Rémunération :

Gratification selon loi en vigueur et avantages sociaux

Date limite de candidature :

20/12/2019

Bibliographie :

[Goodfellow et al., 2014] Ian J. Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David

Warde-Farley, Sherjil Ozair, Aaron Courville, and Yoshua Bengio, “Generative Adversarial

Networks,” arXiv:1406.2661 [cs, stat], 2014.

[Hamidreza et al., 2019] Seyed Hamidreza Mohammadi, Taehwan Kim. One-shot Voice

Conversion with Disentangled Representations by Leveraging Phonetic Posteriorgrams,

Interspeech 2019.

[He et al., 2019] Z. He, W. Zuo, M. Kan, S. Shan, and X. Chen, “Attgan: Facial attribute editing by

only changing what you want.,” IEEE Transactions on Image Processing, vol. 28, no. 11, 2019.

[Huber 2015] S. Huber, “Voice Conversion by modelling and transformation of extended voice

characteristics”, Thèse Université Pierre et Marie Curie (Paris VI), 2015.

[Kanekoa and Kameoka, 2017] TakuhiroKanekoandHirokazuKameoka,“Parallel-Data-Free Voice

Conversion Using Cycle-Consistent Adversarial Net- works,” arXiv:1711.11293 [cs, eess, stat],

2017

[Mathieu et al., 2016] Michael Mathieu, Junbo Zhao, Pablo Sprechmann, Aditya Ramesh, Yann

LeCun. Disentangling factors of variation in deep representations using adversarial training,

NIPS 2016.

[Sun et al., 2016 ]Lifa Sun, Kun Li, Hao Wang, Shiyin Kang, and Helen Meng, “Phonetic

posteriorgrams for many-to-one voice conversion without parallel data training,” in 2016 IEEE

International Conference on Multimedia and Expo (ICME), 2016, pp. 1–6.

[Villavicencio et al., 2009] Villavicencio, F., Röbel, A., and Rodet, X. (2009). Applying improved

spectral modelling for high quality voice conversion. In Proc. of IEEE International Conference on

Acoustics, Speech, and Signal Processing (ICASSP), pages 4285–4288. 17, 41, 45


Back  Top


 Organisation  Events   Membership   Help 
 > Board  > Interspeech  > Join - renew  > Sitemap
 > Legal documents  > Workshops  > Membership directory  > Contact
 > Logos      > FAQ
       > Privacy policy

© Copyright 2024 - ISCA International Speech Communication Association - All right reserved.

Powered by ISCA