ISCApad #263 |
Friday, May 15, 2020 by Chris Wellekens |
Deep Disentanglement of Speaker Identity and Phonetic Content for Voice Conversion Dates : 01/02/2020 au 30/06/2020 Laboratoire : STMS Lab (IRCAM / CNRS / Sorbonne Université) Lieu : IRCAM – Analyse et Synthèse des Sons Responsables : Nicolas Obin, Axel Roebel Contact : Nicolas.Obin@ircam.fr, Axel.Roebel@ircam.fr Contexte : La conversion de l’identité de la voix consiste à modifier les caractéristiques d’une voix « source » pour reproduire les caractéristiques d’une voix « cible » à imiter, à partir d’une collection d’exemples de la voix « cible ». La tâche de conversion d’identité de la voix s’est largement popularisée ces dernières années avec l’apparition des « deep fakes », avec comme objectif de transposer les réussites réalisées dans le domaine de l’image au domaine de la parole. Ainsi, les lignes de recherche actuelles reposent sur des architectures neuronales comme les modèles séquence-à-séquence, les réseaux antagonistes génératifs (GAN, [Goodfellow et al., 2014]) et ses variantes pour l’apprentissage à partir de données non appareillées (Cycle-GAN [Kaneko and Kamaeoka, 2017] ou AttGAN [He et al., 2019]). Les challenges majeurs de la conversion d’identité comprennent la possibilité d’apprendre des transformation d’identité efficacement à partir de petites bases de données (qq minutes) et de séparer les facteurs de variabilité de la parole afin de modifier uniquement l’identité d’un locuteur sans modifier ou dégrader le contenu linguistique et expressif de la voix. Objectifs : Le travail effectué dans ce stage concernera l’extension du système de conversion neuronal de l’identité vocale actuellement développée dans le cadre du projet ANR TheVoice (https://www.ircam.fr/projects/pages/thevoice/). Le focus principal du stage sera d’intégrer efficacement l’information du contenu linguistique au système de conversion neuronal existant. Cet objectif passera par la réalisation des tâches suivantes : - Développement d’une représentation de l’information phonétique (par ex. sous forme de Phonetic PosteriorGrams [Sun et al., 2016]) et intégration au système de conversion actuel. - Application et approfondissement de techniques de « disentanglement » de l’identité du locuteur et du contenu phonétique pour l’apprentissage de la conversion [Mathieu et al., 2016 ; Hamidreza et al., 2019] - Evaluation des résultats obtenus par comparaison à des systèmes de conversion de l’état de l’art, sur des bases de référence comme VCC2018 ou LibriSpeech. Les problèmes abordés pendant le stage seront sélectionnés en début du stage après une phase d’orientation et une étude bibliographique. Les solutions réalisées au cours du stage seront intégrées au système de conversion d’identité de la voix de l’Ircam, avec possibilité d’exploitation industrielle et professionnelle. Par exemple, le système de conversion d’identité développé à l’Ircam a été exploité dans des projets de production professionnelle pour recréer des voix de personnalités historiques : le maréchal Pétain dans le documentaire « Juger Pétain » en 2012, et Louis de Funès dans le film « Pourquoi j’ai pas mangé mon père » de Jamel Debbouze en 2015. Le stage s’appuiera sur les connaissances de l’équipe Analyse et Synthèse des Sons du laboratoire STMS (IRCAM/CNRS/Sorbonne Université) en traitement du signal de parole et en apprentissage de réseaux de neurones, et sur une grande expérience en conversion d’identité de la voix [Villavicencio et al., 2009 ; Huber, 2015]. Compétences attendues : - Maîtrise de l’apprentissage automatique, en particulier de l’apprentissage par réseaux de neurones ; - Maîtrise du traitement du signal audio numérique (analyse temps-fréquence, analyse paramétrique de signaux audio, etc…) ; - Bonne maîtrise de la programmation Python et de l’environnement TensorFlow ; - Autonomie, travail en équipe, productivité, rigueur et méthodologie. Rémunération : Gratification selon loi en vigueur et avantages sociaux Date limite de candidature : 20/12/2019 Bibliographie : [Goodfellow et al., 2014] Ian J. Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, and Yoshua Bengio, “Generative Adversarial Networks,” arXiv:1406.2661 [cs, stat], 2014. [Hamidreza et al., 2019] Seyed Hamidreza Mohammadi, Taehwan Kim. One-shot Voice Conversion with Disentangled Representations by Leveraging Phonetic Posteriorgrams, Interspeech 2019. [He et al., 2019] Z. He, W. Zuo, M. Kan, S. Shan, and X. Chen, “Attgan: Facial attribute editing by only changing what you want.,” IEEE Transactions on Image Processing, vol. 28, no. 11, 2019. [Huber 2015] S. Huber, “Voice Conversion by modelling and transformation of extended voice characteristics”, Thèse Université Pierre et Marie Curie (Paris VI), 2015. [Kanekoa and Kameoka, 2017] TakuhiroKanekoandHirokazuKameoka,“Parallel-Data-Free Voice Conversion Using Cycle-Consistent Adversarial Net- works,” arXiv:1711.11293 [cs, eess, stat], 2017 [Mathieu et al., 2016] Michael Mathieu, Junbo Zhao, Pablo Sprechmann, Aditya Ramesh, Yann LeCun. Disentangling factors of variation in deep representations using adversarial training, NIPS 2016. [Sun et al., 2016 ]Lifa Sun, Kun Li, Hao Wang, Shiyin Kang, and Helen Meng, “Phonetic posteriorgrams for many-to-one voice conversion without parallel data training,” in 2016 IEEE International Conference on Multimedia and Expo (ICME), 2016, pp. 1–6. [Villavicencio et al., 2009] Villavicencio, F., Röbel, A., and Rodet, X. (2009). Applying improved spectral modelling for high quality voice conversion. In Proc. of IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), pages 4285–4288. 17, 41, 45 |
Back | Top |