| Étude et développement d’une solution de synthèse vocale pour l’imitation d’un locuteur Stage de fin d’études d’Ingénieur ou de Master 2 – Année académique 2018-2019 Mots clés : Synthèse vocale (Text-to-speech – TTS), Adaptation de locuteur, Deep Neural Network (DNN), Machine Learning Contexte L’Institut national de l’audiovisuel (Ina) est un établissement public à caractère industriel et commercial (EPIC) dont la mission principale consiste à archiver et valoriser la mémoire audiovisuelle française (radio, télévision et web média). À ce jour, plus de 17 millions d’heures de documents télé et radio ont été conservées. Ce stage s’inscrit dans le cadre du projet Saphir de restauration d’anciens disques gravés. Un certain nombre de ces disques sont fracturés et certaines portions des disques sont manquantes. La finalité du projet global consiste à utiliser des technologies de synthèse vocale pour combler les parties du signal pour lesquelles le support est manquant, ou trop endommagé pour pouvoir être décodé. Objectifs du stage Le but du projet est de proposer et d’implémenter une solution de synthèse paramétrique par réseaux de neurones profonds (DNN) pour la création d’un modèle de voix universel en français à partir d’un large corpus et pour l’adaptation de ce modèle vers une locuteur particulier à partir d’un corpus de taille réduite (entre 1 et 5 minutes de parole). Il sera aussi nécessaire d’évaluer l’influence de la taille du corpus utilisé pour l’adaptation sur la qualité de la synthèse résultante. Le stage sera organisé en plusieurs étapes : • Réaliser un état de l’art de la synthèse par modèles statistiques (HMM, DNN) • Réaliser un état de l’art de l’adaptation des systèmes de synthèse à un locuteur particulier • Faire l’inventaire des corpus (parole + transcription) de l’Ina (ou extérieurs en accès libre) qui pourraient servir à l’entrainement des modèles de synthèses • Entrainer un modèle universel (Universal background model – UBM) à partir d’un large corpus (2h - 50h) de plusieurs locuteurs • Adapter le modèle vers un locuteur cible à partir d’un corpus de taille réduite (1min – 5min) • Évaluer l’influence de la taille du corpus d’adaptation pour la qualité de la synthèse résultante Le langage de programmation utilisé dans le cadre de ce stage sera Python. Le stagiaire aura accès aux ressources de calcul de l’Ina (serveurs et clusters), ainsi que d’un desktop performant avec 2 GPU de génération récente. Possibilité de poursuivre en thèse CIFRE selon les résultats du stage et les offres disponibles. Valorisation du stage Différentes stratégies de valorisation des travaux du stagiaire seront envisagées, en fonction du degré de maturité des travaux réalisés : • Diffusion des outils d’analyse réalisés sous licence open-source via le dépôt GitHub de l’Ina : https://github.com/ina-foss • Rédaction de publications scientifiques. Conditions du stage Le stage se déroulera sur une période de 4 à 6 mois, au sein du service de la Recherche de l’Ina. Il aura lieu sur le site Bry2, situé au 18 Avenue des frères Lumière, 94366 Bry-sur-Marne. Le stagiaire sera encadré par Marc Evrard (mevrard@ina.fr). Gratification : environs 550 Euros par mois. Profil recherché Bac +5 dans le domaine de l’informatique et de l'IA. Compétence en langage Python et expérience dans l’utilisation de bibliothèques de machine learning et big data. Capacité à réaliser une étude bibliographique à partir d’articles scientifiques rédigés en anglais. Bibliographie Chenot, J.-H., Laborelli, L., Noiré, J.-E. (2018). Saphir: Optical Playback of Damaged and Delaminated Analogue Audio Disc Records, ACM Journal on Computing and Cultural Heritage (JOCCH) vol.11, no. 3, August 2018. <https://hal.archives-ouvertes.fr/hal-01885324>. Ze, H., Senior, A., & Schuster, M. (2013). Statistical parametric speech synthesis using deep neural networks. In 2013 IEEE International Conference on Acoustics, Speech and Signal Processing (pp. 7962–7966). Vancouver, BC, Canada: IEEE. https://doi.org/10.1109/ICASSP.2013.6639215 Wang, Y., Skerry-Ryan, R. J., Stanton, D., Wu, Y., Weiss, R. J., Jaitly, N., Saurous, R. A. (2017). Tacotron: Towards End-to-End Speech Synthesis. In Interspeech. Wu, Z., Swietojanski, P., Veaux, C., Renals, S., & King, S. (2015). A Study of Speaker Adaptation for DNN-Based Speech Synthesis, 5. In Interspeech. |