ISCApad Archive » 2017 » ISCApad #223 » Jobs » (2017-01-12) Internship INA Paris: Segmentation Parole/Musique de documents multimédias à l’aide de réseaux de neurones profonds |
ISCApad #223 |
Saturday, January 14, 2017 by Chris Wellekens |
Segmentation Parole/Musique de documents multimédias à l’aide de réseaux de neurones profonds Stage de fin d’études d’Ingénieur ou de Master 2 – 2016-2017 Mots clés: Deep Learning, Segmentation Audio, Machine Learning, Music Information Retrieval, Open Data Contexte Les missions de l’institut national de l’audiovisuel (Ina) consistent à archiver et à valoriser la mémoire audio-visuelle française (radio, télévision et médias Web). A ce jour, plus de 15 millions d’heures de documents télé et radio sont conservés, dont 1,5 millions d’heures numérisées. En raison de la masse de données considérée, il n’est techniquement pas possible de procéder à une description manuelle, systématique et détaillée de l’ensemble des archives. Il est donc nécessaire d’utiliser des techniques d’analyse automatique du contenu pour optimiser l’exploitation de cette masse de données. Objectifs du stage La segmentation Parole/Musique (SPM) consiste à segmenter un flux audio en zones homogènes de parole et de musique. Cette étape est nécessaire en amont de tâches d’indexation haut niveau, telles que la reconnaissance de la parole, du locuteur, du morceau ou du genre musical. Pour ces différentes raisons, cette tâche a suscité beaucoup d’intérêts au sein des communautés de traitement de la parole, ainsi qu’en indexation musicale. L’utilisation de systèmes de SPM à l’Ina répond à trois cas d’usage principaux. En premier lieu, il s’agit de localiser rapidement les zones d’intérêt au sein des médias, pour fluidifier les processus de description des archives, réalisés manuellement par des documentalistes. La description manuelle des archives est coûteuse, et réalisée avec un niveau de détail variable: les journaux télévisés étant décrits plus finement que les fonds radio anciens. Les systèmes SPM peuvent ainsi permettre de faciliter la navigation dans des fonds d’archives sous-documentés. Le dernier cas d’usage correspond à la segmentation en morceaux de musique: consistant à détecter le début et la fin des morceaux. Cette tâche permet de mesurer la durée des extraits musicaux présents dans les archives, et ainsi rémunérer les sociétés d’auteurs concernées lorsque les archives sont commercialisées. A ce jour, un certain nombre de situations restent difficiles pour les systèmes SMS. Il s’agit notamment la différentiation entre voix parlée et voix chantée, notament dans certains styles musicaux où les propriétés spectrales de la voix chantée et parlée sont similaires. Une autre difficulté rencontrée est liée aux cas où la parole est superposée à la musique, ce qui arrive assez fréquemment dans les émissions radio et télé. Une autre difficulté rencontrée par les systèmes actuels est la liée à la finesse de la segmentation temporelle, généralement de l’ordre de la seconde. L’objectif du stage consiste à concevoir des systèmes basés sur l’utilisation de réseaux de neurones profonds pour la segmentation parole/musique d’archives audio-visuelles. Les méthodes proposées devront prendre en charge la diversité des archives de l’Ina (archives radio des années 1930 à nos jours). Une partie du stage sera consacrée à l’analyse des corpus existants, et à la constitution d’un corpus annoté (interprète, morceau, genre, locuteur, ...) permettant d’avoir un maximum de contrôle sur l’ensemble des paramètres testés lors des évaluations. L’autre partie du stage sera consacré à la mise au point d’architectures basées sur des réseaux de neurones profonds pour la SPM, qui sera réalisée dans la continuité des travaux en cours utilisant des réseaux de neurones convolutionnels. Le langage de programmation utilisé dans le cadre de ce stage sera Python. Le stagiaire aura accès aux ressources de calcul de l’Ina (cluster et serveurs GPU). Conditions du stage Le stage se déroulera sur une période de 6 mois, au sein de l’équipe recherche de l’Ina. Il aura lieu sur le site Bry2, situé au 18 Avenue des frères Lumière, 94366 Bry-sur-Marne. Le stagiaire sera encadré par David Doukhan (ddoukhan@ina.fr) et Jean Carrive (jcarrive@ina.fr), et percevra une rémunération mensuelle de 527,75 euros/mois. Bibliographie Jimena, R. L., Hennequin, R., & Moussallam, M. (2015). Detection and characterization of singing voice using deep neural networks. Peeters, G. (2007). A generic system for audio indexing: Application to speech/music segmentation and music genre recognition. In Proc. DAFX (Vol. 7, pp. 205-212). Pinto, N., Doukhan, D., DiCarlo, J. J., & Cox, D. D. (2009). A high-throughput screening approach to discovering good forms of biologically inspired visual representation. PLoS Comput Biol, 5(11), e1000579. LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. Nature, 521(7553), 436-444. |
Back | Top |