ISCA Services

ISCA - International Speech
Communication Association

ISCApad Archive » 2017 » ISCApad #227 » Jobs » (2017-01-12) Internship INA Paris: Segmentation Parole/Musique de documents multimédias à l’aide de réseaux de neurones profonds

ISCApad #227

Thursday, May 11, 2017 by Chris Wellekens

6-3 (2017-01-12) Internship INA Paris: Segmentation Parole/Musique de documents multimédias à l’aide de réseaux de neurones profonds

Segmentation Parole/Musique de documents multimédias à

l’aide de réseaux de neurones profonds

Stage de fin d’études d’Ingénieur ou de Master 2 – 2016-2017

Mots clés: Deep Learning, Segmentation Audio, Machine Learning, Music Information

Retrieval, Open Data

Contexte

Les missions de l’institut national de l’audiovisuel (Ina) consistent à archiver et à valoriser la

mémoire audio-visuelle française (radio, télévision et médias Web). A ce jour, plus de 15 millions

d’heures de documents télé et radio sont conservés, dont 1,5 millions d’heures numérisées. En

raison de la masse de données considérée, il n’est techniquement pas possible de procéder à une

description manuelle, systématique et détaillée de l’ensemble des archives. Il est donc nécessaire

d’utiliser des techniques d’analyse automatique du contenu pour optimiser l’exploitation de cette

masse de données.

Objectifs du stage

La segmentation Parole/Musique (SPM) consiste à segmenter un flux audio en zones homogènes de

parole et de musique. Cette étape est nécessaire en amont de tâches d’indexation haut niveau, telles

que la reconnaissance de la parole, du locuteur, du morceau ou du genre musical. Pour ces

différentes raisons, cette tâche a suscité beaucoup d’intérêts au sein des communautés de traitement

de la parole, ainsi qu’en indexation musicale.

L’utilisation de systèmes de SPM à l’Ina répond à trois cas d’usage principaux. En premier lieu, il

s’agit de localiser rapidement les zones d’intérêt au sein des médias, pour fluidifier les processus de

description des archives, réalisés manuellement par des documentalistes. La description manuelle

des archives est coûteuse, et réalisée avec un niveau de détail variable: les journaux télévisés étant

décrits plus finement que les fonds radio anciens. Les systèmes SPM peuvent ainsi permettre de

faciliter la navigation dans des fonds d’archives sous-documentés. Le dernier cas d’usage

correspond à la segmentation en morceaux de musique: consistant à détecter le début et la fin des

morceaux. Cette tâche permet de mesurer la durée des extraits musicaux présents dans les archives,

et ainsi rémunérer les sociétés d’auteurs concernées lorsque les archives sont commercialisées.

A ce jour, un certain nombre de situations restent difficiles pour les systèmes SMS. Il s’agit

notamment la différentiation entre voix parlée et voix chantée, notament dans certains styles

musicaux où les propriétés spectrales de la voix chantée et parlée sont similaires. Une autre

difficulté rencontrée est liée aux cas où la parole est superposée à la musique, ce qui arrive assez

fréquemment dans les émissions radio et télé. Une autre difficulté rencontrée par les systèmes

actuels est la liée à la finesse de la segmentation temporelle, généralement de l’ordre de la seconde.

L’objectif du stage consiste à concevoir des systèmes basés sur l’utilisation de réseaux de neurones

profonds pour la segmentation parole/musique d’archives audio-visuelles. Les méthodes proposées

devront prendre en charge la diversité des archives de l’Ina (archives radio des années 1930 à nos

jours). Une partie du stage sera consacrée à l’analyse des corpus existants, et à la constitution d’un

corpus annoté (interprète, morceau, genre, locuteur, ...) permettant d’avoir un maximum de contrôle

sur l’ensemble des paramètres testés lors des évaluations. L’autre partie du stage sera consacré à la

mise au point d’architectures basées sur des réseaux de neurones profonds pour la SPM, qui sera

réalisée dans la continuité des travaux en cours utilisant des réseaux de neurones convolutionnels.

Le langage de programmation utilisé dans le cadre de ce stage sera Python. Le stagiaire aura accès

aux ressources de calcul de l’Ina (cluster et serveurs GPU).

Conditions du stage

Le stage se déroulera sur une période de 6 mois, au sein de l’équipe recherche de l’Ina. Il aura lieu

sur le site Bry2, situé au 18 Avenue des frères Lumière, 94366 Bry-sur-Marne. Le stagiaire sera

encadré par David Doukhan (ddoukhan@ina.fr) et Jean Carrive (jcarrive@ina.fr), et percevra une

rémunération mensuelle de 527,75 euros/mois.

Bibliographie

Jimena, R. L., Hennequin, R., & Moussallam, M. (2015). Detection and characterization of singing

voice using deep neural networks.

Peeters, G. (2007). A generic system for audio indexing: Application to speech/music segmentation

and music genre recognition. In Proc. DAFX (Vol. 7, pp. 205-212).

Pinto, N., Doukhan, D., DiCarlo, J. J., & Cox, D. D. (2009). A high-throughput screening approach

to discovering good forms of biologically inspired visual representation. PLoS Comput Biol, 5(11),

e1000579.

LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. Nature, 521(7553), 436-444.

Back

Top

Organisation	Events	Membership	Help
> Board	> Interspeech	> Join - renew	> Sitemap
> Legal documents	> Workshops	> Membership directory	> Contact
> Logos			> FAQ
			> Privacy policy