ISCA - International Speech
Communication Association


ISCApad Archive  »  2013  »  ISCApad #183  »  Jobs  »  (2013-05-15) Post-doctorat dans le cadre du projet ANR DIADEMS, LABRI, Bordeaux France

ISCApad #183

Wednesday, September 11, 2013 by Chris Wellekens

6-15 (2013-05-15) Post-doctorat dans le cadre du projet ANR DIADEMS, LABRI, Bordeaux France
  

ance'Offre de post-doctorat dans le cadre du projet ANR DIADEMS (Description, Indexation, Accès aux Documents Ethnomusicologiques et Sonores).

 

 

- Sujet de post-doctorat : identification / classification instrumentale

 

Durée : 12 mois

Salaire : environ 2000 €/mois

Date de début souhaitée : septembre 2013

 

La reconnaissance automatique d'instrument et la classification par famille d'instruments est un domaine de recherche actif du MIR (Music Information Retrieval) [Hei09] [Kit07] [Her06] [Ess06]. Les principales techniques reposent sur des méthodes statistiques utilisant des paramètres audio de type MFCC. Nous souhaitons ici tracer une voie nouvelle, permettant de faire le lien entre le traitement de la parole et le traitement de la musique, en considérant l'interprétation musicale comme une phrase, et l'instrument ou l'instrumentiste comme un locuteur.

 

Ce travail s'effectuera en parallèle d'une thèse en cours sur la caractérisation et l'identification de la voix chantée. Au cours de cette thèse, nous avons proposé une méthode permettant d'identifier les segments contenant de la voix chantée dans des enregistrements polyphoniques (e.g. musique 'pop'). L'objet actuel d'étude est de déterminer quels sont les paramètres du signal les plus pertinents pour caractériser différents styles de chant.

 

Une des pistes que nous souhaitons poursuivre sera d'identifier l'instrument en suivant le vibrato, de manière similaire à ce qui est proposé pour la voix chantée. En insistant sur la dimension temporelle plutôt que spectrale, nous pourrons aussi observer comment s'enchainent les respirations, les attaques sonores ou les changements timbraux utilisés par le musicien. Ce travail exploratoire nécessitera dans un premier temps d'effectuer des expérimentations sur des bases de données simples (telles que [Fri97] et [Got03]) afin de valider notre approche avant d'appliquer nos algorithmes aux données du projet DIADEMS.

 

 

- Références :

 

[Hei09] Heittola, T., Klapuri, A., Virtanen, T., 'Musical Instrument Recognition in Polyphonic Audio Using Source-Filter Model for Sound Separation,' in Proc. 10th Int. Society for Music Information Retrieval Conf. (ISMIR 2009), Kobe, Japan, 2009.

 

[Kit07] Tetsuro Kitahara, Masataka Goto, Kazunori Komatani, Tetsuya Ogata, and Hiroshi G. Okuno: 'Instrument Identification in Polyphonic Music: Feature Weighting to Minimize Influence of Sound Overlaps', EURASIP Journal on Advances in Signal Processing, Special Issue on Music Information Retrieval based on Signal Processing, Vol.2007, No.51979, pp.1--15, 2007.

 

[Her06] P. Herrera-Boyer, A. Klapuri, and M. Davy. Automatic classification of pitched musical instrument sounds. Signal Processing Methods for Music Transcription, pages 163–200. Springer, 2006.

 

[Ess06] S. Essid, G. Richard, and David.B. Instrument recognition in polyphonic music based on automatic taxonomies. IEEE Transactions on Audio, Speech & Language Processing, 14(1):68–80, 2006.

 

[Fri97] L. Fritts, “Musical Instrument Samples,” Univ. Iowa Electronic Music Studios, 1997–. [Online]. Available: http://theremin.music.uiowa.edu/MIS.html

 

[Got03] Goto M, Hashiguchi H, Nishimura T, Oka R. RWC music database: Music genre database and musical instrument sound database. ISMIR. 2003:229–230.

 

---------

 

Description du projet DIADEMS (Partenaires : LaBRI, IRIT, LESC, Parisson, LIMSI, MNHN, LAM-IJLRA)

 

Le Laboratoire d'Ethnologie et de Sociologie Comparative (LESC) comprenant le Centre de Recherche en Ethnomusicologie (CREM) et le centre d'Enseignement et de Recherche en Ethnologie Amérindienne (EREA) ainsi que le Laboratoire d'Eco-anthropologie du Muséum National d'Histoire Naturelle (MNHN) sont confrontés à la nécessité d'indexer les fonds sonores qu'ils gèrent et de faire un repérage des contenus, travail long, fastidieux et coûteux.

 

Lors de l'Ecole d'Été interdisciplinaire Sciences et Voix 2010 organisée par le CNRS, une convergence d'intérêts s'est dégagée entre les acousticiens, les ethnomusicologues et les informaticiens : il existe aujourd'hui des outils d'analyse avancés du son développés par les spécialistes en indexation qui permettent de faciliter le repérage, l'accès et l'indexation des contenus.

 

Le contexte du projet est l'indexation et l'amélioration de l'accès aux fonds d'archives sonores du LESC : le fonds du CREM et celui d'ethnolinguistique de l'EREA (« chanté-parlé » Maya, ainsi que celui du MNHN (musique traditionnelle africaine). Il s'inscrit dans la continuité d'une réflexion entreprise en 2007 pour l'accès aux données sonores de la Recherche : aucune application n'existant en « open source » sur le marché, le CREM-LESC, le LAM et la Phonothèque de la MMSH d'Aix-en Provence ont étudié la conception d'un outil innovant et collaboratif qui répond à des besoins « métier » liés à la temporalité du document, tout en étant adapté à des exigences du secteur de la recherche. Avec le soutien financier du Très Grand Equipement (TGE) ADONIS du CNRS et du Ministère de la Culture, la plateforme Telemeta développée par la société PARISSON a été mise en ligne en mai 2011 : http://archives.crem-cnrs.fr . Sur cette plateforme, des outils d'analyse élémentaires de traitement de signal sont d'ores et déjà disponibles.

 

Cependant, il est nécessaire de disposer d'un ensemble d'outils avancés et innovants pour une aide à l'indexation automatique ou semi-automatique de ces données sonores, issues d'enregistrements parfois longs, au contenu très hétérogène et d'une qualité variée. L'objectif du projet DIADEMS est de fournir certains des outils, de les intégrer dans Telemeta, en répondant aux besoins des usagers. Il s'en suit une complémentarité des objectifs scientifiques des différents partenaires : Les fournisseurs de technologies, l'IRIT, le LIMSI, le LaBRI et le LAM auront à :

- Fournir des technologies existantes telles que la détection de parole, de musique, la structuration en locuteurs. Ces outils visent à extraire des segments homogènes d'intérêt pour l'usager. Ces systèmes auront à faire face à la diversité des bases qu'il est proposé d'étudier dans ce projet ; leur hétérogénéité est liée aux conditions d'enregistrement, au genre et à la nature des documents, à leur origine géographique. Il faudra adapter ces systèmes dits « état de l'art » aux besoins des usagers.

- Proposer des outils innovants d'exploration du contenu de segments homogènes. Les travaux sur l'opposition voix parlée-déclamée-chantée, le chant, les tours de chant, la recherche de similarité musicale ne sont pas matures. Un véritable travail de recherche reste à faire et avoir à sa disposition des musicologues et des ethnomusicologues est un atout positif. Les ethnomusicologues, ethnolinguistes, acousticiens spécialistes de la voix et les documentalistes spécialisés vont jouer un rôle important dans le projet en tant que futurs utilisateurs des outils d'indexation : Les documentalistes doivent s'approprier les outils et apporter leur expérience afin d'adapter ces outils à leur besoin en indexation.

 

Un échange important doit se réaliser entre celui qui fournit l'outil, celui qui l'intègre et celui qui l'utilise. L'effort doit être porté sur la visualisation des résultats avec pour fin une aide forte à l'indexation en la rendant de fait semi-automatique Pour l'ethnomusicologue et le musicologue, l'objectif va au-delà de l'indexation. Il s'agit au travers d'aller et retour entre lui et les concepteurs de technologies de cibler les outils pertinents d'extraction d'information.

 

Jean-Luc Rouas LABRI 351, cours de la Libération 33405 Talence cedex France (+33) 5 40 00 35 08

 

 


Back  Top


 Organisation  Events   Membership   Help 
 > Board  > Interspeech  > Join - renew  > Sitemap
 > Legal documents  > Workshops  > Membership directory  > Contact
 > Logos      > FAQ
       > Privacy policy

© Copyright 2024 - ISCA International Speech Communication Association - All right reserved.

Powered by ISCA