ISCApad #273

Thursday, March 11, 2021 by Chris Wellekens

6-17 (2020-11-28) Master2 Internship, INA, Bry sur Marne, France

Détection de locuteur·rice actif·ve dans les flux télévisuels

Sujet de Stage - M2 informatique ou école d?ingénieur

Mots clés (Fr): Détection de locuteur actif, analyse multimodale, traitement de la parole, détection du visage, apprentissage automatique, apprentissage profond, audiovisuel, humanités numériques, place des femmes dans les médias, indexation automatique, gender equality monitor

Keywords (En): Active speaker detection, multimodal analysis, speech processing, face detection, machine learning, deep learning, audiovisual, digital humanities, women in media, automatic indexing, gender equality monitor

Contexte

L?Institut national de l?audiovisuel (INA) est en charge du Dépôt Légal de la télévision, de la radio et du web médias. À ce titre, l?INA capte en continu 170 chaînes de télévision et stocke plus de 20 millions d?heures de contenu audiovisuel.

Un processus d?indexation, généralement réalisé par des documentalistes, est nécessaire pour décrire les contenus audiovisuels et retrouver des documents au sein de ces grandes collections. Ce travail consiste, entre autres, à référencer les personnes apparaissant dans les programmes, les sujets évoqués, ou encore produire des résumés des documents. Les activités du service de la recherche de l?INA visent à automatiser certains processus d?indexation: soit en automatisant certaines tâches sans valeur ajoutée humaine (segmentation, repérage de noms propres dans l?image, etc.), soit en réalisant des tâches qui ne sont pas faites par les documentalistes (décompte exhaustif du temps de parole).

Le sujet proposé s?inscrit dans le cadre du projet Gender Equality Monitor (GEM), financé par l?Agence nationale de la recherche, qui vise à décrire les différences de représentation existant entre les femmes et les hommes dans les médias. Dans ce cadre, des campagnes d?indexation automatique massives des fonds INA ont permis de créer de nouvelles connaissances en science humaines en se fondant sur le temps de parole, le temps d?exposition visuelle, ou encore le contenu des incrustations texte [Dou19a, Dou19b, Dou20].

L?amélioration des systèmes d?indexation automatique nécessite de mettre au point des bases d?exemples représentatives de la diversité des matériaux traités, utilisées pour l?entraînement et l?évaluation. La constitution de bases d?exemples est un enjeu stratégique pour la conception de systèmes fondés sur des processus d?apprentissage automatique et des stratégies d?automatisation de constitution des bases peuvent être envisagées [Sal14].

Objectifs

La détection de locuteur·rice actif·ve (DLA) est une tâche d?analyse multimodale qui consiste à analyser une vidéo, déterminer si les mouvements d?un des visages apparaissant à l?écran correspondent au signal de parole contenu dans la piste audio. La conception de système DLA peut-être envisagée à l?aide d?approches non supervisées [Chun16] ou supervisées [Rot20]. La DLA répond à plusieurs problématiques métier rencontrées par l?INA.

Synchronisation audio/vidéo: il est fréquent que le flux vidéo et audio de documents numérisés soient désynchronisés. La DLA permet d?estimer la durée de décalage existant entre la piste audio et vidéo et synchroniser automatiquement ces deux flux.
Amélioration des systèmes de detection du sexe à partir de la voix ou des visages: les logiciels open-source inaSpeechSegmenter et inaFaceGender permettent respectivement de détecter le sexe d?une personne à partir de sa voix ou de son visage. Ces systèmes ont été conçus à partir d?un nombre d?exemples nécessairement fini, qui ne reflète pas parfaitement la diversité des contenus INA. L?utilisation de systèmes de détection de locuteur·rice actif·ve est envisagée pour constituer automatiquement des jeux de données pour lesquelles les prédictions du sexe de la personne sont différentes pour les modalités audio et vidéo, et ainsi accroître la robustessse des outils INA. Les cas limites obtenus peuvent également faire l?objet d?analyses plus poussées visant à décrire les limites des approches binaires pour la description des personnes.
Constitution de base multimodales: l?utilisation de système DLA, combinée aux notices documentaires INA et à un nombre d?exemples limité, peut être envisagée pour concevoir de nouvelles bases de visages et de parole [Nag20].

L?objectif général du stage consiste à mettre au point un système DLA, l?évaluer par rapport aux implémentations open-source existantes, le déployer sur les fonds INA pour constituer des bases d?exemples permettant d?améliorer les logiciels inaSpeechSegmenter et inaFaceGender. En fonction des résultats obtenus, le stage peut déboucher sur une diffusion open-source du système réalisé et/ou une publication scientifique.

Compétences requises

Apprentissage automatique
Vision artificielle et traitement d?images
Traitement du signal audio
Aisance en python
Ingénierie logicielle
Capacité à effectuer des recherches bibliographiques
Rigueur, Synthèse, Autonomie, Capacité à travailler en équipe
Intérêt pour la recherche académique et industrielle

Conditions du stage

Le stage se déroulera sur une période de 4 à 6 mois au sein du service de la Recherche de l?Ina et pourra débuter à partir de Janvier 2021. Il aura lieu sur le site Bry2, situé au 18 Avenue des frères Lumière, 94366 Bry-sur-Marne. Le stagiaire sera encadré par David Doukhan, Ingénieur R&D au service de la recherche et coordinateur du projet GEM.

Contact

Les candidat·e·s intéressé·e·s peuvent contacter David Doukhan (ddoukhan@ina.fr) pour plus d?informations, ou directement adresser par courriel une lettre de candidature incluant un Curriculum Vitae.

Bibliographie

[Chun16] Chung, J. S., & Zisserman, A. (2016). Out of time: automated lip sync in the wild. In Asian conference on computer vision (pp. 251-263). Springer, Cham.

[Dou18] Doukhan, D., Carrive, J., Vallet, F., Larcher, A., & Meignier, S. (2018). An open-source speaker gender detection framework for monitoring gender equality. In ICASSP (pp. 5214-5218).

[Dou19a] Doukhan, D. (2019) À la radio et à la télé, les femmes parlent deux fois moins que les hommes. La revue des médias

[Dou19b] Doukhan, D., Rezgui, Z., Poels, G., & Carrive, J. (2019). Estimer automatiquement les différences de représentation existant entre les femmes et les hommes dans les médias.

[Dou20] Doukhan, D., Méadel, C., Coulomb-Gully, M. (2020) En période de coronavirus, la parole d?autorité dans l?info télé reste largement masculine. La revue des médias

[Nag20] Nagrani, A., Chung, J. S., Xie, W., & Zisserman, A. (2020). Voxceleb: Large-scale speaker verification in the wild. Computer Speech & Language, 60, 101027.

[Rot20] Roth, J., Chaudhuri, S., Klejch, O., Marvin, R., Gallagher, A., Kaver, L., & Pantofaru, C. (2020). Ava Active Speaker: An Audio-Visual Dataset for Active Speaker Detection. In ICASSP IEEE.

[Sal14] Salmon, F., & Vallet, F. (2014). An Effortless Way To Create Large-Scale Datasets For Famous Speakers. In LREC (pp. 348-352).

Back

Top

Organisation	Events	Membership	Help
> Board	> Interspeech	> Join - renew	> Sitemap
> Legal documents	> Workshops	> Membership directory	> Contact
> Logos			> FAQ
			> Privacy policy