ISCA - International Speech
Communication Association


ISCApad Archive  »  2025  »  ISCApad #319  »  Jobs  »  (2024-12-13) Stage IRCAM/CNRS/EURECOM

ISCApad #319

Friday, January 10, 2025 by Chris Wellekens

6-33 (2024-12-13) Stage IRCAM/CNRS/EURECOM
  

Génération de deepfakes audio-visuels par modèle de diffusion multimodal

Dates : 01/03/2025 au 31/08/2025

Laboratoire : STMS Lab (IRCAM / CNRS / Sorbonne Université et EURECOM

Lieu : IRCAM – Analyse et Synthèse des Sons (Paris) ou EURECOM (Sophia Antipolis)

Responsables : Nicolas Obin (Ircam), Jean-Luc Dugelay (EURECOM), Alexandre Libourel (EURECOM)

Contact : nicolas.obin@ircam.fr, Jean-Luc.Dugelay@eurecom.fr, Alexandre.Libourel@eurecom.fr

Contexte : Ce stage s’inscrit dans le contexte du projet DeTOX

- Lutte contre les vidéos hyper-truquées de personnalités françaises, financé par ASTRID/ANR et en collaboration avec EURECOM. Les récents challenges ont montré qu’il était extrêmement difficile de mettre au point des détecteurs universels de vidéos hyper-truquées - à l’exemple des “deep fakes” utilisés pour contrefaire l’identité d’une personne. Lorsque les détecteurs sont exposés à des vidéos générées par un algorithme nouveau, c’est-à-dire inconnu lors de la phase d’apprentissage, les performances sont encore extrêmement limitées. Pour la partie vidéo, les algorithmes examinent les images une par une, sans tenir compte de l’évolution de la dynamique faciale au cours du temps. Pour la partie vocale, la voix est générée de manière indépendante de la vidéo ; en particulier, la synchronisation audio-vidéo entre la voix et les mouvements des lèvres n’est pas prise en compte. Ceci constitue un point faible important des algorithmes de génération de vidéos hyper-truquées. Le projet DeTOX vise à implémenter et à apprendre des algorithmes de détection de deepfakes personnalisés sur des individus pour lesquels on peut disposer et/ou fabriquer de nombreuses séquences audio-vidéo réelles et falsifiées. En se basant sur des briques technologiques de base en audio et vidéo récupérées de l’état de l’art, le projet se concentrera sur la prise en compte de l’évolution temporelle des signaux audio-visuels et de leur cohérence pour la génération et la détection. Nous souhaitons ainsi démontrer qu’en utilisant simultanément l’audio et la vidéo et en se focalisant sur une personne précise lors de l’apprentissage et de la détection, il est possible de concevoir des détecteurs efficaces même face à des générateurs encore non répertoriés. De tels outils permettront de scruter et de détecter sur le web d’éventuelles vidéos hyper-truquées de personnalités françaises importantes (président de la république, journalistes, chef d’état-major des armées, …) et ce dès leur publication. Objectifs : La génération deepfakes audio-visuels repose actuellement sur l’assemblage de deepfakes audio, visuel, et de resynchronisation labiale générés séparément. Chaque modalité possède des générateurs de référence dans l’état de l’art : par exemple, LIA [1, 2] ou DeepFaceLab pour l’image, RVC [3] pour l’audio, et Wav2lip et Diff2lip [4] pour la synchronisation labiale audio-visuelle.

L’objectif de ce stage consistera à implémenter, entraîner, et évaluer un modèle de génération de deepfakes audio-visuel par diffusion multimodale à partir de générateurs existants et optimisée sur une personnalité visée.

Les contributions attendues sont :

- L’implémentation d’un post-net basé sur un modèle de diffusion à partir de flux de données asynchrones qui, à partir d’un assemblage de générateurs séparés, homogénéise et optimise le réalisme du rendu de la génération d’un deepfake audio-visuel

- La spécialisation de la génération conditionnée sur l’identité d’une personnalité, par exemple par la mise en œuvre d’un apprentissage adversarial conditionné sur la personne.

- La génération d’une base de données de deepfakes audio-visuel sur une ou plusieurs personnalités françaises.

- La mise en œuvre de protocoles d’évaluation objectif et subjectif pour l’évaluation de la qualité et du réalisme des deepfakes générés

 

Le stage s’appuiera en majeure partie sur les connaissances de l’équipe Analyse et Synthèse des Sons en traitement du signal de parole et en modélisation générative par réseaux de neurones, en collaboration étroite avec EURECOM pour la génération multimodale. En outre, le ou la stagiaire pourra s’appuyer sur les implémentations existantes des générateurs audio, visuel, et de synchronisation labiale déjà réalisées dans le cadre du projet DeTOX.

Compétences attendues :

● Maîtrise de l’apprentissage automatique, en particulier de l’apprentissage par réseaux de neurones, et multimodal.

● Maîtrise du traitement du signal numérique (son, image)

● Bonne maîtrise de la programmation Python et de l’environnement TensorFlow et PyTorch et du calcul distribué sur des unités GPUs

● Autonomie, travail en équipe, communication, productivité, rigueur et méthodologie.

Rémunération : Gratification selon loi en vigueur et avantages sociaux

 

Date limite de candidature : 20/01/2025

Bibliographie :

[1] Wang, Yaohui, Di Yang, Francois Bremond, and Antitza Dantcheva. 'LIA: Latent Image Animator.' IEEE Transactions on Pattern Analysis and Machine Intelligence (2024).

[2] Wang, Y., Yang, D., Bremond, F. and Dantcheva, A., 2022. Latent image animator: Learning to animate images via latent space navigation. In International Conference on Learning Representation (ICLR), 2022.

[3] Retrieval-based Voice Conversion. Available online: https://github.com/RVCProject/Retrieval-based-Voice-ConversionWebUI/blob/main/docs/en/README.en.md

[4] Mukhopadhyay; S. et al. Diff2Lip: Audio Conditioned Diffusion Models for LipSynchronization. In Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision (WACV), pp. 5292-5302. 2024


Back  Top


 Organisation  Events   Membership   Help 
 > Board  > Interspeech  > Join - renew  > Sitemap
 > Legal documents  > Workshops  > Membership directory  > Contact
 > Logos      > FAQ
       > Privacy policy

© Copyright 2025 - ISCA International Speech Communication Association - All right reserved.

Powered by ISCA