|  | 
| ISCApad #319 | 
| Friday, January 10, 2025 by Chris Wellekens | 
| 6-1 | (2024-06- 03) Offre de these, GIPSA-Lab, Grenoble, France 
 Si :  - vous cherchez une thèse en sciences et technologies de la parole ; - vous vous demandez si on peut prédire l'intonation de la voix à partir des lèvres, de la langue ou du visage ; - vous vous demandez quelle serait la qualité d'une interaction orale avec quelqu'un utilisant ce système ; - vous aimez l'apprentissage automatique, les expériences comportementales, et les montagnes  alors cliquez ici : https://www.gipsa-lab.grenoble-inp.fr/~olivier.perrotin/media/others/SilentPitch_PhD.pdf En vous souhaitons bonne réception, n'hésitez pas à me contacter pour obtenir plus de détails, et n'hésitez pas à diffuser à vos étudiants qui ne sont pas encore inscrits à la liste parole,  Olivier Perrotin _________________________________________ Dr. Olivier Perrotin | Chargé de recherche CNRS CNRS / Grenoble INP / UGA GIPSA-lab, Département Parole et Cognition, équipe CRISSP 11 rue des Mathématiques – BP 46 38402 St Martin d’Hères Bâtiment B - Bureau B353 Tel: +33 (0)4 76 57 45 36 Web : http://www.gipsa-lab.grenoble-inp.fr/~olivier.perrotin/ 
 | ||||||||||||||||
| 6-2 | (2024-06-06) One year postdoc Naver Labs Europe We offer this 1y postdoc on LLM-based agents, to work with us on the UTTER EU Project Come work with us on one or several of these topics: i] managing uncertainty and ambiguity ii] improving the use of conversational context iii] ensuring the safety and alignment of LLMs. 
 | ||||||||||||||||
| 6-3 | (2024-06-07) Deux postes d'ingenieur à l'INRIA Nancy, France INRIA Nancy propose deux offres de postes d'ingénieur. Nous vous remercions de les transmettre aux potentielles personnes intéressées. Les candidats sont invités à postuler en ligne dès que possible. Les candidatures seront évaluées au fil de l'eau. Contexte : À travers le projet COLaF (Corpus et Outils pour les Langues de France), Inria a pour objectif de contribuer au développement de corpus et d’outils libres pour le français et les autres langues de France (alsacien, breton, corse, occitan, etc). La promotion et sauvegarde de ces langues dépend de la disponibilité des technologies linguistiques, mais ces langues sont largement ignorées par les industriels. Poste 1 : Ingénieur en Traitement des Langues et Développement de Modèles de reconnaissance de la parole La principale difficulté au développement de technologies linguistiques variées est le manque de données. En particulier, les données audio ont besoin d’une transcription pour la plupart des applications. Mais transcrire manuellement des données audio est coûteux en temps, nécessite la participation d’un.e locuteur.trice de bon niveau, et peut résulter en des données inconsistentes en l’absence d’orthographe standard. Afin d’augmenter la quantité de données audio annotées pour diverses langues de France, et de développer la première brique de chaines de traitement variées pour ces langues, nous souhaitons développer une chaine de traitement pour l’entrainement de systèmes de reconnaissance de la parole (ASR, automatic speech recognition). Pour plus d'information et postuler : https://jobs.inria.fr/public/classic/fr/offres/2024-07719 
 Poste 2 : Ingénieur en Traitement Linguistique et Développement de Modèles de synthèse de la parole L’un des souhaits exprimés par la communauté est un système de synthèse de la parole (TTS, text to speech) qui permettrait de créer facilement du contenu audio à partir de textes, et donc d’enrichir les média existants dans ces langues. Le système devra être adapté au contexte des langues peu dotées. Il devra être souple afin de s’adapter à des sources de données d’entrainement variant dans leur quantité et qualité. Il s’agit de types d’enregistrements variés : longues interviews, phrases isolées, émissions de TV, etc. 
 Pour plus d'information et postuler : https://jobs.inria.fr/public/classic/fr/offres/2024-07720 
 | ||||||||||||||||
| 6-4 | (2024-06-05 )PhD student @ KTH, Stockholm, Sweden We are looking for a PhD student interested in Artificial Intelligence, Natural Language Processing and Speech Technology, that will work in a newly funded project at the Department of Speech, Music and Hearing at KTH. The project is financed by the Swedish AI-program WASP (Wallenberg AI, Autonomous Systems and Software Program), which offers a graduate school with research visits, partner universities, and visiting lecturers. 
 The newly started project is titled 'Thinking Fast and Slow: Real-time Speech Generation for Conversational AI'. The aim of the project is to develop AI-models capable of generating spoken responses in an incremental fashion, mirroring the nuanced and dynamic nature of human conversation. Our approach builds upon our previous pioneering efforts in the realm of incremental and predictive models for dialogue, which have laid the groundwork for this project. 
 The position is mainly a research position, with a small fraction of departmental duties (e.g. teaching). 
 Supervision: Professor Gabriel Skantze and Assoc. Prof. Gustav Eje Henter 
 https://www.kth.se/lediga-jobb/735886?l=en 
 
 | ||||||||||||||||
| 6-5 | (2024-06-20) Research Fellow in Multimodal Neural Architecture, Trinity College, Dublin,  Ireland Research Fellow in Multimodal Neural Architecture
 Please note the below is a shortened version of the full job specification. For more details please refer to the full Job Description document, which can be downloaded by clicking on the ‘Download full job spec’ button above. The Wider Research Project This Research Fellow is required to contribute to a new overall project led by Prof. Naomi Harte focused on the development of a unified multimodal framework for modelling and analysing real-world speech-based interaction. This Research Fellow will develop neural architectures for multimodal speech applications. The Research Fellow will rethink the development of sophisticated deep learning architectures that can fully exploit the relevant modalities of speech in an application. They will develop approaches that are agile in deployment and that can change how modalities combine in real-time. Applications will be in audio-visual speech recognition and conversational analysis. This work will be interdisciplinary in nature, requiring consideration of theories around conversation not only from a speech science and technology perspective, but also incorporating knowledge from established theories in the fields of psycholinguistics and cognitive science. Other elements of the project will focus on how to model multimodality in deep learning architectures. The overall team in this major project will consist of two Research Fellows (this position is one of those two), 4 PhD students, and one Research Assistant. The position is fully in-person and requires the person to be based in Dublin, Ireland. Qualifications Candidates appointed to this role must have completed a PhD in Electrical or Electronic Engineering, or a closely related field that makes them qualified to conduct this research in multimodal interaction. Note: Candidates who do not address the application requirements above will not be considered for interview. Further Information Informal enquiries about this post should be made to Professor Naomi Harte (nharte@tcd.ie) but applications are only accepted through the procedure outlined in the downloaded job spec document. 
 | ||||||||||||||||
| 6-6 | (2024-06-22) PhD student, LIG, CNRS, Grenoble, France PhD Thesis: Interpretability and Evaluation of LLMs and Agentic Workflows Starting date: November 1st, 2024 (flexible) 
 Salary: 2,135€ gross / month (social security included) Place of work (no remote): Laboratoire d'Informatique de Grenoble, CNRS, Grenoble, France 
 Description: Natural language processing (NLP) has undergone a paradigm shift in recent years, owing to the remarkable breakthroughs achieved by large language models (LLMs). These models have completely altered the landscape of NLP by demonstrating impressive results in language modeling, translation, and summarization. Nonetheless, the use of LLMs has also surfaced crucial questions regarding their reliability and transparency. As a result, there is now an urgent need to gain a deeper understanding of the mechanisms governing the behavior of LLMs, to interpret their decisions and outcomes in scientifically grounded ways, and to precisely evaluate their abilities and limitations. Adding to the complexity, LLMs are often involved as only one small component of larger, more ambitious, 	extit{agentic workflows} [SemEra]. In an agentic workflow, LLMs collaborate with other LLMs, humans, and tools by exchanging natural language messages to solve complex problems beyond the capabilities of an LLM alone. 
 Evaluation of LLMs has become particularly challenging as they consume most of the internet during their pre-training, including most of the test splits of evaluation benchmarks [LeakCheatRepeat]. Furthermore, the landscape of available LLMs is changing fast and they have access to web via tools as part of agentic workflows. Therefore, new evaluation methodologies beyond assessing models' skills on a fixed test set are needed to consider these novel properties [Flows].  
 A promising direction to carry out evaluation and interpretability analysis is to take inspiration from the field of Neuroscience which, over the years, has crafted experimental setups to undercover how the human brain computes and represents useful information for tasks of interest [RepEng]. Additionally, we can get help from causal analysis and causal inference toolkits [CausalAbstraction]. Examining the causal relationships between the inputs, outputs, and hidden states of LLMs, can help to build scientific theories about the behavior of these complex systems. Furthermore, causal inference methods can help uncover underlying causal mechanisms behind the complex computations of LLMs, giving hope to better interpret their decisions and understand their limitations [Glitch]. 
 As a Ph.D student working on such a project, you will be expected to develop a strong understanding of the evaluation of complex systems, the principles of causal inference, and their application to machine learning. You will have the opportunity to work on cutting-edge research projects in NLP, contributing to the development of more reliable and interpretable LLMs. It is important to note that the Ph.D. research project should be aligned with your interests and expertise. Therefore, the precise direction of the research can and will be influenced by the personal taste and research goals of the student. It is encouraged that you bring your unique perspective and ideas to the table. 
 Skills: Master degree in Natural Language Processing, computer science or data science. Mastering Python programming and deep learning frameworks. Experience in causal inference or working with LLMs Very good communication skills in English, (proficiency in French  not mandatory). 
 Scientific environment: The thesis will be conducted within the Getalp teams of the LIG laboratory (https://lig-getalp.imag.fr/). The GETALP team has a strong expertise and track record in Natural Language Processing. The recruited person will be welcomed within the team which offer a stimulating, multinational and pleasant working environment. The means to carry out the PhD will be provided both in terms of missions in France and abroad and in terms of equipment. The candidate will have access to the cluster of GPUs of both the LIG. Furthermore, access to the National supercomputer Jean-Zay will enable to run large scale experiments. The Ph.D. position will be co-supervised by Maxime Peyrard and François Portet. Additionally, the Ph.D. student will also be working with external academic collaborators at EPFL and Idiap (e.g., Robert West and Damien Teney) and external industry partners (Microsoft Research) 
 [SemEra] Maxime Peyrard, Martin Josifoski, Robert West, 'The Era of Semantic Decoding' 2024 [Flows] Martin Josifoski, Lars Klein, Maxime Peyrard, Nicolas Baldwin, Yifei Li, Saibo Geng, Julian Paul Schnitzler, Yuxing Yao, Jiheng Wei, Debjit Paul, Robert West 'Flows: Building Blocks of Reasoning and Collaborating AI' 2023 [LeakCheatRepeat] Simone Balloccu, Patrícia Schmidtová, Mateusz Lango, Ondrej Dušek 'Leak, Cheat, Repeat: Data Contamination and Evaluation Malpractices in Closed-Source LLMs' EACL 2024  [RepEng] Andy Zou, Long Phan, Sarah Chen, James Campbell, Phillip Guo, Richard Ren, Alexander Pan, Xuwang Yin, Mantas Mazeika, Ann-Kathrin Dombrowski, Shashwat Goel, Nathaniel Li, Michael J. Byun, Zifan Wang, Alex Mallen, Steven Basart, Sanmi Koyejo, Dawn Song, Matt Fredrikson, J. Zico Kolter, Dan Hendrycks 'Representation Engineering: A Top-Down Approach to AI Transparency' [CausalAbstraction] Geiger, Atticus and Wu, Zhengxuan and Lu, Hanson and Rozner, Josh and Kreiss, Elisa and Icard, Thomas and Goodman, Noah and Potts, Christopher, 'Inducing Causal Structure for Interpretable Neural Networks' Proceedings of Machine Learning Research (2022): 7324-7338. [Glitch] Giovanni Monea, Maxime Peyrard, Martin Josifoski, Vishrav Chaudhary, Jason Eisner, Emre Kıcıman, Hamid Palangi, Barun Patra, Robert West 'A Glitch in the Matrix? Locating and Detecting Language Model Grounding with Fakepedia' ACL 2024 
 | ||||||||||||||||
| 6-7 | (2024-06-21) Ingénieur-e de recherche, TALEP, Laboratoire d'Informatique et Systèmes - LIS, Marseille, France l'équipe TALEP au LIS recherche un-e ingénieur-e de recherche à partir de début octobre. 
 | ||||||||||||||||
| 6-8 | (2024-06-27) 3 postes enseignants-chercheurs, ENSSAT, Lannion, France 3 postes d'enseignants-chercheurs contractuels sont ouverts à l’ENSSAT Lannion, Université de Rennes pour la rentrée 2024. La partie recherche s’effectuera dans un des équipes de l'IRISA du site Lannionnais. ATTENTION Les délais de candidature sont extrêmement courts (jusqu’au 08/07). Pour plus d’infos et postuler en ligne:  
 | ||||||||||||||||
| 6-9 | (2024-06-29) Junior professor in Spoken Language Technologies, KU Leuven, Belgium Open faculty position at KU Leuven, Belgium: junior professor in Spoken Language Technologies  KU Leuven's Faculty of Engineering Science has an open position for a junior professor (tenure track) in the area of Spoken Language Technologies. The successful candidate will conduct research on current challenges of speech technology and its applications, teach courses in the Master of Engineering Science and supervise students in the Master and PhD programs. The candidate will be embedded in the  PSI research division of the Department of Electrical Engineering. More information is available at https://www.kuleuven.be/personeel/jobsite/jobs/60334358?lang=en. The deadline for applications is September 30, 2024.  
 | ||||||||||||||||
| 6-10 | (2024-07-04) Two job opportunities @ University of Palemo, Italy  Research opportunities at the University of Palermo, Italy  - Prof. Siniscalchi 1) As part of the Doctoral Programs at the University of Palermo, Prof. Siniscalchi is seeking candidates for fully funded PhD positions (36 months) focused on speech-related topics, including speech enhancement, speech recognition, and speech for health. Salary: The annual scholarship is €16,243 gross (Ministerial Decree No. 247 of 23 February 2022), which includes social security charges to be paid by the PhD student and is subject to the INPS social security contribution. How to apply and more infor: Interested candidates should contact Prof. Siniscalchi at sabatomarco.siniscalchi@unipa.it. Deadline: August 2nd. (2) As part of the SHAPE-AD project at the University of Palermo, Prof. Siniscalchi is seeking candidates for a fully funded research position (12 months) focused on Speech and Handwriting Analysis to Predict Early Alzheimer’s Disease. Salary: The annual scholarship is €24,000 gross. How to apply or more info: Interested candidates should contact Prof. Siniscalchi at sabatomarco.siniscalchi@unipa.it. 
 | ||||||||||||||||
| 6-11 | (2024-07-19)  Research and Teaching Associate – PreDoc Position –Graz University of Technology (TU Graz), Austria The Signal Processing and Speech Communication Laboratory (https://www.spsc.tugraz.at) of 
 | ||||||||||||||||
| 6-12 | (2024-07-25)  Chaire de Professeur Junior, Institut National des Langues et Civilisations (Inalco), Paris, France L’OInstitut National des Langues et Civilisations rientales (Inalco) lance un appel à candidatures pour un poste de Chaire de Professeur Junior sur le thème : « Intelligence Artificielle pour les langues rares ou peu dotées ». Il s'agit d'un recrutement sur un contrat à durée déterminée (5 ans) avec une charge d'enseignement réduite, permettant à terme, et après évaluation, d’être titularisé sur un poste de professeur des universités fonctionnaire. Date limite de candidature au 02 septembre 2024 à 16h (heure de Paris). Prise de fonction au plus tard le 31 décembre 2024.   Annonce en ligne : https://www.inalco.fr/institut/concours-recrutement/chaire-de-professeur-junior-intelligence-artificielle-pour-les PROJET DE RECHERCHE L’Institut National des Langues et Civilisations Orientales (Inalco) est un grand établissement public d’enseignement supérieur et de recherche reconnu pour ses travaux portant sur les langues, les cultures et les sociétés du monde au travers de disciplines de Sciences Humaines et Sociales telles que la linguistique, la sociologie, l’économie, la géographie, l’histoire, les relations internationales, la science politique, les études littéraires et artistiques. Il se caractérise par la très grande diversité des langues (plus de 100) et des aires culturelles concernées par ses activités de recherche et d’enseignement, ce qui lui confère une position académique unique et internationalement reconnue. La numérisation des ressources (langues, textes, documentations, objets culturels) et leur traitement informatique constituent un enjeu majeur pour l’Inalco, à la fois en termes d’instruments de recherche (humanités numériques, accès aux données primaires, Open Source Intelligence, terrains numériques) et de valorisation des langues et des cultures (accès à la société de l’information des locuteurs de langues rares et informatiquement sous-dotées). Au sein de l’Inalco, l’Équipe de Recherche Textes, Informatique, Multilinguisme (ERTIM, https://ertim.inalco.fr) est une unité de recherche spécialisée dans le Traitement Automatique des Langues (TAL) qui a pour objets de recherche le traitement des données multilingues, les méthodologies du TAL multilingue et les applications en ingénierie linguistique. L’équipe exploite ou produit des méthodes et des outils pour l’analyse et le traitement des langues et des textes écrits ou oraux. Ses activités collaboratives relèvent soit des humanités numériques et de la description de langues spécifiques (notamment chinois, arabe, vietnamien, bambara, birman, quechua, hindi), soit d’applications ingénieriques (filtrage, classification, extraction d’information, etc.). Pour renforcer ses activités, l’ERTIM recherche un ou une candidate à l’état de l’art en TAL (méthodes d’apprentissage profond, grands modèles de langues, traitement de la parole) apte à élaborer et développer des recherches pour l’analyse et le traitement des langues peu dotées. La personne recrutée doit faire valoir une expérience en recherche théorique et appliquée la rendant apte à aborder de manière innovante des problématiques complexes en termes de modélisation linguistique (modèle de langues sous-dotées en ressources ou ressources lacunaires) mais aussi discursives (gestion de l’alternance codique, créolisation, variation à la norme, contact de langues, etc.). Dans le cadre de cette CPJ et dans la perspective de la titularisation, la personne recrutée doit être en mesure de conceptualiser et superviser les tâches nécessaires en amont de la modélisation (traitement de l’oral, reconnaissance de la parole, transcription écrite, reconnaissance de l’écrit) et en aval (par exemple, traduction automatique). Par son expertise et en lien avec ses projets de recherche, la personne recrutée pourra également être associée aux réflexions menées au sein de l’établissement sur l’usage de l’intelligence artificielle dans l’enseignement et la recherche en langues et en études aréales fondées sur des sources en langues orientales. Elle sera notamment impliquée dans l’élaboration d’une offre d’outils pédagogiques pour les enseignants de langue souhaitant intégrer les usages de l’IA, et d’outils méthodologiques destinés aux étudiants et chercheurs privés d’accès physique à leurs terrains de recherche. Unités de rattachement : ERTIM Lieu d’exercice : 2 rue de Lille (Paris) Directeur de laboratoire : Damien Nouvel N° de téléphone du directeur de laboratoire : 01 81 70 10 37 Courriel du directeur de laboratoire : damien.nouvel@inalco.fr URL du laboratoire : https://ertim.inalco.fr PROJET D'ENSEIGNEMENT La personne recrutée sera amenée à dispenser des cours de 1er et de 2e cycle (Licence, Master) dans la formation TAL de l’Inalco et, de manière plus transversale, dans le cadre des formations aux humanités numériques et à la méthodologie du traitement de données numériques dispensées en master et en doctorat. Le public a pour spécificité d’être souvent issu de cursus en Sciences Humaines et Sociales et d’être composé de locuteurs ou d’apprenants de langues du domaine Inalco (Asie, Afrique, Amériques, Océanie, Europe orientale). Les cours seront choisis en concertation avec l’équipe pédagogique et en fonction des compétences propres de la personne recrutée. Ils peuvent être génériques (algorithmique, programmation, etc.), méthodologiques (traitement et contextualisation de données issues de terrains numériques) ou propres à ses domaines d’expertise. Une création de cours pourra être envisagée, en lien avec les objectifs pédagogiques des formations existantes. Il est à noter que le Master TAL est co-accrédité avec les Université Sorbonne Nouvelle et l’Université Paris Nanterre. Il comprend des parcours recherches et professionnalisant débouchant sur des métiers de data scientists, ingénieurs NLP, ingénieurs linguistes, etc. La charge d'enseignement est de 64h équivalent TD la première année, 96h équivalent TD les deuxième et troisième années, 128h équivalent TD en quatrième et cinquième année. A l’issue de la période de contractualisation, s’il est titularisé en tant que professeur des universités, le titulaire de la chaire délivrera un service réglementaire de 192 heures équivalent TD. Département de rattachement : TIM Lieu d’exercice : 2 rue de Lille (Paris) et 65 rue des Grands Moulins (Paris) Directeur du département : Mathieu Valette N° de téléphone du directeur du département: Courriel du directeur du département : mvalette@inalco.fr URL du département : https://www.inalco.fr/textes-informatique-multilinguisme DESCRIPTION DU POSTE Contrat à durée déterminée de droit public d’une durée de 5 ans Sections CNU : 27, 07 Rémunération : Indice 735 de la fonction publique (environ 3680€ bruts par mois) Mots-clés : Intelligence Artificielle ; Traitement Automatique des Langues ; Langues peu dotées ; Numérisation ; Reconnaissance de la parole CANDIDATURE Date limite de candidature au 02 septembre 2024 à 16h (heure de Paris). Modalités de candidature : Enregistrement des candidatures et dépôt du dossier de candidature au format PDF sur l’application ministérielle dédiée : https://galaxie.enseignementsup-recherche.gouv.fr/antares/can/index.jsp Le dossier sera constitué de : - Formulaire de candidature à téléverser sur votre dossier de candidature Galaxie (voir le site), - Pièce d’identité avec photographie, - Copie du diplôme de doctorat, ou d’un diplôme équivalent, - CV analytique avec liste complète des publications, - 3 publications marquantes, - Présentation des projets de recherche, d’enseignement et d’insertion au sein de l’établissement et dans l’environnement de la chaire (10 pages maximum), - Thèse de doctorat (et le rapport de soutenance le cas échéant) et résumé de la thèse en anglais, - Mémoire et dossier d’habilitation à diriger des recherches le cas échéant ou tout autre document justifiant d’une aptitude à l’encadrement doctoral. MODALITÉS DE SÉLECTION ET AUDITIONS Les candidats doivent être titulaires d'un doctorat, et avoir un dossier de recherche bien établi montrant une activité de recherche dans des domaines pertinents pour le profil du poste (voir ci-dessous), comme des publications dans des revues internationales de premier ordre, des implications scientifiques dans des projets de recherche, etc. Le candidat recruté devra démontrer sa maîtrise de l’une des langues de son aire de spécialisation ainsi que sa capacité à assurer des enseignements en anglais. La maîtrise du français n’est pas exigée au moment du recrutement mais il est attendu que le ou la candidate ait acquis un niveau suffisant à l’issue du contrat, soit au moment de la titularisation. L’évaluation sera réalisée par une commission de recrutement composée d’expert(e)s internes et externes. Seuls les candidats présélectionnés par la commission, à partir de l’examen des dossiers, seront convoqués à une audition. Les critères d’évaluation porteront sur l’excellence du candidat, sa motivation, sa capacité d’encadrement ; sur la qualité et l’originalité des projets de recherche et d’enseignement ; sur sa capacité à intégrer son projet au sein du laboratoire, et à coordonner les activités du programme de la Chaire, ainsi que sur sa capacité à établir des réseaux collaboratifs à l’échelle internationale. Les auditions pourront se tenir en français ou en anglais. DISPOSITIF DE CHAIRE JUNIOR La chaire de professeur junior bénéficiera d'un forfait pour frais de recherche de 200K€ alloué par l'Agence nationale de la recherche (ANR) pour la période de 5 ans. Le programme de la Chaire pourra par ailleurs bénéficier d’un complément de financement provenant d’autres partenaires nationaux et internationaux. Celui-ci pourra permettre de financer des postes de chargés de projets, doctorants contractuels, post-doctorants, la participation à des conférences, l'accès à des bases de données, des équipements, le financement de souscription à des services (algorithmes ou données), etc. Au terme des 5 années de pré-titularisation, la personne recrutée devra avoir fait la preuve qu’elle peut prétendre au titre de professeur des universités en termes de prise de responsabilités collectives, d’encadrement d’étudiants, de stagiaires, d’encadrement ou co-encadrement de doctorants et, enfin, de participation à la vie académique de l’équipe et de l’établissement. Une commission de titularisation se réunira pour évaluer la valeur scientifique et l’aptitude professionnelle permettant une titularisation dans le corps des professeurs des universités. Au moment de la titularisation, sera exigée l’obtention d’une HDR. La publication d’au moins 6 articles dans des revues à comité de lecture est attendue aux termes des 5 années de pré-titularisation. Il est aussi attendu, pendant la période de pré-titularisation, que la personne titulaire de la Chaire participe aux projets collectifs initiés au sein de l’établissement et ait une activité importante de valorisation du programme (conférences, séminaires, activités de diffusion de la recherche...). 
 | ||||||||||||||||
| 6-13 | (2024-07-31) Lecturer, UC SanDiego, CA, USA Position: Speech & Debate Coach (Lecturer/Academic Coordinator) 
 The Department of Communication at UC San Diego invites applications for a Lecturer appointment (Unit 18-Non Senate Faculty) and Academic Coordinator appointment to teach and direct the Speech and Debate team. The successful candidate will be responsible for coaching and instructing students in the art of public speaking, argumentation, persuasion and debate. Apply: https://apol-recruit.ucsd.edu/JPF04025 For full consideration, applications should be submitted by Friday, August 30, 2024. We anticipate a winter 2025 start date. Responsibilities: Additional Duties: Department: https://communication.ucsd.edu/ Program: https://speechdebate.ucsd.edu/ 
 | ||||||||||||||||
| 6-14 | (2024-08-13) PhD position, KTH, Stockholm, Sweden We are looking for a motivated PhD student to join the Division of Speech, Music, and Hearing (TMH) at KTH Royal Institute of Technology in Stockholm. 
 This project aims to advance Human-Robot Interaction (HRI) by enhancing embodied AI, integrating multimodal social cues and task-related actions into foundation models to enable robots to communicate in a more natural and human-like manner. It addresses the current limitations of Large Language Models, which lack the ability to comprehend and generate essential social cues like facial expressions, gestures, and gaze, as well as perform task-specific behaviors. The project focuses on three key objectives: integrating multimodal perception into AI models, training these models to produce both verbal and non-verbal outputs, and developing new metrics to evaluate their performance in HRI scenarios. 
 The Swedish AI-program WASP funds this project. WASP's graduate school fosters a strong multi-disciplinary, international network among PhD students, researchers, and industry through research visits, partner universities, and visiting lecturers. 
 The candidate must have a degree in Computer Science or related fields. Documented written and spoken English and programming skills are required. Some experience with artificial intelligence, robotics, human-robot interaction, and multimodal machine learning is preferred. 
 The student will start before mid-January of 2024 and the last application date is August 31st. Application details can be consulted through KTH’s dedicated recruitment system: https://www.kth.se/lediga-jobb/739179?l=en 
 
 | ||||||||||||||||
| 6-15 | (2024-09-15) Ingénieur ou post-doc en synthèse de parole, IRISA, Bretagne, France Nous sommes à la recherche d’un ingénieur ou post-doc (sujet adaptable) pour de la synthèse de parole massive dans le cadre de la détection de deep fakes.  https://www.irisa.fr/offres-emploi/2024-03/massive-generation-tts-deepfake-detection Ceci est une demande urgente, n’hésitez pas à me contacter directement par mail pour en savoir plus. Bien cordialement, -- Damien Lolive Full professor, Team Expression Head of the Signal, Image and Language Department IRISA Université Bretagne Sud, IRISA 
 | ||||||||||||||||
| 6-16 | (2024-10-03) Researcher positions in Speech and Natural Language Processing (Junior & Senior Positions) @ Vicomtech, San Sebastian/Bilbao, Spain Researcher positions in Speech and Natural Language Processing (Junior & Senior Positions) @ Vicomtech, San Sebastian/Bilbao, Spain 
 Vicomtech (https://www.vicomtech.org/en/), an international applied research centre specialised in Artificial Intelligence, Visual Computing and Interaction located in Spain, has several research positions in the field of speech and natural language processing. 
 We are seeking talented and motivated individuals to join our dynamic Speech and Natural Language Technologies team in either our Donostia - San Sebastián or Bilbao premises. If you have experience in speech and/or natural language processing technologies and are passionate about applying cutting-edge research to solve real-world needs through advanced prototypes, this opportunity is for you! 
 Whether you are a junior researcher (BSc/MSc graduate) looking to kickstart your career or a senior researcher (PhD graduate) eager to take on research leadership roles, we are interested in your profile. We offer the perfect environment with outstanding equipment and the best human team for growth. You will participate in advanced research and development projects, with opportunities to manage high-profile projects and/or lead technical teams depending on your experience. 
 Key Responsibilities: 
 Requirements: 
 
 Preferred Skills (Not Required but Valued): 
 
 What We Offer: 
 If you are passionate about research and eager to apply or develop your expertise to real-world challenges, we encourage you to send us your CV and join our forward-thinking team! 
 To apply via LinkedIn: https://www.linkedin.com/jobs/view/4034768411 
 
 | ||||||||||||||||
| 6-17 | (2024-10-04) Two internships at Laboratoire d'Informatique de l'Université du Mans (LIUM), France L'équipe Language and Speech Technology du Laboratoire d'Informatique de l'Université du Mans (LIUM) propose deux sujets de stage (https://lium.univ-lemans.fr/stages/) sur la traduction vocale (Speech-To-Speech Translation) pour les langues peu dotées. 
 -- Études des systèmes automatiques de traduction vocale ; -- Système de traduction vocale – Langues peu dotées vers Langues richement dotées 
 
 | ||||||||||||||||
| 6-18 | (2024-10-12) Assistant Professor of Computational Linguistics, Rochester Institute of Technology, NY,  USA Assistant Professor of Computational Linguistics Rochester Institute of Technology 
 Detailed Job Description 
 The Department of Psychology and Department of Modern Languages and Cultures at the Rochester Institute of Technology jointly invite applications for a full-time, 9-month tenure-track Assistant Professor of Computational Linguistics, beginning in August 2025. Candidates are expected to have an earned doctoral degree (in hand by August 2025) in Linguistics, Computational Linguistics, or a related field. 
 Successful candidates should demonstrate computational expertise, strong research talent, and initiative in grant writing. Candidates should also have a plan for excellence in teaching and student mentoring at the undergraduate and graduate levels. Applicants must be able to teach our courses in language technology, natural language processing, and/or speech processing. In addition, applicants should be able to teach foundational linguistics from a cross-linguistic perspective, as well as courses in one or more linguistics or cognitive science subfields. Proficiency in a language other than English is preferred, and we welcome research or teaching experience involving language learning. The position requires a strong commitment to teaching and mentoring, active research and publication, and a strong potential to attract external funding. Research and teaching are priorities for faculty at RIT, and all faculty are expected to mentor students through advising, research, and in-class experiences. 
 The computational linguistics-related programs at RIT serve a rapidly expanding student population at a technical university. We are particularly looking for a faculty colleague who can also contribute to the interdisciplinary Ph.D. program in Cognitive Science and the M.S. in Artificial Intelligence. In addition, RIT provides many opportunities for collaborative research across the institute in areas such as linguistics of sign languages and languages other than English, artificial intelligence, human-centered computing, and cybersecurity. RIT faculty have access to extensive research computing resources. 
 We are seeking an individual who has the ability and interest in contributing to a community committed to student centeredness; professional development and scholarship; integrity and ethics; respect, diversity and pluralism; innovation and flexibility; and teamwork and collaboration. Select to view links to RIT’s core values, honor code, and diversity commitment. 
 Department/College Description 
 The Department of Psychology at RIT offers B.S. and M.S. degrees, Advanced Certificates, minors, immersions, electives, and co-supports interdisciplinary graduate degrees including the Ph.D. program in Cognitive Science and the M.S. program in Artificial Intelligence. It also contributes to joint undergraduate degrees in Human-Centered Computing and Neuroscience. 
 The Department of Modern Languages and Cultures offers a B.S. in Applied Modern Language and Culture with tracks in Chinese, French, Japanese, and Spanish, in addition to minors, immersions, and general education courses in Language Science, American Sign Language and Deaf Cultural Studies, Arabic, Chinese, French, German, Italian, Japanese, Latino/Latina/Latin American Studies, Portuguese, Russian, and Spanish. The Department houses a Modern Language Technology Center where faculty and students actively integrate technology into language teaching and learning. 
 The College of Liberal Arts is one of nine colleges within Rochester Institute of Technology. The College has over 150 faculty in 13 departments in the arts, humanities and social sciences. The College currently offers fourteen undergraduate degree programs and five Master degrees, serving over 800 students. The Ph.D. program in Cognitive Science, with language as one of the areas, is interdisciplinary with multiple partner units across the university. The College also jointly delivers the M.S. in Artificial Intelligence with other colleges of the university. 
 We encourage the creation, development, dissemination, and application of human knowledge in the arts, humanities, and social sciences by promoting innovative teaching, scholarship, and research, thus providing a comprehensive education for all RIT students. We strive to prepare students for a lifetime of personal growth and responsible citizenship in an increasingly technological and rapidly changing society by maintaining and promoting the intellectual climate on campus, contributing to students’ awareness and understanding of diversity, and enhancing students’ abilities to reason critically and communicate effectively. We value a rigorous liberal arts education that encourages innovative experiential learning and active scholarship, the highest ethical standards, the educational and social benefits of diversity and global awareness, an interdisciplinary and collaborative environment of openness and academic freedom, a working environment in which all staff and faculty enjoy respect and recognition, and the active and meaningful participation of all members of the College community. 
 Required Minimum Qualifications 
 • Ph.D. (in hand by August 2025) in Linguistics, Computational Linguistics, or a related field. • Have demonstrated ability to conduct independent research in computational linguistics. • Have consistently and recently published. • Demonstrate potential for excellence in teaching language technology, natural language processing, and/or speech processing. • Demonstrate potential for excellence in teaching foundational linguistics from a cross-linguistic perspective, as well as courses in one or more linguistics or cognitive science subfields. • Demonstrate potential for excellence in supervising student research. • Demonstrate potential for external research grant attainment. • Show a career trajectory that emphasizes a balance between research and teaching. • Ability to contribute in meaningful ways to the College’s continuing commitment to cultural diversity, pluralism, and individual differences. 
 How To Apply 
 Apply online at http://careers.rit.edu/faculty; search openings, then Keyword Search 9260BR. Please submit your application, curriculum vitae, cover letter addressing the listed qualifications and upload the following attachments: 
 * A research statement that includes information about previous grant work, the potential for future grants, and information about one-on-one supervision of student research * A brief teaching philosophy * The names, email addresses, and phone numbers of three references * Contribution to Diversity Statement 
 You can contact the co-chairs of the search committee, Cecilia Alm, Ph.D. and Zhong Chen, Ph.D., with questions on the position at: cecilia.o.alm@rit.edu and z.chen@rit.edu. Review of applications will begin November 15, 2024 and will continue until an acceptable candidate is found. 
 RIT does not discriminate. RIT promotes and values diversity, pluralism and inclusion in the work place. RIT provides equal opportunity to all qualified individuals and does not discriminate on the basis of race, color, creed, age, marital status, sex, gender, religion, sexual orientations, gender identity, gender expression, national origin, veteran status or disability in its hiring, admissions, educational programs and activities. 
 | ||||||||||||||||
| 6-19 | (2024-10-16) Assistant Professor Positions, University of Texas at El Paso, TX, USA Assistant Professor Positions at the University of Texas at El Paso 
 The University of Texas at El Paso (UTEP) has 3 Assistant Professor positions available in the Department of Computer Science: one in AI and two in any area of CS, including AI. UTEP has an active research group in Spoken Dialog, and new Regents Research Excellence support for a project on the Prosodic Aspects of Spanish, English and Cross-Language Communication, for which an available Research Assistant Professor position may soon be announced. Informal inquiries are welcome; please contact <a href=”https://www.cs.utep.edu/nigel/”>Professor Nigel Ward</a>. Applications are being accepted online <a href=”https://utep.interviewexchange.com/jobofferdetails.jsp?JOBID=181741”> for the AI position</a> and <a href=”https://utep.interviewexchange.com/jobofferdetails.jsp;jsessionid=6A64174D0B462EB90FF70FB62CA6B6E7?JOBID=181849”> for the CS positions</a>. Information will be shared across the searches, so there is no need to apply to both. 
 
 | ||||||||||||||||
| 6-20 | (2024-10-22)  Stage à l'Université du Mans, France Stage à 'lUniversité du Mans, France Titre : Construction de Sound Zones par apprentissage automatique sur un large jeu de données 
 Site : Le Mans Encadrant(s) : Théo Mariotte (LIUM), Manuel Melon (LAUM), Marie Tahon (LIUM) Début du stage : entre janvier et mars 2024 Date limite de candidature : 15/12/2024 
 Descriptif : Le stage vise à mettre en œuvre des systèmes d’apprentissage automatique pour la construction de zones d’écoute différenciées (Sound zones). 
 Contexte 
 La mise en place de zones d'écoute différenciées (Sound zones) [1] trouve des applications dans de nombreux contextes tels que la diffusion de contenu audio personnalisé dans les habitacles de véhicules. Ces méthodes permettent de contrôler le niveau acoustique émis dans des zones définies de l'espace, dénommées claire et sombre.Dans la première, le niveau acoustique est rehaussé pour permettre à transmission du signal utile. Dans la seconde, le niveau est atténué afin de restreindre le signal acoustique transmis à la zone claire. La construction de ces zones est possible à l’aide d'un réseau de haut-parleurs et de microphones. 
 Les méthodes de la littérature permettant la mise en œuvre de zones d'écoute différenciées exploitent l'optimisation sous contrainte (ex: Acoustic Contrast Control (ACC), Pressure Matching (PM). Plus récemment, les travaux de Pepe et al. [4] ont proposé une approche utilisant les réseaux de neurones profonds. D'autre part, des jeux de données ont été publiés pour la reconstruction de champ acoustique (ISOBEL [2]) et la reproduction de sound zones (Zhao et al. [3]). Ces deux considérations ouvrent la voie à l’utilisation de méthodes neuronales pour la construction de sound zones. 
 Objectifs Le stage proposé vise dans un premier temps à reproduire une méthode de la littérature et de l'appliquer sur des jeux de données publics. Dans un second temps, il sera envisagé d’améliorer cette approche et d’évaluer sa robustesse selon différents critères (environnement acoustique, position du sujet...). 
 Phase 1 : 
 
 Phase 2 : 
 
 Il est également envisagé de concevoir un démonstrateur permettant à deux utilisateur·ices partageant le même espace d'écouter un texte lu dans deux langues différentes. Ce démonstrateur pourrait être présenté à la prochaine Biennale Le Mans Sonore en 2026. 
 Laboratoires 
 Le Laboratoire d’Acoustique de l’Université du Mans (LAUM) possède une grande expertise sur les méthodes de reproduction et de contrôle du champ acoustique. Manuel Melon a mené et encadré de nombreux travaux autour de la thématique des sound zones. 
 Le Laboratoire d’Informatique de l’Université du Mans (LIUM) est historiquement orienté vers les thématiques de traitement automatique de la parole avec une forte dominante pour les approches d’apprentissage automatique profond. Marie Tahon travaille notamment sur des méthodes neuronales pour la reconnaissance des émotions et la synthèse parole avec un intérêt pour l’interprétabilité. Théo Mariotte travaille sur des méthodes de traitement audio à l’aide de réseaux de neurones, et développe notamment des méthodes utilisant des antennes de microphones. 
 Le stagiaire bénéficiera de l’expertise des deux laboratoires tant sur la dimension acoustique (LAUM) que sur la dimension informatique et apprentissage automatique (LIUM). 
 Profil du candidat : Candidat·e motivé·e par l’intelligence artificielle et les méthodes de reproduction de champ acoustique, inscrit·e en master informatique ou acoustique. 
 Pour candidater : Envoyer CV + lettre de motivation à : theo.mariotte@univ-lemans.fr 
 Ressources : 
 [1] T. Betlehem, W. Zhang, M. A. Poletti, et T. D. Abhayapala, « Personal Sound Zones: Delivering interface-free audio to multiple listeners », IEEE Signal Process. Mag., vol. 32, no 2, p. 81‑91, mars 2015, doi: 10.1109/MSP.2014.2360707. 
 [2] M. S. Kristoffersen, M. B. Møller, P. Martínez-Nuevo, et J. Østergaard, « Deep Sound Field Reconstruction in Real Rooms: Introducing the ISOBEL Sound Field Dataset », 12 février 2021, arXiv: arXiv:2102.06455. 
 [3] S. Zhao, Q. Zhu, E. Cheng, et I. S. Burnett, « A room impulse response database for multizone sound fieldreproduction (L) », The Journal of the Acoustical Society of America, vol. 152, no 4, p. 2505‑2512, oct. 2022, doi: 10.1121/10.0014958. 
 [4] G. Pepe, L. Gabrielli, S. Squartini, L. Cattani, et C. Tripodi, « Deep Learning for Individual Listening Zone », in 2020 IEEE 22nd International Workshop on Multimedia Signal Processing (MMSP), Tampere, Finland: IEEE 
 | ||||||||||||||||
| 6-21 | (2024-10-23) Stage à l'Université du Mans (2), France Stage à l'Université du Mans, France Title: Machine Learning for Acoustic-Based Keystroke Recognition: A Study on Security Vulnerabilities Host laboratory : LIUM, LAUM Location : Le Mans Supervisors : Kais Hassan, Meysam Shamsi Beginning of internship : February 2025 Application deadline : 10/12/2024 Keywords: Keystroke Recognition, Machine Learning, Cybersecurity, Acoustic Signal Categorization In an era where data breaches and cyber threats are becoming increasingly sophisticated, this project explores the vulnerabilities of everyday devices through Acoustic Side-Channel Attacks on Keyboards [1,2,3]. The goal is to demonstrate how the content of keystrokes can be compromised by simply recording the sounds produced by a keyboard. This research leverages cutting-edge technology to expose keystroke vulnerabilities, underscoring the need for robust security measures in the face of growing digital threats. This internship is a preliminary study with three main objectives: ● Optimization of efficiency, minimization of data collection costs and maximization of keystrokes recognition accuracy: Develop efficient methods for collecting and synchronizing audio data to reduce overhead. Use advanced techniques to train a highly effective model across various conditions with minimal training data. ● Analyze the user behavior from acoustic signal: Categorize users' typing behaviors based on acoustic signals and assess the model’s recognition accuracy. Use this analysis to establish security guidelines that address vulnerabilities in acoustic-based keystroke detection. ● Raise Security Awareness: Highlight the risks associated with acoustic side-channel attacks and propose countermeasures to protect sensitive information from these vulnerabilities. Project Overview: 1. Data Collection Interface: Develop a synchronized recording system to capture keystrokes and the associated acoustic signals. This involves using two devices: one to log the exact timing of the keystrokes and another to record the corresponding sound. The challenge is to align these recordings with high precision to create a robust training dataset. 2. Machine Learning Model Training: Implement a deep neural network for keystroke recognition from the recorded audio. This includes adapting pre-trained models [4] used for speech recognition to identify individual keystrokes. The objective is to achieve high accuracy with minimal data by employing state-of-the-art techniques in audio classification. 3. Performance Evaluation: Assess the model's effectiveness under various conditions. This involves testing with different keyboards, typists, environments, and microphones. The aim is to evaluate how the model performs across diverse scenarios and to identify potential weaknesses. 4. Analysis and Countermeasures: Conduct an in-depth analysis of typing behaviors and scenarios that may challenge the attack, e.g. [5]. Explore strategies to mitigate such acoustic attacks and enhance the security of keystroke data. This project not only aims to expose a critical security vulnerability, but also to lay the foundation for long-term interdisciplinary research. State-of-the-art machine learning algorithms in speech processing have already shown promising results in decoding audio signals [4]. In the long term, a deeper study of human behavior, such as [6], and communication through acoustic signals can be envisioned. Reference: [1]. Taheritajar, A., Harris, Z. M., & Rahaeimehr, R. (2023). A Survey on Acoustic Side Channel Attacks on Keyboards. arXiv preprint arXiv:2309.11012. [2]. Bai, J. X., Liu, B., & Song, L. (2021, October). I know your keyboard input: A robust keystroke eavesdropper based-on acoustic signals. In Proceedings of the 29th ACM International Conference on Multimedia (pp. 1239-1247). [3]. Harrison, J., Toreini, E., & Mehrnezhad, M. (2023, July). A practical deep learning-based acoustic side channel attack on keyboards. In 2023 IEEE European Symposium on Security and Privacy Workshops (EuroS&PW) (pp. 270-280). IEEE. [4]. Mohamed, A., Lee, H. Y., Borgholt, L., Havtorn, J. D., Edin, J., Igel, C., ... & Watanabe, S. (2022). Self-supervised speech representation learning: A review. IEEE Journal of Selected Topics in Signal Processing, 16(6), 1179-1210. [5]. Rodrigues, D., Macedo, G., Conti, M., & Pinto, P. (2024, June). A Prototype for Generating Random Key Sounds to Prevent Keyboard Acoustic Side-Channel Attacks. In 2024 IEEE 22nd Mediterranean Electrotechnical Conference (MELECON) (pp. 1287-1292). IEEE. [6]. Kołakowska, A. (2015, June). Recognizing emotions on the basis of keystroke dynamics. In 2015 8th International Conference on Human System Interaction (HSI) (pp. 291-297). IEEE. Applicant profile : Candidate motivated by Artificial Intelligence, Cybersecurity, and Acoustics, currently enrolled in a Master's degree program in Computer Science, Acoustics, Signal Processing, or related fields For application: Please send your CV, cover letter, and most recent academic transcript (grade sheet) to meysam.shamsi@univ-lemans.fr or kais.hassan@univ-lemans.fr before 10/12/2024. 
 | ||||||||||||||||
| 6-22 | (2024-11-05) Ingénieur·e de recherche en intelligence artificielle pour la pédagogie, Université Grenoble-Alpes, France Dans le cadre du projet EFELIA MIAI, Les laboratoires de recherche et départements des IUT de l’UGA développent des actions de formation en Intelligence Artificielle. À ce titre, ils recherchent un·e ingénieur·e de recherche en IA pouvant contribuer à l'élaboration de ressources et de pratiques pédagogiques pour les formations de l'institut ainsi qu'au développement des activités de recherche du Laboratoire d'Informatique de Grenoble dans le domaine des LLMs (Large Language Models) notamment dans le cadre du projet ANR Pantagruel (https://pantagruel.imag.fr/). 
 Le détail du poste est accessible sur le site de l'UGA https://emploi.univ-grenoble-alpes.fr/offres/ingenieur-de-recherche-en-intelligence-artificielle-f-h--1504906.kjsp?RH=1135797159702996 Suivez le lien ci-dessus et cliquez sur 'Je postule' 
 *Date limite* Le poste est ouvert jusqu'à ce qu'il soit pourvu. 
 *Rémunération* À partir de 2289€ mensuel brut et en fonction de l’expérience. 
 
 | ||||||||||||||||
| 6-23 | (2024-11-06) Proposition de stage, BEA, Le Bourget, Ile-de-France, France Objet : Proposition de stage « Parole superposée dans les cockpits d'aeronefs: annotations et essais acoustiques» Lieu : Laboratoire Audio-CVR, BEA, 10 rue de Paris, 93350 Le Bourget           Déplacements en métropole de plusieurs jours consécutifs à prévoir (pris en charge par le BEA) Contexte d’application du stage Dans le cadre des enquêtes sur les accidents et incidents de l’aviation civile et militaire, le département technique du BEA (pour l’aviation civile) et le laboratoire RESEDA (pour l’aviation militaire) sont chargés de la récupération des données contenues dans les enregistreurs de vol communément appelés « boîtes noires » par le grand public. Dans le cadre du projet de recherche ANR / AID BLeRIOT (Bea Lisic Reseda Irit investigation on aerOnautic speech Transcription), le BEA et RESEDA ont la charge de fournir et produire des données de paroles superposées pour investiguer de nouvelles méthodes de transcription automatique adaptées au contexte des enregistreurs vocaux de vol et répondant aux besoins nés de la réglementation imposant une augmentation significative de la durée d’enregistrement (passant de 2h à 25h). Ces données annotées seront utilisées par des partenaires du projet pour générer des modèles pour la retranscription automatique et seront évalués dans un cadre scientifique ultérieurement. Les travaux seront réalisés au département technique du BEA sur une durée de 4 à 6 mois, avec des déplacements de plusieurs jours en France métropolitaine pour les campagnes de mesures acoustiques, et en collaboration avec les partenaires universitaires, à savoir le Laboratoire d‘Informatique Signal et Image de la Côte d’Opale (LISIC) et l’Institut de Rechercheen Informatique de Toulouse (IRIT). Le/la stagiaire sera intégré-e à l’équipe du laboratoire d’analyse audio du BEA ; il/elle aura l’occasion de découvrir les techniques d’exploitation et d’analyse des données audio réalisées dans le cadre du support aux enquêtes de sécurité de l’aviation civile. Travaux à réaliser lors du stage Au cours de ce stage la/le stagiaire devra : 
 
 
 
 
 
 
 
 
 
 
 Profil du/de la candat-e 
 
 
 
 
 
 Outils utilisés 
 
 
 
 
 Bibliographie - Puigt, M., Bigot, B., Devulder, H., Introducing the « Cockpit Party Problem » : blind source separation enhances aircraft cockpit speech transcription, J. Audio Eng. Soc., 2024. https://hal.science/hal-04666683v1 - BEA, Ce qu’il faut savoir sur les enregistreurs de vol, 2009. - Bigot, B., Bredin, H., Delmaire, G., Guerin, H., Menez, C., Pinquier, J., Puigt, M., Roussel, G., BLeRIOT Transcription et Investigation du Bea, du Lisic, de Reseda et de l’Irit sur la transcription de parole aéronautique, projet de recherche ANR/AID, 2024. 
 Contact et encadrement de stage Lionel Feugère – Laboratoire Audio-CVR Enquêteur spécialisé et chercheur, docteur en acoustique Email : lionel.feugere@bea.aero Tel: +33 1 49 92 74 07 
 Candidature Envoyer un CV et une lettre de motivation à lionel.feugere@bea.aero Les candidatures seront analysées au fil de l’eau. 
 
 
 
 
 | ||||||||||||||||
| 6-24 | (2024-11-06) PhD and postdoc vacancy in multimodal search, The University of Utrecht, The Netherlands We are looking for PhD or postdoctoral students for multimodal processing of cultural digital archives at the Interaction Division of Utrecht University, the Netherlands. The deadline for applications is 13 November. 
 
 
 
 
 Job description 
 
 Are you passionate about developing cutting-edge AI techniques to enhance interaction and communication across multiple modalities, such as text, pictures, audio, and video? Join the large scale HAICu NWA-ORC project to help unlock the potential of cultural digital archives through multimodal use, providing richer context and a more comprehensive analysis of current complex issues in society. If this fits your expertise and interests, the Interaction Division of Utrecht University is seeking you! 
 
 
 
 
 Your job 
 
 We are looking for a PhD and a postdoctoral researcher to work within the multi-partner HAICu NWA-ORC project. This vacancy is for the Postdoc position, the PhD position is being advertised simultaneously: 
 
 PhD Position on Multimedia Analysis in the HAICu Project. There are two research topics tackled in parallel for this project (see description below). Based on the applications, the topics will be assigned at PhD or Postdoc level. Both researchers will collaborate within the project. 
 
 
 
 
 This project is implemented by an ambitious consortium including many universities, knowledge institutions, archives, foundations, cultural institutions and business partners in the Netherlands. It aims to use improved access to digital heritage to tutor the Digital Citizen in the use of big data. It brings together AI researchers and Digital Humanities scholars to seek solutions to the problem of inadequate data-mining tools we have, aiming to derive information from the continuous stream of data about the present and the past. This will help citizens and other regular users, heritage curators and journalists who are interested in tapping heritage collections, as well as civic organizations and authorities interested in improving civic participation. 
 
 
 
 
 There are two research topics. You can indicate in your motivation letter whether you prefer one or the other. 
 
 
 
 
 Research topic 1 targets visual and multimodal feature learning for news ecosystems, analysing the complex multidimensional feature space of visual information to support data-driven journalism. This includes experiments for accountability, transparency, inclusiveness, and misinformation. The key technology is multimodal deep learning, and its extensions for these additional targets. 
 
 Research topic 2 targets audio and multimodal feature learning beyond words, such as intonation, tone, stress and rhythm, in relation to conveying emotion or messages, to support data-driven journalism. We will research audio features (e.g. for speech and music) and their relation to effective message conveying in news collections with audio and video, and innovate multimodal search by integrated feature learning in both visual and audio at the same time. 
 
 
 
 
 Research will include testing, validation and evaluation on large scale and interoperable collections, in cooperation with the societal partners in the project, including the Netherlands Institute for Sound and Vision, the National Archive, and the National Library of the Netherlands. The research will take place in collaboration with the HAICu fieldlab ‘Deep Journalism’, which develops functionality for searching for items about a similar topic from different archives and with various modalities to support news journalists. 
 
 
 
 
 The Interaction Division is part of the department of Information and Computing Sciences. It develops novel techniques to research technology-mediated communication and interaction between people, and communication and interaction between systems and people (users). The technologies for interaction make use of various modalities, in particular visual, auditory, and haptic modes, as well as combinations of these. Three of the chairs in the division are collaborating in this project. The Multimedia group (Professor Remco Veltkamp), the Music Information Computing group (Professor Anja Volk), and the Social and Affective Computing group (Professor Albert Salah). 
 
 
 
 
 Postdoc position: 
 
 
 
 
 
 
 PhD position: 
 
 
 
 
 
 
 
 
 
 | ||||||||||||||||
| 6-25 | (2024-11-11) Deux thèses financées à l'INRIA, France. Inria ouvre deux offres de thèse financées : 
 | ||||||||||||||||
| 6-26 | (2024-11-10) Stage de 6 mois, Transcription et Alignement de la Parole Théâtrale par Analyse Prosodique, Universite de Grenoble-Alpes, France Transcription et Alignement de la Parole Théâtrale par Analyse ProsodiqueContexte : 
 Objectifs : 
 Pour aller plus loin, des approches multimodales pourront être explorées. Par exemple, l’utilisation des signaux visuels tels que les mouvements des lèvres ou les expressions faciales des comédiens pourrait améliorer la précision de la transcription, particulièrement dans les environnements acoustiquement complexes. Enfin, des techniques d’adaptation stylistique seront mises en œuvre pour mieux gérer les variations de registre, qu’il s’agisse de langue classique, contemporaine ou poétique. Encadrement et motivation : Ce stage est proposé à des étudiants inscrits en M2 d’informatique et intelligence artificielle. Il sera encadré par Rémi Ronfard, directeur de recherche INRIA, directeur scientifique de l’équipe ANIMA du laboratoire LJK et du centre INRIA de l’université Grenoble Alpes, et responsable de l’action exploratoire ITHEA (informatique théâtrale) ; et Benjamin Lecouteux, professeur de l’Université Grenoble Alpes, membre de l’équipe GETALP du Laboratoire d’Informatique de Grenoble (LIG), et chercheur associé de l’action exploratoire ITHEA. L’équipe ANIMA est spécialisée en informatique graphique et vision par ordinateur. Elle a constitué depuis plusieurs années un corpus de captations vidéo de pièces de théâtre, indexées et analysées à l’aide d’algorithmes de vision par ordinateur (détection, suivi et reconnaissance des acteurs) et accessibles en ligne sur le site http://kinoai.inria.fr à l’intention des chercheurs en études théâtrales. L’équipe GETALP est ici spécialisée dans le traitement de la parole et de la langue naturelle. Elle s’intéresse en particulier à la parole théâtrale, qui est incarnée, expressive et multi-modale. Ce stage de M2 s’inscrit dans une collaboration à long terme entre nos deux équipes sur le sujet de la compréhension, de l’analyse et de la diffusion des mises en scène de théâtre. Dans une première étape, nous cherchons à constituer un corpus de textes de théâtre alignés avec les captations vidéo de leurs mises en scène, qui sera mis à disposition de la communauté des chercheurs en sciences cognitives intéressés par le sujet de la communication théâtrale. Une première étude (Martinez 2023) a montré que les méthodes de reconnaissance vocales disponibles « sur étagère » étaient insuffisantes pour créer un tel corpus et que des approches plus spécifiques devaient être développées. C’est l’objet de ce stage. Le stage se déroulera dans les locaux de l’action exploratoire ITHEA d’Inria à Grenoble (MINATEC). En cas de succès, il pourra être suivi par une thèse de doctorat sur le même sujet, sous réserve d’obtention d’une allocation de recherche. Références : 
 Max Bain, Jaesung Huh, Tengda Han, Andrew Zisserman. WhisperX: Time-Accurate Speech Transcription of Long-Form Audio. INTERSPEECH 2023. Adela Barbulescu, Rémi Ronfard, Gérard Bailly. Characterization of Audiovisual Dramatic Attitudes. Interspeech 2016 - 17th Annual Conference of the International Speech Communication Association, Sep 2016. Chow and Brown. A Musical Approach to Speech Melody. Frontiers in Psychology, Section : Cognition, Volume 9, Article 247, March 2018. Katsalis, A. et al. (2023). NLP-Theatre: Employing Speech Recognition Technologies for Improving Accessibility and Augmenting the Theatrical Experience. In: Arai, K. (eds) Intelligent Systems and Applications. IntelliSys 2022. Lecture Notes in Networks and Systems, vol 543. Springer, Cham. Emma Martinez. Conception d’un système de reconnaissance de la parole pour le théâtre. Mémoire de master Sciences du Langage, Univ. Grenoble Alpes. Sous la direction de Benjamin Lecouteux et Rémi Ronfard. Septembre 2023. Gabriele Sofia, « Mémoire phonique « incarnée » du théâtre. Prolégomènes d’une approche cognitive », Revue Sciences/Lettres [En ligne], 5 | 2017. Benjamin Lecouteux Full Professor in Computer Science UGA / LIG / GETALP team Phone: (+33)7 64 54 24 85 
 -- 
 | ||||||||||||||||
| 6-27 | (2024-11-11) Stage  sur l'annotation semi-automatique de conversations dans des documents audiovisuels, @ LISN, Orsay, France) Veuillez trouver ci-dessous l'offre de stage proposée par le LISN (à Orsay) sur l'annotation semi-automatique de conversations dans des documents audiovisuels. Le stage pourra se poursuivre en thèse (financement ANR prévu). Description: Most human interactions occur through spoken conversations. If this interaction mode seems so natural and easy for humans, it remains a challenge for spoken language processing models as conversational speech raises critical issues. First, non-verbal information can be essential to understand a message. For example a smiling face and a joyful voice can help detecting irony or humor in a message. Second, visual grounding between participants is often needed during a conversation to integrate posture and body gesture as well as references to the surrounding world. For example, a speaker can talk about an object on a table and refer to it as this object by designing it with her hand. Finally, semantic grounding between participants of a conversation to establish mutual knowledge is essential for communicating with each other. In this context, the MINERAL project aims to train a multimodal conversation representation model for communicative acts and to study communicative structures of audiovisual conversation. As part of this project, we are offering a 5- to 6-month internship focused on semi-automatic annotation of conversations in audio-visual documents. The intern's first task will be to extend the existing annotation ontology for dialog acts, currently available for audio documents (through the Switchboard corpus for example), to incorporate the visual modality. In a second step, the intern will develop an automatic process for transferring annotations to new audiovisual datasets (such as meeting videos and TV series or movies) using transfer or few-shot learning approaches. Practicalities: Starting between February and April 2025, the internship will be funded ~500 euros per month for a duration of 5 or 6 months and will take place at LISN (Orsay) within the LIPS team. This internship can potentially be followed by a funded PhD, based on performance and interest in continuing research in this area. Required Qualifications: 
 To apply, please send your CV, a cover letter and your M1 and M2 transcripts (if available) by email to Camille Guinaudeau camille.guinaudeau@universite-paris-saclay.fr and Sahar Ghannay sahar.ghannay@universite-paris-saclay.fr References: [Albanie, 2018] Samuel Albanie, Arsha Nagrani, Andrea Vedaldi, and Andrew Zisserman. Emotion Recognition in Speech using Cross-Modal Transfer in the Wild. In Proceedings of the 26th ACM international conference on Multimedia. 2018 [Fang, 2012] Alex C. Fang, Jing Cao, Harry Bunt and Xiaoyue Liu. The annotation of the Switchboard corpus with the new ISO standard for dialogue act analysis. Workshop on Interoperable Semantic Annotation. 2012. 
 | ||||||||||||||||
| 6-28 | (2024-11-13) Stage 6 mois, Université d'Avignon, France Stage : 6 mois, 'Extraction d’informations sémantiques dans des transcriptions de résumés oraux d’histoires par des enfants'Université d' Avignon, LIA ** Informations générales Durée : 6 mois Début : à partir de janvier 2025, au plus tard avril 2025 
 | ||||||||||||||||
| 6-29 | (2024-11-15) Two fully funded PhD positions, INRIA, France Inria, the French national institute for research in digital science and 
 | ||||||||||||||||
| 6-30 | (2024-12-06) Deux offres de stage au sein du service de la recherche de l'Institut National de l'Audiovisuel (INA), Paris, France Deux offres de stage au sein du service de la recherche de l'Institut National de l'Audiovisuel, portant sur l'analyse de la parole (signal ou transcrite) avec une forte composante humanités numériques et machine learning. Sujet 1: Description automatique des stéréotypes racistes et sexistes dans les contenus audiovisuels https://www.ina.fr/hub-p/public/2024-12/stage_recherche_ina_2025_racisme_sexisme.pdf Sujet 2: Détection de l'activité vocale dans des corpus audiovisuels à l'aide de représentations auto-supervisées https://www.ina.fr/hub-p/public/2024-12/stage_recherche_ina_2025_vad.pdf 
 | ||||||||||||||||
| 6-31 | (2024-12-10) 12 positions for doctoral researchers: PSST! - Privacy for Smart Speech Technology PSST! - Privacy for Smart Speech Technology Call for applicants - PhD students (12 positions)    “Privacy for Smart Speech Technology” (PSST) is a joint doctoral training programme and Horizon Europe Marie Skłodowska-Curie Action, the European Union’s flagship funding programme for doctoral training. We are a consortium of 7 European universities and 11 industrial partners searching for 12 PhD students to work on the protection and evaluation of privacy for smart speech technology. PSST is a unique opportunity, as it is the largest international project focusing on privacy in speech technology and because the importance of privacy has only recently gained wider appreciation.    This is no ordinary PhD programme.     The structured PSST doctoral training programme combines training in cutting-edge research, transferable skills and career-enhancing skills with exposure to multiple sectors and disciplines.   Join us and put your expertise in deep learning / machine learning, speech processing, information privacy and security, and user studies into practice and gain your PhD degree from TWO leading European Universities (listed below)!   See more information and PhD topics at https://psst-doctoralnetwork.eu/ We are looking for 12 PhD candidates who hold a master's degree.  We value diversity and plan to hire 12 fellows with a balanced background and skillset, and an excellent academic track record. We especially encourage applications from members of under-represented groups.   10.12.2024  Call opens 26.1.2025   Application deadline 28.2.2025   Shortlisted candidates informed 17.-18.3.2025   Recruitment event in Finland for shortlisted candidates May 2025    Notification of acceptance August 2025 Planned start of employment PSST follows a double-degree model whereby, during their 45-month employment, each PhD student will work in collaboration with two universities towards PhD degrees from both institutions! Each PhD student will also spend 6 months on secondment to one of our Associate Partners, all leading European SMEs, large industrials or regulatory bodies active in speech privacy:. - CNIL (France), ELDA (France), ki:elements (Germany), Loihde (Finland), Naver (France), Omilia (Greece), Orange (France), Vocapia (France), VoiceInteraction (Portugal), Voice INTER connect (Germany), and VoiceMod (Spain).    Applications should include:    - Curriculum Vitae (including countries of residence in the past 36 months).   - Academic transcripts for completed courses and degrees.   - Motivation letter explaining why you want to pursue a PhD degree and why you believe you are an outstanding candidate to pursue your PhD researching PSST topics.    - Reference letter from Master’s thesis supervisor/advisor or similar.   - (Optional) Preferences for 1-3 research topics (see webpage) and universities.     Requirements    - A master's degree in electrical engineering, computer science or related area (degree must be completed before employment can start).   - Mobility: The fellow must not have resided or carried out their main activity (work, studies, etc.) in the country of the first recruiting organisation for more than 12 months in the 36 months immediately before their recruitment date.   - Fluent written and verbal communication skills in English are required, knowledge of the local language is an advantage.   - Candidates cannot hold a doctoral degree.    Desirable skills    - Knowledge and skills in deep learning, programming, speech processing, user studies, privacy.   - Ability to work independently and a critical mindset.   - Pro-activeness and eagerness to participate in network-wide training events, international mobility, and public dissemination activities.    Submit your application at https://www.aalto.fi/en/open-positions/doctoral-researchers-12-positions-privacy-for-smart-speech-technology-psst PhD students receive a regular salary and social benefits according to national regulations, and if applicable, also family leave, long-term leave, and special needs allowances. The gross salaries we offer, including both a living allowance and a mobility allowance, are   3500 €/month         Aalto University (Espoo, Finland)                 3261 €/month         EURECOM (Sophia Antipolis, France) [1]  2680 €/month         INESC-ID (Lisbon, Portugal)  [2]   3261 €/month         INRIA (Nancy or Saclay, France)  [1]  Salary group TV-L E13   Ruhr University Bochum (Germany)  [3]  Salary scale P          Radboud University Nijmegen (Netherlands) [4]  Salary group TV-L E13   Technical University of Berlin (Germany) [3]  [1] https://www.horizon-europe.gouv.fr/sites/default/files/2022-02/horizon-europe---dn-pf---french-salary-explained-5762.pdf   [2] includes: base salary + food allowance + holiday allowance   [3] https://oeffentlicher-dienst.info/c/t/rechner/tv-l/allg?id=tv-l-2024&g=E_13&s=1   [4] https://www.ru.nl/sites/default/files/2024-09/Overview%20salary%20scales%201%20sept%202024.pdf   For queries, contact info@psst-doctoralnetwork.eu .   Marie Skłodowska-Curie Actions, Doctoral Networks (MSCA-DN) , 101168193 – PSST.  
 | ||||||||||||||||
| 6-32 | (2024-12-13) Doctoral training program “Privacy for Smart Speech Technology” (PSST) is a joint doctoral  
 | ||||||||||||||||
| 6-33 | (2024-12-13) Stage IRCAM/CNRS/EURECOM Génération de deepfakes audio-visuels par modèle de diffusion multimodal Dates : 01/03/2025 au 31/08/2025 Laboratoire : STMS Lab (IRCAM / CNRS / Sorbonne Université et EURECOM Lieu : IRCAM – Analyse et Synthèse des Sons (Paris) ou EURECOM (Sophia Antipolis) Responsables : Nicolas Obin (Ircam), Jean-Luc Dugelay (EURECOM), Alexandre Libourel (EURECOM) Contact : nicolas.obin@ircam.fr, Jean-Luc.Dugelay@eurecom.fr, Alexandre.Libourel@eurecom.fr Contexte : Ce stage s’inscrit dans le contexte du projet DeTOX - Lutte contre les vidéos hyper-truquées de personnalités françaises, financé par ASTRID/ANR et en collaboration avec EURECOM. Les récents challenges ont montré qu’il était extrêmement difficile de mettre au point des détecteurs universels de vidéos hyper-truquées - à l’exemple des “deep fakes” utilisés pour contrefaire l’identité d’une personne. Lorsque les détecteurs sont exposés à des vidéos générées par un algorithme nouveau, c’est-à-dire inconnu lors de la phase d’apprentissage, les performances sont encore extrêmement limitées. Pour la partie vidéo, les algorithmes examinent les images une par une, sans tenir compte de l’évolution de la dynamique faciale au cours du temps. Pour la partie vocale, la voix est générée de manière indépendante de la vidéo ; en particulier, la synchronisation audio-vidéo entre la voix et les mouvements des lèvres n’est pas prise en compte. Ceci constitue un point faible important des algorithmes de génération de vidéos hyper-truquées. Le projet DeTOX vise à implémenter et à apprendre des algorithmes de détection de deepfakes personnalisés sur des individus pour lesquels on peut disposer et/ou fabriquer de nombreuses séquences audio-vidéo réelles et falsifiées. En se basant sur des briques technologiques de base en audio et vidéo récupérées de l’état de l’art, le projet se concentrera sur la prise en compte de l’évolution temporelle des signaux audio-visuels et de leur cohérence pour la génération et la détection. Nous souhaitons ainsi démontrer qu’en utilisant simultanément l’audio et la vidéo et en se focalisant sur une personne précise lors de l’apprentissage et de la détection, il est possible de concevoir des détecteurs efficaces même face à des générateurs encore non répertoriés. De tels outils permettront de scruter et de détecter sur le web d’éventuelles vidéos hyper-truquées de personnalités françaises importantes (président de la république, journalistes, chef d’état-major des armées, …) et ce dès leur publication. Objectifs : La génération deepfakes audio-visuels repose actuellement sur l’assemblage de deepfakes audio, visuel, et de resynchronisation labiale générés séparément. Chaque modalité possède des générateurs de référence dans l’état de l’art : par exemple, LIA [1, 2] ou DeepFaceLab pour l’image, RVC [3] pour l’audio, et Wav2lip et Diff2lip [4] pour la synchronisation labiale audio-visuelle. L’objectif de ce stage consistera à implémenter, entraîner, et évaluer un modèle de génération de deepfakes audio-visuel par diffusion multimodale à partir de générateurs existants et optimisée sur une personnalité visée. Les contributions attendues sont : - L’implémentation d’un post-net basé sur un modèle de diffusion à partir de flux de données asynchrones qui, à partir d’un assemblage de générateurs séparés, homogénéise et optimise le réalisme du rendu de la génération d’un deepfake audio-visuel - La spécialisation de la génération conditionnée sur l’identité d’une personnalité, par exemple par la mise en œuvre d’un apprentissage adversarial conditionné sur la personne. - La génération d’une base de données de deepfakes audio-visuel sur une ou plusieurs personnalités françaises. - La mise en œuvre de protocoles d’évaluation objectif et subjectif pour l’évaluation de la qualité et du réalisme des deepfakes générés 
 Le stage s’appuiera en majeure partie sur les connaissances de l’équipe Analyse et Synthèse des Sons en traitement du signal de parole et en modélisation générative par réseaux de neurones, en collaboration étroite avec EURECOM pour la génération multimodale. En outre, le ou la stagiaire pourra s’appuyer sur les implémentations existantes des générateurs audio, visuel, et de synchronisation labiale déjà réalisées dans le cadre du projet DeTOX. Compétences attendues : ● Maîtrise de l’apprentissage automatique, en particulier de l’apprentissage par réseaux de neurones, et multimodal. ● Maîtrise du traitement du signal numérique (son, image) ● Bonne maîtrise de la programmation Python et de l’environnement TensorFlow et PyTorch et du calcul distribué sur des unités GPUs ● Autonomie, travail en équipe, communication, productivité, rigueur et méthodologie. Rémunération : Gratification selon loi en vigueur et avantages sociaux 
 Date limite de candidature : 20/01/2025 Bibliographie : [1] Wang, Yaohui, Di Yang, Francois Bremond, and Antitza Dantcheva. 'LIA: Latent Image Animator.' IEEE Transactions on Pattern Analysis and Machine Intelligence (2024). [2] Wang, Y., Yang, D., Bremond, F. and Dantcheva, A., 2022. Latent image animator: Learning to animate images via latent space navigation. In International Conference on Learning Representation (ICLR), 2022. [3] Retrieval-based Voice Conversion. Available online: https://github.com/RVCProject/Retrieval-based-Voice-ConversionWebUI/blob/main/docs/en/README.en.md [4] Mukhopadhyay; S. et al. Diff2Lip: Audio Conditioned Diffusion Models for LipSynchronization. In Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision (WACV), pp. 5292-5302. 2024 
 | ||||||||||||||||
| 6-34 | (2024-12-14) M2 Internship: Using Speech-Based AI to Study Communicative Development, @ LIS/CNRS, Marseille ( Luminy campus), France M2 Internship: Using Speech-Based AI to Study Communicative Development Requirement: M1 in computer science Large Language Models, such as ChatGPT, have shown impressive abilities in text-based tasks. Beyond practical applications, they have also sparked scientific discussions about the nature of human language and cognitive development, including debates around Chomsky’s theories on the emergence of syntax. 1 However, these models have limitations in advancing our understanding of how children acquire language. First, they rely on vast amounts of text data for training. Children do not acquire language through exposure to written text; their language learning is grounded in speech—an inherently multimodal signal that combines linguistic and paralinguistic information such as prosody. These features are understood to play a critical role in shaping children’s communicative development. 2 Second, children are not passive learners, they actively engage in (proto-)conversational exchanges with caregivers. Through interactions, they influence their linguistic environment, creating a dynamic feedback loop that is vital for learning. 3 Recent advances in speech language modeling provide a scientific infrastructure for the study of how multimodality and interaction shape early language development. Models like Moshi 4 represent a significant step forward by processing speech directly, without first converting it into text. This approach allows an effective integration of both linguistic and paralinguistic cues. Moshi also models interactive speech communication, enabling it to listen and respond simultaneously—just as humans do. This project aims to use such speech-based models to study children’s communicative development in unprecedented ways, addressing questions about how early conversational dynamics, prosody, and meaning interact to support language acquisition and use. Beyond its scientific contributions, this work has significant societal implications. In education, it can guide the development of more engaging, low-latency e-tutoring systems. In health, it can improve the accuracy of tools for early detection of communicative disorders, such as autism, through analysis of markers like turn-taking dynamics and prosody. The internship will focus on the Generative Spoken Language Model (dGSLM), 5 a direct precursor to Moshi. dGSLM is well-suited for an M2 internship due to its relative simplicity, while still being capable of producing significant scientific results. The main components of dGSLM include (see Figure, extracted from the original paper): ● Encoder: HuBERT, a self-supervised speech model that encodes linguistic and paralinguistic features from raw audio ● Decoder: HiFi-GAN, a vocoder for generating realistic audio. ● Model Architecture: Duplex transformer, which supports bidirectional processing of conversational dynamics. We will fine-tune dGSLM on around 150 hours of child-adult conversations from a new corpus, which includes data from 303 children aged 4 to 9 years. This fine-tuning will adapt the model to study child-directed communication. In particular, we will explore how prosody influences turn-taking dynamics, employing methods analogous to those we use to study children’s behavior in the lab. Practicalities The internship will be funded ~600 euros per month for a duration of 5 to 6 months. It will take place in Marseille within the TALEP research group at LIS/CNRS on the Luminy campus. The intern will collaborate with other interns from this project, as well as PhD students and researchers from the research group. How to apply: send as soon as possible a short application letter, transcripts, and CV to abdellah.fourtassi@gmail.com ● Application deadline: December 20th, 2024 ● Expected start: February 2025 6 
 1 Piantadosi, S. T. (2023). Modern language models refute Chomsky’s approach to language. From fieldwork to linguistic theory: A tribute to Dan Everett, 353-414. 2 Christophe, A., Millotte, S., Bernal, S., & Lidz, J. (2008). Bootstrapping lexical and syntactic acquisition. Language and speech, 51(1-2), 61-75. 3 Murray, L., & Trevarthen, C. (1986). The infant's role in mother–infant communications. Journal of child language, 13(1), 15-29. 4 Défossez, A., Mazaré, L., Orsini, M., Royer, A., Pérez, P., Jégou, H., ... & Zeghidour, N. (2024). Moshi: a speech-text foundation model for real-time dialogue. arXiv preprint arXiv:2410.00037. 5 Nguyen, T. A., Kharitonov, E., Copet, J., Adi, Y., Hsu, W. N., Elkahky, A., ... & Dupoux, E. (2023). Generative spoken dialogue language modeling. Transactions of the Association for Computational Linguistics, 11, 250-266. 6 Ekstedt, E., & Skantze, G. (2022). How much does prosody help turn-taking? investigations using voice activity projection models. arXiv preprint arXiv:2209.05161. 
 | ||||||||||||||||
| 6-35 | (2024-12-18) Stages à lRIT  (équipe SAMoVA), Toulouse, France L’équipe SAMoVA de l’IRIT à Toulouse propose plusieurs stages (M1, M2, PFE ingénieur) en 2025 autour des thématiques suivantes (liste non exhaustive) : 
 https://www.irit.fr/SAMOVA/site/jobs/ 
 |