ISCA - International Speech
Communication Association


ISCApad Archive  »  2021  »  ISCApad #278  »  Jobs

ISCApad #278

Monday, August 09, 2021 by Chris Wellekens

6 Jobs
6-1(2021-02-15) Ingenieur contractuel Police Technique et Scientifique France

 

Un poste d'ingénieur contractuel à la section audio de la police technique et scientifique est à pourvoir.
Pour plus d'informations, voici le lien

https://place-emploi-public.gouv.fr/offre-emploi/police-scientifique---ipts--adjoint-au-chef-de-la-section-audio-reference-2021-545548/

Back  Top

6-2(2021-03-08) Fully funded PhD at KTH, Stockholm, Sweden

A fully funded PhD position in Deep Learning for Conversational AI

KTH, Royal Institute of Technology, Stockholm, Sweden. Apply here (deadline 2/4)

https://www.kth.se/en/om/work-at-kth/lediga-jobb/what:job/jobID:379667/where:4/

Back  Top

6-3(2021-03-08) PhD and RA positions at University of Trento, Italy
PhD and RA Positions in Conversational AI in the Health Domain? at University of Trento, Italy
 
and add this link :
 
Back  Top

6-4(2021-03-08) Two PhD positions at NTNU, Trondheim, Norway.

Two  

Two PhD positions are open at NTNU Trondheim, Norway

 

https://www.jobbnorge.no/en/available-jobs/job/200820/2-phd-positions-in-machine-learning-for-speech-analysis-and-recognition

Back  Top

6-5(2021-03-09) Associate professor at Telecom Paris, France



 Telecom Paris is hiring an associate professor in machine learning for
distributed/multi-view machine listening and audio content analysis

See offer here:
https://adasp.telecom-paris.fr/news/job_offers/highlights/adasp_position_machine_listening_2021/ or read
on...


Institut Polytechnique de Paris [1] - Telecom Paris [2], LTCI lab [3], ADASP group [4]


-- Important Dates
? *March 20th 2021: closing date*
?    End of April 2021: hearings of preselected candidates


Applications are invited for a permanent (indefinite tenure) faculty position at the
Associate Professor level (Maitre de Conferences) in machine learning for
distributed/multi-view machine listening and audio content analysis.

-- Context

Telecom Paris [2] is a French public institution for engineering higher education (grande
ecole) and scientific research, founded in July 1878. It is a founding member of the
Institut Polytechnique de Paris [1], a world-class scientific and technological
institution. Located in Palaiseau, at the Plateau de Saclay (Paris outskirts), this
Institution is a partnership between Ecole Polytechnique, ENSTA Paris, ENSAE Paris,
Telecom Paris and Telecom SudParis, with HEC as a key partner. Students and faculty
benefit from close relationships between the different institutions.
The Information Processing and Communication Laboratory (LTCI) [3] is Telecom Paris?
in-house research laboratory. Since January 2017, it has continued the work previously
carried out by the CNRS joint research unit of the same name. The LTCI was created in
1982 and is known for its extensive coverage of topics in the field of information and
communication technologies. The LTCI?s core subject areas are computer science, networks,
data science, signal and image processing and digital communications. The laboratory is
also active in issues related to systems engineering and applied mathematics.
The open position will be hosted by Telecom Paris? Audio Data Analysis and Signal
Processing (ADASP) group [4], a subgroup of the statistics, signal processing and machine
learning (S²A) team, within the Images, Data & Signals (IDS) department [5].


-- Main missions

The hired associate professor will be expected to:

[Research activities]
?    Develop research in multi-view/distributed machine learning applied to machine
listening, in line with the topics of Telecom Paris? Audio Data Analysis and Signal
Processing (ADASP) group
?    Develop both academic and industrial collaborations, including collaborative
activities with other Telecom Paris research departments and teams, and research
contracts with industrial players
?    Submit proposals to national and international research project calls


[Teaching activities]
?    Participate in teaching activities at Telecom Paris and its partners (as part of
joint Master programs), especially in machine learning, signal processing, and machine
listening, including life-long training programs (e.g. the local Data Scientist
certificate)

[Impact]
?    Publish high quality research work in leading journals and conferences
?    Play an active role in the research communities relevant to the position (serving in
scientific committees and boards, organizing seminars, workshops, special sessions...)


-- Candidate profile

As a minimum requirement, the successful candidate will have:

?    A PhD degree
?    A track record of research and publication in one or more of the following areas:
machine learning, signal processing or machine listening
?    Experience in deep learning, audio data analysis, machine listening, music data
analysis, multi-view learning, distributed learning
?    Experience in teaching
?    Good command of English

The ideal candidate will also (optionally) have:
?    Knowledge in frugal learning techniques
?    Experience in source separation/enhancement and signal denoising techniques
?    Experience in distributed computing environments

Other skills expected include:
?    Capacity to work in a team and develop good relationships with colleagues and peers
?    Good communication and pedagogical skills

Note that you do *not* need to speak French to apply. 

-- Place of work

Palaiseau (Paris outskirts), France

-- How to apply

The application shall be submitted, through this link:
https://institutminestelecom.recruitee.com/o/maitre-de-conference-en-machine-listening,
as a single pdf file, including:

?    a letter of motivation
?    a complete and detailed curriculum vitae
?    statements of research and teaching interests (4 pages)
?    three main publications
?    contact information for two references, to be sent to Slim Essid

-- Contact

Slim Essid (Coordinator of the ADASP group), https://perso.telecom-paris.fr/~essid/

Back  Top

6-6(2021-03-16) PhD position at INRIA, Nancy, France
********** PhD position *************
 

Title: Robust and Generalizable Deep Learning-based Audio-visual Speech Enhancement

The PhD thesis will be jointly supervised by Mostafa Sadeghi (Inria Starting Faculty Position) and Romain Serizel (Associate Professor, Université de Lorraine).

 

Contacts: Mostafa Sadeghi (mostafa.sadeghi@inria.fr) and Romain Serizel (romain.serizel@loria.fr)

 

Context: Audio-visual speech enhancement (AVSE) refers to the task of improving the intelligibility and quality of a noisy speech utilizing the complementary information of visual modality (lips movements of the speaker) [1]. Visual modality can help distinguish target speech from background sounds especially in highly noisy environments. Recently, and due to the great success and progress of deep neural network (DNN) architectures, AVSE has been extensively revisited. Existing DNN-based AVSE methods are categorized into supervised and unsupervised approaches. In the former category, a DNN is trained to map noisy speech and the associated video frames of the speaker into a clean estimate of the target speech. The unsupervised methods [2] follow a traditional maximum likelihood-based approach combined with the expressive power of DNNs. Specifically, the prior distribution of clean speech is learned using deep generative models such as variational autoencoders (VAEs) and combined with a likelihood function based on, e.g., non-negative matrix factorization (NMF), to estimate the clean speech in a probabilistic way. As there is no training on noisy speech, this approach is unsupervised.

Supervised methods require deep networks, with millions of parameters, as well as a large audio-visual dataset with diverse enough noise instances to be robust against acoustic noise. There is also no systematic way to achieve robustness to visual noise, e.g., head movements, face occlusions, changing illumination conditions, etc. Unsupervised methods, on the other hand, show a better generalization performance and can achieve robustness to visual noise thanks to their probabilistic nature [3]. Nevertheless, their test phase involves a computationally demanding iterative process, hindering their practical use.

 

Objectives: Project description: In this PhD project, we are going to bridge the gap between supervised and unsupervised approaches, benefiting from both worlds. The central task of this project is to design and implement a unified AVSE framework having the following features: 1- Robustness to visual noise, 2- Good generalization to unseen noise environments, and 3- Computational efficiency at test time. To achieve the first objective, various techniques will be investigated, including probabilistic switching (gating) mechanisms [3], face frontalization [4], and data augmentation [5]. The main idea is to adaptively lower bound the performance by that of audio-only speech enhancement when the visual modality is not reliable. To accomplish the second objective, we will explore techniques such as acoustic scene classification combined with noise modeling inspired by unsupervised AVSE, in order to adaptively switch to different noise models during speech enhancement. Finally, concerning the third objective, lightweight inference methods, as well as efficient generative models, will be developed. We will work with the AVSpeech [6] and TCD-TIMIT [7] audio-visual speech corpora.

 

References:

[1] D. Michelsanti, Z. H. Tan, S. X. Zhang, Y. Xu, M. Yu, D. Yu, and J. Jensen, ?An overview of deep-learning based audio-visual speech enhancement and separation,? arXiv:2008.09586, 2020.

[2] M. Sadeghi, S. Leglaive, X. Alameda-Pineda, L. Girin, and R. Horaud, ?Audio-visual speech enhancement using conditional variational auto-encoders,? IEEE/ACM Transactions on Audio, Speech and Language Processing, vol. 28, pp. 1788 ?1800, 2020.

[3] M. Sadeghi and X. Alameda-Pineda, ?Switching variational autoencoders for noise-agnostic audio-visual speech enhancement,? in ICASSP, 2021.

[4] Z. Kang, M. Sadeghi, R. Horaud, ?Face Frontalization Based on Robustly Fitting a Deformable Shape Model to 3D  Landmarks,? arXiv:2010.13676, 2020.

[5] S. Cheng, P. Ma, G. Tzimiropoulos, S. Petridis, A. Bulat, J. Shen, M. Pantic, ?Towards Pose-invariant Lip Reading,?  in ICASSP, 2020.

[6] A. Ephrat, I. Mosseri, O. Lang, T. Dekel, K. Wilson, A. Hassidim, W.T. Freeman, M. Rubinstein, ?Looking to Listen  at the Cocktail Party: A Speaker-Independent Audio-Visual Model for Speech Separation,? SIGGRAPH 2018.

[7] N. Harte and E. Gillen, ?TCD-TIMIT: An Audio-Visual Corpus of Continuous Speech,? IEEE Transactions on Multimedia, vol.17, no.5, pp.603-615, May 2015.

 

Skills:

  • Master's degree, or equivalent, in the field of speech/audio processing, computer vision, machine learning, or in a related field,
  • Ability to work independently as well as in a team,
  • Solid programming skills (Python, PyTorch),
  • A decent level of written and spoken English.

Benefits package:

  • Subsidized meals
  • Partial reimbursement of public transport costs
  • Leave: 7 weeks of annual leave + 10 extra days off due to RTT (statutory reduction in working hours) + possibility of exceptional leave (sick children, moving home, etc.)
  • Possibility of teleworking (after 6 months of employment) and flexible organization of working hours
  • Professional equipment available (videoconferencing, loan of computer equipment, etc.)
  • Social, cultural, and sports events and activities
  • Access to vocational training
  • Social security coverage

Remuneration:

Salary: 1982? gross/month for 1st and 2nd year. 2085? gross/month for 3rd year.

Monthly salary after taxes: around 1596,05? for 1st and 2nd year. 1678,99? for 3rd year. (medical insurance included).

Back  Top

6-7(2021-03-20) Post-doc at Nara Institute for Science and Technology, Japan

[Postdoctoral researcher, Nara Institute of Science and Technology]
Augmented Human Communication Laboratory directed by Professor Satoshi
Nakamura has a postdoctoral research position available in the area of human
information processing, dialogue systems, statistical modeling, machine
learning, and brain science for the Training Adapted Personalised Affective
Social Skills with Cultural Virtual Agents (ANR-CREST: JPMJCR19A).
Affiliation: Division of Information Science, Nara Institute of Science and
Technology, Japan.
Position: Postdoctoral researcher
Recruitment personnel: 1 person
Appointment time: May 1, 2021, or later as early as possible to March 31,
2022.
Term: Contract can be renewed every year. The longest employment is until
March 31, 2025.
Trial period: No trial period

Job description:
The research area is related to the Training Adapted Personalised Affective
Social Skills with Cultural Virtual Agents (ANR-CREST: JPMJCR19A), and
fields such as dialogue system using machine learning, and multimodal information
processing.
Application conditions:
- Doctoral researcher
A person with a Ph.D. who builds a dialogue system using statistical
methods, machine learning, and multimodal information processing. Those who have
the necessary knowledge and experience regarding the area and are willing to
conduct research independently.

Salary: Determined based on the university regulations
Benefits: Join health insurance, pension insurance, accident compensation
insurance, and employment insurance

Workplace:
Augmented Human Communication Laboratory, Nara Institute of Science and
Technology.
Employment period: May 1, 2021, or later as early as possible to March 31,
2022. Contract can be renewed every year. The longest employment is until
March 31, 2025.

Work style:
? Working days: Monday to Friday
? Holidays: Saturdays, Sundays, national holidays, summer holidays,
year-end and new year holidays, and the anniversary of the university
foundation (October 1)
? Working hours: Discretionary work system

Deadline: April 9, 2021 (Friday)


[Application method]
Documents to be submitted:
(1) Resume (using the university's format: see the URL below)
https://www.naist.jp/en/about_naist/job_opportunities/resume_format.html
(2) List of research achievements
(3) Research motivation (A4 one page)
(4) Three major publications
(5) Letters from two references with their address, telephone number and
email address included.
Where to submit application documents:
After stating 'Postdoctoral researcher application' in the title, Please
submit by e-mail to the following contact address.
E-mail: tapas-positions@is.naist.jp

[Selection details (selection method, decision on acceptance / rejection),
result notification]
(1) 1st selection: document screening
(2) 2nd selection: online interview
After screening the documents, we will contact you for an interview.
* Application documents will be used only for the purpose of recruitment
screening and will not be used for any other purpose. The application
documents will not be returned regardless of the result of acceptance or
rejection. In consideration of the risk of personal information leakage due
to misdelivery, application documents for non-employees will be responsibly
deleted at the end of recruitment activities.

Contact:
?630-0192
8916-5 Takayama-Cho, Ikoma, Nara, Japan
Professor Satoshi Nakamura, Augmented Human Communication Laboratory, Nara
Institute of Science and Technology
E-mail:  tapas-positions@is.naist.jp
############################

Back  Top

6-8(2021-04-05) Researchers in Speech, Text and Multimodal Machine Translation @ DFKI Saarbrücken, Germany

Researchers in Speech, Text and Multimodal Machine Translation @ DFKI Saarbrücken, Germany

--------------------------------------------------------------

The MT group at MLT@DFKI Saarbrücken is looking for

     senior researchers/researchers/junior researchers

in speech, text and multimodal machine translation using deep learning.

3 year contracts. Possibility of extension. Ideal starting dates around June/July 2021.

Key responsibilities:
- Research and development in speech, text and multimodal MT
- Scientific publications
- Co-supervision of BSc/MSc students and research assistants
- Possibility of teaching at Saarland University (UdS)
- Senior: PhD co-supervision
- Senior: Project/grant acquisition and management

Qualifications senior researchers/researchers:
- PhD in NLP/Speech/MT/ML/CS or related
- strong scientific and publication track record in speech/text/multimodal-NLP/MT

Qualifications junior researchers:
- MSc in CS/NLP/Speech/ML/MT or related (possibility to do a PhD at
DFKI/UdS)

All:
- Strong background in machine learning and deep learning
- Strong problem solving and programming skills
- Strong communication skills in written and spoken English (German an asset, but not a requirement)

Working environment: the post are in the ?Multilinguality and Language Technology? MLT Lab at DFKI (the German Research Center for Artificial Intelligence https://www.dfki.de/en/web/) in Saarbrücken, Germany. MLT is led by Prof. Josef van Genabith. MLT is a highly international team and does basic and applied research.

Application: a short cover letter indicating which level (senior / researcher / junior) you apply for, a CV, a brief summary of research interests, and contact information for three references. Please submit your application by Friday April 23rd, 2021 as PDF to Prof. Josef van Genabith (josef.van_genabith@dfki.de) indicating your earliest possible start date. Positions remain open until filled.

Selected MT@MLT group publications 2020/21: Xu et al. Probing Word Translation in the Transformer and Trading Decoder for Encoder Layers.
NAACL-HLT 2021. Chowdhury et al. Understanding Translationese in Multi-View Embedding Spaces. COLING 2020. Pal et al. The Transference Architecture for Automatic Post-Editing. COLING 2020. Ruiter et al.
Self-Induced Curriculum Learning in Self-Supervised Neural Machine Translation. EMNLP-2020. Zhang et al. Translation Quality Estimation by Jointly Learning to Score and Rank. EMNLP 2020. Xu et al. Dynamically Adjusting Transformer Batch Size by Monitoring Gradient Direction Change. ACL 2020. Xu et al. Learning Source Phrase Representations for Neural Machine Translation. ACL 2020. Xu et al. Lipschitz Constrained Parameter Initialization for Deep Transformers. ACL 2020. Herbig et al.
MMPE: A Multi-Modal Interface for Post-Editing Machine Translation. ACL 2020. Herbig et al. MMPE: A Multi-Modal Interface using Handwriting, Touch Reordering and Speech Commands for Post-Editing Machine Translation. ACL 2020. Alabi et al. Massive vs. Curated Embeddings for Low-Resourced Languages: the Case of Yorùbá and Twi. LREC 2020.
Costa-jussàet al. Multilingual and Interlingual Semantic Representations for Natural Language Processing: A Brief Introduction. In: Computational Linguistics (CL) Special Issue: Multilingual and Interlingual Semantic Representations for Natural Language Processing. Xu et al. Efficient Context-Aware Neural Machine Translation with Layer-Wise Weighting and Input-Aware Gating. IJCAI 2020

DFKI is one of the leading AI centers worldwide, with several sites in Germany. DFKI Saarbrücken is part of the Saarland University (UdS) Informatics Campus. UdS has exceptionally strong CS and CL schools and, in addition to DFKI, a Max Plank Institute for Informatics, a Max Plank Institute for Software Systems, the Center for Bioinformatics, and the CISPA Helmholz Center for Information Security.

Geographic environment: Saarbrücken (http://www.saarbruecken.de/en) is the capital of Saarland, one of the Federal States in Germany, located right in the heart of Europe and a cultural center in the border region of Germany, France and Luxembourg. Frankfurt and Paris are less than 2 hours by train. Living cost is moderate in comparison with other cities in Germany and Europe.


Back  Top

6-9(2021-04-02) PhD at Université d'Avignon, France

**** If you don't read French and are interested in a PhD position in AI/NLP please
contact us directly for further information. French speaking is not required for the
position. ****

 Les réponses doivent nous parvenir de préférence **avant le 10 mai**.

PROPOSITION SUJETS DE THESES

CONTRATS DOCTORAUX 2021-2024

Appel cible (merci de cocher la case correspondante):

X Contrat doctoral ministeriel ED 536

□ Contrat doctoral ministeriel ED 537

------------------------------------------------------------------------------------------------------------------------

Directeur de these : Fabrice LEFEVRE

Co-directeur eventuel :

Co-encadrant eventuel : Bassam JABAIAN

Titre en francais : Transformer et renforcer pour le transfert et l’apprentissage en ligne des

agents conversationnels vocaux

Titre en anglais : Transformer and Reinforce for transfer and online learning of vocal

conversational agents

Mots-cles : IA, natural language processing , human-machine vocal interactions, deep learning,

deep reinforcement learning, transfer learning

Co tutelle : XXX - Non Pays :

Opportunites de mobilite a l’international du doctorant dans le cadre de sa these : oui

Profil du candidat :

Le candidat doit avoir un master en informatique avec une composante sur les méthodes

d'apprentissage automatique et/ou sur l’ingénierie de la langue. La bourse de thèse fera l’objet

d’un concours au sein de l’Ecole Doctorale 536 de l’université d’Avignon, avec une audition du

candidat retenu par les encadrants de thèse.

Pour postuler merci d’envoyer un mail avant le 10 mai 2021 à Fabrice Lefèvre

(fabrice.lefevre@univ-avignon.fr) et Bassam Jabaian (bassam.jabaian@univ-avignon.fr)

incluant : votre CV, une lettre de motivation avec votre positionnement sur les propositions

d’études ci-dessous, d’éventuelles lettres de recommandation et vos relevés de notes.

Presentation detaillee du sujet :

Domaine / Thematique : IA/NLP

Objectif : Permettre le transfert et l'apprentissage en ligne des agents conversationnels vocaux

avec une combinaison Transformers/Renforcement

Contexte et enjeux : Parmi les activités de recherche en intelligence artificielle, améliorer

l'interaction vocale avec les machines reste un défi majeur d’actualité. Le LIA traite de

multiples aspects liés à l’interaction vocale mais cherche à travers cette thèse à approfondir en

particulier la recherche sur les techniques d’apprentissage des agents conversationnels vocaux

à base de réseaux de neurones profonds supervisés et renforcés. De tels agents dialoguant

sont un enjeu primordial afin d’améliorer les capacités de nos sociétés à gérer une

distanciation sociale contrôlée, notamment par la délégation de certaines tâches risquées à

des artefacts matériels efficients, et bien acceptés par le grand public.

Les récentes évolutions en réseaux de neurones ont permis d’élaborer des systèmes de

génération de texte (ou modèles de langage) de grande qualité. Ils sont pour cela appris sur

des quantités gigantesques de documents, mais permettent en contrepartie une couverture

très large du langage humain. Les représentants les plus avancés dans ce domaine sont les

Transformers, qui permettent d’éliminer le recours à la récurrence dans les réseaux (couteux

en calcul) en privilégiant un mécanisme d’attention démultipliée (multi-head self-attention).

De nombreux dérivés de ces modèles existent et ont permis des gains conséquents en

performance sur de nombreuses tâches impliquant la génération de texte en langage naturel.

Ainsi BERT [1] et GPT forment les grandes familles (et leurs multiples descendants distilBERT,

alBERT, GPT-2…). Mais si de tels modèles permettent de porter à un plus haut niveau de

performance nos capacités de modélisation du langage, il reste encore à savoir les mettre en

oeuvre pour des tâches plus spécifiques ou exigeantes, comme les systèmes d’interaction

orale.

Ainsi le problème de leur application au cas des agents conversationnels reste ouvert car à la

fois l’interaction directe avec les humains accentue l’impact des erreurs et imperfections des

modèles et d’autre part la gestion des interactions se fait dans un contexte finalisé, où

l’objectif n’est pas le simple échange de données langagières mais la réussite d’un objectif

latent (obtenir une information précise, réaliser ou faire réaliser une action…). Aussi le

challenge principal que nous souhaitons porter dans la thèse est de permettre une adaptation

sur une tache particuliere des capacites d’un Transformer pre-entraine, notamment pour

l’elaboration d’un agent conversationnel. Des approches par transfert d’apprentissage ont

déjà été initiées mais leurs résultats sont contrastés et doivent être renforcés [2]. Nous

identifions deux axes majeurs pour la thèse :

Axe 1/ Transfert et apprentissage en ligne / Tout d’abord les approches de transfert reposent

toujours sur le recours à de nouvelles données pré-collectées auxquelles sont confrontés les

modèles [2]. Ainsi, dans la continuité de nos précédents travaux sur l’apprentissage en ligne

des systèmes de dialogue, nous souhaiterions élaborer et évaluer des strategies efficaces pour

permettre le recours a des apprentissages par renforcement [3, 4]. Pour rendre les systèmes

artificiels capables d'apprendre à partir des données, deux hypothèses fortes sont

généralement faites : (1) la stationnarité du système (l'environnement de la machine ne

change pas avec le temps), (2) l'interdépendance entre la collecte des données et le processus

d'apprentissage (l'utilisateur ne modifie pas son comportement dans le temps). Or les

utilisateurs ont une tendance naturelle à adapter leur comportement en fonction des réactions

de la machine, ce qui gêne la convergence de l'apprentissage vers un équilibre lui permettant

de satisfaire en permanence les attentes de l'utilisateur. Aussi les interfaces vocales doivent

évoluer vers une nouvelle génération de systèmes interactifs, capables d'apprendre

dynamiquement sur le long terme à partir d'interactions, tout en anticipant les variations du

comportement des humains, étant eux-mêmes vu comme des systèmes évolutifs.

L’enjeu est alors, dans le contexte de l’apprentissage par renforcement profond [5] de pouvoir

démontrer l’optimalité de la convergence des algorithmes utilisés pour mettre à jour les poids

de certaines couches du modèle au fur et à mesure des interactions avec des utilisateurs, sans

prendre le risque d’une atténuation des performances initiales. La détermination optimale des

paramètres à modifier doit pouvoir être automatisée. Ce projet s’inscrit aussi dans le cadre de

l’apprentissage en continu (continual learning) [6] d’un agent conversationnel.

Axe 2/ Modelisation de l’oral / Ensuite l’essentiel des modèles pré-cités modélisent

exclusivement le langage écrit et intègrent peu de mécanismes dédiés à la nature du langage

parlé. Aussi nous souhaiterions augmenter les capacités de telles machines à faire face à : 1)

des entrées utilisateurs plus naturelles, et comprenant donc de nombreux écarts vis-à-vis de

l’écrit (agrammaticalité, confusions, reprises, corrections, hésitations…) et 2) des erreurs dans

les transcriptions dues au composant de reconnaissance de la parole. Il est donc nécessaire de

pouvoir interfacer le composant d’analyse de la parole avec la chaine de modelisation du

langage qui suit (analyse sémantique, suivi de l’état de dialogue, gestion du dialogue,

génération et synthèse de parole) de manière à prendre en compte les multiples hypotheses

realistes (et non plus seulement la meilleure). Et enfin permettre un arbitrage entre ces

hypothèses qui prenne en compte les traitements suivants, en conformité avec le processus

cognitif humain équivalent (capable de re-traiter ses hypothèses acoustiques les plus

probables en cas de conflit avec ses inférences sémantiques).

Cette étude pourra être menée dans plusieurs cadres applicatifs, à préciser au démarrage de la

thèse : par exemple un robot Pepper dialoguant affecté à la gestion de l’accueil d’un lieu public

(par exemple dans un hôpital ou un musée). Il sera alors possible de déléguer des tâches de

premier contact et d’orientation à des artefacts insensibles aux transmissions biologiques, ce

qui constitue un atout hautement stratégique afin d’améliorer la gestion d’une situation de

crise, du type de la pandémie mondiale de coronavirus en cours.

[1] J. Devlin, M.-W. Chang, K. Lee, and K. Toutanova, “BERT: Pre-training of Deep Bidirectional

Transformers for Language Understanding,” arXiv.org, Oct. 2018.

[2] T. Wolf, V. Sanh, J. Chaumond, and C. Delangue, “TransferTransfo: A Transfer Learning

Approach for Neural Network Based Conversational Agents,” arXiv.org, Jan. 2019.

[3] E. Ferreira, B. Jabaian, and F. Lefèvre, “Online adaptative zero-shot learning spoken

language understanding using word-embedding,” in Proceedings of 2015 IEEE International

Conference on Acoustics, Speech and Signal Processing, ICASSP 2015, 2015, pp. 5321–5325.

[4] M. Riou, B. Jabaian, S. Huet, and F. Lefèvre, “Joint On-line Learning of a Zero-shot Spoken

Semantic Parser and a Reinforcement Learning Dialogue Manager,” in IEEE International

Conference on Acoustics, Speech and Signal Processing, ICASSP 2019, Brighton, United

Kingdom, May 12-17, 2019, 2019, pp. 3072–3076.

[5] K. Arulkumaran, M. P. Deisenroth, M. Brundage, and A. A. Bharath, “A Brief Survey of Deep

Reinforcement Learning,” IEEE SIGNAL Process. Mag. Spec. ISSUE Deep Learn. IMAGE Underst.,

Aug. 2017.

[6] Z. Chen and B. Liu, Lifelong Machine Learning, Second Edition, vol. 12, no. 3. Morgan &

Claypool Publishers, 2018.

Les sujets devront être adressés à

secretariat-ed@univ-avignon.fr



Back  Top

6-10(2021-04-15) Director, Center for Language and Speech Processing, Baltimore, MA, USA

POSITION: Director, Center for Language and Speech Processing

REPORTS TO: Ed Schlesinger, Benjamin T. Rome Dean Johns Hopkins University, Whiting School of Engineering

INSTITUTION: Johns Hopkins University, Baltimore, MD https://engineering.jhu.edu/

                                                               2.23.21

The Whiting School of Engineering at Johns Hopkins University invites nominations and applications for the position of Director of the Center for Language and Speech Processing (CLSP). The Director will be appointed as a full-time tenured faculty member in the Whiting School of Engineering and will be encouraged to remain active in research, with strategic leadership of the Center as their top priority. This is an outstanding opportunity for an accomplished scholar with leadership experience to further strengthen an exceptional interdisciplinary research center at the nation’s first research university. The best candidates will embody the intellectual distinction, entrepreneurial capacity, collaborative spirit, transparency, inclusiveness, and creativity that characterize the School’s culture and will bring a scholarly record deserving appointment as tenured professor at The Johns Hopkins University.

The Center for Language and Speech Processing

CLSP is one of the Whiting School’s 25 Interdisciplinary Centers and Institutes. The Center currently comprises over 25 tenure-line and research faculty whose primary appointments are in the Whiting School of Engineering or in other closely related schools, along with over 70 PhD students. CLSP was established in 1992 and grew to prominence under the directorship of the late Frederick Jelinek. It aims to understand how human language is used to communicate ideas, and to develop technology for machine analysis, translation, and transformation of multilingual speech and text. In 2007 CLSP gained a sibling, the national Human Language Technology Center of Excellence (https://hltcoe.jhu.edu), a governmentfunded research center at Johns Hopkins that develops critical speech and language technology for government use; several HLTCOE researchers are tightly integrated into CLSP. Recently, CLSP has further expanded its research portfolio by adding several prominent researchers in computer vision and related fields. As part of its educational mission, CLSP coordinates a full complement of courses dealing with a diverse array of topics in language and speech. It offers a weekly seminar featuring prominent visiting speakers in speech and language processing. It also runs the Fred Jelinek Memorial Workshop in Speech and Language Technology (JSALT), a widely-known residential research workshop that annually assembles teams of researchers from around the world to spend 6 summer weeks conducting intensive research on fundamental problems. Held annually since 1995, the workshop has produced many important advances in speech and language technology.

Opportunities for the Center Director

The CLSP Director will work with colleagues in and beyond CLSP to increase its impact by both enhancing its historic strengths and positioning it as a central element of a set of AI-related initiatives across the Whiting School and the University more broadly. To these ends, the Director will identify ways in which the Center will continue to grow and evolve and through which the Center, the Whiting School, and Hopkins can recruit, sustain, and deploy the human and financial resources needed to further distinguish itself.The Director will work to maintain the Center’s position as the disciplinary and intellectual hub of language and speech processing research within the University, enabling CLSP to contribute to and benefit from the success of significant institutional investment in artificial intelligence and machine learning more broadly, including potential applications to key societal problems such as healthcare and scientific endeavors such as linguistics and neuroscience. Collaborations with the Applied Physics Lab (www.jhuapl.edu) present opportunities to bring additional resource, expertise, and scale to advance CLSP research including potentially in classified research. Beyond Hopkins, CLSP’s Director will foster connections with industry as part of the Center’s efforts to expand its base of resources and relationships, to disseminate knowledge and discoveries, and to develop and transfer technologies that may have an impact in the world. In these various external activities, the Director will work with the University’s technology ventures office (https://ventures.jhu.edu), with faculty and students, and with alumni and donors. Specific strategies for enhancing CLSP’s strengths, broadening its impact, and positioning it relative to Hopkins-wide initiatives, along with measures of success and the prioritization of activities designed to achieve success, will be developed by the Director in collaboration with CLSP’s faculty and the Dean.

Diversity, equity, and inclusion at the Whiting School

WSE has a stated commitment to diversity, equity, and inclusion: “Diversity and inclusion enrich our entire community and are critical to both educational excellence and to the advancement of knowledge. Discovery, creativity, and innovation flourish in an environment where the broadest range of experiences are shared, where all voices are heard and are valued, and where individuals from different cultures and backgrounds can collaborate freely to understand and solve problems in entirely new ways.” As the leader of the Center and within the School, CLSP’s Director will work to enhance and expand diversity and inclusion at all levels and will ensure that the Center is a welcoming and supportive environment for all.

Position Qualifications

The new Director will be a proven, entrepreneurial leader who can bring faculty, staff, and students together to pursue a compelling vision of CLSP as an international hub for Language and Speech Processing research and as a site of innovation, teaching, and translation. They will have strong skills for mentoring junior faculty and will promote the interests of the Center. Intellectual curiosity and fundraising experience are valued. They will have a dossier that represent a distinguished track record of scholarship and teaching; a passionate commitment to research, discovery, and application; and an interest in and success at academic administration. Expected educational background and qualifications include:

• An earned doctorate in an area such as electrical and computer engineering, computer science, or a closely related field and a scholarly record deserving appointment as tenured professor at The Johns Hopkins University;

• Recognized leadership in their respective field with a distinguished national and international reputation for research and education;

• Excellent communication skills in both internal and external interactions;

• Strong commitment to diversity and inclusion at all levels among faculty, students, and staff, along with measurable and sustained impact on the diversity and inclusiveness of organizations they have led or been part of; and

• Leadership and administrative experience within a complex research environment or in national/international organizations connected to their respective field.

 

                                                                     *

The Whiting School of Engineering has engaged Opus Partners (www.opuspartners.net) to support the recruitment of the CLSP Director. Craig Smith, Partner, and Jeff Stafford, Senior Associate, are leading the search. Applicants should submit their CV and a letter of interest outlining their research and leadership experience to Jeffrey.stafford@opuspartners.net. Nominations, expressions of interest, and inquiries should go to the same address. Review of credentials will begin promptly and will continue until the appointment is finalized. Every effort will be made to ensure candidate confidentiality. The Whiting School of Engineering and CLSP are committed to building a diverse educational environment, and women and minorities are strongly encouraged to apply. Johns Hopkins University is an equal opportunity employer and does not discriminate on the basis of gender, marital status, pregnancy, race, color, ethnicity, national origin, age, disability, religion, sexual orientation, gender identity or expression, veteran status, other legally protected characteristics or any other occupationally irrelevant criteria. The University promotes Affirmative Action for minorities, women, individuals who are disabled, and veterans. Johns Hopkins University is a drug-free, smoke-free workplace.

 

Back  Top

6-11(2021-04-11) These CIFRE: Système dialogique de questions-réponses contrôlé : application aux forums sur la santé des femmes, LIG, Univ. Grenoble, France

Offre de thèse CIFRE: Système dialogique de questions-réponses contrôlé : application aux forums sur la santé des femmes

Laboratoire d'Informatique de Grenoble / Université Grenoble Alpes (http://lig-getalp.imag.fr/), Grenoble

Société Shesmet (https://www.shesmet.com), Paris

L?objectif de cette thèse de doctorat est de concevoir des méthodes permettant à un système de dialogue de répondre précisément à une question concernant la santé intime des femmes. En effet, la santé génésique et sexuelle des femmes est un sujet encore trop peu abordé dans son ensemble et trop souvent résumé à la santé reproductive. Pourtant les femmes ont physiologiquement plusieurs étapes de vie qui vont impacter de manière plus ou moins forte leur bien-être mental et physique : la puberté, la maternité, la ménopause et l?après ménopause. La santé sexuelle des femmes est aussi un enjeu de politique publique qui a évolué au cours des ans et qui reste au c?ur des problématiques de notre société : précarité menstruelle, contraception, accès à l?IVG, violences sexuelles. L?accès à une information de qualité, personnalisée et en tout anonymat est un fort vecteur d?autonomisation et d?égalité de soins pour l?ensemble de la population féminine. Pourtant, aujourd'hui les femmes voulant se renseigner sur ces thèmes sont souvent en prise avec un flot d'informations qui peuvent être discordantes, incomplètes et de sources non vérifiables (p.ex., les forum de santé alimentés par les utilisateurs). C'est pourquoi Shesmet et le laboratoire d'informatique de Grenoble (LIG) s'associent pour proposer une méthode dialogique de question réponse qui permette d'adapter une réponse experte et vérifiée au contexte particulier d'une question de santé exprimée par une utilisatrice. Cette approche est originale dans le sens ou elle tire partie du meilleur des capacités humaines (réponses pertinente et sans erreur) et computationnelles (capacité des modèles profonds à traiter des données à grande échelle).

Objectif de la thèse

Au cours de la dernière décennie, les systèmes traitement automatique du langage naturel ont fait de grands progrès grâce à l'émergence de l'apprentissage profond. La technique est aujourd'hui suffisamment mature pour être intégrée dans les assistants personnels  [Chen et Gao, 2017] et les systèmes de Question/Réponse. L'architecture actuelle des réseaux neuronaux comprend les RNN (LSTM/GRU) [Hochreiter et Schmidhuber, 1997 ; Cho et al., 2014] et les transformer [Vaswani et al., 2017], en combinaison avec les mécanismes d'attention [Bahdanau et al., 2014] pour permettre l'utilisation d'informations contextuelles allant au-delà d'un seul ou de quelques tours de dialogue [Bothe et al., 2018]. Cependant, ces corpus sont entraînés sur des masses de données tellement grandes et peu contrôlées que les modèles ont tendance à reproduire les comportements de ces données. Par exemple, les grands corpus de journaux généralistes font généralement la part belle au genre masculin. De même les systèmes de question/réponse sont généralement limités à trouver un extrait dans un grand corpus ou à générer une réponse à partir d'un modèle profond. Contrairement à ces systèmes de question réponses classiques, l'objectif sera ici de utiliser l'expertise de spécialistes en santé pour adapter une réponse au contexte de la question [Wu2019]. Ainsi, les experts humains conçoivent des réponses de grande qualité et vérifiées tandis que les systèmes profonds les adaptent aux plus grands nombre en évitant les erreurs usuelles des modèles profonds.

La tâche est donc de concevoir un système capable :

1. de classifier les énoncés du dialogue et les associés à un ensemble de réponses pré-établies ;

2. d?éditer les réponses pré-établie afin de les adapter à la question et au contexte dialogique ;

3. d'estimer le degré de réassurance nécessaire à insérer dans la réponse ;

4. d'expliquer les réponses données.

Dans le cadre de ce programme indicatif de travail, ce doctorat intéressera aux verrous suivants.

  • Des domaines peu doté : Il existe peu de corpus accessible hormis les données disponibles au sein de l'entreprise. Une piste de recherche sera d'utiliser les modèles pré-entrainés du LIG sur le français (dont Flaubert, [Le2020], modèle Bert pour le français que l'équipe GETALP a largement contribué a développer) qui est disponible via la bibliothèque Transformer de Hugging Face qui sera transférée [Wolf et al 2019] à la nouvelle tâche de conversation.

  • Des biais de modèles. En effet, le sujet se prête à l?analyse d?un enjeu sociétal propre au développement des TAL : la prise en compte des biais de genre face à une population cible principalement féminines. Le LIG a développé une expertise sur ce problème tant du point de vue des modèles textuels qu'oraux [Garnerin2020].

  • La contextualisation en dialogue. Dans un forum, l'interaction ne peut être assumée comme étant dyadique (plus de deux personnes) comme dans le dialogue classique (1 personne + un système) dialogue. Comment prendre en compte la contribution de plusieurs intervention pour personnaliser la réponse à faire à une seule personne reste un problème ouvert.

  • Explicabilité. Afin de garantir la transparence du système et de permettre aux utilisatrices d?interpréter les réponses fournies, le système doit être en mesure d'expliquer pourquoi une réponse précise à été donnée. Une technique est de fournir les éléments du dialogue qui sur lesquels la réponse a été sélectionnée et adaptée [Atanasova2020] mais d'autres méthodes pourront être explorées.

Environnement scientifique

La thèse sera menée au sein de l'équipe Getalp du laboratoire LIG (https://lig-getalp.imag.fr/). La personne recrutée sera accueillie au sein de l?équipe qui offre un cadre de travail stimulant, multinational et agréable. Par ailleurs, la personne recrutée passera un temps significatif au sein de l'entreprise Shesmet. Shesmet est une startup en e-santé travaillant à la fois sur des projets de recherche et développement et sur des missions d?accompagnement autour de l?innovation en santé auprès d?institutionnels en santé, publics et privés. La société a lancé en 2020 My S Life, une plateforme d'information en santé intime et sexuelle de la femme (www. myslife.co)

Les moyens pour mener à bien le doctorat seront assurés tant en ce qui concerne les missions en France et à l?étranger qu?en ce qui concerne le matériel (ordinateur personnel, accès aux serveurs GPU du LIG, Grille de calcul Jean Zay du CNRS).

Comment postuler ?

Les candidats doivent être titulaires d'un Master en informatique ou en traitement automatique du langage naturel (ou être sur le point d'en obtenir un). Ils doivent avoir une bonne connaissance des méthodes d?apprentissage automatique et idéalement une expérience en collecte et gestion de corpus. Ils doivent également avoir une bonne connaissance de la langue française. Une expérience dans le domaine du dialogue, des systèmes question réponse ou la génération automatique de textes serait un plus.

Les candidatures sont attendues jusqu'au 3 mai 2021. Elles doivent contenir : CV + lettre/message de motivation + notes master + lettre(s) de recommandations; et être adressées à François Portet (Francois.Portet@imag.fr), Didier Schwab (Didier.Schwab@imag.fr) et Juliette Mauro (juliette.mauro@shesmet.com).

References

[Atanasova2020] P Atanasova, JG Simonsen, C Lioma, I Augenstein A Diagnostic Study of Explainability Techniques for Text Classification. Proceedings of EMNLP 2020

[Bahdanau2014] D Bahdanau, K Cho, Y Bengio. 'Neural machine translation by jointly learning to align and translate', arXiv preprint arXiv:1409.0473, 2014

[Bothe2018] Chandrakant Bothe, Cornelius Weber, Sven Magg, Stefan Wermter 'A Context-based Approach for Dialogue Act Recognition using Simple Recurrent Neural Networks', LREC 2018.

[Chen2017] Yun-Nung Chen, Jianfeng Gao, Open-Domain Neural Dialogue Systems, IJCNLP 2017

[Cho2014] Cho K., van Merrienboer B., Gülçehre Ç., Bougares F., Schwenk H., Bengio Y., « LearningPhrase Representations using RNN Encoder-Decoder for Statistical Machine Translation », CoRR, 2014.

[Garnerin2020] Mahault Garnerin, Solange Rossato, Laurent Besacier: Gender Representation in Open Source Speech Resources. LREC 2020: 6599-6605

[Hochreiter1997] Hochreiter S., Schmidhuber J., « Long Short-Term Memory »,Neural Comput., vol. 9, no8,p. 1735-1780, November, 1997

[Le2020] Le, Hang and Vial, Loic and Frej, Jibril and Segonne, Vincent and Coavoux, Maximin and Lecouteux, Benjamin and Allauzen, Alexandre and Crabbé, Benoit and Besacier, Laurent and Schwab, Didier (2020) FlauBERT: Unsupervised Language Model Pre-training for French, Proceedings of The 12th Language Resources and Evaluation Conference, Marseille, France, 2479--2490. https://github.com/getalp/Flaubert

[ParlAI] https://parl.ai/docs/tutorial_basic.html

[Vaswani2017] A Vaswani, N Shazeer, N Parmar, J Uszkoreit, L Jones, AN Gomez, et al. 'Attention is all you need', 31st Conference on Neural Information Processing Systems (NIPS 2017), Long Beach, CA, USA.

[Wolf2019] Thomas Wolf and Victor Sanh and Julien Chaumond and Clement Delangue (2019) TransferTransfo: {A} Transfer Learning Approach for Neural Network Based Conversational Agents, arxiv, 2019 https://github.com/huggingface/transfer-learning-conv-ai

[Wu2019] Wu, Y., Wei, F., Huang, S., Wang, Y., Li, Z., & Zhou, M. (2019, July). Response generation by context-aware prototype editing. In Proceedings of the AAAI Conference on Artificial Intelligence (Vol. 33, No. 01, pp. 7281-7288).

Back  Top

6-12(2021-04-09) Ingénieur.e développement - Inria Bordeaux, France

Ingénieur.e développement - Inria Bordeaux Sud-Ouest

Thématique : Conception d’une architecture logicielle pour une application en

apprentissage statistique (analyse et classification des voix pathologiques)

Type de contrat : CDD

Début : à partir du 1er juin 2021 et jusqu’au 31 juillet 2021 (possibilité de prolongation)

Date limite de candidature : 15 mai 2021

Lieu : Inria Bordeaux Sud-Ouest

Niveau de diplôme exigé : Bac + 5 ou équivalent

Autre diplôme apprécié : thèse de doctorat

Fonction : Ingénieur scientifique contractuel

Niveau d'expérience souhaité : 3 à 12 ans

Salaire brut mensuel : 2632€ à 3543€, selon diplômes et expérience professionnelle acquise sur poste similaire

Responsable : Khalid Daoudi

Contexte et atouts du poste

Inria, institut national de recherche dédié au numérique, promeut l’excellence scientifique au service du

transfert technologique et de la société.

Inria emploie 2700 collaborateurs issus des meilleures universités mondiales, qui relèvent les défis des sciences

informatiques et mathématiques. Son modèle agile lui permet d’explorer des voies originales avec ses partenaires

industriels et académiques, et de répondre aux enjeux pluridisciplinaires et applicatifs de la transition numérique.

Engagé auprès des acteurs de l’innovation, Inria crée les conditions de rencontres profitables entre recherche

publique, R&D privée et entreprises. Inria transfère vers les startup, les PME et les grands groupes ses résultats et ses

compétences, dans des domaines tels que la santé, les transports, l’énergie, la communication, la sécurité et la protection

de la vie privée, la ville intelligente, l’usine du futur... Inria développe aussi une culture entrepreneuriale ayant conduit à

la création de 120 startup.

Le centre Inria Bordeaux Sud-Ouest est un des neuf centres d’Inria et compte 20 équipes de recherche. Le

centre Inria est un acteur majeur et reconnu dans le domaine des sciences numériques. Il est au coeur d’un riche

écosystème de R&D et d’innovation : PME fortement innovantes, grands groupes industriels, pôles de compétitivité,

acteurs de la recherche et de l’enseignement supérieur.

GEOSTAT est une équipe de recherche Inria dont la thématique de recherche est le traitement de signaux

naturels complexes, notamment en biophysique (geostat.bordeaux.inria.fr/).

Mission confiée

Plusieurs maladies et pathologies peuvent causer des dysfonctionnements ou des altérations dans la production

de la parole. Les plus connues sont les maladies neurodégénératives (telles que les maladies de Parkinson et

d’Alzheimer) et les maladies respiratoires (telles que l’asthme, la BPCO ou la Covid-19). On parle alors de troubles de

la parole ou de parole pathologique.

Il est maintenant établi que certaines de ces maladies se caractérisent par une manifestation précoce des

troubles de la parole. Le développement de biomarqueurs objectifs vocaux est devenu ainsi un enjeu majeur pour l’aide

au diagnostic et suivi de ces maladies. La mission de l’ingénieur(e) recruté(e) s’inscrit dans ce cadre.

L’objectif de la mission est de concevoir une architecture logicielle, en Python, pour :

1 développer une boîte à outils générique de traitement du signal dédiée à l’analyse de la parole pathologique ;

2 implémenter un biomarqueur vocal de la fonction respiratoire en utilisant des techniques d’apprentissage

statistique, dont le Deep Learning.

Cette dernière tâche s’inscrit dans le cadre d’un projet de recherche clinique en partenariat avec l’AP-HP

(Assistance Publique - Hôpitaux de Paris), notamment le service de pneumologie et de réanimation de L'hôpital La

Pitié-Salpêtrière. Le but de ce projet est le développement d’un biomarqueur vocal de l’état respiratoire et de son

évolution pour l’aide au télé-suivi de patients atteints d’une affection respiratoire, dont la Covid-19.

Principales activités

Pour des raisons de sécurité et de confidentialité, les données vocales et cliniques des patients sont hébergées

sur les serveurs EDS (Entrepôt de Données de Santé) de l’AP-HP.

La première tâche sera ainsi de développer une API permettant la communication avec l’infrastructure

d’hébergement.

La deuxième tâche sera d’implémenter des techniques éprouvées d’analyse de la parole pathologies puis

d’autres issus de recherches récentes. Cette tâche s’appuiera, le cas échéant, sur Parselmouth

(parselmouth.readthedocs.io/en/stable/) qui est une librairie Python pour Praat (www.fon.hum.uva.nl/praat/).

La troisième étape consistera à implémenter et expérimenter des techniques d’apprentissage statistique en

utilisant les données de patients. Cette tâche s’appuiera sur les framework habituels de Machine Learning (TensorFlow,

PyTorch, Scikitlearn).

Encadrement

L’ingénieur.e disposera d’un encadrement scientifique, par Khalid Daoudi de l’équipe GEOSTAT, et technique

par Dan Dutartre et François Rué du Service d'Expérimentation et de Développement (SED) d’Inria-Bordeaux.

Compétences

Être titulaire d’un diplôme d’ingénieur et/ou doctorat en sciences du numérique

Disposer d’une expérience significative dans le développement ou le pilotage d’un projet logiciel en python.

. Disposer d’une formation solide en apprentissage statistique (Machine Learning) ainsi que d’une expérience notable

dans ce domaine ;

. Disposer d’une expertise solide en développement logiciel pour être en capacité de s’adapter à différents types

langages des plus standards (Python, C, C++) ; une forte compétence en python est requise ;

. Des connaissances en traitement du signal seraient un plus très apprécié ;

. Maîtriser les concepts, la méthodologie et les outils de la qualité logicielle ;

. Maîtriser les méthodologies de gestion de projet logiciel collaboratif ;

. Maîtriser les méthodologies d’architectures logicielles modulaires ;

. Excellent relationnel ;

. Savoir travailler en équipe pluridisciplinaires ;

. Savoir s’adapter au contexte projet ;

. Être autonome dans son organisation personnelle et le reporting ;

. Avoir une bonne communication écrite et orale en français ;

. Maîtriser l’anglais technique et scientifique.

Candidature

Le(a) candidat(e) est invité(e) à envoyer sa candidature à khalid.daoudi@inria.fr ; francois.rue@inria.fr ;

dan.dutartre@inria.fr

Back  Top

6-13(2021-04-11) ​Proposal for a postdoctoral position at INRIA, Bordeaux, France

Proposal for a postdoctoral position at INRIA, Bordeaux, France

Title: Sparse predictive models for the analysis and classification of pathological speech

Keywords: Pathological speech processing, Sparse modeling, Optimization algorithms, Machine learning,

Parkinsonian disorders, Respiratory diseases

Contact and Supervisor: Khalid Daoudi (khalid.daoudi@inria.fr)

INRIA team: GEOSTAT (geostat.bordeaux.inria.fr)

Duration: from 01/11/2021 to 31/12/2022 (could be extended to an advanced or a permanent position)

Salary: 2653€ / month

Profile: PhD degree obtained after August 2019 or to be defended by the end of 2021. High quality applications

with a PhD obtained before August 2019 could be considered for an advanced research position.

Required Knowledge and background: A solid knowledge in speech/signal processing; A good mathematical

background; Basics of machine learning; Programming in Matlab and Python.

Scientific research context

During this century, there has been an ever increasing interest in the development of objective vocal biomarkers

to assist in diagnosis and monitoring of neurodegenerative diseases and, recently, respiratory diseases because of

the Covid-19 pandemic. The literature is now relatively rich in methods for objective analysis of dysarthria, a

class of motor speech disorders [1], where most of the effort has been made on speech impaired by Parkinson’s

disease. However, relatively few studies have addressed the challenging problem of discrimination between

subgroups of Parkinsonian disorders which share similar clinical symptoms, particularly is early disease stages

[2]. As for the analysis of speech impaired by respiratory diseases, the field is relatively new (with existing

developments in very specialized areas) but is taking a great attention since the beginning of the pandemic.

On the other hand, the large majority of existing processing methods (of pathological speech in general) still

heavily rely on a core of feature estimators designed and optimized for healthy speech. There exist thus a strong

need for a framework to infer/design speech features and cues which remain robust to the perturbations caused

by (classes of) disordered speech. The first and main objective of this proposal is to explore the framework of

sparse modeling of speech which allow a certain flexibility in the design and parameter estimation of the sourcefilter

model of speech production. This exploration will be essentially based on theoretical advances developed

by the GEOSTAT team and which have led to a significant impact in the field of image processing, not only at

the scientific level [3] but also at the technological level (www.inria.fr/fr/i2s-geostat-un-innovation-lab-enimagerie-

numerique).

The second objective of this proposal is to use the resulting representations as inputs to basic machine learning

algorithms in order to conceive a vocal biomarker to assist in the discrimination between subgroups of

Parkinsonian disorders (Parkinson’s disease, Multiple-System Atrophy, Progressive Supranuclear Palsy) and in

the monitoring of respiratory diseases (Covid-19, Asthma, COPD).

Both objectives benefit from a rich dataset of speech and other biosignals recently collected in the framework of

two clinical studies in partnership with university hospitals in Bordeaux and Toulouse (for Parkinsonian

disorders) and in Paris (for respiratory diseases).

Work description

As stated above, the work to be carried is decomposed in two parts. The main part consists in developing new

algorithms, based on sparse modeling, for the analysis of a class of disordered speech. The second part consists

in exploring machine learning tools to develop vocal biomarkers for the purpose of (differential) diagnosis and

monitoring of the diseases under study.

1. Sparse modeling for disordered speech analysis

The first task will be to investigate sparsity in the framework of linear prediction modeling of speech. The latter

is indeed one of the building blocks for the estimation of core glottal, phonation and articulatory features. Sparse

linear prediction (SLP) has been recently investigated in a convex setting using the L1-norm and applied,

essentially, to speech coding [4]. We will start by investigating the potential of this convex setting in disordered

speech analysis. We will then explore the use of non-convex penalties that allow sparsity control and a better

decoupling the vocal tract filter from excitation source. We will study the spectral properties of the different

models and revisit a set of acoustic features which are not robust to perturbations raising in dysarthric speech.

We will then explore the potential of SLP in designing new features which could be informative about dysarthria.

The algorithmic developments will be evaluated using a rich set of biosignals obtained from patients with

Parkinsonian disorders and from healthy controls. The biosignals are electroglottography and aerodynamic

measurements of oral and nasal airflow as well as intra-oral and sub-glottic pressure.

After dysarthria analysis, we will study speech impairments caused by respiratory deficits. The main goal here

will be to automatically identify respiratory patterns and to design features to quantify the impairments. The

developments will be evaluated using manual annotations, by an expert phonetician, of speech signals obtained

from patients with respiratory deficit and from healthy controls.

Depending on the work progress and time constraints, we may also explore sparsity beyond the linear prediction

model through existing nonlinear representations of speech. It is well known indeed that the linear source-filter

model of speech cannot capture several nonlinearities which exist in the speech production process, particularly

in disordered speech.

2. Machine learning for disease diagnosis and monitoring

Using the outcomes of the first part, the (experimental) objective of the second part is to apply basic machine

learning algorithms (LDA, logistic regression, decision trees, SVM…) using standard tools (such as Scikit-

Learn) to conceive robust algorithms that could help, first, in the discrimination between Parkinsonian disorders

and, second, in the monitoring of respiratory deficit.

3. Work synergy

- The postdoc will interact closely with an engineer who is developing an open-source software architecture

dedicated to pathological speech processing. The validated algorithms will be implemented in this architecture

by the engineer, under the co-supervision of the postdoc.

- Giving the multidisciplinary nature of the proposal, the postdoc will interact with the clinicians participating in

the two clinical studies.

References:

[1] J. Duffy. Motor Speech Disorders Substrates, Differential Diagnosis, and Management. Elsevier, 2013.

[2] J. Rusz et al. Speech disorders reflect differing pathophysiology in Parkinson's disease, progressive

supranuclear palsy and multiple system atrophy. Journal of Neurology, 262(4), 2015.

[3] H. Badri. Sparse and Scale-Invariant Methods in Image Processing. PhD thesis, University of Bordeaux,

France, 2015.

[4] D. Giacobello et al. Sparse Linear Prediction and Its Applications to Speech Processing. IEEE Transactions

on Audio Speech and Language Processing, (20)5, 2012.

Back  Top

6-14(2021-04-19) Technical engineer at ELDA, Paris

The European Language resources Distribution Agency (ELDA), a company specialized in Human Language Technologies within an international context, acting as the distribution agency of the European Language Resources Association (ELRA), is currently seeking to fill an immediate vacancy for a Technical Engineer position.

Job description
Under the supervision of the CEO, the responsibilities of the Technical Engineer include planning and implementing technical development of tools, software components or applications for language resource production and management.
He/she will be in charge of contributing in the current language resources production workflows and managing R&D projects while being also hands-on whenever required by the language resource production and management team. He/she will liaise with external partners at all phases of the projects (submission to calls for proposals, building and management of project teams) within the framework of international, publicly- or privately-funded projects.

This yields excellent opportunities for creative and motivated candidates wishing to participate actively to the Language Engineering field.

The position is based in Paris 13.

Salary: Commensurate with qualifications and experience (between 45-55K?).
Other benefits: complementary health insurance and meal vouchers.

Required profile
?    Master 2 or PhD in Computer Science, Natural Language Processing, or equivalent
?    Experience in Natural Language Processing (speech processing, data mining, machine translation, etc.)
?    Familiarity with open source and free software
?    Good level of English, with strong writing and documentation skills
?    Dynamic and communicative, flexible to work on different tasks in parallel
?    Ability to work independently and as part of a multidisciplinary team
?    Citizenship (or residency papers) of a European Union country
?    Proficiency in Python
?    Knowledge and hands-on in XML and Json
?    Proficiency in classic shell scripting in a Linux environment (POSIX tools, Bash, awk)

About
ELDA is a human-sized company (15 people) acting as the distribution agency of the European Language Resources Association (ELRA). ELRA was established in February 1995, with the support of the European Commission, to promote the development and exploitation of Language Resources (LRs). Language Resources include all data necessary for language engineering, such as monolingual and multilingual lexica, text corpora, speech databases and terminology. The role of this non-profit membership Association is to promote the production of LRs, to collect and to validate them and, foremost, make them available to users. The association also gathers information on market needs and trends.

For further information about ELDA/ELRA, visit: http://www.elda.org

Applicants should email a cover letter addressing the points listed above together with a curriculum vitae to:

ELDA
9 rue des Cordelières
75013 Paris FRANCE
Email: job@elda.org

Back  Top

6-15(2021-04-19) Web Developer at ELDA, Paris, France

The European Language resources Distribution Agency (ELDA), a company specialized in Human Language Technologies within an international context is currently seeking to fill an immediate vacancy for a permanent Web Developer position.

Job description
Under the supervision of the technical department manager, the responsibilities of the Web Developer consist in designing and developing web applications and software tools for linguistic data management.
Some of these software developments are carried out within the framework of European research and development projects and are published as free software.
Depending on the profile, the Web Developer could also participate in the maintenance and upgrading of the current linguistic data processing toolchains, while being hands-on whenever required by the language resource production and management team.

The position is based in Paris 13.

Salary: Commensurate with qualifications and experience (between 36-45K?).
Other benefits: complementary health insurance and meal vouchers

Required profile
?    Master (BAC + 5 or higher) in Computer Science or a related field (experience in natural language processing is a strong plus)
?    Proficiency in Python
?    Hands-on experience in Django
?    Hands-on knowledge of a distributed version control system (Git preferred)
?    Knowledge of SQL and of RDBMS (PostgreSQL preferred)
?    Basic knowledge of JavaScript and CSS
?    Basic knowledge of Linux shell scripting
?    Practice of free software
?    Proficiency in French and English
?    Curious, dynamic and communicative, flexible to work on different tasks in parallel
?    Ability to work independently and as part of a multidisciplinary team
?    Citizenship (or residency papers) of a European Union country

About
ELDA is a human-sized company (15 people) acting as the distribution agency of the European Language Resources Association (ELRA). ELRA was established in February 1995, with the support of the European Commission, to promote the development and exploitation of Language Resources (LRs). Language Resources include all data necessary for language engineering, such as monolingual and multilingual lexica, text corpora, speech databases and terminology. The role of this non-profit membership Association is to promote the production of LRs, to collect and to validate them and, foremost, make them available to users. The association also gathers information on market needs and trends.

For further information about ELDA/ELRA, visit: http://www.elda.org

Applicants should email a cover letter addressing the points listed above together with a curriculum vitae to:
ELDA
9 rue des Cordelières
75013 Paris FRANCE
Email: job@elda.org

Back  Top

6-16(2021-04-22) Post-doc at GIPSA-Lab Grenoble, France

Informations générales

Référence : UMR5216-ALLBEL-024
Lieu de travail : ST MARTIN D HERES
Date de publication : mardi 13 avril 2021
Type de contrat : CDD Scientifique
Durée du contrat : 12 mois
Date d'embauche prévue : 1 juin 2021
Quotité de travail : Temps complet
Rémunération : entre 3768? et 3938? bruts mensuels, selon expérience
Niveau d'études souhaité : Doctorat
Expérience souhaitée : 2 à 10 années

Missions

Ce post-doctorat fait partie du projet ANR GEPETO (GEstures and PEdagogy of InTOnation), dont le but est d'étudier l'utilisation de gestes manuels par le biais d'interfaces humain-machine, pour la conception d'outils et méthodes permettant l'apprentissage du contrôle de l'intonation (mélodie) dans la parole. 

En particulier, ce poste se place dans le contexte de la rééducation vocale, dans le cas de dégradation ou d'absence de vibration des plis vocaux chez des patients atteints de troubles du larynx. Les solutions médicales actuelles pour remplacer cette vibration consistent à injecter une source sonore artificielle dans le conduit vocal, directement par la bouche ou en transmission par les tissus du cou, grâce à un électrolarynx. Ce vibreur génère une source vocale de substitution sur laquelle l'utilisateur peut articuler normalement de la parole. Une alternative est de capter à l'aide d'un microphone la parole non-voisée produite par une personne en absence de vibration des plis vocaux (par exemple un chuchotement), et d'y ré-introduire le voisement en temps-réel par synthèse vocale. La voix reconstruite est alors jouée en temps-réel sur un haut-parleur. Aujourd'hui, l'ensemble de ces systèmes génèrent des signaux d'intonation (mélodie) relativement constante, conduisant à des voix très robotiques.

Le but du projet GEPETO à GIPSA-lab est d'ajouter à ces deux solutions un contrôle de l'intonation en temps-réel par le geste de la main, qui sera capté par diverses interfaces (tablette, accéléromètre, etc.), et d'étudier l'usage de tels systèmes dans des situations d'interactions orales.

 

Le post-doctorat se concentrera sur la solution de conversion chuchotement-parole qui est déjà disponible au laboratoire. Le travail sera divisé en deux tâches.

Dans un premier temps, il s'agira d'ajouter le contrôle gestuel de l'intonation au système de conversion chuchotement-parole. Celui-ci se fera dans l'environnement Max/MSP (langage C/C++), où différents modules sont déjà disponibles au laboratoire (gestion des interfaces, moteur de synthèse, analyse de la parole chuchotée). Diverses interfaces permettant de capter les gestes manuels dans différents espaces (trajectoire sur une surface, dans l'espace, pression, etc.) seront étudiées.

Dans un deuxième temps, nous chercherons à évaluer l'usage d'un tel système dans une application de suppléance vocale, et en particulier la coordination entre le contrôle manuel de l'intonation avec le contrôle naturel de l'articulation. 
D'abord, diverses stratégies de contrôle seront étudiées étant donnée les interfaces disponibles. Notamment, la question du contrôle du voisement (activation ou non de la source glottique) sera abordée. Cette première étape sera évaluée sur des tâches simples d'imitation de phrases, selon des critères de coordination rythmique entre contrôle de la source et de l'articulation, ainsi que de charge cognitive associée à la combinaison des deux contrôles.
Ensuite, nous travaillerons sur l'usage d'un tel système dans des situations de communication. Il s'agit d'un contexte où l'utilisateur doit produire des phrases intelligibles et expressives pour son interlocuteur, sans référence à imiter. Nous proposerons des stratégies d'apprentissage à l'utilisation d'un tel système, et les évaluerons sur plusieurs échelles temporelles (jours, semaines, mois). Ces stratégies seront développées selon des protocoles proposés par des partenaires du projet travaillant sur l'apprentissage du contrôle de l'intonation de langues étrangères.

Activités

- Prendre en main les différents modules pour la conversion chuchotement-parole disponibles au laboratoire (analyse du chuchotement, moteur de synthèse, gestion des interfaces) dans l'environnement Max/MSP
- Connecter les différents modules et développer le système de suppléance vocale contrôlé par le geste manuel, en testant divers contrôleurs gestuels pour le contrôle de l'intonation et du voisement
- Proposer un protocole d'évaluation de ces capteurs en termes de synchronisation rythmique des contrôles manuel et articulatoire, ainsi que de charge cognitive
- Évaluer ces capteurs sur un groupe d'utilisateurs
- Proposer des méthodes d'apprentissage pour l'usage d'un tel système
- Proposer un protocole d'évaluation de l'apprentissage sur plusieurs échelles temporelles (jours, semaines, mois)
- Évaluer l'apprentissage sur un groupe d'utilisateur

Compétences

- Langage C/C++ (connaissance approfondie)
- Matlab (connaissance approfondie)
- Programmation Max/MSP (connaissance souhaitée)
- Traitement du signal (connaissance générale)
- Traitement de la parole (connaissance souhaitée)
- Forte motivation pour la méthodologie et l'expérimentation
- Maîtrise du français (langue utilisée pour le développement et l'évaluation du système)

Expérience souhaitée:
Synthèse de la parole, codage temps-réel Max MSP, interfaces homme-machine, expériences cognitives

Contexte de travail

Gipsa-lab est une unité de recherche mixte du CNRS, de Grenoble INP, et de l'Université de Grenoble Alpes ; elle est conventionnée avec Inria et l'Observatoire des Sciences de l'Univers de Grenoble.
Fort de 350 personnes dont environ 150 doctorants, Gipsa-lab est un laboratoire pluridisciplinaire développant des recherches fondamentales et finalisées sur les signaux et systèmes complexes. Il est reconnu internationalement pour ses recherches en Automatique, Signal et Images, Parole et Cognition et développe des projets dans les domaines stratégiques de l'énergie, de l'environnement, de la communication, des systèmes intelligents, du vivant et de la santé et de l'ingénierie linguistique. 
De par la nature de ses recherches, Gipsa-lab maintient un lien constant avec le milieu économique via un partenariat industriel fort. 
Son potentiel d'enseignants-chercheurs et chercheurs est investi dans la formation au niveau des universités et écoles d'ingénieurs du site grenoblois (Université Grenoble Alpes).
Gipsa-lab développe ses recherches au travers de 16 équipes de recherche organisées en 4 pôles.
Elle compte 150 permanents et environ 250 non-permanents (doctorants, post-doctorants, chercheurs invités, étudiants stagiaires de master, etc.).

Le.a post-doctorant.e sera rattaché.e à l'équipe CRISSP (Cognitive Robotics, Interactive Systems, Speech Processing) du Pôle Parole et Cognition de GIPSA-lab.

Back  Top

6-17(2021-05-14) Ph D position at Prosody/Language Acquisition, Sign language: University of Lisbon
Prosody/Language Acquisition, Sign language: PhD, University of Lisbon
 
Applications are invited for one funded PhD position at the Phonetics and Phonology Lab and the Lisbon Baby Lab of the Center of Linguistics of the University of Lisbon (CLUL). The candidate will develop a project on the Prosody of Portuguese Sign Language/Língua Gestual Portuguesa (LGP). Research on this minority language is remarkably scarce. The work will contribute to the knowledge of the unexplored issues of production, perception and/or acquisition of prosody in LGP. 
 
General scientific area: Linguistics, Psychology
Specific scientific area: Phonology (Prosody), Psycholinguistics, Sign language, Language processing, Language acquisition
 
Applications are invited from candidates holding a Master degree (MA) in Linguistics, Psychology or related areas
 
The work will be conducted at the Phonetics and Phonology Lab and Lisbon Baby Lab (PhonLab/LBL), under the supervison and/or co-supervision of Marina Vigário, Sónia Frota and/or Marisa Cruz. PhonLab/LBL is a leading group for research on prosody and the acquisition of prosody, with a strong interest in multimodal prosody and sign language, working with a network of partners on visual prosody, gestures and sign language. The research will take advantage of the resources, facilities and human assets available at the Lab. One of two possible PhD programs from the University of Lisbon can be chosen: PhD in Linguistics (School of Arts and Humanities, University of Lisbon) and PhD in Cognitive Sciences (University of Lisbon). 

The successful candidate is expected to start in the beginning of July 2021. 

Application deadline: 11th June 2021
 
 
 

 

Sónia Frota
Professora catedrática | Professor
Coordenadora Científica - CLUL | Scientific Coordinator - CLUL
Centro de Linguística da Universidade de Lisboa Center of Linguistics of the University of Lisbon (CLUL)
 
 
https://www.researchgate.net/profile/Sonia_Frota2 
 


Faculd
ade de Letras da Universidade de Lisboa | School of Arts and Humanities
Alameda da Universidade 1600-214 Lisboa PORTUGAL
Telefone: 217 920 000 | www.letras.ulisboa.pt 
Back  Top

6-18(2021-05-16) Postdocs at LUDO-VIC, Paris France

Recherche de « jeunes docteurs en 1er CDI»

en linguistique, didactique des langues

ET en Natural Language Processing

La société LUDO-VIC a pour devise :

« Quels que soient votre langue maternelle et votre niveau de scolarisation, apprenez les bases de n’importe quels

concepts : une nouvelle langue, des gestes de santé/sécurité, du savoir-être, etc.. »

Ce but est atteint par la contextualisation des éléments des concepts à transmettre grâce à de courtes animations 3D

mettant en scène les avatars Ludo et Vic qui ont été spécifiquement conçus pour ne stigmatiser aucune population

sur terre et pour promouvoir l’égalité des sexes. Ces saynètes expliquent à l’oral et dans la langue maternelle de

l’apprenant les éléments à transmettre, levant ainsi la barrière de l’écrit et celle de la langue vernaculaire.

Nous avons développé ainsi une application dénommée BasicFrançais, avec un cofinancement européen, qui permet

à des populations allophones d’acquérir les bases du français, initialement au niveau A1.1, et nous nous fixons

comme but d’aller jusqu’au niveau A2.

Notre recherche de « jeunes docteurs en premier CDI » portent sur une application dérivée, nommée BasicX dans

laquelle X est une langue pratiquée sur le territoire français, allant des créoles de Mayotte, à ceux de la Réunion et de

l’arc antillais, aux langues amérindiennes de Guyane, au Kanak de Nouvelle Calédonie, au polynésien, et l’ensemble

des dialectes de la métropole (alsacien(s), basque, picard, occitan(s), etc), mais aussi les langues parlées par les

migrants. La Direction Générale de la Langue Française et des Langues de France compte environ 75 de ces langues

dialectales, et environ 230 langues sont parlées en Europe.

Le projet de R&D consiste à créer des scénarios d’interaction dans une langue à apprendre, collecter des données et

les analyser, participer au développement des technologies de l’intelligence artificielle dans la langue en question

(reconnaissance, synthèse vocale, gestion des dialogues). Tout en étant ambitieux, ce projet relève du faisable

puisque la plage lexicale du niveau A1 ne comporte qu’environ 1000 mots et une petite centaine de dialogues très

simples.

La personne « idéale » est donc compétente en Traitement Automatique de la Parole et Intelligence Artificielle,

mais maîtrise également un dialecte parlé sur le territoire français, ou une langue issue de l’immigration. Nous

sommes conscients que ce « mouton à cinq pattes » est rare, et considèrerons donc des candidatures venant soit de

la didactique des langues, soit du NLP.

La société est basée en région parisienne, mais les candidats pourront travailler depuis leur lieu habituel de

résidence. Envoyez votre CV à jack@ludo-vic.com

LUDO-VIC SAS – 103 Boulevard Macdonald 75019 PARIS

RCS 824194492 Paris – http://www.ludo-vic.com

Back  Top

6-19(2021-05-20) PhD position , LIA, Avignon, France
Main laboratory: ?Laboratoire Informatique d?Avignon? (LIA)
 
Start time:? September 2021
 
Project context
 
This Ph.D. position is part of the French research project DIETS (Automatic diagnosis of errors of end-to-end speech transcription systems from users perspective) funded by the ANR (French National Research Agency) which aims at analyzing finely recognition errors by taking into account their human reception, and understanding and visualizing how these errors manifest themselves in an end-to-end ASR framework. The main objectives are to propose original automatic approaches and tools to visualize, detect and measure transcription errors from the end-users perspective.
 
Candidate profile
 
?The applicant must hold a Master degree in Computer Science. ?Mastery of at least one common object programming language (Java, C++...) and one scripting language (Python, Perl...) are mandatory, furthermore experience in automatic language and speech processing, or machine learning, data mining are appreciated. He or she should also show interest in linguistics and the study of human behavior.
 
Objectives

The main objective of the thesis is to finely analyze transcription errors from the point of view of their reception by the user. The thesis will have three complementary parts:
 
1. Approaches for error detection in transcripts of end-to-end ASR systems. This should lead to original confidence measures.
 
2. Detailed analysis of transcription errors in French, whether human or automatic, with a traditional or end-to-end system, in order to understand how errors are viewed from a human perspective. This will shed light on new classes of errors, guided by their difficulty, or ease, to be understood by end users.
 
3. Realization of a new body of automatic transcriptions where errors are annotated using precise linguistic information, and information collected during perceptual tests to reflect how users perceive (and possibly correct) these errors. Carrying out different perceptual tests, by confronting humans with these transcription errors.
 
It will be a question of laying the first bases of a new and transversal research, at the crossroads between linguistics, computer science and cognitive sciences, for the evaluation of automatic systems and the understanding of NLP systems based on deep architectures. The Ph.D. student will then have the opportunity to learn and propose innovative approaches in automatic speech processing for the understanding of architectures with deep neural networks, but also to have an openness and skills in linguistics and on the implementation of perceptual tests.
 
Interests for the candidate:
 
- Very favorable and collaborative work environment in an internationally recognized research laboratory in language processing and machine learning.
- Implementation, analysis and proposals for innovative approaches to different ASR systems (classical and end-to-end frameworks).
- Development of complementary metrics to WER that are user-oriented.
- Transdisciplinary scientific work allowing openness to other disciplines (e.g. linguistics and cognitive sciences).
 
Applications? should be sent to:
 
- Richard Dufour (?richard.dufour@univ-avignon.fr?) - ?LIA?, ?Avignon University
- Jane Wottawa (?jane.wottawa@univ-lemans.fr?) - ?LIUM?, ?Le Mans University
and should include:
- a detailed CV (education and research experiences),
- a cover letter specifying the candidate?s research interests on this proposed Ph.D. thesis, - Bachelor (Licence) and Master grades in detail,
- at least one reference that could be contacted for recommandation.
 
 Further information can be found here : https://anr-diets.univ-avignon.fr/2021/02/12/open-ph-d-position/
Back  Top

6-20(2021-05-25) Two fully-funded PhD positions, INRIA and Vivoka, Metz, France (updated)

Inria and Vivoka are offering two fully-funded PhD positions in the context of an
academic-industry partnership aiming to further develop the Voice Development Kit (VDK),
the very first solution allowing a company to design an embedded voice interface in a
simple, autonomous and quick way (https://vivoka.com/).

The successful candidates will share their time between Vivoka's R&D team and Inria's
Multispeech team, that is the largest research team in the field of speech processing in
France.

Detailed offers:
- Multi-factor data augmentation and transfer learning for embedded automatic speech
recognition: https://recrutement.inria.fr/public/classic/en/offres/2021-03756
- Joint embedded speech separation, diarization and recognition for the automatic
generation of meeting minutes:
https://recrutement.inria.fr/public/classic/en/offres/2021-03757

Starting date: October 1, 2021
Duration: 3 years
Location: Metz, France
Salary: from 1,870 to 1,950 EUR net/month

To apply:
Submit your application online at the above URLs and send a copy to
recrutement@vivoka.com. Applications will be assessed on a rolling basis. Please apply as
soon as possible and no later than July,16,  2021.

Back  Top

6-21(2021-05-28) Position of Assistant Professor, Univ. Groningen, The Netherlands
Job description
We invite applications for an Assistant Professor in Speech Technology. Generally, for this position, you will teach and develop courses, perform research, supervise graduate research, and have an active role in shaping the emerging educational and research programme.
 
We recognize research as a critical part of the profile of an Assistant Professor, and therefore allocate 40% of your position to do research (provided you teach at least 2 courses/year). That research may dovetail with the courses you teach, to ensure that your expertise is integrated into the programme. Ideally, your research would overlap with that of PhD students ? and, where relevant, graduate students could contribute to your research through their thesis projects. As a team, we are keen on applying for grants in the years ahead to build consortia and further solidify our expertise.
 
We see teaching as an interactive and engaging process. Consequently, the courses include many individual and group activities and encourage creative, out-of-the-box, hands-on approaches to learning that balance theory and practice. Specifically, given the start-up phase of the programme and potential for growth, this position is open to a range of profiles and contributions. In addition to supervising theses within your area of expertise, you will support the teaching and/or curriculum development of courses in speech synthesis, speech recognition, Python, and machine learning for voice tech (all courses already have detailed week-by-week descriptions but lack student-ready syllabi, giving you some creative freedom -- more information about the courses, including learning outcomes, is available upon request):
 
? Speech Synthesis I and II
? Speech Recognition I and II
? Python for Voice Technology (and Intro to Python at the undergraduate level)
? Machine Learning for Voice Technology
 
If you are interested in increasing your appointment to a full-time one, you may also teach Statistics (undergraduate level) under a separate contract.
 
Qualifications
We are looking for an enthusiastic colleague with demonstrated teaching and research skills and an affinity for interdisciplinary approaches to teaching. Research expertise that involves speech recognition, voice synthesis, and machine learning with audio data is crucial.
 
The ideal candidate has:
? a PhD in Linguistics, Computer Science, AI or a comparable domain (ideally on topics related to ASR or speech synthesis)
? an ability to develop course content for the courses you will teach
? a capacity to teach master?s students and supervise master?s projects
? the willingness to apply an inter- and transdisciplinary perspective to research and education
? relevant publications
? a speech tech network in academia and/or industry
? a University Teaching Qualification, or the willingness to acquire one within two years after the starting date.
 
Organisation
The University of Groningen, established in 1614, is one of the oldest and most prestigious European universities. You will work at the university's newest faculty, Campus Fryslân, located in the picturesque capital of Fryslân, Leeuwarden (the European Capital of Culture in 2018). The faculty is dedicated to interdisciplinary and transdisciplinary education and research and provides a stimulating working environment in which mutual support is combined with room for individual initiative. You will become a member of our high-standing academic and international community. We challenge our staff and students to approach issues from multiple disciplines and encourage them to take a different view. We are curious about yours!
Within Campus Fryslân, you will primarily be working in the new Voice Technology Master?s programme. The MSc. Voice Technology is a one-year English language master?s programme with a highly interdisciplinary scope. It was developed in close cooperation with other universities and partners from the private sector (critical input continues to be provided by Dutch SMEs alongside international tech companies like Apple, Mozilla, and Google). This means that scientific scholarship is balanced with applied know-how in the programme. The MSc. Voice Technology is launching for the first time in September 2021 with a small cohort of students from an array of backgrounds, ranging from AI and Computer Science to Linguistics and Humanities.
 
Conditions of employment
We offer you in accordance with the Collective Labour Agreement for Dutch Universities:
 
? a salary, depending on qualifications and work experience, with a minimum of ? 3,746 to a maximum of ? 5,127 (salary scale 11) gross per month for a full-time position
? a holiday allowance of 8% gross annual income
? an 8.3% end-of-the-year allowance
? minimum of 29 holidays and additional 12 holidays in case of full-time employment.
 
The position has a 60-40 percent distribution with regard to teaching-research. The post will be established for a fixed term period of two years. Towards the end of that period there will be a result- and development interview in order to decide whether the appointment will be made permanent.
 
Application
Do you want to become a member of our team? Please send your application to us, by submitting the following documents:
1. letter of application
2. curriculum vitae
3. a statement on teaching, detailing courses taught or developed
4. email and telephone contact information of at least two referees.
 
You can submit your application until 13 June 11:59pm / before 14 June 2021 Dutch local time (CET) by means of the application form (click on 'Apply' below on the advertisement on the university website).
Only complete applications submitted by the deadline will be taken into consideration. The starting date for this position is 1 August 2021.
 
The interview will consist of two parts: the interview (30 minutes) and the mock lecture (15 minutes) during which you will demonstrate your knowledge of the research domain and showcase your teaching capabilities.
 
We are an equal opportunity employer and value diversity at our University. We are committed to building a diverse faculty so you are encouraged to apply. Our selection procedure follows the guidelines of the Recruitment code (NVP), https://www.nvp-hrnetwerk.nl/sollicitatiecode/ and European Commission's European Code of Conduct for recruitment of researchers, https://euraxess.ec.europa.eu/jobs/charter/code
 
Unsolicited marketing is not appreciated.
 
Information
For information you can contact:
 
?Matt Coler, Program Director - MSc. Voice Technology, m.coler@rug.nl
 
Please do not use the e-mail address(es) above for applications.
 
Additional information
?Campus Fryslân https://www.rug.nl/cf/
 
 
Back  Top

6-22(2021-06-02) Rand D engineer at Telepathy Labs, Zurich, Switzerland

ASR Research and Development Engineer, Speech

To strengthen our Research and Development (R&D) organization, innovate and

improve our Automatic Speech Recognition (ASR) products , we need

experienced software engineers with specific skills focused on ASR. You will be

working with the ASR research and development team, and the position will be

based in Zurich, Switzerland.

Principal responsibilities

* Work together within ASR R&D team to strengthen and extend the quality and the

functionality of the existing core engine algorithm and framework.

* Document and communicate effectively the design and implementation proposals, and

the intermediate and final development results in team internal meetings, and in wider

R&D or divisional meetings, when requested.

* Define and implement test cases and metrics processes aimed at qualifying the new

developments within the team adopted sw development and testing processes.

* Follow adopted industry standards and agile development models in place, plus be

ready to accommodate rapid customer driven specification changes.

Knowledge, Skills and Qualifications:

Years of Work Experience: 3 years of professional experience are required

Required

Skills:

The successful candidate is a team player and a fast learner with an

analytical mindset and a pragmatic approach to problem solving.

Knowledge of main ASR softwares, DSP theory, feature extraction etc.

Actual experience within ASR research and development teams.

Experience with ASR open source Toolsets such as Kaldi, Sphynx, HTK,

Fairseq, NeMo and other Pytorch / Tensorflow based libraries.

Experience with high level programming languages such as C, C++, Java.

Experience with distributed version control systems (e.g. Git).

Working knowledge of Linux Operating system.

Excellent oral and written communication skills in English.

Preferred

Skills:

Experience with LSTM and/or Attention Neural Networks and other

Deep Learning approaches as applied to ASR domain.

Knowledge of embedded software programming in C/C++.

Experience with continuous integration and delivery processes.

Experience with scripting languages such as Python, Perl, etc.

Experience in software development preferably in embedded/small

resource software system design and development.

Education: Minimum : MSc in computer science, or equivalent

Desirable : PhD degree in Computer Science, Artificial Intelligence,

Machine Learning, Speech Science.

Work Permit: Permit to work in Switzerland (EU-28 or equivalent) required.

Contact: Pierre-Edouard Honnet pe.honnet@telepathy.ai

Vijeta Avijeet vijeta.avijeet@telepathy.ai

Back  Top

6-23(2021-06-03) Full professor at Radboud University, Nijmegen, The Netherlands

At Radboud University we have a position for a full professor  Artificial Intelligence & Language, Speech and Communication:  https://www.ru.nl/werken-bij/vacature/details-vacature/?recid=1152936&doel=embed&taal=nl

 
 
Could you include this job position on ISCA's job page: 
 
The website mentions an ultimate date for application of 11 June, but we will be flexible for applications arriving before 16 June if sent to:
Prof. José Sanders, Head of Department Language & Communication
Tel.: +31 24 361 28 02
Email: jose.sanders@ru.nl
Back  Top

6-24(2021-06-04)PhD and Postdoc positions at University of Bielefeld, Germany
PhD position in Phonetics (full time) at Bielefeld University, Germany
 
Within the newly funded Transregional Collaborative Research Center ?Constructing Explainability?, we are offering a position within the subproject on ?Technically enabled explaining of speaker traits? for a period of 4 years:
 
https://uni-bielefeld.hr4you.org/job/view/565/research-position-for-the-sfb-trr-318-subproject-c06-pw?page_lang=en
 
 
******************************************************************
 
PostDoc position in Phonetics (full time) at Bielefeld University, Germany
 
Within the newly funded Transregional Collaborative Research Center ?Constructing Explainability?, we are offering a position within the subproject on ?Monitoring the understanding of explanations? for a period of 4 years:
 
 
Back  Top

6-25(2021-06-06) Ph D position at University of Paderborn, Germany

https://ei.uni-paderborn.de/fileadmin/elektrotechnik/fg/nth/Stellenangebote/Kennziffer4707.pdf

Back  Top

6-26(2021-06-08) PhD position at University of Bielefeld, Germany

The Digital Linguistics Lab (head: JProf. Dr.-Ing. Hendrik Buschmeier) at Bielefeld University is seeking to fill a researcher position (PhD-student, E13 TV-L, 100%, fixed-term until 6/2025) in the newly established collaborative research center TRR 318 ?Constructing Explainability?[^1], sub-project A02 ?Monitoring the understanding of explanations?[^2].

Join us to work in a large interdisciplinary team (computer science, linguistics, computational linguistics, psychology, media science, economics and sociology) on research questions in the intersection of explainable AI and human-computer interaction.

Project A02 will carry out interaction studies and build statistical and computational models to monitor explainees' understanding of explanations based on their multimodal feedback (e.g., head nods, facial expressions, gaze, backchannels, clarification requests).

The formal job advertisement with information on how to apply can be found here:

https://uni-bielefeld.hr4you.org/job/view/540/research-position-for-the-sfb-trr-318-subproject-a02-hb?page_lang=en


Questions? Don?t hesitate to get in touch: hbuschme@uni-bielefeld.de

Hendrik Buschmeier


[^1]: https://www.uni-paderborn.de/en/trr318
[^2]: https://www.uni-paderborn.de/en/trr318/subprojects/a02

Back  Top

6-27(2021-06-24) PhD position at IMAG, Grenoble, France

Please find below the description of a PhD position in ?Citation extraction
classification for knowledge extraction and analysis of a scientific field?.

        Starting date: October 01, 2021
        Deadline for Applications: July 5th, 2021

        Keywords: natural language processing, citation classification, transfer
learning, deep learning

        Context

        The NanoBubbles ERC project objective is to understand how, when and why science
fails to correct itself. The project?s focus is nanobiology and it combines approaches
from the natural, computer science, and social sciences and the humanities (Science and
Technology Studies) to understand how error correction in science works and what
obstacles it faces. For this purpose, we aim to trace claims and corrections in various
channels of scientific communication (journals, social media, advertisements, conference
programs, etc.) via natural language processing.

        The challenge is to build data sets, models and tools that enable organising and
analysing the rapidly evolving ecology of online comments complementary to conventional
scientific records:
        - This means not only counting references to a document but also assessing and
leveraging the content of both cited and citing document.
        - This means not only identifying named entity, claims and counter claims but
also extracting structured knowledge from text.
        - This means not only taking advantage of existing data to learn models but also
building tools for creation and annotation of new sets of data so to train advance
language models.

        Project objectives

        Citations are an important indicator of the state of a scientific field. They
reflect how authors frame their work and influence its adoption by future researchers.
However, despite recent work in NLP [Bakhti2018,Jurgens2016,Pride2019,Yu2020], citation
behaviour and how it can be used to point out error correction lack large scale and deep
citation analyses.

        The objective of this PhD is to design new NLP method to detect and qualify
citations and extract citation network in scientific research.

        [Bakhti2018] Bakhti, K., Niu, Z., Yousif, A., & Nyamawe, A. S. (2018, August).
Citation function classification based on ontologies and convolutional neural networks.
In International Workshop on Learning Technology for Education in Cloud (pp. 105-115).
Springer, Cham.
        [Jurgens2016] Jurgens, D., Kumar, S., Hoover, R., McFarland, D., & Jurafsky, D.
(2016). Citation classification for behavioral analysis of a scientific field. arXiv
preprint arXiv:1609.00435.
        [Pride2019] Pride, D., Knoth, P., & Harag, J. (2019, June). ACT: an annotation
platform for citation typing at scale. In 2019 ACM/IEEE Joint Conference on Digital
Libraries (JCDL) (pp. 329-330). IEEE.
        [Yu2020] Yu, W., Yu, M., Zhao, T., & Jiang, M. (2020, April). Identifying
referential intention with heterogeneous contexts. In Proceedings of The Web Conference
2020 (pp. 962-972).



        Skills

        Master 2 in Natural Language Processing, computer science or data science.
        Programming experience in Python and in a deep learning framework.
        Previous experience in NER, RE and dataset manipulation would be a plus.

   Scientific environment

   The thesis will be conducted within the Sigma and Getalp teams of the LIG laboratory
(http://sigma.imag.fr/ and https://lig-getalp.imag.fr/). The recruited person will be
welcomed within the teams which offer a stimulating, multinational and pleasant working
environment. The means to carry out the PhD will be provided both in terms of missions in
France and abroad and in terms of equipment (personal computer, access to the LIG GPU
servers).
   The person will also be required to collaborate with several teams involved in the ERC
Nanobubbles project, in particular with researchers from the IRIT lab (Toulouse, France),
University of Paris Sorbonne as well as researchers from Maastricht University, Radboud
Universiteit and University of Twente based in the Netherlands.

     Instructions for applying

        Applications are expected until July 5th, 2021. They must contain: CV +
letter/message of motivation + master notes + letter(s) of recommendation; and be
addressed to Cyril Labbé (cyril.labbe@imag.fr), François Portet (Francois.Portet@imag.fr)
and Yasemin J. Erden (y.j.erden@utwente.nl).

        Applications will be considered on the fly. It is therefore advisable to apply as
soon as possible.

Back  Top

6-28(2021-06-27) PhD position at Université du Mans, France

Sujet de thèse dans le cadre d?un co-financement entre le projet Européen SELMA porté par le LIA et Le Mans Université, encadrée par Anthony Larcher, Yannick Estève et Marie Tahon.

Titre: Apprentissage actif, interprétation et contrôle pour la synthèse neuronale de parole expressive

Laboratoire d?accueil : LIUM (https://lium.univ-lemans.fr)

Site : Le Mans

Début de la thèse : septembre 2021

La thèse aura lieu au Laboratoire d?Informatique de l?Université du Mans (LIUM) dans l?équipe LST (Language and Speech Technology) et au Laboratoire d?Informatique d?Avignon (LIA). Le candidat sera basé au Mans et des séjours à Avignon seront prévus régulièrement. Le Laboratoire Informatique d?Avignon est partenaire du projet européen SELMA (https://selma-project.eu)

Profil du candidat : Le candidat devra être motivé pour travailler sur le langage écrit et parlé, et montrer un intérêt pour la synthèse de parole. Il devra avoir Master en Informatique, une expérience en machine learning sera appréciée.

L?objectif principal du projet est de proposer, développer et valider des méthodes qui permettent 1) de générer de la parole expressive à partir d?une consigne donnée par l?utilisateur soit à l?aide de systèmes text-to-speech, soit de la conversion de voix ; et 2) d?interagir avec le système au cours de l?apprentissage et lors de l?inférence pour corriger les sorties audio du système. Dans un premier temps, nous étudierons la visualisation et l?interprétation des représentations latentes apprises par un modèle neuronal état de l?art (Tacotron + WaveNet) en termes de prosodie, locuteur, expressivité et prononciation. Il faudra définir des éléments de contrôle utilisateur qui pourront prendre la forme d?annotations et seront ensuite intégrés dans le corpus d?apprentissage à l?aide de techniques tels que l?adaptation de paramètres acoustique, les embeddings, les mécanismes d?attention, ou bien l?apprentissage de modèles intermédiaires. Parallèlement, des architectures neuronales compatibles avec l?apprentissage actif (renforcement des modèles ou adaptation au domaine) seront proposés, et il faudra déterminer les stratégies les plus pertinentes pour l?apprentissage actif. Enfin, une part importante des travaux consistera à évaluer la synthèse produite, dans un contexte de livres audio ou bien de contenu journalistique.

Pour candidater : Envoyer CV + lettre de motivation avant le 10 juillet 2021 à :

anthony.larcher@univ-lemans.fr, yannick.esteve@univ-avignon.fr et marie.tahon@univ-lemans.fr


 

Marie Tahon Maître de Conférence / Assistant Professor Laboratoire Informatique de l?Université du Mans (LIUM)
Tél. +33 (0)2 43 83 38 44
Avenue Olivier Messiaen, 72085 - LE MANS Cedex 09 http://perso.univ-lemans.fr/~mtahon/

Back  Top

6-29(2021-06-30) PhD position at Orange France

Candidater : https://orange.jobs/jobs/offer.do?joid=101323&lang=FR

Thèse - Suivi de l'état du dialogue dans un contexte dialogique long et en alignement avec les bases de connaissances - F/H

Votre rôle est d'effectuer un travail de thèse sur le sujet de recherche : Suivi de l'état du dialogue dans un contexte dialogique long et en alignement avec les bases de connaissances.

La compréhension du langage naturel est un composant fondamental des systèmes de dialogue automatiques [1,2]. Deux types de compréhension de dialogue sont identifiés: la compréhension hors contexte (un seul énoncé) et dans le contexte dialogique (plusieurs énoncés). Plusieurs solutions industrielles rendent les dialogues plus naturels grâce à la brique de compréhension hors contexte ou avec très peu de contexte (SIRI, Amazon Alexa, Cortana, Orange Djingo, RASA etc.). Les dialogues pour l'assistance technique Orange sont très complexes : ils ont en moyenne 163 tours de parole (énoncés), 2230 tokens (l'unité minimale ou morceaux de mots) en moyenne.

La compréhension du langage naturel dans un contexte dialogique long est toujours un axe de recherche ouvert [3] car il s'agit de concevoir des architectures d'apprentissage profond complexes, performantes et optimales.

La compréhension hors contexte est généralement traitée comme la projection de l'énoncé de l'utilisateur vers un modèle sémantique, au travers par exemple d'une classification de son intention et de l'extraction des valeurs des slots associés [4]. Cette représentation, contextualisée dans l'historique du dialogue, correspond à l'état de l'utilisateur tel que perçu par le système et s'appelle « Dialogue State Tracking (DST) » en anglais ou suivi de l'état du dialogue. Les approches probabilistes appellent cette brique la trace de l'état de croyance, « Belief State Tracking » ou simplement « Belief Tracking » (BT). Un challenge, (« Dialogue State Tracking » (DST) challenge) a été lancé en 2012 pour susciter le développement de nouveaux modèles de BT pour un système de dialogue vocal, prenant en compte le bruit de la reconnaissance de la parole. Depuis, des approches ont été proposées pour favoriser le transfert entre domaines pour les dialogues textuels (chatbots) et ont évolué en tirant parti des méthodes d'apprentissage automatique des Support Vector Machines [5] au Deep Learning [3,6].

Les verrous à résoudre sont :

    traiter des conversations longues
    traiter l'alignement avec les bases de connaissance
    favoriser le transfert de domaine pour les applications multi-domaine
    détecter des sujets hors domaine et traiter des nouveaux domaines

Les conversations longues restent un problème ouvert car ces approches nécessitent beaucoup de mémoire et sont gourmandes en données. On s'intéresse à l'étude de l'apprentissage sans exemples, zero-shot learning pour pouvoir développer rapidement des systèmes de dialogue sur de nouveaux domaines.

L'étude du suivi de l'état du dialogue pour les contextes longs s'inscrit naturellement dans les efforts d'investissement qu'Orange met en oeuvre dans le domaine de l'Intelligence Artificielle.

[1] Williams, Jason D et Steve Young (2007). « Partially observable Markov decision processes for spoken dialog systems ». In: Computer Speech & Language 21.2.

[2] Sarikaya, Ruhi, Geoffrey E Hinton et Anoop Deoras (2014). « Application of deep belief networks for natural language understanding ». In: IEEE/ACM.

[3] Heck, Michael et al. (juil. 2020). « TripPy: A Triple Copy Strategy for Value Independent Neural Dialog State Tracking ». SigDIAL, p. 35-44.

[4] Rojas-Barahona, Lina M. et al. (déc. 2016). « Exploiting Sentence and Context Representations in Deep Neural Models for Spoken Language Understanding ». CoLING.

[5] Henderson, Matthew, Blaise Thomson et Jason Williams (2014). « The second dialog state tracking challenge ». SIGDIAL. 263. [6] Budzianowski, Pawe? et al. (2018). « MultiWOZ - A Large-Scale Multi-Domain Wizard-of-Oz Dataset for Task-Oriented Dialogue Modelling ». EMNLP.

Profil :

Vous avez suivi un cursus d'ingénieur et/ou Master de Recherche, avec des connaissances dans l'apprentissage automatique et dans au moins l'un des domaines de compétences cités.

Une première expérience de mise en oeuvre d'algorithmes d'apprentissage neuronal (dans le cadre d'un stage par exemple) serait un plus.
Vous avez des compétences dans les domaines de l'Intelligence Artificielle, de l'apprentissage automatique et particulièrement dans l'apprentissage profond.

Vous disposez d'un bon niveau en mathématiques (optimisation numérique, statistiques, probabilités, etc.).

Vous maîtrisez le développement logiciel.

Vous maîtrisez l'anglais lu, écrit, parlé.

Vous êtes curieux-se, attiré-e par les nouvelles technologies, et prêt-e à suivre le rythme de leurs évolutions.

Vous aimez le travail en équipe, au sein de projets pluridisciplinaires, et contribuer à un objectif commun, tout en étant autonome sur les activités qui sont les vôtres.

Vous avez de bonnes capacités d'analyse et de synthèse.

Maîtriser un des outils d'apprentissage profond suivants : Torch, pyTorch, TensorFlow, MXNet serait un plus.

Vous aimez communiquer le résultat de vos travaux à travers de rapports écrits et des présentations orales.

Contexte

Vous rejoindrez un équipe spécialisée en dialogue, composée d'une quinzaine de personnes : chercheurs, data scientists, architectes, développeurs, thésards et stagiaires.
entité

Orange est un acteur clé de l'innovation numérique. Dans un secteur des technologies de l'information et de la communication qui connaît un bouleversement de sa chaîne de valeur, avec la multiplication des acteurs et l'apparition de nouveaux modèles économiques, l'innovation constitue un levier majeur de croissance pour Orange.

Au sein de la Division Orange Innovation dont l'ambition est de porter plus loin l'innovation d'Orange et de renforcer son leadership technologique, vous travaillerez chez DATA IA au sein de l'équipe NADIA (Natural Dialogue Interaction), qui est en charge du développement de systèmes de dialogue et qui conduit des travaux de recherche sur le dialogue en langage naturel notamment avec l'utilisation des techniques d'apprentissage (renforcement, renforcement inversé, supervisé et non supervisé).

Back  Top

6-30(2021-06-12) ​ Tenure-Track Professorship at the University of Erlangen (succession of Prof. Nöth)

 Tenure-Track Professorship at the University of Erlangen (succession of Prof. Nöth);

Intelligent Speech Interfaces - Assistant Professorship with Tenure Track
https://www.fau.eu/people/careers-human-resources/professorships/#collapse_10

Back  Top

6-31(2021-06-16) Ingenieur de développement INRIA Bordeaux France

Ingénieur.e développement datascience - Inria Bordeaux Sud-Ouest

Mission: Conception d’une architecture logicielle pour un outil IA en ingénierie

biomédicale (analyse et classification de voix pathologiques)

Type de contrat : CDD

Durée : 2 ans (possibilité de prolongation)

Début : à partir du 1er septembre 2021

Date limite de candidature : 31 juillet 2021

Lieu : Inria Bordeaux Sud-Ouest

Niveau de diplôme exigé : Bac + 5 ou équivalent

Autre diplôme apprécié : thèse de doctorat

Niveau d'expérience souhaité : au moins 2 ans (comme ingénieur.e ou postdoc)

Fonction : Ingénieur scientifique contractuel

Salaire brut mensuel : 2632€ à 3543€, selon diplômes et expérience professionnelle

Candidature : https://jobs.inria.fr/public/classic/fr/offres/2021-03484

Responsable : Khalid Daoudi (khalid.daoudi@inria.fr)

Contexte et atouts du poste

Inria, institut national de recherche dédié au numérique, promeut l’excellence scientifique au service du

transfert technologique et de la société.

Inria emploie 2700 collaborateurs issus des meilleures universités mondiales, qui relèvent les défis des sciences

informatiques et mathématiques. Son modèle agile lui permet d’explorer des voies originales avec ses partenaires

industriels et académiques, et de répondre aux enjeux pluridisciplinaires et applicatifs de la transition numérique.

Engagé auprès des acteurs de l’innovation, Inria crée les conditions de rencontres profitables entre recherche

publique, R&D privée et entreprises. Inria transfère vers les startup, les PME et les grands groupes ses résultats et ses

compétences, dans des domaines tels que la santé, les transports, l’énergie, la communication, la sécurité et la protection

de la vie privée, la ville intelligente, l’usine du futur... Inria développe aussi une culture entrepreneuriale ayant conduit à

la création de 120 startup.

Le centre Inria Bordeaux Sud-Ouest est un des neuf centres d’Inria et compte 20 équipes de recherche. Le

centre Inria est un acteur majeur et reconnu dans le domaine des sciences numériques. Il est au coeur d’un riche

écosystème de R&D et d’innovation : PME fortement innovantes, grands groupes industriels, pôles de compétitivité,

acteurs de la recherche et de l’enseignement supérieur.

GEOSTAT est une équipe de recherche Inria dont la thématique de recherche est le traitement de signaux

naturels complexes, notamment en biophysique (geostat.bordeaux.inria.fr).

Mission confiée

Plusieurs maladies et pathologies peuvent causer des dysfonctionnements ou des altérations dans la production

de la parole. Les plus connues sont les maladies neurodégénératives (telles que les maladies de Parkinson et

d’Alzheimer) et les maladies respiratoires (telles que l’asthme, la BPCO ou la Covid-19). On parle alors de troubles de

la parole ou de parole pathologique.

Il est maintenant établi que certaines de ces maladies se caractérisent par une manifestation précoce des

troubles de la parole. Le développement de biomarqueurs objectifs vocaux est devenu ainsi un enjeu majeur pour l’aide

au diagnostic et suivi de ces maladies. La mission de l’ingénieur(e) recruté(e) s’inscrit dans ce cadre.

L’objectif de la mission est de concevoir une architecture logicielle, en Python, pour :

1 développer une boîte à outils générique de traitement du signal dédiée à l’analyse de la parole pathologique ;

2 implémenter un biomarqueur vocal de la fonction respiratoire en utilisant des techniques d’apprentissage

statistique, dont le Deep Learning.

Cette dernière tâche s’inscrit dans le cadre d’un projet de recherche clinique en partenariat avec l’AP-HP

(Assistance Publique - Hôpitaux de Paris), notamment le service de pneumologie et de réanimation de L'hôpital La

Pitié-Salpêtrière. Le but de ce projet est le développement d’un biomarqueur vocal de l’état respiratoire et de son

évolution pour l’aide au télé-suivi de patients atteints d’une affection respiratoire, dont la Covid-19.

Principales activités

Pour des raisons de sécurité et de confidentialité, les données vocales et cliniques des patients sont hébergées

sur les serveurs EDS (Entrepôt de Données de Santé) de l’AP-HP.

La première tâche sera ainsi de développer une API permettant la communication avec l’infrastructure

d’hébergement.

La deuxième tâche sera d’implémenter des techniques éprouvées d’analyse de la parole pathologies puis

d’autres issus de recherches récentes. Cette tâche s’appuiera, le cas échéant, sur Parselmouth

(parselmouth.readthedocs.io/en/stable/) qui est une librairie Python pour Praat (www.fon.hum.uva.nl/praat/).

La troisième étape consistera à implémenter et expérimenter des techniques d’apprentissage statistique en

utilisant les données de patients. Cette tâche s’appuiera sur les framework habituels de Machine Learning (TensorFlow,

PyTorch, Scikitlearn).

Encadrement

L’ingénieur.e disposera d’un encadrement scientifique, par Khalid Daoudi de l’équipe GEOSTAT, et technique

par Dan Dutartre et François Rué du Service d'Expérimentation et de Développement (SED) d’Inria-Bordeaux.

Compétences

Être titulaire d’un diplôme d’ingénieur et/ou doctorat en sciences du numérique

Disposer d’une expérience significative dans le développement ou le pilotage d’un projet logiciel en python.

. Disposer d’une formation solide en apprentissage statistique (Machine Learning) ainsi que d’une expérience notable

dans ce domaine ;

. Disposer d’une expertise solide en développement logiciel pour être en capacité de s’adapter à différents types

langages des plus standards (Python, C, C++) ; une forte compétence en python est requise ;

. Des connaissances en traitement du signal seraient un plus très apprécié ;

. Maîtriser les concepts, la méthodologie et les outils de la qualité logicielle ;

. Maîtriser les méthodologies de gestion de projet logiciel collaboratif ;

. Maîtriser les méthodologies d’architectures logicielles modulaires ;

. Excellent relationnel ;

. Savoir travailler en équipe pluridisciplinaires ;

. Savoir s’adapter au contexte projet ;

. Être autonome dans son organisation personnelle et le reporting ;

. Avoir une bonne communication écrite et orale en français ;

. Maîtriser l’anglais technique et scientifique

Back  Top

6-32(2021-07-01) Internship at Naver Labs, Grenoble, France

https://europe.naverlabs.com/job/unsupervised-speech-to-text-translation-using-adapter-modules/

Unsupervised Speech-to-Text Translation using Adapter Modules ? Internship

Description

Adapter layers have recently proven to be flexible and lightweight mechanisms for multi-lingual translation models. In this internship we plan to explore their use for speech-to-text translation as a way of leveraging mono-lingual data to be able to translate from/to new languages in an unsupervised way.

Required skills

- PhD or research master student, in NLP, speech or machine learning with an interest on language technologies
- Familiarity with modern machine learning, as applied to NLP. Evidenced by publications in the domain.
- Familiarity with deep learning frameworks and python.

References

Application instructions

Please note that applicants must be registered students at a university or other academic institution and that this establishment will need to sign an 'Internship Convention' with NAVER LABS Europe before the student is accepted.

You can apply for this position online. Don't forget to upload your CV and cover letter before you submit. Incomplete applications will not be accepted.

About NAVER LABS

NAVER LABS is a world class team of self-motivated and highly engaged researchers, engineers and interface designers collaborating together to create next generation ambient intelligence technology and services that are rich with the organic understanding they have of users, their contexts and situations.

Since 2013 LABS has led NAVER?s innovation in technology through products such as the AI-based translation app ?Papago?, the omni-tasking web browser ?Whale?, the virtual AI assistant ?WAVE?, in-vehicle information entertainment system ?AWAY? and M1, the 3D indoor mapping robot.

The team in Europe is multidisciplinary and extremely multicultural specializing in artificial intelligence, machine learning, computer vision, natural language processing, UX and ethnography. We collaborate with many partners in the European scientific community on R&D projects.

NAVER LABS Europe is located in the south east of France in Grenoble. The notoriety of Grenoble comes from its exceptional natural environment and scientific ecosystem with 21,000 jobs in public and private research. It is home to 1 of the 4 French national institutes in AI called MIAI (Multidisciplinary Innovation in Ai) It has a large student community (over 62,000 students) and is a lively and cosmopolitan place, offering a host of leisure opportunities. Grenoble is close to both the Swiss and Italian borders and is the ideal place for skiing, hiking, climbing, hang gliding and all types of mountain sports.

Back  Top

6-33(2021-07-02) PhD position at LIG, Grenoble, France

Contexte:

Le projet ANR PROPICTO vise à développer un axe de recherche autour de
la communication alternative et augmentée en se focalisant sur la
transcription automatique de la parole sous forme pictographique.
PROPICTO répond à la fois à des besoins forts dans le domaine du
handicap et relève de nombreux défis de recherche autour du traitement
automatique de la langue naturelle. PROPICTO a la volonté d'être
pluridisciplinaire en coopérant avec des linguistes et le milieu du
handicap. La finalité du projet est de proposer un système qui est
capable de transcrire directement de la parole sous la forme d?une
suite de pictogrammes.

La thèse sera co-encadrée par Benjamin Lecouteux et Maximin Coavoux


Sujet:

Cette thèse a pour objectif principal de développer un module d?analyse
syntaxique automatique qui sera intégré dans la chaîne de traitement
parole->pictogrammes mise en ?uvre dans le projet PROPICTO. L?analyse
de la parole spontanée pose de nombreux problèmes pour le TAL
(disfluences, chevauchements, segmentation en phrases). Par ailleurs,
la grande majorité des travaux en analyse syntaxique automatique se
concentrent sur des jeux de données issues de textes écrits.

Dans un premier temps, nous proposons d?évaluer les méthodes
état-de-l?art en analyse syntaxique sur les treebanks de parole
existants pour le français, en particulier en utilisant des modèles de
langage préentraînés tels que FlauBERT (Le et al 2019). Dans un second
temps, nous proposons de poursuivre 2 axes de recherche :
-   Analyse end-to-end : dans un contexte applicatif, une partie des
     erreurs de l?analyse syntaxique sont liées à des erreurs de
     reconnaissance de la parole (propagation d?erreurs). Nous proposons
     (i) d?étudier si l?ajout d?informations sur le signal sonore
     permettent de réduire la propogation d?erreur (ii) d?étudier la
     faisabilité d?une approche end-to-end qui prédirait conjointement
     la transcription du signal sonore et son analyse syntaxique.
-   Analyse syntaxique incrémentale : les analyseurs état-de-l'art
     actuels ne sont pas incrémentaux, ils ont besoin d'avoir accès à la
     phrase entière pour commencer l'analyse (modèle de langue
     préentraîné bidirectionnel). Dans le cadre applicatif « online » de
     PROPICTO, il est intéressant de considérer des algorithmes
     d?analyse syntaxique qui puissent commencer l?analyse au fur et à
     mesure où arrive la phrase d?input, à la manière de certains
     systèmes d?analyse par transition. Cela rend l?utilisation de
     modèles bidirectionnels (FlauBERT) impossibles, et nécessitera de
     développer des stratégies pour garantir la robustesse de
     l?analyseur.

Profil recherché:

-   Master ayant une forte composante Traitement Automatique des
     Langues ou linguistique computationnelle
-   Expérience en programmation et machine learning pour le TAL
-   Bonne connaissance du français

Détails pratiques:

-   Début de la thèse envisagé entre septembre et novembre 2021
-   Contrat doctoral à temps plein au LIG (équipe Getalp) pour 3 ans
     (salaire: min 1768e brut mensuel, plus en cas d'enseignement)
-   Date limite pour postuler: 29 juin
-   Pour postuler, le dossier de candidature doit comprendre: cv,
     lettre de motivation, notes de master. Les candidat?es
     sélectionné?es devront également transmettre leur mémoire de master
     (si disponible).

Contacts (pour toutes questions ou pour postuler):
maximin.coavoux@univ-grenoble-alpes.fr et
benjamin.lecouteux@univ-grenoble-alpes.fr

Back  Top

6-34(2021-07-02) PhD position at LIG Grenoble, France
Sujet de thèse dans le cadre du projet  ANR Franco-Suisse Propicto (https://propicto.unige.ch),
encadrée par Benjamin Lecouteux, Didier Schwab et Emmanuelle Esperança-Rodier

 

Traduction automatique de la parole vers des pictogrammes.

 

PROPICTO vise à développer un axe de recherche autour de la communication alternative et augmentée en se focalisant sur la transcription automatique de la parole sous forme pictographique. PROPICTO répond à la fois à des besoins forts dans le domaine du handicap et relève de nombreux défis de recherche autour du traitement automatique de la langue naturelle. PROPICTO a la volonté d?être pluridisciplinaire en coopérant avec des linguistes et le milieu du handicap. La finalité du projet est de proposer un système qui est capable de transcrire directement de la parole sous la forme d?une suite de pictogrammes. 

 

Cette thèse sera axée sur la traduction de l?oral vers des ensembles de pictogrammes. 
L?un des verrous scientifique de cette thèse est de chercher à pallier la quantité limitée d?exemples sous forme de pictogrammes et de corpus parole/pictogrammes.
Les approches utilisées s?inspireront dans un premier temps des approches de la traduction de la parole massivement multilingue où d?autres langues peuvent aider à traduire une langue pour laquelle les données sont rares.
Les aspects simplification de la langue seront également abordées dans ce sujet et appuyées par une autre thèse portant sur l?analyse syntaxique de l?oral.
Parallèlement au déroulement de cette thèse, des récoltes de corpus au sein de différentes institutions seront réalisées pour obtenir des paires parole/pictogrammes et répondre aux attentes en situation réelle.
L?évaluation des méthodes sera également une dimension importante de cette thèse et pourra s?inspirer, par exemple, des méthodes d?évaluation de la traduction automatique.

 

Profil recherché:
      - Solide expérience en programmation & machine learning pour le TAL, notamment l?apprentissage profond

 - Master ayant une composante Traitement Automatique des Langues ou linguistique computationnelle

- Bonne connaissance du français

 

 

Détails pratiques:

- Début de la thèse entre septembre et novembre 2021
- Contrat doctoral à temps plein au LIG (équipe Getalp) pour 3 ans (salaire: min 1768?e brut mensuel)

 

Environnement scientifique/ 

 

La thèse sera menée au sein de l'équipe Getalp du laboratoire LIG  (https://lig-getalp.imag.fr/). La personne recrutée sera accueillie au  sein de l?équipe qui offre un cadre de travail stimulant, multinational  et agréable. 

 

Les moyens pour mener à bien le doctorat seront assurés tant en ce qui concerne les missions en France et à l?étranger qu?en ce qui concerne le matériel (ordinateur personnel, accès aux serveurs GPU du LIG, Grille de calcul Jean Zay du CNRS). 

 

 

/Comment postuler ?/ 

 

Les candidats doivent être titulaires d'un Master en informatique ou en traitement automatique du langage naturel (ou être sur le point d'en obtenir un). Ils doivent avoir une bonne connaissance des méthodes d?apprentissage automatique et idéalement une expérience en collecte et gestion de corpus. Ils doivent également avoir une bonne connaissance de la langue française. Une expérience dans le domaine  du traitement automatique de la parole ou de la traduction automatique (neuronaux ou pas ) et/ou une sensibilisation au milieu du handicap serait un plus. 

 

Les candidatures sont attendues jusqu'au 1er juillet 2021. Elles doivent contenir : CV + lettre/message de motivation + notes de master + lettre(s) de recommandations; et être adressées à Benjamin Lecouteux (benjamin.lecouteux@univ-grenoble-alpes.fr), Didier Schwab (Didier.Schwab@univ-grenoble-alpes.fr) et Emmanuelle Esperança-Rodier (Emmanuelle.Esperanca-Rodier@univ-grenoble-alpes.fr). 

 

 

Références : 

 

LeBenchmark: A Reproducible Framework for Assessing Self-Supervised Representation Learning from Speech Solene EvainHa NguyenHang LeMarcely Zanon BoitoSalima MdhaffarSina AlisamirZiyi TongNatalia TomashenkoMarco DinarelliTitouan ParcolletAlexandre AllauzenYannick EsteveBenjamin LecouteuxFrancois PortetSolange RossatoFabien RingevalDidier SchwabLaurent Besacier

Hang Le, Loïc Vial, Jibril Frej, Vincent Segonne, Maximin Coavoux, et al.. FlauBERT: Unsupervised Language Model Pre-training for French. LREC, 2020, Marseille, France. ?hal-02890258?

Hang Le, Juan Pino, Changhan Wang, Jiatao Gu, Didier Schwab, et al.. Dual-decoder Transformer for Joint Automatic Speech Recognition and Multilingual Speech Translation. COLING 2020 (long paper), Dec 2020, Virtual, Spain. ?hal-02991564?

Didier Schwab, Pauline Trial, Céline Vaschalde, Loïc Vial, Benjamin Lecouteux. Apporter des connaissances sémantiques à un jeu de pictogrammes destiné à des personnes en situation de handicap : Un ensemble de liens entre Wordnet et Arasaac, Arasaac-WN. TALN 2019, 2019, Toulouse, France. ?hal-02127258?

Back  Top

6-35(2021-07-04) Post-doctoral research position - L3i - La Rochelle France

-- Post-doctoral research position - L3i - La Rochelle France

---------------------------------------------------------------------------------------------------------------------------

Title : Emotion detection by semantic analysis of the text in comics speech balloons

 

The L3i laboratory has one open post-doc position in computer science, in the specific field of natural language processing in the context of digitised documents.

 

Duration: 12 months (an extension of 12 months will be possible)

Position available from: As soon as possible, 2021

Salary: approximately 2100 ? / month (net)

Place: L3i lab, University of La Rochelle, France

Specialty: Computer Science/ Document Analysis/ Natural Language Processing

Contact: Jean-Christophe BURIE (jcburie [at] univ-lr.fr) / Antoine Doucet (antoine.doucet [at] univ-lr.fr)

 

Position Description

The L3i is a research lab of the University of La Rochelle. La Rochelle is a city in the south west of France on the Atlantic coast and is one of the most attractive and dynamic cities in France. The L3i works since several years on document analysis and has developed a well-known expertise in ?Bande dessinée?, manga and comics analysis, indexing and understanding.

The work done by the post-doc will take part in the context of SAiL (Sequential Art Image Laboratory) a joint laboratory involving L3i and a private company. The objective is to create innovative tools to index and interact with digitised comics. The work will be done in a team of 10 researchers and engineers.

The team has developed different methods to extract and recognise the text of the speech balloons. The specific task of the recruited researcher will be to use Natural Language Processing strategies to analyse the text in order to identify emotions expressed by a character (reacting to the utterance of another speaking character) or caused by it (talking to another character). The datasets will be collections of comics in French and English.

 

Qualifications

Candidates must have a completed PhD and a research experience in natural language processing. Some knowledge and experience in deep learning is also recommended.

 

General Qualifications

? Good programming skills mastering at least one programming language like Python, Java, C/C++

? Good teamwork skills

? Good writing skills and proficiency in written and spoken English or French

 

Applications

Candidates should send a CV and a motivation letter to jcburie [at] univ-lr.fr and antoine.doucet [at] univ-lr.fr.

 

Back  Top

6-36(2011-07-13) PhD Position at CNRS

 

 
 
 Modelisation of gestures and speech during interactions
This offer is available in the following languages:
Français - Anglais

Application Deadline : 23 August 2021

Ensure that your candidate profile is correct before applying. Your profile information will be added to the details for each application. In order to increase your visibility on our Careers Portal and allow employers to see your candidate profile, you can upload your CV to our CV library in one click!

 

 

General information

Reference : UMR5267-FABHIR-001
Workplace : MONTPELLIER
Date of publication : Monday, July 12, 2021
Scientific Responsible name : Slim Ouni
Type of Contract : PhD Student contract / Thesis offer
Contract Period : 36 months
Start date of the thesis : 1 October 2021
Proportion of work : Full time
Remuneration : 2 135,00 € gross monthly

Description of the thesis topic

One of the main objectives of social robotics research is to design and develop robots that can engage in social environments in a way that is appealing and familiar to humans. However, interaction is often difficult because users do not understand the robot's internal states, intentions, actions, and expectations. Thus, to facilitate successful interaction, social robots should provide communicative functionality that is both natural and intuitive. Given the design of humanoid robots, they are typically expected to exhibit human-like communicative behaviors, using speech and non-verbal expressions just as humans do. Gestures help in conveying information which speech alone cannot provide and need to be completed, as in referential, spatial or iconic information [HAB11]. Moreover, providing multiple modalities helps to dissolve ambiguity typical of unimodal communication and, as a consequence, to increase robustness of communication. In multimodal communication, gestures can make interaction with robots more effective. In fact, gestures and speech interact. They are linked in language production and perception, with their interaction contributing to an effective communication [WMK14]. In oral-based communication, human listeners have been shown to be well attentive to information conveyed via such non-verbal behaviors to better understand the acoustic message [GM99].

This topic can be addressed in the field of robotics where few approaches incorporate both speech and gesture analysis and synthesis [GBK06, SL03], but also in the field of developing virtual conversational agents (talking avatars), where the challenge of generating speech and co-verbal gesture has already been tackled in various ways [NBM09, KW04, KBW08].

For virtual agents, most existing systems simplify the gesture-augmented communication by using lexicons of words and present the non-verbal behaviors in the form of pre-produced gestures [NBM09]. For humanoid robots the existing models of gesture synthesis mainly focus on the technical aspects of generating robotic motion that fulfills some communicative function, but they do not combine generated gestures with speech or just pre-recorded gestures that are not generated on-line but simply replayed during human-robot interaction.
Missions

The goal of this thesis is to develop a gesture model for a credible communicative robot behavior during speech. The generation of gestures will be studied when the robot is a speaker and when it is a listener. In the context of this thesis, the robot will be replaced by an embodied virtual agent. This allows applying of the outcome of this work in both virtual and real world. It is possible to test the results of this work on a real robot by transferring the virtual agent behavior to the robot, when possible, but it is not an end in itself.

In this thesis, two main topics will be addressed: (1) the prediction of communication-related gesture realization and timing from speech, and (2) the generation of the appropriate gestures during speech synthesis. When the virtual agent is listening to a human interlocutor, the head movement is an important communicative gesture that may give the impression that the virtual agent understands what is said to it and that may make the interaction with the agent more effective. One challenge is to extract from speech, both acoustic and linguistic cues [KA04], to characterize the pronounced utterance and to predict the right gesture to generate (head posture, facial expressions and eye gaze [KCD14]). Synchronizing the gestures with the interlocutor speech is critical. In fact, any desynchronization may induce an ambiguity in the understanding of the reaction of the virtual agent. The gesture timing correlated with speech will be studied. In this work, generating the appropriate gesture during speech synthesis, mainly head posture, facial expressions and eye gaze, will be addressed.

To achieve these goals, motion capture data during uttered speech will be acquired synchronously with the acoustic signal. Different contexts will be considered to achieve the collection of sufficiently rich data. This data will be used to identify suitable features to be integrated within the framework of machine learning techniques. As the data is multimodal (acoustic, visual, gestures), each component will be used efficiently in collecting complementary data. The speech signal will be used in the context of a speech-recognition system to extract the linguistic information, and acoustic features helps to extract non linguistic information, as F0 for instance. The correlation between gestures and speech signal will also be studied. The aim of the different analyses is to contribute to the understanding of the mechanism of oral communication combined with gestures and to develop a model that can predict the generation of gestures in the contexts of speaking and listening.

References

[GBK06] Gorostiza J, Barber R, Khamis A, Malfaz M, Pacheco R, Rivas R, Corrales A, Delgado E, Salichs M (2006) Multimodal human-robot interaction framework for a personal robot. In: RO-MAN 06: Proc of the 15th IEEE international symposium on robot and human interactive communication
[GM99] Goldin-Meadow S (1999) The role of gesture in communication and thinking. Trends Cogn Sci 3:419–429
[HAB11] Hostetter AB (2011) When do gestures communicate? A meta- analysis. Psychol Bull 137(2):297–315
[NBM09] Niewiadomski R, Bevacqua E, Mancini M, Pelachaud C (2009) Greta: an interactive expressive ECA system. In: Proceedings of 8th int conf on autonomous agents and multiagent systems (AA- MAS2009), pp 1399–1400
[KA04] Kendon, Adam, 2004. Gesture – Visible Action as Utterance. Cambridge University Press.
[KBW08] Kopp S, Bergmann K, Wachsmuth I (2008) Multimodal commu- nication from multimodal thinking—towards an integrated model of speech and gesture production. Semant Comput 2(1):115–136
[KCD14] Kim, Jeesun, Cvejic, Erin, Davis, Christopher, Tracking eyebrows and head gestures associated with spoken prosody. Speech Communication (57), 2014.
[KW04] Kopp S, Wachsmuth I (2004) Synthesizing multimodal utter- ances for conversational agents. Comput Animat Virtual Worlds 15(1):39–52
[SL03] Sidner C, Lee C, Lesh N (2003) The role of dialog in human robot interaction. In: International workshop on language understanding and agents for real world interaction
[WMK14] Petra Wagner, Zofia Malisz, Stefan Kopp, Gesture and speech in interaction: An overview, Speech Communication, Volume 57, 2014, Pages 209-232.

Work Context

Funded by the MITI (CNRS), the project GEPACI (for gestures and speech in interactionnal contexts) is led by the UMR5267 Praxiling and UMR7503 LORIA laboratories. Consequently, the successfull candidate will work at the LORIA Nancy. Furthermore, work stays at Montpellier will be organized.

Constraints and risks

No specific risk.

Additional Information

Financement PRIME80 MITI.

We talk about it on Twitter!

Back  Top

6-37(2021-07-16) Ingénieur d’étude en informatique mobile, Université Grenoble Alpes, France

Appel à candidatures

Ingénieur d’étude en informatique mobile
Université Grenoble Alpes

Le Laboratoire d’Informatique de Grenoble (LIG) recrute une personne motivée et force de
proposition pour un contrat d’ingénieur d’étude de 12 mois (renouvelable une fois) en
informatique mobile. La personne recrutée contribuera au projet THERADIA -
https://www.theradia.fr/, qui consiste à développer un assistant virtuel pour accompagner
des patients souffrant de troubles cognitifs lors de la réalisation de séances de remédiation
cognitive à domicile.

Collecte de données d’interaction avec l’agent Theradia piloté par un humain (magicien d’Oz).
Sujet : Développement d’un système mobile pour la collecte, la gestion et l’annotation de
données d’interactions humaines
Le travail consiste à poursuivre le développement d’un logiciel d’annotation en ligne de
données audiovisuelles d’interactions humaines, afin d’y incorporer un certain nombre de
fonctionnalités souhaitées ; e.g., acquisition audiovisuelle des annotateurs, minutage et
contrôle automatique des annotations, interface graphique dynamique, etc. Ce travail sera
réalisé en collaboration avec l’entreprise qui a conçu cet outil (ViaDialog - Paris), ainsi que
l’équipe EMC de l’Université de Lyon 2.
L’outil d’annotation sera ensuite exploité par une population d’annotateurs qu’il faudra
recruter, former à l’outil à l’aide de tutoriaux, et suivre pendant l’annotation des données,
notamment au moyen de scripts permettant de contrôler automatiquement certains aspects
critiques de l’annotation.
Les collaborateurs du projet exploiteront ces annotations pour automatiser les différentes
composantes technologiques constituant l’assistant virtuel, système qui est joué pour l’instant
par un humain pilotant (magicien d’Oz) une application distribuée sur deux machines. Le
système, une fois automatisé, sera déployé sur une plateforme mobile dont il faudra assurer
l’intégration et le bon fonctionnement, notamment pour la collecte continue et parallèle de
données d’interaction multimodales auprès des utilisateurs de l’application, et ce en parfait
respect de la RGPD.
Enfin, une dernière tâche consiste en la valorisation des travaux réalisés auprès de la
communauté scientifique, en participant notamment à l’écriture d’articles scientifiques
présentant les travaux réalisés, et en développant une interface web permettant de faciliter
l’accès aux données collectées et la gestion des licences utilisateurs soumises via l’interface.

Début de contrat : dès que possible
Durée de contrat : 12 mois (renouvelable une fois)
Salaire : selon l’expérience (jusqu’à 3444€ brut / mois)

Environnement scientifique :
La personne recrutée sera accueillie au sein du Groupe d’Étude en Traitement Automatique
des Langues et de la Parole (GETALP) du LIG, qui offre un cadre dynamique, multinational et
stimulant pour conduire des activités de recherche pluridisciplinaire de haut niveau. Les
moyens pour mener à bien les travaux seront assurés tant en ce qui concerne les missions en
France et à l’étranger qu’en ce qui concerne le matériel (ordinateur personnel, accès aux
serveurs du LIG).
Profil de la personne recherchée :
Nous cherchons une personne ayant un diplôme de Master ou d’Ingénieur en informatique
mobile, avec d’excellentes compétences en programmation web (java, python), exécution de
framework web (Angular 10, Flask/fastApi), et en bases de données(SQL). Cette personne doit

avoir une curiosité naturelle pour les sciences, pouvoir travailler de façon autonome, être pro-
active et rendre compte de l’avancement des travaux de façon régulière, être force de

proposition en cas de problème à résoudre, et surtout aimer travailler en collaboration avec
des partenaires diversifiés (industrie / académie). Une participation à l’écriture d’articles
scientifiques est également attendue.
Comment postuler ?
Les candidatures sont attendues au fil de l’eau et le poste sera ouvert jusqu’à ce qu’il soit
pourvu. Elles doivent être adressées à Fabien Ringeval (Fabien.Ringeval@imag.fr) et François
Portet à (Francois.Portet@imag.fr). Le dossier de candidature doit contenir :
- Curriculum vitae détaillé montrant les compétences attendues pour le poste
- Lettre de motivation exprimant votre intérêt et l’adéquation de votre profil
- Informations de contact et lettre de recommandation de deux personnes référentes
- Au moins deux exemples de réalisation démontrant vos compétences techniques
- Diplôme de Master ou d’Ingénieur

Back  Top

6-38(2021-07-30) 5 PhD fellowships in Machine Learning and Information Retrieval , University of Copenhagen
**** 5 PhD fellowships in Machine Learning and Information Retrieval **** 
**** Department of Computer Science, University of Copenhagen **** 
 
 
The Machine Learning Section of the Department of Computer Science at the Faculty of Science at the University of Copenhagen (DIKU) is offering five fully-funded PhD Fellowships in Machine Learning and Information Retrieval, commencing 1 January 2022 or as soon as possible thereafter.
 
Deadline to apply: August 15, 2021
 
 
* Our group and research, and what do we offer:
--------------------------
 
The fellows will join the Machine Learning Section at DIKU. The Machine Learning section is among the leading research environments in Artificial Intelligence and Web & Information Retrieval in Europe (in the top 5 for 2020, according to csrankings.org), with a strong presence at top-tier conferences, continuous collaboration in international & national research networks, and solid synergies with big tech, small tech, and industry. The Machine Learning section consists of a vibrant selection of approximately 65 talented researchers (40 of whom are PhD and postdoctoral fellows) from around the world with a diverse set of backgrounds and a common incessant scientific curiosity and openness to innovation.
 
 
* The fellows will conduct research, having as starting point the following broad research areas:
--------------------------
 
- a fully-funded PhD in machine learning evaluation;
- a fully-funded PhD in bias and interpretability for machine learning;
- a fully-funded PhD in overparameterization and generalizability in deep neural architectures;
- a fully-funded PhD in applied machine learning and/or information retrieval with focus on human-centered computing aspects;
- a fully-funded PhD in web & information retrieval.
 
 
* Who are we looking for?
--------------------------
 
We are looking for candidates with a MSc degree in a subject relevant for the research area. The successful candidate is expected to have strong grades in Machine Learning and/or Information Retrieval. For one of the PhDs, the candidate is expected to also have strong grades in Human-Centered Computing. The candidate should have a preliminary research record as witnessed by a master thesis or publications in the area.
 
For more information, please have a look at: https://employment.ku.dk/phd/?show=154480
 
???

Maria Maistro, PhD
Tenure-track Assistant Professor
Department of Computer Science
University of Copenhagen
Universitetsparken 5, 2100 Copenhagen, Denmark
Back  Top

6-39(2021-08-04) Several Open Positions at KUIS AI Center, Koc University, Istanbul, Turkey

Several Open Positions at KUIS AI Center

Koc University, Istanbul, Turkey

https://ai.ku.edu.tr/

 

Koç University & ?? Bank Artificial Intelligence Center (KUIS AI) was established in March 2020 with a generous donation from ?? Bank. With its 15 core and 20 affiliated faculty members from engineering, medicine, science and other fields, and over 100 graduate students and research staff, it targets to be a leading research institution in artificial intelligence research, education, and industrial collaboration. Research areas in the center are computer vision, computational biology and medicine, human-computer interaction, machine learning, multimedia signal processing, natural language processing, robotics, and systems and AI.  Located in Istanbul, Turkey, Koç University is a non-profit, research-intensive, selective admissions university that provides a world-class education in English. It offers top-quality undergraduate and graduate programs in Engineering, Social Sciences, Humanities, Business and Medicine to the best students from Turkey and abroad. Koç University has been ranked 1st in Turkey by the Times Higher Education World University Rankings 2021 and the QS World University Rankings 2021 and is among the top 250 universities worldwide for Engineering (THE Subject Rankings 2021).

 

There are currently several open positions at KUIS AI, which are listed below:

 

  1. Research Faculty Positions (2 positions)

 

  • Responsibilities: Conducting independent research, advising graduate students, collaborating with the AI faculty members, supporting industrial projects, acquiring research funding, publishing research articles in high impact journals/conferences

  • Eligibility: PhD degree from a reputable university, research experience in AI/ML/DL, strong publication record, post-doctoral research experience

  • Key position benefits

  • 1-year contract with possibility of 2-years extension

  • Starting salary is 15K TL/month (net): can be higher depending on the qualifications of the candidate

  • Financial and logistic support for accommodation within defined limits

  • Monthly meal card covering 2 meals per day in the cafeteria

  • Health insurance coverage for the researcher

  • Full travel support for attending top-tier conferences

  • A high-end laptop computer, access to our state of the art GPU cluster, and additional cloud support as needed.  

How to apply: send your CV, Research Statement, and names of two references to ai-admissions@ku.edu.tr. For enquiries please contact ai-admissions@ku.edu.tr.

 


2)Open Post-Doc Positions (3 positions)


  • Responsibilities: Working on a specific research project under the supervision of an AI faculty member, supervising day-to-day activities of graduate students,  acquiring research funding, publishing research articles in high impact journals/conferences

  • Position Details: we seek fellows in the research areas of computer vision, computational biology and medicine, human-computer interaction, machine learning, multimedia signal processing, natural language processing, robotics, and systems and AI.

  • Eligibility: PhD degree from a reputable university, research experience in AI/ML/DL, strong publication record

  • Key position benefits

  • 1-year contract with the possibility of a 1-year extension

  • Starting salary is 10K TL/month (net): can be higher depending on the qualifications of the candidate

  • Financial and logistic support for accommodation within defined limits

  • Monthly meal card covering 2 meals per day in the cafeteria

  • Health insurance coverage for the researcher

  • Full travel support for attending top-tier conferences

  • A high-end laptop computer, access to our state of the art GPU cluster, and additional cloud support as needed. 

How to apply: send your CV, Research Statement, and names of two references to ai-admissions@ku.edu.tr. For enquiries please contact the individual faculty member of your interest (https://ai.ku.edu.tr/positions/)

 

 

3)Open Research Engineer Positions (2 positions)


  • Responsibilities: Working under the supervision of AI faculty members to support industrial/academic projects in data science and AI, provide technical and software development support for the computational infrastructure of AI Center, good personal skills: the ability to work in industrial projects and interact with the industrial partners to understand their needs

  • Eligibility: B.S/M.S. degree from a reputable university, strong computational skills in AI/ML/DL

  • Key position benefits

  • 1-year contract with possibility of 2-years extension

  • Starting salary is 10K TL/month (net), but may be higher depending on the qualifications of the candidate

  • Opportunity for applied research with industry partners

  • Financial and logistic support for accommodation within defined limits

  • Monthly meal card covering 2 meals per day in the cafeteria

  • Health insurance coverage for the researcher

  • A high-end laptop computer, access to our state of the art GPU cluster, and additional cloud support as needed. 

How to apply: send your CV and the names of two references to ai-admissions@ku.edu.tr. For enquiries please contact ai-admissions@ku.edu.tr.

Back  Top

6-40(2021-08-20) JUNIOR PROFESSOR IN NATURAL LANGUAGE PROCESSING AND MULTIMEDIA INTERACTION , Katholieke Universiteit Leuven, Belgium

JUNIOR PROFESSOR IN NATURAL LANGUAGE PROCESSING AND MULTIMEDIA INTERACTION 

In the Science, Engineering and Technology Group of KU Leuven (Belgium), Faculty of Engineering Science, Department of Computer Science, there is a full-time tenure-track academic vacancy in the area of natural language processing and multimedia interaction. We seek applications from internationally oriented candidates with an outstanding research track record and excellent didactic skills. The successful candidate will perform research in the Human-Computer Interaction research unit. He or she holds a PhD in Computer Science (or a relevant equivalent degree) with focus on natural language processing and multimedia interaction, and has excellent knowledge of the fundamental principles, algorithms and methods of machine learning. 

 

The tenure track of a junior professor lasts 5 years. After this period and subject to a positive evaluation of the tenure track, he or she will be permanently appointed as an associate professor.

 

More info on the vacancy and instructions on how to apply see: https://www.kuleuven.be/personeel/jobsite/jobs/60022759?hl=en&lang=en

You can apply for this professorship till October 15, 2021.

Back  Top



 Organisation  Events   Membership   Help 
 > Board  > Interspeech  > Join - renew  > Sitemap
 > Legal documents  > Workshops  > Membership directory  > Contact
 > Logos      > FAQ
       > Privacy policy

© Copyright 2024 - ISCA International Speech Communication Association - All right reserved.

Powered by ISCA