ISCA Services

ISCA - International Speech
Communication Association

ISCApad Archive » 2020 » ISCApad #268 » Jobs » (2020-09-17) Proposition de contrat doctoral, Sorbonne University (Jussieu), Paris, France

ISCApad #268

Saturday, October 10, 2020 by Chris Wellekens

6-26 (2020-09-17) Proposition de contrat doctoral, Sorbonne University (Jussieu), Paris, France

Proposition de contrat doctoral

Titre :

Rythme de la parole et gestes manuels en synthèse performative

Résumé du sujet :

Le but de cette thèse est de développer un cadre théorique et des expérimentations quant à

l'utilisation du geste manuel pour le contrôle prosodique via des interfaces humain-machine, en

synthèse performative. La synthèse vocale performative est un nouveau paradigme de recherche en

interaction humain-machine, dans lequel une voix de synthèse est jouée comme un instrument en

temps-réel à l’aide des membres (mains, pieds). Le contrôle du rythme de parole par les mains est

un problème qui implique des unités rythmiques, des points de contrôle rythmique, les centres

perceptifs des syllabes et des gestes de tapotement (tapping), voire des partitions gestuelles

inspirées des phonologies autosegmentales ou articulatoires. Les unités rythmiques varient en

fonction de la phonologie de la langue étudiée, ici le français, l’anglais et le chinois mandarin. Les

enjeux de la thèse portent donc sur la modélisation des schémas de perception-action impliqués

dans le contrôle rythmique, la modélisation des unités temporelles, la réalisation et l’évaluation

d’un système de contrôle du rythme. Les applications visées sont :

1. l’apprentissage du contrôle naturel des contours intonatifs à l'aide de la chironomie pour

l'acquisition de langues étrangères (anglais, français, mandarin) ;

2. l’apprentissage du contrôle chironomique des contours d'intonation de la langue maternelle,

pour la suppléance vocale (larynx artificiel).

Contexte :

La voix n’est pas un 'instrument' de musique, au sens d’un artefact mis en vibration par les

membres ou par le souffle. Les organes vocaux sont internes, en grande partie invisibles, et

contrôlés de façon complexe par plusieurs ensembles musculaires (respiration, phonation,

articulation). Le contrôle vocal est donc, par nature intéroceptif, alors qu’il est davantage

kinesthésique et extéroceptif pour les instruments de musique.

L’avènement de la synthèse numérique permet pour la première le rendu d’un son indéniablement

vocal par un dispositif instrumental externe, mis à distance de l’appareil vocal. Les 'instruments

vocaux' sont 'manoeuvrés' par les mains, les pieds, à l’aide de capteurs ou d’interfaces humainmachine.

Cette mise à distance pose la question du contrôle vocal dans des termes tout à fait

différents de ceux du contrôle d’un instrument acoustique ou de la voix elle même. Les instruments

vocaux permettent actuellement un contrôle musical de la phonation : intonation, séquencement

rythmique, qualité de voix, pour la voix chantée. Le contrôle très précis de l’articulation et du

rythme en parole est encore problématique. Le propos de cette thèse est de traiter la question du

contrôle gestuel du rythme prosodique et du séquencement articulatoire.

Objectifs et résultats attendus :

Cette thèse s’inscrit dans la ligne de recherche sur les instruments vocaux. Un instrument

vocal est un synthétiseur en vocal temps réel à contrôle gestuel. La synthèse est réalisée par un

programme pour produire les échantillons. Le contrôle gestuel utilise des interfaces pour capter les

gestes. Les mouvements des articulateurs étant très rapides, il est difficile de les contrôler de façon

directe par les gestes manuels et des méthodologies basées sur la représentation phonologique du

rythme prosodique doivent être mise en place.

Le rythme est réalisé par des gestes des membres, mains ou pieds, en place des gestes articulatoire

qui correspondent aux syllabes. Les circuits de perception-action ne sont plus les mêmes, ni les

vélocités des organes mis en mouvement. Le contrôle du rythme prosodique en synthèse

performative est donc un problème qui implique la définition d’unités rythmiques, de points de

contrôle rythmique, de centres perceptifs des syllabes, de gestes de tapotement (tapping), voire de

partitions gestuelles inspirées des phonologies autosegmentale ou articulatoire.

Des points de contrôles rythmiques doivent enrichir le signal vocal pour permettre d’en manipuler

le déroulement temporel. Ces points doivent avoir du sens du point de vue de la phonologie de la

langue jouée, et de sa phonotactique. La perception du flux syllabique, avec ses centres perceptifs,

est donc impliquée. Les gestes de contrôle, par appuis ou tapotage, impliquent des processus

moteurs, à la fois analogues et différents de ceux des articulateurs. Les unités rythmiques varient en

fonction de la phonologie des langues étudiées, ici le français, l’anglais et le chinois mandarin. Les

enjeux de la thèse portent donc sur la modélisation des schémas de perception-action impliqués

dans le contrôle rythmique, la modélisation des unités temporelles, la réalisation et l’évaluation

d’un système de contrôle du rythme.

Les résultats attendus sont à la fois théoriques et pratiques :

• L’expérimentation perceptive permettra de mettre en relation les différentes unités

temporelles;

• les théories phonologiques sur l’organisation du geste phonatoire seront mises à l’épreuve

avec un nouveau paradigme expérimental;

• un nouveau synthétiseur sera réalisé;

• un ensemble de méthodes pour le contrôle gestuel de la synthèse, de nouveaux gestes et des

interfaces adaptées seront développés et testés dans les tâches applicative visées, soit

l’apprentissage du contrôle naturel des contours intonatifs à l'aide de la chironomie pour

l'acquisition de langues étrangères (anglais, français, mandarin) et l’apprentissage du

contrôle chironomique des contours d'intonation de la langue maternelle, pour la suppléance

vocale (larynx artificiel).

Méthodologie :

Les théories phonologiques et phonétiques de l’organisation temporelle des langues étudiées seront

considérées dans le contexte du paradigme de la synthèse performative. L’étude des relations entre

points de contrôle rythmique, centres perceptifs, gestes de tapotage et unités phonologiques

implique la modélisation et l’expérimentation, avec des sujets réalisant des tâches de perceptionaction.

La méthodologie relève ici de la psychologie et de la phonétique expérimentales : définition

de corpus, mise en oeuvre de protocoles de test, tests, analyses statistiques.

Un synthétiseur qui utilise les nouveaux paradigmes de contrôle rythmique sera développé. La

méthodologie relève ici du traitement du signal audio et de la parole ainsi que de l’informatique,

depuis la conception jusqu’à la programmation.

Ainsi un ensemble de méthodes pour le contrôle gestuel du rythme prosodique et du temps sera

développé et testé dans les tâches applicatives visées. Ces méthodes comprennent à la fois les gestes

et les interfaces de contrôle et relèvent de l’informatique dans le domaine des interfaces humainmachine.

Prérequis :

Ce sujet est à l’interface de la synthèse vocale et des interfaces humain-machine, de la prosodie, de

la perception et de la performance musicale. Cela demande des connaissances générales en

traitement du signal audionumérique et en informatique musicale ou en interface humain-machine.

Une partie du travail portera sur le développement logiciel. Des connaissances sur la voix et la

parole, en phonétique et phonologie, ainsi qu’en psychologie expérimentale ou sciences cognitives

seront nécessaires.

Les candidatures avec une formation initiale en informatique et traitement du signal aussi bien que

celles avec une formation initiale en linguistique, phonétique ou sciences cognitives seront

considérées. La formation initiale sera éventuellement complétée dans les domaines qui seraient

moins connus.

Encadrement :

Christophe d’Alessandro, DR CNRS, Responsable de l’équipe LAM

Institut Jean Le Rond d’Alembert, Sorbonne Université

christophe.dalessandro@sorbonne-universite.fr

Ce projet doctoral est dans le cadre du contrat ANR Gepeto, en collaboration avec le LPP

(Sorbonne nouvelle), et le GIPSA-Lab, Université de Grenoble.

Début du contrat dès que possible (à partir d’octobre 2020)

Références :

• Delalez, S. et d’Alessandro, C. (2017). “Vokinesis: syllabic control points for performative

singing synthesis”, NIME’17 , pp. 198-203.

• X. Xiao, G. Locqueville, C. d'Alessandro, B. Doval, « T-Voks: Controlling Singing and

Speaking Synthesis with the Theremin », Proceedings of the International Conference on

New Interfaces for Musical Expression, NIME’19, June 3-6, 2019, Porto Alegre, Brazil,

110-115.

• Samuel Delalez, Christophe d’Alessandro « Adjusting the Frame: Biphasic Performative

Control of Speech Rhythm », Proc. INTERSPEECH 2017, 18th Annual Conference of the

International Speech Communication Association, Stockholm, Sweden, August 18-25,

2017, DOI: 10.21437/Interspeech.2017, 864-868.

• Christophe d’Alessandro, Albert Rilliard, and Sylvain Le Beux « Chironomic stylization of

intonation » J. Acoust. Soc. Am., 129(3), march 2011, 1594-1604

• Christophe d’Alessandro, Lionel Feugère, Sylvain Le Beux, Olivier Perrotin, and Albert

Rilliard (2014) , « Drawing melodies : evaluation of chironomic singing synthesis » , J.

Acoust. Soc. Am. 135 (6), 3601-3612.

• I . Chow, M. Belyk, V. Tran, and S. Brown. Syllable synchronisation and the P-center in

cantonese. 49 :55–66, 2015.

• C. d’Alessandro, L. Feugère, S. Le Beux, and O. Perrotin. Drawing melodies : Evaluation of

chironomic singing synthesis. J. Acoust. Soc. Am., 135(6) :3601–3612, March 2014.

• C. d’Alessandro, A. Rilliard, and S. Le Beux. Chironomic stylisation of intonation. J.

Acoust. Soc. Am., 129(3) :1594–1604, March 2011.

• C. Fowler. “Perceptual centers” in speech production and perception. Perception &

Psychophysics, 25 :375–388, 1979.

• P. Howell. Predicton of p-center location from the distribution of energy in the ampitude

envelope. Perception and Psychophysics, 43 :90–93, 1988.

• P. F. MacNeilage. The frame/content theory of evolution of speech production. Behavioral

and Brain Sciences, 21 :499–546, 1998.

• S.M. Marcus. Acoustic determinants of perceptual center (P-center). Perception and

Psychophysics, 30 :247–256, 1981.

• J. Morton, S. Marcus, and C. Frankish. Perceptual centers (P-Centers). Psychological

Review, 83(5) :405–408, 1976.

• B. Pompino-Marshall. On the psycho-acoustic nature of the p-center phenomenon. Journal

of phonetics, 17 :175–192, 1989.

• K. Rapp-Holmgren. A study of syllable timing. STL-QPSR, 12(1) :014–019, 1971.

• B. H. Repp. Sensorimtor synchronization : A review of tapping litterature. Psychon. Bull.

Rev., 12(6) :969–992, 2005.

• B. H. Repp and Y. H. Su. Sensorimotor synchronisation : A review of recent research.

Pyschon. Bull. Rev., 20 :403–452, 2013.

• P. Wagner. The Rhythm of Language and Speech : Constraining Factors, Models, Metrics

and Applications. Habilitation à diriger des recherches, Rheinischen Friedrich-Wilhelms-

Universität Bonn, 2008.

Back

Top

Organisation	Events	Membership	Help
> Board	> Interspeech	> Join - renew	> Sitemap
> Legal documents	> Workshops	> Membership directory	> Contact
> Logos			> FAQ
			> Privacy policy