| École thématique Big Data & Speech
Nouvelles Technologies pour l'Exploration de Corpus de Parole
site WEB (en construction) www.bigdata-speech Dates : 9 au 13 juillet 2018 Lieu : Centre de Conférences de la Station Biologique de Roscoff
Thématique :
A l'ère des grandes masses de données, l'école thématique CNRS et LabEx EFL Big Data & Speech vise à donner un aperçu de recherches innovantes en linguistique de l'oral s'appuyant sur de grands corpus de parole. De plus, elle vise à présenter une sélection d'approches, méthodes et outils du traitement automatique de la parole et de la langue, pouvant être utile au linguiste travaillant sur la parole dans des domaines aussi divers que la phonétique, la phonologie, la dialectologie, la typologie, l'acquisition, l'apprentissage des langues, la sociophonétique, les pathologies de la parole. . . Ainsi, un alignement forcé automatique entre signal de parole et transcription manuelle permet d'accélérer de nombreuses étapes de mesure et d'analyse linguistique proprement dite ; des applications mobiles d'enregistrement telles que LIG-Aikuma permettent d'accélérer la collecte de corpus du linguiste de terrain ; les grands corpus collectés pour le traitement automatique et reflétant l'usage de la langue parlée à un moment donné peuvent être précieux pour les linguistes afin de tester hypothèses et théories à plus grande échelle, de quantifier des phénomènes connus ou de découvrir des phénomènes ignorés jusque-là. Lors de cette école, il s'agit, en particulier, de fournir les bases nécessaires a la compréhension et la pratique des méthodes statistiques et neuronales, et de montrer leur intérêt pour répondre à des questionnements scientifiques relatifs à la linguistique de corpus. Dans ce but, la moitié du temps sera consacré à des travaux pratiques. Les questions épistémologiques seront également abordées.
Thèmes et intervenants :
La formation consiste en 4,5 jours de cours magistraux et de travaux pratiques (50% cours, 50% TP) articulés autour des thèmes prioritaires: linguistique de corpus, phonétique et phonologie de corpus, outils et méthodes de traitement automatique de la parole à l'usage des linguistes, fondements de l'apprentissage automatique pour l'analyse de corpus linguistiques, méthodes et outils pour la recherche d'information, questions épistémologiques liées à l?utilisation de méthodes quantitatives en linguistique. Les travaux pratiques (essentiellement à l'aide des toolkits Kaldi, Weka, R, Praat) seront réalisés sur des corpus fournis par les organisateurs. Nous proposons aux participants qui souhaitent travailler sur leurs propres données de prendre contact avec les organisateurs afin de vérifier la faisabilité de leur projet d?étude.
Parmi les intervenants pressentis et/ou confirmés: Alexandre Allauzen, LIMSI, Université Paris-Saclay Nicolas Audibert, LPP, Université Paris 3 Bruno Bachimont, Sorbonne Université / UTC Compiègne Laurent Besacier, LIG, Université UGA Grenoble Maud Ehrmann, EPFL, Lausanne Yannick Estève, LIUM, Université du Maine, Le Mans Cédric Gendrot, LPP, Université Paris 3 Mark Liberman, UPenn, Philadelphia Margaret Renwick, Oxford University ...
Public :
L'école s'adresse prioritairement aux chercheur.e.s, enseignant.e.s-chercheur.e.s et ingénieur.e.s, utilisant des corpus oraux et intéressé.e.s par l'exploitation numérique de leurs données ou souhaitant étendre leurs travaux à des données de taille importante nécessitant un traitement automatique. En fonction des places disponibles, des étudiant.e.s en doctorat et/ou en master sont également encouragé.e.s à s'inscrire. Les formations s'adressent prioritairement à des participant.e.s du domaine des sciences humaines, mais des participant.e.s issu.e.s du domaine des sciences et technologies de l'information sont également les bienvenu.e.s dans la mesure où leurs travaux nécessitent une meilleure prise en compte des enjeux linguistiques liés à la modélisation des données orales.
Inscription :
Le nombre de places est limité. La préinscription se fait via : https://drive.google.com/open?id=1_CO13qhHfPATrD6TpvcwpM7-l7lsx9THXFS6Q74Tbjg
Pour les agents CNRS, les frais d'inscription et de séjour seront pris en charge par la délégation régionale des participants. Les frais d'inscription prévus seront d'environ 350 ? pour les participants académiques et de 170 ? pour les doctorants, et couvrent l'hébergement, les repas et la participation aux cours et travaux pratiques.
Pour toute question relative à l'école d'été, veuillez contacter : Martine Adda-Decker (martine.adda-decker@univ-paris3.fr) ou Ioana Vasilescu (ioana.vasilescu@limsi.fr) |