ISCA - International Speech
Communication Association


ISCApad Archive  »  2012  »  ISCApad #172  »  Jobs  »  (2012-07-26) Offre de thèse en correction orthographique par traduction statistique, Univ. Le Mans, France

ISCApad #172

Sunday, October 07, 2012 by Chris Wellekens

6-28 (2012-07-26) Offre de thèse en correction orthographique par traduction statistique, Univ. Le Mans, France
  
Offre de thèse financée au sein du laboratoire d'Informatique de l'Université du Maine (LIUM) dans le domaine de la correction orthographique automatique par méthodes de traduction statistique. Lieu : LIUM (Le Mans) Date : 1/10/2012 Durée : 3 ans Cette thèse s'inscrit dans le projet 'investissement d'avenir' PACTE, porté par l'entreprise Diadeis, et dont sont également partenaires l'équipe Alpage (INRIA et Paris 7), et les entreprises A2ia et Isako. PACTE a pour objectif l'amélioration de la qualité orthographique des textes issus de différentes méthodes de capture textuelle. L'accent est mis sur les sorties d'OCR (reconnaissance optique de caractères sur des textes imprimés scannés), mais concerne également des données obtenues par reconnaissance d'écriture manuscrite, par saisie manuelle, et par rédaction directe. Les techniques qui seront utilisées sont à la fois statistiques et hybrides, faisant usage d'outils et de ressources de linguistique computationnelle. Le domaine d'application principal du projet est celui de la numérisation du patrimoine écrit, dans un contexte multilingue. Une deuxième thèse démarrera à Alpage avec un accent sur l'utilisation des connaissances linguistiques pour aider à optimiser automatiquement ou quasi-automatiquement la qualité orthographique des textes. Dans le cadre du projet PACTE, une étroite collaboration aura lieu entre le LIUM, Alpage et la société Diadeis. Dans ce contexte, l'enjeu de la thèse au LIUM est d'analyser comment utiliser les techniques de traduction automatique statistique pour la correction d'erreur. En effet, on peut considérer la correction d'erreur comme un processus de passage d'une langue erronée vers une langue correcte. Une approche similaire a déjà été utilisée avec succès pour corriger les sorties des systèmes de traduction par règles, connue sous le nom 'statistical post-editing (SPE)'. Dans le cadre de cette thèse, il s'agit donc d'étudier comment une approche similaire peut être utilisée pour la correction orthographique. Un aspect important de cette thèse concerne le développement de modèles de langue efficaces, donnant de bons résultats avec une faible empreinte mémoire. Les modèles n-grammes à repli seront privilégiés, mais d'autres méthodes seront également explorées, notamment la modélisation dans l'espace continu (continuous space language models). Nous nous intéresserons aussi à l'intégration de connaissances morphosyntaxiques, en collaboration avec l'équipe Alpage. Les langues étudiées seront prioritairement le français et l'anglais, ainsi que l'allemand. Une application à l'espagnol, l'italien, voire d'autres langues européennes est possible. Profil recherché : - bonnes compétences en informatique (la maîtrise de Linux est indispensable, programmation en C++, utilisation de scripts, Perl, etc); - des connaissances en traduction automatique statistique sont souhaitées, ou, à défaut, en apprentissage automatique; - une expérience avec l'outil Moses est un plus. La thèse se déroulera au sein de l'équipe LST du LIUM. Le LIUM est connu au niveau international pour ses recherches dans le domaine de la traduction statistique, et nous avons de nombreuses collaborations avec des universités et entreprises en Europe et aux États-Unis. Contact : Holger Schwenk Holger.Schwenk@lium.univ-lemans.fr 

Back  Top


 Organisation  Events   Membership   Help 
 > Board  > Interspeech  > Join - renew  > Sitemap
 > Legal documents  > Workshops  > Membership directory  > Contact
 > Logos      > FAQ
       > Privacy policy

© Copyright 2024 - ISCA International Speech Communication Association - All right reserved.

Powered by ISCA