ISCApad #291 |
Thursday, September 08, 2022 by Chris Wellekens |
Candidat(e) pour une thèse de doctorat en informatique sur un projet collaboratif susceptible d'être financé par la DGA. La thèse se déroulera au sein de l'équipe R2I ( Recherche d'informations et interactions) du pôle Sciences des données du LIS (Marseille) Sujet de thèse de doctoratTitre : Génération automatique de résumés fluides de textes en français par apprentissage profondEncadrement : Prof. Patrice BELLOT (https://cv.archives-ouvertes.fr/patrice-bellot ; Université d’Aix-Marseille CNRS, LIS), Adrian CHIFU (https://adrianchifu.com ; Université d’Aix-Marseille CNRS, LIS)Période : octobre 2022 - septembre 2025 Mots clés : résumé automatique, fluidification textuelle, recherche d’information, traitement automatique des langues, apprentissage automatique, réseaux neuronauxContexte : Projet collaboratif susceptible d’être soutenu par la DGA entre :
Description du sujet :Le contexte du projetDevant la croissance exponentielle des volumes de données et particulièrement de la documentation de type texte (manuels, publications, sites internet, etc.), une solution est de permettre d’accéder facilement aux éléments essentiels, au travers de résumés des textes les plus pertinents dans le contexte utilisateur. Or à ce jour les résumés automatiques restent perfectibles, aussi bien du point de vue de la couverture informationnelle que de leur susceptibilité à créer de fausses informations ou encore de leur fluidité de la lecture, critère qui est la cible première de cette thèse. Le but du projet RAFFAL est d’améliorer les technologies automatiques (par IA) de résumés de documents en français selon l’angle des métriques qui les régissent en tant que fonction objective (apprentissage automatique de modèles) et mesure d’évaluation humaine. Par ailleurs, les algorithmes, modèles et jeux de données de nouvelle génération basés sur les technologies les plus récentes de d’apprentissage profond (notamment de type Transformeret modèles séquence à séquence) sont pratiquement exclusivement en langue anglaise et doivent être testées et adaptées au français. Le domaine du résumé automatique est confronté depuis longtemps au manque de métriques d’évaluationautomatique de la qualité des résumés fournis suffisamment fiables ; ce manque de métriques d’évaluation est un frein majeur à l’industrialisation et au déploiement des technologies de résumés automatiques pour lesquels des critères de confiance et de pilotage sont indispensables. Plan de travailLe plan de travail comprend deux volets majeurs. Le premier correspond à une étude des propriétés et des limites des métriques existantes et à leur adaptation au français. Le second correspond à la modification des fonctions objectives utilisées pour l’entraînement des modèles selon les métriques adaptées et de nouvelles métriques.La thèse que nous proposons attaquera tout d’abord la définition de la fluidité. Les mesures de fluidité et de qualité d’un résumé existantes, généralement pour l’anglais, seront étudiées et adaptées à la langue française. Il s’agit par exemple de revisiter le lien entre les mesures existantes, les différentes dimensions qualitatives d’un résumé et leur implémentation au sein d’une architecture neuronale notamment de type séquence à séquence (profondeur des représentations et niveaux d’abstraction, mécanismes attentionnels...). Les ressources linguistiques et les corpus de textes utiles devront être identifiés. Des évaluateurs humains pourront être impliqués et nous devons à la fois étudier des mesures d’accord inter-annotateurs et analyser leurs profils, selon leur niveau de connaissance de la thématique du résumé par exemple. Une évaluation en ligne pourrait permettre d’identifier les points complexifiant la lecture et conduire à de nouvelles métriques qui influeront à leur tour la création dynamique d’un résumé (approche par renforcement, réécriture alternative, complétion informationnelle par extraction d’information ou annotation sémantique). La fluidité sera étudiée en tant que fonction objectif pour l’optimisation du « compromis » entre la perte informationnelle et les phénomènes d’hallucination (collaboration avec une autre thèse effectuée en parallèle au sein du laboratoire ISIR de Paris Sorbonne Université). Nous allons étudier l’équilibre entre la fluidité, d’une part, et la qualité et la complétude informationnelles, d’autre part (ex. : le « compromis » entre la précision et le rappel, pour les résultats d’un moteur de recherche). Cette phase nécessitera l’identification des informations essentielles, des éléments textuels centraux des textes à résumer et pourra être approchée par le biais de systèmes questions-réponses. Enfin, la fluidité d’un résumé étant dépendante du contexte, il est nécessaire d’étudier son caractère subjectif, notamment en tenant compte des types de texte (actualités, prises de position, interviews avec dialogues, articles scientifiques...) et des priorités du résumé (couverture des points de vue et des opinions sur un sujet sans perte de l’identification des sources, synthèse factuelle autour d’un événement...). Chaque étape fera l’objet d’expérimentations sur des données et problématiques réelles, en collaboration avec le partenaire industriel du projet. Les propositions de la thèse s’inscriront dans le cadre de la science ouverte (publications, données et modèles lorsque cela est possible, codes source). Profil de candidature :Parcours antérieur : Master 2 Informatique orienté Recherche en IA ou en TAL ou équivalent Langue : Français (niveau minimum C1) Langage de programmation : Python Connaissances et compétences souhaitées : - apprentissage automatique statistique, architectures neuronales, transformeurs - classification automatique de documents - annotation de corpus - outils et ressources du Traitement Automatique des Langues - modèles de langue et représentations textuelles - résumé automatique, génération de textes, simplification de textes - recherche d’information et questions-réponses |
Back | Top |