Soutenance HDR : Marie Candito

Wednesday 19 January 2022, 14:00
Organisation: 
Marie Candito (LLF)
Lieu: 

Bât. ODG – 1e étage – Salle 153

Marie Candito (LLF)
Annoter et prédire des représentations linguistiques de phrases

Jury

  • Frédéric Béchet, professeur, Aix-Marseille Université, rapporteur
  • Benoît Crabbé, professeur, Université de Paris, examinateur
  • Claire Gardent, directrice de recherche, CNRS, rapporteure
  • Paola Merlo, professeure, Université de Genève, rapporteure
  • Sylvain Schmitz, professeur, Université de Paris, président
  • Pierre Zweigenbaum, directeur de recherches, CNRS, examinateur

Résumé

Le travail présenté, réalisé la majeure part en collaboration, concerne principalement l'explicitation de représentations linguistiques de phrases, qu'il s'agisse de la méthodologie de constitution manuelle de telles ressources, ou de la définition de modèles permettant de prédire de telles représentations, par apprentissage supervisé ou semi-supervisé.

Le mémoire présente, à divers degrés de détail:

  • des contribution en termes de ressources annotées, pour le français, qu'il s'agisse d'expressions polylexicales, d'arbres de dépendances, de graphes de dépendances profondes, de cadres et rôles sémantiques FrameNet. Ces ressources sont définies avec exigence quant à la finesse des analyses linguistiques, et quant à leur utilisabilité comme données d'apprentissage supervisé;
  • des contributions en analyse syntaxique en dépendances, d'une part sur la problématique de la robustesse des analyseurs supervisés face aux mots inconnus et au changements de domaine, d'autre part sur l'exploitation d'un contexte plus large et de modèles spécialisés pour la correction automatique d'arcs, pour les phénomènes le plus fréquemment source d'erreurs (rattachement prépositionnel et coordination);
  • la proposition d'un modèle pour l'analyse automatique en graphes de dépendances, reposant sur un apprentissage multi-tâche, où la tâche principale est réalisée par un parseur biaffine neuronal, et où des tâches auxiliaires sont définies pour ajouter de l'interdépendance dans la prédiction des arcs.

Ce mémoire couvre une période de temps longue, marquée par l'arrivée de méthodes neuronales en TAL. L'apprentissage par transfert permet de fournir des représentations vectorielles de mots, hors ou en contexte, en utilisant des objectifs génériques, en particulier la prédiction d'un mot sachant son contexte. Il est fascinant de constater qu'un objectif aussi simple et brut permet de construire des modèles apportant des gains très importants dans à peu près toutes les tâches de TAL.  Le transfert se fait en utilisant des corpus à l'état brut, ne nécessitant pas de modélisation linguistique (outre la définition des unités considérées). C'est ainsi l'objectif même d'analyse automatique de phrases qui est remis en cause. Certaines tâches, comme la traduction automatique, le résumé automatique, l'analyse de sentiments sont actuellement mieux gérées par des modèles "de bout-en-bout", ne nécessitant pas d'expliciter des représentations linguistiques traditionnelles. On assiste même à une ingénierie inversée, où ce sont les modèles de langue pré-entraînés sur corpus bruts qui sont sondés, pour voir si et où s'y cachent les concepts linguistiques traditionnels.

Cela dit, même s'il est difficile de prédire l'avenir du concept même d'analyse automatique de phrases, les besoins d'interprétabilité des modèles et de quantification des phénomènes linguistiques font que le concept reste d'actualité. On peut même espérer que les sondes linguistiques des modèles neuronaux permettent d'éclairer d'un jour nouveau certains concepts linguistiques.