
Bât. ODG – 1e étage – Salle 153
Marie Candito (LLF)
Annoter et prédire des représentations linguistiques de phrases
Le travail présenté, réalisé la majeure part en collaboration, concerne principalement l'explicitation de représentations linguistiques de phrases, qu'il s'agisse de la méthodologie de constitution manuelle de telles ressources, ou de la définition de modèles permettant de prédire de telles représentations, par apprentissage supervisé ou semi-supervisé.
Le mémoire présente, à divers degrés de détail:
Ce mémoire couvre une période de temps longue, marquée par l'arrivée de méthodes neuronales en TAL. L'apprentissage par transfert permet de fournir des représentations vectorielles de mots, hors ou en contexte, en utilisant des objectifs génériques, en particulier la prédiction d'un mot sachant son contexte. Il est fascinant de constater qu'un objectif aussi simple et brut permet de construire des modèles apportant des gains très importants dans à peu près toutes les tâches de TAL. Le transfert se fait en utilisant des corpus à l'état brut, ne nécessitant pas de modélisation linguistique (outre la définition des unités considérées). C'est ainsi l'objectif même d'analyse automatique de phrases qui est remis en cause. Certaines tâches, comme la traduction automatique, le résumé automatique, l'analyse de sentiments sont actuellement mieux gérées par des modèles "de bout-en-bout", ne nécessitant pas d'expliciter des représentations linguistiques traditionnelles. On assiste même à une ingénierie inversée, où ce sont les modèles de langue pré-entraînés sur corpus bruts qui sont sondés, pour voir si et où s'y cachent les concepts linguistiques traditionnels.
Cela dit, même s'il est difficile de prédire l'avenir du concept même d'analyse automatique de phrases, les besoins d'interprétabilité des modèles et de quantification des phénomènes linguistiques font que le concept reste d'actualité. On peut même espérer que les sondes linguistiques des modèles neuronaux permettent d'éclairer d'un jour nouveau certains concepts linguistiques.