Vincent Segonne

Docteurs récents

Statut : Doctorant

Adresse :

LLF, CNRS – UMR 7110
Université Paris Diderot-Paris 7
Case 7031 – 5, rue Thomas Mann,
75205 Paris cedex 13

Mail : ivaprag.frtbaar@rgh.havi-cnevf-qvqrebg.se

Thèse

Titre : French Verb Sense Disambiguation

Directeur :
  Benoît Crabbé

Date de soutenance : 2021-12-16

Inscription : 2017 à Université de Paris

Jury :

  • Philippe Langlais (rapporteur), Université de Montréal
  • Emmanuel Morin (rappporteur), Université de Nantes
  • Marianna Apidianaki (examinatrice), Université de Pennsylvanie
  • Didier Schwab (examinateur), Université de Grenoble Alpes
  • Benoît Crabbé (directeur de thèse), Université de Paris
  • Marie Candito (co-encadrante), Université de Paris

Résumé :

 La désambiguïsation lexicale est une tâche du traitement automatique des langues dont l'objectif est de prédire automatiquement le sens des mots en contexte, à partir d'un inventaire de sens prédéfini. La réussite de cette tâche repose en particulier sur l'utilisation de ressources lexicales et de données annotées en sens. Par ailleurs, le récent essor des méthodes d'apprentissage automatique par réseaux de neurones profonds a grandement amélioré les performances des systèmes de désambiguïsation.

Dans cette thèse, nous nous concentrons sur la désambiguïsation des verbes du français, une langue qui ne dispose pas ou peu, à priori, de données utilisables pour cette tâche. Pour commencer, nous faisons un état de l'art des principales méthodes neuronales de représentation du contexte ainsi que des méthodes de désambiguïsation.

Ensuite, nous nous intéressons à la question du rôle de la syntaxe pour la désambiguïsation des verbes. Pour cela, nous commençons par étudier en corpus la potentielle corrélation entre le sens et la structure argumentale des verbes. Nous tentons de voir si la structure argumentale des verbes est encodée dans les représentations contextuelles issues de réseaux de neurones. Nous proposons également un modèle qui apprend des représentations contextuelles étant données des structures syntaxiques de phrases obtenues à priori par un analyseur syntaxique et nous les testons sur la tâche de désambiguïsation.

Enfin, dans la dernière partie de cette thèse, nous abordons le problème de la disponibilité des données pour la tâche de désambiguïsation dans une langue autre que l'anglais en prenant le français pour exemple. Après avoir étudié diverses ressources produites automatiquement, nous proposons d'utiliser Wiktionary, une ressource libre et collaborative sur le modèle de Wikipédia, afin de produire FrenchSemEval le premier corpus d'évaluation pour la tâche de désambiguïsation des verbes du français. Nous testons plusieurs systèmes de désambiguïsation sur ce jeu de données et obtenons les tous premiers résultats pour cette tâche.