Maximin Coavoux

Ancien doctorant

Statut : Doctorant

Adresse :

LLF, CNRS – UMR 7110
Université Paris Diderot-Paris 7
Case 7031 – 5, rue Thomas Mann,
75205 Paris cedex 13

E-mail : zpbnibhk@yvathvfg.havi-cnevf-qvqrebg.se

Site Web : https://github.com/mcoavoux/

Thèse

Titre : Discontinuous constituency parsing of morphologically rich languages

Directeur :
  Benoît Crabbé

Date de soutenance : 2017-12-11

Inscription : 2014 à l'Université Paris-Diderot

Jury :

  • Benoît Crabbé (directeur de thèse), Université Paris Diderot;
  • Claire Gardent (rapporteure), CNRS;
  • Alexis Nasr (rapporteur), Aix-Marseille Université;
  • Carlos Gómez Rodríguez (examinateur), Université de La Corogne;
  • Alexandre Allauzen (examinateur), Université Paris Sud.

Résumé :

L'analyse syntaxique consiste à assigner des représentations syntaxiques à des phrases en langue naturelle, sous la forme d'arbres syntaxiques. Cette tâche pose des problèmes particuliers pour les langues non-configurationnelles ou qui ont une morphologie flexionnelle plus riche que celle de l'anglais. En particulier, ces langues manifestent une dispersion lexicale problématique, des variations d'ordre des mots plus fréquentes et nécessitent de prendre en compte la structure interne des mots-formes pour permettre une analyse syntaxique de qualité satisfaisante.

Dans cette thèse, nous nous plaçons dans le cadre de l'analyse syntaxique robuste en constituants par transitions. Dans un premier temps, nous étudions comment intégrer l'analyse morphologique à l'analyse syntaxique, à l'aide d'une architecture de réseaux de neurones basée sur l'apprentissage multi-tâches. Dans un second temps, nous proposons un système de transitions qui permet de prédire des structures générées par des grammmaires légèrement sensibles au contexte telles que les LCFRS. Enfin, nous étudions la question de la lexicalisation de l'analyse syntaxique. Les analyseurs syntaxiques en constituants lexicalisés font l'hypothèse que les constituants s'organisent autour d'une tête lexicale et que la modélisation des relations bilexicales est cruciale pour désambiguïser. Nous proposons un système de transition non lexicalisé pour l'analyse en constituants discontinus et un modèle de scorage basé sur les frontières de constituants et montrons que ce système, plus simple que des systèmes lexicalisés, obtient de meilleurs résultats que ces derniers.

Bibliographie

  • Maximin Coavoux, Benoît Crabbé. 2017. Représentation et analyse automatique des discontinuités syntaxiques dans les corpus arborés en constituants du français. TALN 2017 (long). [pdf] [bib] [code]
  • Maximin Coavoux, Benoît Crabbé. 2017. Multilingual Lexicalized Constituency Parsing with Word-Level Auxiliary Tasks. EACL 2017 (short). [pdf] [bib] [code]
  • Maximin Coavoux, Benoît Crabbé. 2017. Incremental Discontinuous Phrase Structure Parsing with the GAP Transition. EACL 2017. [pdf] [bib] [code] Outstanding paper award
  • Chloé Braud, Maximin Coavoux, Anders Søgaard. 2017. Cross-lingual RST Discourse Parsing. EACL 2017. [pdf] [bib]
  • Maximin Coavoux and Benoît Crabbé. 2016. Neural greedy constituent parsing with dynamic oracles. Proceedings of ACL. [pdf] [bib] [code]
  • Maximin Coavoux, Benoît Crabbé. 2016. Prédiction structurée pour l’analyse syntaxique en constituants par transitions : modèles denses et modèles creux. Traitement Automatique des Langues, ATALA, 2016, 57 (1). [pdf] [bib]
  • Maximin Coavoux, Benoît Crabbé. 2015. Comparaison d’architectures neuronales pour l’analyse syntaxique en constituants. In Actes de la 22e conférence sur le Traitement Automatique des Langues Naturelles, p. 293–304, Caen, France : Association pour le Traitement Automatique des Langues. Prix TALN 2015 (Best paper award). [pdf] [bib]