Morphologie computationnelle

Responsable : O. Bonami.
Participants : L. Barque, O. Bonami, B. Crabbé, B. Crysmann.

La morphologie computationnelle est une thématique qui a émergé dans l’activité du LLF au cours du dernier contrat, notamment à travers des travaux sur le développement de ressources morphologiques et la modélisation quantitative des systèmes flexionnels (Walther, 2013 ; Bonami et al., 2014; Bonami & Beniamine 2016). L’arrivée de nouveaux membres spécialistes de linguistique computationnelle constitue une occasion de développer les recherches menées au laboratoire dans ce domaine, dans un contexte où l’utilisation de méthodes computationnelles en morphologie est en plein essor (voir les travaux réunis dans Bonami & Sagot, en révision). Nous comptons développer trois lignes de recherche:

  1. Nous allons continuer et développer les travaux portant sur la modélisation quantitative des sytèmes flexionnels. Deux questions seront au centre de l’attention: d’une part, les mesures de prédictibilité dans les paradigmes de flexion (Ackerman & Malouf, 2013; Stump & Finkel, 2013) demandent à être affinées, en prenant en compte la diversité des alternances morpho-phonologiques dans les langues du monde, et le rôle de la fréquence d’occurrence dans la prédiction. D’autre part, de nouvelles méthodes doivent être élaborées pour construire des grandeurs mesurant différentes propriétés des systèmes flexionnels et permettre l’élaboration d’une véritable typologie quantitative. Celles-ci s’appuieront notamment sur la construction automatique et l’analyse quantitative de treillis de classes flexionnelles.
  2. Les travaux contemporains sur la morphologie dérivationnelle soulignent le fait qu’il existe des relations complexes entre procédés formels et sens des dérivés: un même procédé peut coder plusieurs sens, un même sens peut être exprimé par plusieurs procédés (Plag, 1999; Tribout, 2010). Le progrès de notre compréhension de l’économie des procédés dérivationnels est freiné par l’absence de ressources morphologiques de grande ampleur comportant une annotation sémantique lexicale. Dans cette opération, nous contribuerons à l’élaboration d’une telle ressource pour le français, en lien avec plusieurs autres laboratoires (ATILF, CLLE, STL). Parallèlement, nous planifions une série de travaux de modélisation statistique sur la concurrence entre procédés dérivationnels, qui devront notamment évaluer dans quelle mesure les propriétés sémantiques des bases conditionnent les préférences pour un procédé ou un autre.
  3. L’essor des méthodes distributionnelles en linguistique computationnelle, et en particulier leur application fructueuse à l’évaluation de la similarité distributionnelle entre mots (word embeddings) constitue une opportunité considérable pour aborder des questions fondamentales de la morphologie sur une base empirique. Les premiers travaux dans ce domaine ont par exemple montré que les mesures distributionnelles de similarité entre base et dérivé avaient une corrélation nette avec les intuitions des locuteurs sur l’opacité sémantique de la relation entre base et dérivé (Marelli & Baroni, 2015). Nous nous appuierons sur l’expérience acquise en analyse syntaxique dans le domaine de l’apprentissage profond pour tenter de répondre à plusieurs questions fondamentales, parmi lesquelles les deux suivantes : (i) la différence distributionnelle entre formes fléchies est-elle plus stable que la différence entre base et dérivé? (ii) quand une base a plusieurs dérivés obtenus par des procédés réputés équivalents (par exemple abattage et abattement), les propriétés distributionnelles des dérivés se répartissent-elles de manière stable quelle que soit la base?

Cette opération s’appuie fortement sur des travaux au sein du Labex EFL (opérations Morph1 et Morph3) qui doit notamment financer un contrat post-doctoral en 2019, ainsi que sur un réseau de collaborations nationales (dépôt de projet ANR Demonext) et internationales (notamment collaboration avec l’UC San Diego; voir Ackerman et al. en préparation).