Syntaxe et sémantique computationnelle

Responsable : M. Candito
Participants : L. Barque, M. Candito, B. Crabbé, B. Crysmann, L. Danlos. 

Modèles statistiques

L’opération porte sur l’analyse sémantique de la phrase, dite robuste, c’est-à-dire ayant une large couverture des données. Il s’agit de construire automatiquement des représentations syntaxiques et sémantiques de phrases à l’aide de modèles statistiques. La priorité sera donnée à l’analyse du français tout en veillant à assurer l’interopérabilité avec les initiatives émergente sur les autres langues.

On prend le parti que la construction automatique d’une représentation sémantique fine de la phrase, incluant par exemple des informations de portée, de temporalité ou de structure informationnelle, reste hors de notre portée à l’heure actuelle. Il s’agit plutôt de construire, pour une phrase, un graphe sémantique encodant les relations prédicat-arguments. L’enjeu est de dépasser la structure syntaxique et fonctionnelle pour les cas typiques de divergences à l’interface syntaxe-sémantique. On peut parler ici d’analyse sémantique partielle ou superficielle (Oepen et al. 2014). Les noeuds d’un tel graphe sont des unités lexicales sémantiquement pleines. Ces noeuds peuvent être annotés d’une part pour expliciter la désambiguïsation lexicale des prédicats d’autre part pour obtenir des généralisations avec des classes de prédicats partageant un même noyau sémantique.  Les arcs du graphe correspondent à une instance de relation entre un prédicat et un argument sémantique, et peuvent porter une étiquette plus ou moins informative, indiquant essentiellement un rôle thématique de granularité variable, allant d’une simple numérotation d’actant sémantique, à une étiquette plus généralisante.

On propose de concevoir un analyseur sémantique pour le français capable d’engendrer ce type de représentations pour des phrases issues de textes écrits. L’analyseur s’appuiera essentiellement sur un modèle d’apprentissage supervisé. La réalisation du projet se divise en deux sous-tâches : il s’agit d’abord de créer un jeu de données pour l’apprentissage sur le français. Pour ce faire on compte s’appuyer sur des ressources existantes déjà développées dans l’équipe pour le français :  VerbeNet et FrameNet et les annotations déjà existantes sur le French Treebank. Le premier enjeu sera de gérer la couverture nécessairement parcellaire des ressources lexicales existantes et des annotations existantes. Le second enjeu sera de concevoir un algorithme permettant de réaliser l’analyse sémantique pour le français à partir de ces données. On s’intéresse particulièrement à la réalisation conjointe de la tâche de désambiguïsation lexicale et de construction de la structure sémantique. On explorera également la conception d’algorithmes incrémentaux qui pourront également être utilisés à des fins de modélisation psycholinguistique. Finalement, on veillera à adopter des représentations à la fois faciles à manipuler computationnellement, pour l’annotation mais également adaptées formellement aux tâches d’inférences sémantique. Ce qui permettra à plus long terme d’envisager affiner les représentations sémantiques ainsi construites.

Cette opération est en lien avec les opérations “structure argumentale” et “limites de l’identité lexicale” de l’axe mot. Il s’agira en effet d’utiliser les lexiques et annotations VerbeNet et FrameNet, servant à la fois de référentiel pour la désambiguïsation et de référentiel pour la généralisation entre unités lexicales.

Cette opération est en lien avec le projet ANR Parsiti (2016-2019) Parsing the Impossible: Translating the Improbable portée par (D. Seddah / Almanach-INRIA) qui fait implique également des équipes du LIPN et du LIMSI.

Aspects symboliques

Le LLF héberge des efforts importants d'écriture et de déploiement de grammaires implémentées basées sur HPSG. De telles grammaires constituent une source de connaissance déclarative appropriée aussi bien pour le parsing que pour la génération. La réversibilité est particulièrement utile dans le contexte de langues peu dotées, pour lesquelles l'analyse formelle de phénomènes peu connus et l'implémentation peuvent se déployer simultanément. Des solutions spécifiques à une tâche peuvent alors être dérivées d'une ressource grammaticale centrale.

Les grammaires HPSG implémentées du LLF sont construites dans le cadre de DELPH-IN, un projet international de processing profond utilisant HPSG. Nous maintenons et développons actuellement une grammaire à large couverture de l'allemand et une grammaire à couverture moyenne du haoussa. Les deux grammaires combinent analyse syntaxique et sémantique. En ce qui concerne la grammaire du haoussa, l'attention s'est jusqu'ici portée sur des phénomènes remarquables que cette langue place au centre de sa grammaire, comme les tons, la réduplication et la résomption. Un objectif important de cet effort est de permettre la déduction des patrons tonaux et métriques à partire de l'orthographe, via une combinaisons de méthodes symboliques et probabilistes.  À cette fin, l'objectif est maintenant de changer d'échelle de couverture, en particulier pour le lexique, sans perte de précision. On prévoit de déduire de la grammaires des outils d'annotation de surface, dont les utilisations pourront ensuite être réinjectées dans la grammaire, minimisant le coût de développement.

Un autre domaine d'acrivité concerne la dérivation de modèles probabilistes pour la désambigüation syntaxique. L'orthographe du haoussa, ne représentant pas les tons, conduit à des situations d'ambigüité massive; les treebanks et la désambigüation probabiliste doivent donc soigneusement distinguer les cas où l'inférence du ton est désirable parce qu'elle a des conséquences lexicales, syntaxiques, ou sémantiques, et ceux où elle devrait être laissée de côté. Nous utiliserons des méthodes de désambigüation additionnelle basées sur la similarité sémantique ou constructionnelle.