Psycholinguistique computationnelle

Responsable : B. Crabbé.
Participants : A. Abeillé, P. Amsili, B. Crabbé, B. Hemforth, P. Martin.  

L’opération consiste à concevoir des modèles mathématiques et informatiques pour contribuer à construire et tester une théorie psycholinguistique du traitement du langage humain.  L’opération comporte plusieurs volets: prosodique, syntaxique et sémantique.

Du point de vue prosodique,  il s’agit de comparer les structures prosodiques et syntaxiques du point de vue de leur congruence ou non-congruence, et ce dans la lecture (pour laquelle la syntaxe préexiste à la structure prosodique)  et la parole spontanée (pour laquelle la structure prosodique préexiste partiellement à la syntaxe).

Du point de vue syntaxique, on souhaite construire un analyseur automatique incrémental capable de prédire les difficultés de traitement lors du processus de compréhension de la phrase. On souhaite que le modèle d’analyse permette de tester des hypothèses alternatives notamment quant à la localité du traitement ou encore à la relation entre stockage de l’information en mémoire (comme dans un lexique) et construction compositionnelle de celle-ci, ce que l’on compte aborder via l’exemple des mots composés. Les modèles devront être capable de renvoyer divers indicateurs de complexité comme par exemple des indicateurs de surprise syntaxique (Hale 2001) ou des indicateurs structuraux (Gibson 2000) de manière à les comparer à des signaux physiologiques mesurés à partir de comportement humain effectif~: on compte principalement utiliser des mesures de temps de lecture et du signal issu d’imagerie (IRMf). Du point de vue computationnel, il semble intéressant de produire des modèles inspirés par les développements récents en traitement automatique des langues, notamment en nous appuyant sur des représentations continues des mots telles que popularisées par les nouvelles méthodes d’apprentissage profond dans le domaine.

Du point de vue sémantique, il s’agit de comparer les algorithmes computationnels et les modèles de traitement humain pour la résolution d’anaphore, en particulier en élaborant des métriques de complexité ou de perplexité que les systèmes peuvent associer aux différentes anaphores à résoudre. Comme pour le niveau syntaxique, il s’agit de comparer ces indicateurs aux temps de réaction du comportement humain effectif. On se propose aussi de mesurer la performance de systèmes computationnels sur des items expérimentaux (taux de réussite, temps de réaction) pour inspirer une réflexion sur la plausibilité cognitive de différentes architectures logicielles (Seminck & Amsili, 2017). Ce travail s’appuie sur une thèse en cours (ED Sciences du vivant) dans le cadre d’une opération du Labex EFL (ANA4).

On souhaite également produire des données permettant à un large public de mener des études sur corpus à la fois annoté structurellement et annoté avec des mesures physiologiques. On compte ainsi produire une version du French Treebank augmentée d’annotations en temps de lecture sur le modèle du Dundee Corpus.  La partie française du Dundee corpus est petite (1500 phrases) et non disponible. La partie anglaise vient de faire l’objet d’une annotation syntaxique validée (Barrett et al 2015), le seul corpus français ainsi annoté est petit (200 phrases, Rauzy et Blache 2012) et extrait du FTB.

La partie syntaxique de l’opération s’appuie notamment sur une collaboration  dans le cadre de l’ANR-NSF (2016-2019) Neuro-computational Models of Natural Language portée par J.Hale (Cornell) et C. Pallier (Neurospin) et sur des collaborations récurrentes avec T. Gibson (MIT).