Structure argumentale

Responsable : M. Candito
Participants : L. Barque, M. Candito, L. Danlos, B. Fradin, B. Gehrke, Y. Mathieu, I. Simatos

Cette opération est centrée sur des ressources lexicales développées dans une optique de traitement automatique des langues. Nous disposons en particulier de deux ressources, Verb@net et FrameNet du français, encodant chacune à leur manière des patrons de valence syntaxico-sémantique. Verb@net est une ressource pour les verbes français inspirée de la ressource anglaise VerbNet Kipper-Schuler (2005) et librement disponible sur http://callisto.atilf.fr. Le développement de Verb@net s’est fait en respectant deux principes : (i) garder le premier niveau de la hiérarchie de VerbNet avec ses 270 classes regroupant des verbes qui partagent une sémantique et un comportement syntaxique communs, (ii) garder autant que faire se peut les informations sémantiques (attribution des rôles thématiques aux arguments des verbes et décomposition sémantique des éventualités qu’ils dénotent). Les classes de verbes ont été peuplées initialement par des correspondances (manuelles) entre les classes VerbNet d’une part et celles du LVF (Les Verbes Français, Dubois and Dubois-Charlier (1997)) et du LG (Lexique-Grammaire, Gross (1975) ; Leclère (1990)), d’autre part. Après une phase d’adaptation des alternances décrites pour l’anglais au français Danlos et al. (2016b) , le développement de Verb@net se poursuit sur deux aspects : l’organisation et le typage des frames syntaxiques possible pour les verbes d’une classe Danlos et al. (2016a) et l’ajout de nominalisations (cf infra).  Le FrameNet du français 1 est une ressource définissant des situations prototypiques (des frames) avec leurs propriétés et leurs participants, sur le modèle du Berkeley FrameNet 2 . Les participants sont typés à l’aide de rôles sémantiques à la granularité fine, organisés hiérarchiquement via des relations entre frames. Chaque frame est associé à des unités lexicales pouvant l’évoquer, partageant les mêmes arguments sémantiques et appartenant potentiellement à différentes catégories grammaticale. Par exemple le frame Causation évoquant une relation de cause à effet peut être évoqué par des verbes, prépositions, conjonctions, noms (provoquer, résulter, parce que, à cause de, conséquence.... Par ailleurs chaque unité lexicale est associée à des annotations en corpus, dans lesquelles pour une occurrence de l’unité sont explicités le frame évoqué, ainsi que l’étendue et le rôle sémantique des arguments de l’unité. Les annotations en corpus, éalisées sur des corpus par ailleurs syntaxiquement annotés (le French Treebank et et le Sequoia Treebank), sont cruciales pour une utilisation de la ressource dans le cadre de l’analyse sémantique automatique (voir l'axe computationnelle).  Nous prévoyons de coupler les deux ressources pour d’une part obtenir des classes VerbeNet renseignées par des exemples en corpus, avoir des informations de fréquence en corpus, et étendre la couverture de VerbeNet.  D’autre part, les annotations FrameNet seraient généralisées au moyen des rôles sémantiques à gros grain de VerbeNet, ce qui peut s’avérer bénéfique dans une optique d’utilisation de ces annotations comme données d’apprentissage d’un analyseur sémantique. Ces données syntaxico-sémantiques seront également mises à profit pour étudier quantitativement et qualitativement l’interface syntaxe-sémantique.  A la manière de la ressource anglaise Nomlex (Macleod et al. 1998), qui encode la correspondance entre les arguments des noms d’événement avec ceux des verbes auxquels ils sont morphologiquement liés, nous envisageons par ailleurs de développer la ressource Verb@net en ajoutant aux classes verbales les nominalisations correspondantes accompagnées de leurs verbes supports et/ou de leur verbe base. Plusieurs lexiques de nominalisations seront exploités dans ce but, notamment FrameNet, Verbaction (Hathout 2002), Nomage (Balvet 2011).