Marianne Djemaa

Ancien doctorant

Statut : Doctorante

Adresse :

LLF, CNRS – UMR 7110
Université Paris Diderot-Paris 7
Case 7031 – 5, rue Thomas Mann,
75205 Paris cedex 13

E-mail : znevnaar[cbvag]qwrznn[nebonfr]rgh[cbvag]havi-cnevf-qvqrebg[cbvag]se

Thèse

Titre : Stratégie domaine par domaine pour la création d'un FrameNet du français : annotations en corpus de cadres et rôles sémantiques

Directeur :

Date de soutenance : 2017-06-14

Inscription : 2012 à Paris-Diderot

Jury :

  • Pr. Marie-Claude L'Homme (Rapporteure, Université de Montréal)
  • Pr. Sylvain Kahane (Rapporteur, Université Paris Ouest – Nanterre)
  • Pr. Laurence Danlos (Examinatrice, Université Paris Diderot)
  • Pr. Alexis Nasr (Examinateur, Aix-Marseille Université)
  • Dr. Marie Candito (Directrice, Université Paris Diderot)

Résumé :

Dans cette thèse, nous décrivons la création du French FrameNet (FFN), une ressource de type FrameNet pour le français créée à partir du FrameNet de l'anglais (Baker et al., 1998) et de deux corpus arborés : le French Treebank (Abeillé et al., 2003) et le Sequoia Treebank (Candito et Seddah, 2012). La ressource séminale, le FrameNet de l'anglais, constitue un modèle d’annotation sémantique de situations prototypiques et de leurs participants. Elle propose à la fois : a) un ensemble structuré de situations prototypiques, appelées cadres, associées à des caractérisations sémantiques des participants impliqués (les rôles); b) un lexique de déclencheurs, les lexèmes évoquant ces cadres; et c) un ensemble d’annotations en cadres pour l’anglais.

Pour créer le FFN, nous avons suivi une approche « par domaine notionnel » : nous avons défini quatre « domaines » centrés chacun autour d'une notion (cause, communication langagière, position cognitive ou transaction commerciale), que nous avons travaillé à couvrir exhaustivement à la fois pour la définition des cadres sémantiques, la définition du lexique, et l'annotation en corpus. Cette stratégie permet de garantir une plus grande cohérence dans la structuration en cadres sémantiques, tout en abordant la polysémie au sein d'un domaine et entre les domaines. De plus, nous avons annoté les cadres de nos domaines sur du texte continu, sans sélection d'occurrences : nous préservons ainsi la distribution des
caractéristiques lexicales et syntaxiques de l'évocation des cadres dans notre corpus. À l'heure actuelle, le FFN comporte 105 cadres et 873 déclencheurs distincts, qui donnent lieu à 1 109 paires déclencheur-cadre distinctes, c’est-à-dire 1 109 sens. Le corpus annoté compte au total 16 167 annotations de cadres de nos domaines et de leurs rôles.

La thèse commence par resituer le modèle FrameNet dans un contexte théorique plus large. Nous justifions ensuite le choix de nous appuyer sur cette ressource et motivons notre méthodologie en domaines notionnels. Nous explicitons pour le FFN certaines notions définies pour le FrameNet de l'anglais que nous avons jugées trop floues pour être appliquées
de manière cohérente. Nous introduisons en particulier des critères plus directement syntaxiques pour la définition du périmètre lexical d'un cadre, ainsi que pour la distinction entre rôles noyaux et non-noyaux. Nous décrivons ensuite la création du FFN : d'abord, la délimitation de la structure de cadres utilisée pour le FFN, et la création de leur lexique. Nous présentons alors de manière approfondie le domaine notionnel des positions cognitives, qui englobe les cadres portant sur le degré de certitude d’un être doué de conscience sur une proposition. Puis, nous présentons notre méthodologie d'annotation du corpus en cadres et en rôles. À cette occasion, nous passons en revue certains phénomènes linguistiques qu'il nous a fallu traiter pour obtenir une annotation cohérente; c'est par exemple le cas des constructions à attribut de l'objet.

Enfin, nous présentons des données quantitatives sur le FFN tel qu’il est à ce jour et sur son évaluation. Nous terminons sur des perspectives de travaux d’amélioration et d’exploitation de la ressource créée.

Bibliographie

2016
Djemaa, Marianne, Marie Candito, Philippe Muller, and Laure Vieu. Corpus Annotation within the French FrameNet: a Domain-by-domain Methodology In Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC 2016), Edited by Nicoletta Calzolari Chair), Khalid Choukri, Thierry Declerck, Sara Goggi, Marko Grobelnik, Bente Maegaard, Joseph Mariani, Helene Mazo, Asuncion Moreno, Jan Odijk et al. Paris, France: European Language Resources Association (ELRA), 2016. PDF (188.99 Ko)
Vieu, Laure, Philippe Muller, Marie Candito, and Marianne Djemaa. A General Framework for the Annotation of Causality Based on FrameNet In Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC 2016), Edited by Nicoletta Calzolari Chair), Khalid Choukri, Thierry Declerck, Sara Goggi, Marko Grobelnik, Bente Maegaard, Joseph Mariani, Helene Mazo, Asuncion Moreno, Jan Odijk et al. Paris, France: European Language Resources Association (ELRA), 2016. PDF (170.51 Ko)
2014
Candito, Marie, Pascal Amsili, Lucie Barque, Farah Benamara, Gaël de Chalendar, Marianne Djemaa, Pauline Haas, Richard Huyghe, Yvette Yannick Mathieu, Philippe Muller et al. Developing a French FrameNet: Methodology and First results In Proceedings of the Nineth International Conference on Language Resources and Evaluation (LREC-2014), poster session. Reykjavik, Iceland: European Language Resources Association (ELRA), 2014 PDF.
Djemaa, Marianne. Traitement FrameNet des constructions à attribut de l'objet In TALN-RECITAL 2014. Marseille, France: Association pour le Traitement Automatique des Langues, 2014. PDF (182.28 Ko)