Logo LLF Ressources linguistiques

  • Corpus annoté déterminants du français / ELICO (2007-20--)
    Responsable : Lucia M. Tovena
    • 1 million de mots, extraits de textes représentatifs de différents genres et couvrant six siècles (13ème - 18ème)
    • environ 20.000 déterminants/pronoms en contexte annoté
    • Partenaire : ANR projet ANR-06CORP-028-01

      La database ELICO est une collection d'occurrences de déterminants présentés dans un contexte de citation. L'annotation ne porte pas spécifiquement sur les déterminants, mais apporte plutôt des informations linguistiques sur leur contexte, de sorte que la database n'impose pas une analyse préalable des déterminants mais fournit un ensemble d'observables linguistiquement pertinents. L'annotation permet également de mettre en relation les propriétés globales des textes (leur type textuel) avec des observables linguistiques déjà enrichis. De ce fait, la database va permettre des recherches avancées qui se rapportent à des cadres théoriques différents et peut être utilisée pour tester des hypothèses linguistiques.

    • Diffusion : Interface d'interrogation en ligne

  • Corpus arboré pour le français / French Treebank (1997-20--)
    Responsable : Anne Abeillé

    Projet initié en 1997, avec le soutien de l'IUF, du CNRS et du CNRTL.
    1 million de mots du journal Le Monde (1989-1995).
    Développement d'une interface d'interrogation en ligne.

    Objectifs : Développer une ressource lexicale et suntaxique « riche » pour les linguistes, utilisable en TAL.
    Diffusion : Ressource distribuée gratuitement depuis 2003.
    Utilisateurs du corpus arboré

  • ACSYNT : Corpus oral du français contemporain (124 000 mots)
    Responsable : Élisabeth Delais-Roussarie
    Participants : Didier Bourigault, Injoo Choi-Jonin, Cécile Fabre, Lucia Molinu, Magali Rouquier, Jean-Michel Tarrier (UMR 5610 / ERSS).
    Entité partenaire : ACI Jeune chercheur 2001 Projet 67031, JEMSTIC Jeune chercheur / CNRS

    Ce corpus comprend 3 types de documents : des textes lus, des présentations monologuées préparées, des entretiens guidés.

    Format du corpus :

    • Transcription orthographique alignée sur le signal au niveau de l'énoncé ou du tour de parole
    • Segmentation en segments de 2 à 3 minutes.

    Diffusion : Ensemble du corpus (fichiers audio, fichiers d'alignement, fichiers de transcription et documentation) diffusé sur simple demande sous la forme de 3 CD.

  • Abbréviation des gloses morphologiques Responsable : Bernard Fradin

    Objectifs : Compilation des abbréviations de gloses morphologiques de trois sources (Leipzig Glossing Rules, (Corbett 2000; Corbett 2006) et (Creissels 2006))

    Diffusion : Téléchargement libre (pdf)

 

| Accueil | Thèmes | Membres | Projets | Séminaires | Événements | Ressources | Offres d'emploi |
Laboratoire de Linguistique Formelle - UMR 7110 : Bat. Olympe de Gouges, 8 rue Albert Einstein, 75013 Paris
Tel : (+33)(0)157275764 | Fax : (+33)(0)157275781
Dernière mise à jour: 25/05/2012