![]() |
Ressources linguistiques |
La database ELICO est une collection d'occurrences de déterminants présentés dans un contexte de citation. L'annotation ne porte pas spécifiquement sur les déterminants, mais apporte plutôt des informations linguistiques sur leur contexte, de sorte que la database n'impose pas une analyse préalable des déterminants mais fournit un ensemble d'observables linguistiquement pertinents. L'annotation permet également de mettre en relation les propriétés globales des textes (leur type textuel) avec des observables linguistiques déjà enrichis. De ce fait, la database va permettre des recherches avancées qui se rapportent à des cadres théoriques différents et peut être utilisée pour tester des hypothèses linguistiques.
Projet initié en 1997, avec le soutien de l'IUF, du CNRS et du
CNRTL.
1 million de mots du journal Le Monde (1989-1995).
Développement d'une interface d'interrogation en ligne.
Objectifs : Développer une ressource lexicale et suntaxique «
riche » pour les linguistes, utilisable en TAL.
Diffusion : Ressource distribuée gratuitement depuis 2003.
Utilisateurs du corpus arboré
Ce corpus comprend 3 types de documents : des textes lus, des présentations monologuées préparées, des entretiens guidés.
Format du corpus :
Diffusion : Ensemble du corpus (fichiers audio, fichiers d'alignement, fichiers de transcription et documentation) diffusé sur simple demande sous la forme de 3 CD.
Objectifs : Compilation des abbréviations de gloses morphologiques de trois sources (Leipzig Glossing Rules, (Corbett 2000; Corbett 2006) et (Creissels 2006))
Diffusion : Téléchargement libre (pdf)