Title | Développement de ressources pour le persan: le nouveau lexique morphologique PerLex2 et l’étiqueteur morphosyntaxique MElt_fa |
Publication Type | Article dans des actes |
Année de la conférence | 2011 |
Authors | Sagot, Benoît, Géraldine Walther, Pegah Faghiri, and Pollet Samvelian |
Nom de la conférence | TALN 2011 |
Date de publication | 06/2011 |
Conference Location | Montpellier, France |
Keywords | catégories, étiqueteur morphosyntaxique, Lexical resource, MElt, MElt., PerLex, persan, Persian, POS, Ressource lexicale, tagger, validation |
Abstract |
Résumé. Nous présentons une nouvelle version de PerLex, lexique morphologique du persan, une version corrigée et partiellement réannotée du corpus étiqueté BijanKhan (BijanKhan, 2004) et MEltfa, un nouvel étique- teur morphosyntaxique librement disponible pour le persan. Après avoir développé une première version de PerLex (Sagot & Walther, 2010), nous en proposons donc ici une version améliorée. Outre une validation manuelle par- tielle, PerLex 2 repose désormais sur un inventaire de catégories linguistiquement motivé. Nous avons également développé une nouvelle version du corpus BijanKhan : elle contient des corrections significatives de la tokenisation ainsi qu'un réétiquetage à l'aide des nouvelles catégories. Cette nouvelle version du corpus a enfin été utilisée pour l'entra{\^ınement de MEltfa, notre étiqueteur morphosyntaxique pour le persan librement disponible, s'appuyant à la fois sur ce nouvel inventaire de catégories, sur PerLex 2 et sur le système d'étiquetage MElt (Denis & Sagot, 2009). Abstract. We present a new version of PerLex, the morphological lexicon for the Persian language, a cor- rected and partially re-annotated version of the BijanKhan corpus (BijanKhan, 2004) and MEltfa, a new freely available POS-tagger for the Persian language. After PerLex's first version (Sagot & Walther, 2010), we propose an improved version of our morphological lexicon. Apart from a partial manual validation, PerLex 2 now relies on a set of linguistically motivated POS. Based on these POS, we also developped a new version of the BijanKhan corpus with significant corrections of the tokenisation. It has been re-tagged according to the new set of POS. The new version of the BijanKhan corpus has been used to develop MEltfa, our new freely-available POS-tagger for the Persian language, based on the new POS set, PerLex 2 and the MElt tagging system (Denis & Sagot, 2009).
|