Achille Falaise

ITA

0000-0003-1405-7713

Statut : IE bases de données linguistiques

Adresse :

LLF, CNRS – UMR 7110
Université Paris Diderot-Paris 7
Case 7031 – 5, rue Thomas Mann,
75205 Paris cedex 13

E-mail : npuvyyr.snynvfr@havi-cnevf-qvqrebg.se

CV : Achille Falaise_fr.pdf (421 Ko)

Site Web : https://pro.aiakide.net

Axes de recherche :
  Linguistique computationnelle

Présentation générale

Mes centres d'intérêt concernent essentiellement le Traitement automatique des langues naturelles (TALN), et plus particulièrement:

  • Traitement de la langue écrite (création, analyse et exploitation de corpus):
    • écrit médié par la machine (tchat, sites Web)
    • écrit ancien (français classique et pré-classique, latin classique)
    • écrit multilingue (corpus parallèles, traduction automatique, langues européennes et asiatiques)
  • Environnements et outils de TALN pour les humains:
    • pour la recherche en linguistique de corpus
    • pour la recherche d'information
    • pour la didactique des langues (corpus pour l'enseignement)
    • pour l'aide à la lecture, à la rédaction et au dialogue en langue seconde
    • pour la traduction
  • Linguistique de corpus, en synchronie et en diachronie

Enseignement

2019-2020-2021:

  • Blocs méthodologiques en linguistique de corpus en M1 Sciences du Langage, Université de Paris

2019:

  • TDs de linguistique de corpus en M1/M2 Sciences du Langage, Université de Paris

2018:

  • TPs de programmation Java en L3 Sciences du Langage, Université Paris-7
  • TDs de linguistique de corpus en L3 Sciences du Langage, Université Lyon-2

Enseignement (2012-2017): https://pro.aiakide.net

Bibliographie

La liste la plus à jour est accessible ici.

ACL: Articles répertoriés dans des revues internationales ou nationales avec comité de lecture

  • Achille Falaise, Olivier Kraif, Thi Thu Hoai Tran (2019). Un corpus, des usages: des outils pour exploiter le corpus de textes scientifiques Scientext, de la linguistique outillée à la didactique des langues. Francophonie et Innovation à l'Université n°1.
  • Thi Thu Hoai Tran, Achille Falaise (2018). Un dictionnaire basé sur corpus pour une aide à la rédaction universitaire. LIDIL n°58.
  • Sascha Diwersy, Achille Falaise, Marie-Hélène Lay, Gilles Souvay (2017). Ressources et méthodes pour l'analyse diachronique. Langages n° 206.
  • Danielle Leeman, Achille Falaise (2017). Les prépositions devant les noms de région et de département français. Langages n° 206.
  • Achille Falaise, Agnès Tutin, Olivier Kraif (2011). Une interface pour l'exploitation de corpus arborés par des non informaticiens : la plate-forme ScienQuest du projet Scientext. Traitement Automatique des Langues, Volume 52 – n° 3/2011, pages 103 à 128.
  • Martine Faraco, Marie-Laure Barbier, Achille Falaise, Sonia Branca Rosoff (2003). Codage et traitement automatique de corpus pour l'étude de prises de notes en français langue première et langue seconde. Arob@se 7, 1-2, 21 pages.

ACTI : Communications avec actes dans un congrès international

  • Peter Blumenthal, Sascha Diwersy, Achille Falaise, Marie-Hélène Lay, Gilles Souvay, Denis Vigier (2017). Presto, un corpus diachronique pour le français des XVIe-XXe siècles. Atelier Les corpus annotés du français, TALN 2017, Orléans.
  • Sascha Diwersy, Achille Falaise, Denis Vigier (2017). Étude de l’évolution sémantique des prépositions à, en, dans, dedans du français. Quel(s) apport(s) d’une périodisation automatique ? Journées linguistique de corpus 2017, Grenoble.
  • Achille Falaise, Danielle Leeman (2016). Sur l'identité de la préposition "en" combinée avec des noms de lieu. Colloque Changements linguistiques et phénomènes sociétaux (CLPS), Communication, Lyon.
  • Sascha Diwersy, Achille Falaise, Marie-Hélène Lay, Gilles Souvay (2015). Traitements pour l’analyse du français préclassique. Papier court (poster). TALN 2015, Caen.
  • Achille Falaise (2015). Intégration du corpus des actes de TALN à la plateforme ScienQuest. TALN 2015, Démonstration, Caen.
  • Cécile Frérot, Caroline Rossi, Achille Falaise (2014). Integrating selected corpus data in the classroom: a case-study of English NPs for French students in specialized translation.
    6th International Conference on Corpus Linguistics.
  • Achille Falaise (2013). Adaptation de la plateforme corporale ScienQuest pour l’aide à la rédaction en langue seconde. Démonstration. TALN 2013. Les Sables d'Olonne.
  • Achille Falaise, Agnès Tutin, Olivier Kraif, David Rouquet (2012). ScienQuest: a treebank exploitation tool for non NLP-specialists. Demo paper, COLING 2012, Mumbai, Inde.
  • Achille Falaise, Agnès Tutin, Olivier Kraif (2011). Exploitation d'un corpus arboré pour non spécialistes par des requêtes guidées et des requêtes sémantiques. Papier court (poster). TALN 2011, Montpellier.
  • S. Skaff, D. Rouquet, E. Dellandrea, A. Falaise, V. Bellycnk, H. Blanchon, C. Boitet, D. Schwab, L. Chen, A. Saidi, G. Csurka, L. Marchesotti (2011). Multilingual search for graphic designers. IVAPP 2011, Algarve, Portugal.
  • David Rouquet, Achille Falaise (2011). Extraction d'information conceptuelle de textes, basée sur une annotation interlingue et guidée par une ontologie. Atelier RISE 2011, CORIA 2011, Avignon.
  • Achille Falaise, David Rouquet, Didier Schwab, Hervé Blanchon, Christian Boitet (2010). Ontology driven content extraction using interlingual annotation of texts in the OMNIA project. CLIA workshop, COLING 2010, Beijing, Chine.
  • David Rouquet, Achille Falaise, Didier Schwab, Hervé Blanchon, Valérie Bellynck, Christian Boitet, Emmanuel Dellandréa, Ningning Liu, Liming Chen, Alexandre Saidi, Sandra Skaff, Luca Marchesotti, Gabriela Csurka (2010). Classification multilingue et multimédia pour la recherche d’images dans le projet OMNIA. Atelier MIRO:RISE, INFORSID 2010, Marseille.
  • Achille Falaise, Agnès Tutin (2010). Approche onomasiologique de la phraséologie transdisciplinaire des écrits scientifiques : la recherche sémantique dans les textes dans le cadre du projet Scientext. Démonstration, TOTh 2010, Chambéry.
  • Agnès Tutin, Francis Grossmann, Achille Falaise, Olivier Kraif (2009). Autour du projet Scientext : étude des marques linguistiques du positionnement de l’auteur dans les écrits scientifiques. 6e Journées Internationales de Linguistique de Corpus, Lorient.
  • Georges Fafiotte, Achille Falaise, Jérôme Goulian (2009). CIFLI-SurviTra, deux facettes : démonstrateur de composants de TA fondée sur UNL, et phrasebook multilingue. Démonstration. TALN 2009. Senlis.
  • C. Boitet, P. Bhattacharyya, E. Blanc, S. Meena, S. Boudhh, G. Fafiotte, A. Falaise, V. Vacchani (2007). Building Hindi-French-English-UNL resources for SurviTra-CIFLI, a linguistic survival system under construction. SNLP 2007, Pattaya, Thaïlande.
  • Achille Falaise (2005). Constitution d'un corpus de français tchaté. RÉCITAL 2005, Dourdan.

OS : Ouvrages scientifiques (ou chapitres d’ouvrage)

  • Achille Falaise, Olivier Kraif, Thi Thu Hoai Tran (2019). Un corpus, des usages: des outils pour exploiter le corpus de textes scientifiques Scientext, de la linguistique outillée à la didactique des langues in Cristelle Cavalla, Agnès Tutin & Alice Burrows (ed.), Francophonie et Innovation à l'Université, pp. 78-89.
  • Achille Falaise (2012). Exploitation linguistique de corpus arborés d'écrits scientifiques à l'aide du logiciel ScienQuest, 20 pages, in Tutin & Grossmann (éd) Autour du corpus Scientext : de la constitution d’un corpus d’écrits scientifiques à l’étude des marques du positionnement et du raisonnement, Presses Universitaires de Rennes.

TH : Thèse de doctorat

  • Achille Falaise (2009). Conception et prototypage d'un outil web de médiation et d'aide au dialogue tchaté écrit en langue seconde. Thèse de doctorat, université Joseph Fourier, Grenoble.

Logiciels

Plateformes Web en production

Logiciels en production

  • Tokeniser Presto (2015-2017): pour les langues où une liste de caractères séparateurs ne suffit pas, comme le français en général, et le français ancien en particulier. [Auteur principal]
    https://gitlab.com/achillefalaise/prestoTokeniser
  • Corpus Cleaner (2017). Ce service normalise la typographie d'un corpus (espaces, guillemets, apostrophes, ligatures typographiques...), pour la faire correspondre à ce que la plupart des outils attendent en entrée. [Auteur principal]
    https://pro.aiakide.net/services/cleanCorpus/

Logiciels en version bêta

Ces logiciels ont vocation à passer en production...

Prototypes, démonstrateurs

  • CsvFreq (2017): un outil basique pour calculer les fréquences absolues et relatives d’occurrences extraites de la base Frantext. [Auteur principal]
    http://corpora.aiakide.net/tools/csvFreq
  • iMAG (2012): plateforme pour la traduction, centralisée ou communautaire, de pages Web [Auteur principal]
  • SECTra (2011): gestionnaire de mémoire de traduction, avec fonctions de post-édition et d’évaluation [Coauteur]
  • Tradoh (2011): méta-moteur de traduction avec API unifiée pour l’appel de plusieurs de
    moteurs de TA [Coauteur]
  • Sandoh (2011): système de reconnaissance d’encodages et de langues pour documents hétérogènes [Coauteur]
  • SegDoc (2011): segmenteur de pages Web [Coauteur]
  • OMNIA (2010): chaîne de traitement pour l’indexation sémantique interlingue de documents multilingues [Auteur principal]
  • Koinè (2009): assistant pour le tchat en langue seconde [Auteur principal]

Corpus

  • Corpus diachronique issu du journal Le Monde (2017): formé à partir des premiers paragraphes de 10 % des articles, diffusés gratuitement par le journal sur le Web, pour la période 1950-2015 (16,5 millions de mots). Ce corpus, collecté sous le régime de la copie privée, n’est pas redistribuable. [Auteur principal]
  • Corpus de commentaires touristiques Tripadvisor (2017). Corpus collecté à partir du
    célèbre site d’évaluation touristique. Ce corpus, collecté sous le régime de la
    copie privée, n’est pas redistribuable. [Auteur principal]
  • Corpus d’offices de tourisme (2017). Corpus collecté à partir de 772 sites Web d’offices de tourisme français (3,6 millions de mots). Ce corpus, collecté sous le régime de la copie privée, n’est pas redistribuable. [Auteur principal]
  • Corpus de guides touristiques, collectés à partir de la base Wikitravel (5,3 millions de mots). Licence CC. [Auteur principal]
  • Presto (2016-2018): corpus du français écrit en diachronie (XVIe-XXe siècle, 28 millions de mots, XML TEI). Licence CC pour une cinquantaine de textes, les autres étant sous droit d'auteur ou d'éditeur. [Coauteur]
    http://presto.ens-lyon.fr
  • Scientext (2009-2018): corpus d’écrits scientifiques (anglais et français, 41 millions de mots, XML TEI P5). Corpus libre, sauf les annotations morphosyntaxiques qui sont sous droit d'éditeur. [Coauteur]
    http://scientext.msh-alpes.fr
  • CIFLI-Survitra (2008): corpus de phrases «à trous» pour le tourisme, aligné en 5 langues + 1 langage formel. [Coauteur]
    https://pro.aiakide.net
  • Corpus du français tchaté (2005 − 23 millions de mots, XML) – corpus passé en XML TEI CMC en 2014. [Auteur principal]
    http://corpora.aiakide.net/corpustchat2
    https://www.ortolang.fr/#/market/corpora/comere

Autres publications et téléchargements

https://pro.aiakide.net