Antoine Simoulin

Ancien doctorant

Statut : Doctorant

Adresse :

LLF, CNRS – UMR 7110

Université Paris Diderot-Paris 7
Case 7031 – 5, rue Thomas Mann,
75205 Paris cedex 13

E-mail : nagbvar.fvzbhyva@yvathvfg.havi-cnevf-qvqrebg.se

Présentation générale

I amcurrently enrolled in a PhD program in Natural Language Processing at the Laboratoire de Linguistique Formelle from Paris Diderot university.

I graduated from ENSTA ParisTech in mathematical optimization, and a Master (M2) from Ecole Polytechnique in Data Science. I am working at Quantmetry, where I worked in data science projects implementation. I was notably involved in health care research work with large French hospitals for the treatment and structuring of patient files in text format, or the industrialization of a model for better email classification and description for a large French insurance.

Thèse

Titre : Plongements de phrases et leurs relations avec les structures de phrases

Directeur :
  Benoît Crabbé

Date de soutenance : 2022-07-07

Inscription : 2019 à Paris Cité

Jury :

  • Claire Gardent, CNRS et Université de Lorraine, rapporteuse ;
  • Eric Gaussier, Université Grenoble Alpes, rapporteur ;
  • Rachel Bawden, Inria, examinatrice ;
  • Loïc Barrault, Le Mans Université, examinateur ;
  • Nicolas Brunel, ENSIIE et Laboratoire de Mathématiques et Modélisation d'Évry, membre invité du jury ;
  • Benoit Crabbé, Université Paris Cité, directeur.

Résumé :

Historiquement, la modélisation du langage humain suppose que les phrases ont une structure symbolique et que cette structure permet d’en calculer le sens par composition. Ces dernières années, les modèles d’apprentissage profond sont parvenus à traiter automatiquement des tâches sans s’appuyer sur une structure explicite du langage, remettant ainsi en question cette hypothèse fondamentale. Cette thèse cherche ainsi à mieux identifier le rôle de la structure lors de la modélisation du langage par des modèles d’apprentissage profonds. Elle se place dans le cadre spécifique de la construction de plongements de phrases—des représentations sémantiques basées sur des vecteurs—par des réseaux de neurones profonds. Dans un premier temps, on étudie l’intégration de biais linguistiques dans les architectures de réseaux neuronaux, pour contraindre leur séquence de composition selon une structure traditionnelle, en arbres. Dans un second temps, on relâche ces contraintes pour analyser les structures latentes induites par ces réseaux neuronaux. Dans les deux cas, on analyse les propriétés de composition des modèles ainsi que les propriétés sémantiques des plongements.

Bibliographie

Peer-reviewed Articles

  • Impact du dépistage : une expérience française, Mise à jour du Collège National des Gynécologues et Obstétriciens Français, 2017 – C. Mathelin, J. Colin, S. Molière, A. Fleury, C. Linck, M. Paté, C. Guldenfels, A. Simoulin, K. Neuberger, J. Jégu

Other Presentations

  • 06/12/19 - Conference animation at AI Paris 2019 about project management for data science project in natural language processing
  • 03/12/19 - Conference animation at BigData Paris 2019 for Melusine release
  • 03/12/19 - Open Source Release: Melusine, a package includes advanced natural language processing tools and deep neural networks that let you process, qualify & describe e-mails
  • 05/24/18 - Speak at Paris NLP Meetup: Introduction talk to Senometry, a project to analyze free text patients records