Zulipiye Yusupujiang

Doctorant

Statut : Doctorant

Adresse :

LLF, CNRS – UMR 7110
Université Paris Diderot-Paris 7
Case 7031 – 5, rue Thomas Mann,
75205 Paris cedex 13

E-mail : mhycvln127@ubgznvy.pbz

Domaines :
  Discours et dialogue

Axes de recherche :
  Linguistique computationnelle

Thèse

Titre : Characterizing the Response Space of Questions in Dialogue across Languages

Directeur :
  Jonathan Ginzburg

Date de soutenance : 2024-05-15

Inscription : 2019 à Paris Cité

Jury :

  • David TRAUM (Rapporteur), Institute for Creative Technologies (ICT), University of Southern California (USC)
  • Claire GARDENT (Rapportrice), Université de Lorraine
  • Abdurishid YAKUP (Examinateur), Berlin-Brandenburgische Akademie der Wissenschaften
  • Heather Susan BURNETT (Examinatrice), Université Paris Cité
  • Jonathan GINZBURG (Directeur de thèse), Université Paris Cité

Résumé :

Cette thèse vise à développer une classification systématique des réponses aux questions dans les dialogues. Nous présentons une taxonomie de l'espace de réponse fondée théoriquement et testée empiriquement avec neuf classes de réponses uniques, fournissant une représentation formelle pour chacune dans un cadre de sémantique formelle dialogique. Pour évaluer notre taxonomie dans les différentes langues, nous avons mené une étude comparative avec l'ouïghour, une langue turque à faibles ressources qui présente des caractéristiques uniques par rapport à l'anglais. Étant donné l'absence de corpus de dialogues en ouïghour, nous avons utilisé une plateforme de communication personnalisable à source ouverte. Nous avons ainsi créé le premier corpus de dialogue par chat en ouïghour librement accessible (UgChDial), annoté à l'aide de notre taxonomie de l'espace de réponse. Notre étude comparative des réponses aux questions en anglais et en ouïghour révèle une distribution généralement similaire des classes de réponses dans ces deux langues, à quelques exceptions près. La taxonomie couvre plus de 99,0 % des paires question-réponse dans les deux langues. En outre, nous avons mené des recherches préliminaires pour automatiser la classification de l'espace de réponse aux questions dans les dialogues. Nous avons conçu 26 caractéristiques pour capturer les caractéristiques syntaxiques, sémantiques et lexicales des questions et des réponses. Ces caractéristiques ont ensuite été utilisées pour contraster les résultats des classifications automatiques dérivées des algorithmes traditionnels d'apprentissage automatique avec les résultats obtenus à partir d'un modèle de langage BERT pré-entraîné à grande échelle. Cette thèse aborde également le défi de l'interprétation des réponses indirectes à diverses questions de type « wh ». Nous avons construit un corpus unique de telles réponses en anglais, considéré comme le premier du genre, et avons mené une étude préliminaire sur la génération de ces réponses en utilisant le modèle de langage génératif pré-entraîné, DialoGPT. Nos résultats suggèrent que cette tâche pose des défis significatifs pour des modèles tels que GPT, en raison de la nature complexe et lourde d'inférences des réponses indirectes.