Linglunch: William Havard et Emmanuel Schang (Université d’Orléans)

Thursday 18 December 2025, 12:00 to 13:00
Organisation: 
Karen De Clercq, Lisa Brunetti et Ira Noveck (LLF)
Lieu: 

LLF – Bât. ODG – 5e étage – Salle du conseil (533)

Je présenterai les travaux que j'ai menés dans le cadre du projet ANR CREAM, structurés autour de deux perspectives complémentaires sur l'IA et le traitement de la parole : les modèles comme outils au service de la linguistique d'une part ; et les modèles comme objet d'étude linguistique d'autre part. Dans un premier temps, je montrerai comment l'entraînement de modèles auto-supervisés dédiés au créole haïtien (kreyòl ayisyen) permet de produire des outils robustes de reconnaissance automatique de la parole, capables de rivaliser avec de grands modèles multilingues. J'insisterai sur les retombées linguistiques déjà permises par ces modèles : accès facilité à des corpus oraux de grande taille, appui à la description de la variation, et nouvelles possibilités pour l'étude fine de phénomènes phonétiques et morphosyntaxiques dans une langue longtemps considérée comme peu dotée, avec une transférabilité plausible vers d'autres créoles français des Caraïbes.

Dans un second temps, en m'appuyant sur un modèle entraîné sur des données en créole mauricien (kreol morisien) incluant des phénomènes de code-switching, j'examinerai ce que les représentations internes de ces modèles capturent effectivement. Nos analyses suggèrent que des facteurs acoustiques et paralinguistiques peuvent être encodés sans apprentissage explicite, tandis que le regroupement par langue émerge avec un apprentissage réel. Ces résultats ouvrent des pistes pour interroger, à partir de données naturelles, les frontières entre langues, ainsi que les marqueurs qui font qu'un signal est perçu comme relevant d'une langue plutôt que d'une autre.