@inproceedings {leFlauBERTModelesLangue2020, title = {FlauBERT : des mod{\`e}les de langue contextualis{\'e}s pr{\'e}-entra{\^\i}n{\'e}s pour le fran{\c c}ais (FlauBERT : Unsupervised Language Model Pre-training for French)}, year = {2020}, month = {jun}, pages = {268{\textendash}278}, publisher = {ATALA et AFCP}, address = {Nancy, France}, abstract = {Les mod{\`e}les de langue pr{\'e}-entra{\^\i}n{\'e}s sont d{\'e}sormais indispensables pour obtenir des r{\'e}sultats {\`a} l{\textquoteright}{\'e}tat-de-l{\textquoteright}art dans de nombreuses t{\^a}ches du TALN. Tirant avantage de l{\textquoteright}{\'e}norme quantit{\'e} de textes bruts disponibles, ils permettent d{\textquoteright}extraire des repr{\'e}sentations continues des mots, contextualis{\'e}es au niveau de la phrase. L{\textquoteright}efficacit{\'e} de ces repr{\'e}sentations pour r{\'e}soudre plusieurs t{\^a}ches de TALN a {\'e}t{\'e} d{\'e}montr{\'e}e r{\'e}cemment pour l{\textquoteright}anglais. Dans cet article, nous pr{\'e}sentons et partageons FlauBERT, un ensemble de mod{\`e}les appris sur un corpus fran{\c c}ais h{\'e}t{\'e}rog{\`e}ne et de taille importante. Des mod{\`e}les de complexit{\'e} diff{\'e}rente sont entra{\^\i}n{\'e}s {\`a} l{\textquoteright}aide du nouveau supercalculateur Jean Zay du CNRS. Nous {\'e}valuons nos mod{\`e}les de langue sur diverses t{\^a}ches en fran{\c c}ais (classification de textes, paraphrase, inf{\'e}rence en langage naturel, analyse syntaxique, d{\'e}sambigu{\"\i}sation automatique) et montrons qu{\textquoteright}ils surpassent souvent les autres approches sur le r{\'e}f{\'e}rentiel d{\textquoteright}{\'e}valuation FLUE {\'e}galement pr{\'e}sent{\'e} ici.}, author = {Le, Hang and Vial, Lo{\"\i}c and Frej, Jibril and Segonne, Vincent and Coavoux, Maximin and Lecouteux, Benjamin and Allauzen, Alexandre and Beno{\^\i}t Crabb{\'e} and Besacier, Laurent and Schwab, Didier} }