name: inverse class: center, middle, inverse # Méthodologie en linguistique ## Corpus 3 Clément Plancq 24 octobre 2014 --- ## TP CQL (Corpus Query Language) - [Documentation](http://cwb.sourceforge.net/files/CQP_Tutorial/CQP_Tutorial.html) - Exemples d'outils de recherche utilisant le langage CQL : - [IMS Corpus Workbench](http://cwb.sourceforge.net) (outil en ligne de commande) et [CQPWeb](https://cqpweb.lancs.ac.uk/) - [Opus search interfaces](http://opus.lingfil.uu.se/) - [Sketch Engine](http://www.sketchengine.co.uk/) et [NoSketch Engine](http://nl.ijs.si/noske/index-en.html) - [Concordancier Labex EFL](http://ressources.labex-efl.org/cqp) - [TXM](http://textometrie.ens-lyon.fr/) (Logiciel client et [portail web](http://portal.textometrie.org/demo/) ) - Corpus outillés non CQL - [Frantext](http://www.frantext.fr/) - [Phonologie du français contemporain](http://www.projet-pfc.net/) - [Corpus de la parole](http://corpusdelaparole.huma-num.fr/) - [Corpus of Contemporaray American English](http://corpus.byu.edu/coca/) - ... --- ## TP CQL (Corpus Query Language) #### Requête sur des champs ```remark [word = "cumulard"] [pos = "N"] [lemma = "être"] [] (mot quelconque) ``` #### Recherche de séquences ```remark [word="voilà"] [] [lemma="avoir"] [pos="V"] ``` .exos[Trouvez dans les corpus [FrenchTreebank](http://ressources.labex-efl.org/cqp/) et [C-Oral-Rom](http://ressources.labex-efl.org/cqp/) les occurrences des séquences : .exos-ling[auxiliaire avoir + auxiliaire être + verbe] ] .exos[Trouvez dans les corpus [Est Républicain](http://ressources.labex-efl.org/cqp/), [C-Oral-Rom](http://ressources.labex-efl.org/cqp/) et [frWac](http://nl.ijs.si/noske/all.cgi/first_form?corpname=frwac;align=) les occurrences des séquences : .exos-ling[nom + nom] ] .exos[Trouvez dans les corpus [Est Républicain](http://ressources.labex-efl.org/cqp/), [C-Oral-Rom](http://ressources.labex-efl.org/cqp/) et [frWac](http://nl.ijs.si/noske/all.cgi/first_form?corpname=frwac;align=) les occurrences des séquences : .exos-ling["truc" + de + nom] ] --- ## TP CQL (Corpus Query Language) #### Support des expressions régulières ```remark [word = "[aA]b.+"] [lemma = ".+eur"] [pos="ADV"] []{1,3} [pos="V"] ``` #### Opérateurs booléens ```remark & : conjonction (et) | : disjonction (ou) ! : négation (non) ``` ```remark [word="été" & pos!="V"] [lemma="mal" & (pos="ADV" | pos="A")] ``` .exos[Trouvez dans le corpus [Est Républicain](http://ressources.labex-efl.org/cqp/) la liste des noms formés avec le suffixe .exos-ling[ité]] .exos[Trouvez dans le corpus [frWac](http://nl.ijs.si/noske/all.cgi/first_form?corpname=frwac;align=) les occurrences des mots qui contiennent au moins deux .exos-ling[z]] .exos[Trouvez dans les corpus [Est Républicain](http://ressources.labex-efl.org/cqp/), [C-Oral-Rom](http://ressources.labex-efl.org/cqp/) les occurrences des séquences : .exos-ling[adverbe + adjectif] ] --- ## TP CQL (Corpus Query Language) ### Utilisation de la structure des documents La structuration des textes est différente selon les corpus et leur encodage mais *a minima* on trouve les marques de début de pharse et de fin de phrase. CQL permet également de limiter le contexte de recherche à la phrase
within s
(ne fonctionne pas avec tous les outils). ```remark
[pos="V"] [word="\?"]
[pos="V"] []{4} [pos="V"] within s ``` .exos[Trouvez dans les corpus [FrenchTreebank](http://ressources.labex-efl.org/cqp/), [C-Oral-Rom](http://ressources.labex-efl.org/cqp/) et [frWac](http://nl.ijs.si/noske/all.cgi/first_form?corpname=frwac;align=) les .exos-ling[phrases nominales]] .exos[Dans l'interface de recherche sur [OpenSubtitles](http://opus.lingfil.uu.se/cwb/OpenSubtitles/frames-cqp.html), comparez les .exos-ling[phrases exclamatives commençant par un *mot qu*] en français, anglais et allemand] .exos[Comparez les emplois de .exos-ling[quoi] en fin de phrase dans un le [FrenchTreebank](http://ressources.labex-efl.org/cqp/), [C-Oral-Rom](http://ressources.labex-efl.org/cqp/) et [frWac](http://nl.ijs.si/noske/all.cgi/first_form?corpname=frwac;align=)] --- ## TP CQL (Corpus Query Language) ### Utilisation des labels Les labels sont un peu comme des variables. Vous pouvez associer un motif de recherche à un label et utliser ce label dans la même requête. ```remark mot:[] [pos=mot.pos] ``` .exos[Dans l'interface de recherche sur [OpenSubtitles](http://opus.lingfil.uu.se/cwb/OpenSubtitles/frames-cqp.html), cherchez les .exos-ling[mots dupliqués] en anglais et comparez avec la traduction en français]