An Informal Guide to Sketch Engine PDF

Title	An Informal Guide to Sketch Engine
Author	Anna Fantini
Pages	16
File Size	656 KB
File Type	PDF
Total Downloads	47
Total Views	246

Preview

CLICK TO PREVIEW PDF

Summary

Description

Linguistica applicata a/Glottodidattica – A.A. 2015/2016

Sketch Engine: breve guida all’uso Con esempi da ItTenTen, BNC e EnTenTen

Anna Fantini, tutor del corso

Anna Fantini, tutor del corso

Sketch Engine: breve guida all’uso Con esempi da ItTenTen, BNC e EnTenTen

Contenuti Introduzione ....................................................................................................................1 1 Query Types .................................................................................................................. 2 2 Context e text type ....................................................................................................... 6 3 Query di corpora paralleli ............................................................................................ 6 4 Manipolare i risultati – l’interfaccia di base ............................................................... 7 5 Manipolare i risultati – View Options ......................................................................... 8 6 Manipolare i risultati – Filtering ................................................................................. 9 7 Manipolare i risultati – Sorting ................................................................................. 10 8 Manipolare i risultati – Sample ................................................................................ 10 9 Manipolare i risultati – Frequency............................................................................ 10 10 Manipolare i risultati – Saving concordances .......................................................... 11 11 Word List ................................................................................................................... 11 12 Word sketch .............................................................................................................. 11 13 Sketch difference .......................................................................................................12 14 Ricerche effettuate in classe (12/10/15) ...................................................................13 15 Bibliografia ................................................................................................................14

Introduzione Per prima cosa l’utente deve scegliere il corpus su cui lavorare, Sketch Engine mette a disposizione più di duecento corpora e più di ottanta lingue, per esaminare tutte le risorse dovete cliccare sul tab ALL che si trova in alto a centro della pagina. Le risorse sono ordinate alfabeticamente per lingua. 1

Anna Fantini, tutor del corso

Una volta scelto il corpus si entra nella pagina della query, ricordare che se si vogliono informazioni sul corpus stesso si deve cliccare sul nome (Es. EnTenTen) in alto a destra. Qui si possono vedere: NUMERI ossia il numero di token, il numero di parole, il numero di frasi, il numero di paragrafi, il numero di documenti INFO GENERALI ossia una descrizione dettagliata del corpus, la lingua, il sistema di codifica, quando è stato “pulito”, il tagset, la grammatica per il word sketch DIMENSIONI del LESSICO LEGENDA del Tagset SUFFISSI dei Lempos Questi dati sono utili perché consentono di valutare se il corpus da noi scelto è effettivamente adatto a verificare le nostre ipotesi. Abbiamo anche la possibilità di studiare la documentazione sulla costruzione e sul tagset e quindi, se questo è il nostro interesse, proporre innovazioni e modifiche a chi l’ha costruito. Vi rimando alla bibliografia per il glossario della terminologia usata sulla piattaforma.

1 Query Types Occorre partire dal presupposto che molte queries sono simili le une alle altre, per esempio nei corpora lemmatizzati la simple q. restituirà tutte le forme di un lemma e questo si può ottenere anche con la lemma q. il vantaggio di quest’ultima però è che si può fare un’ulteriore specificazione della POS desiderata per il lemma ricercato. È dunque bene esplorare tutte le opzioni a nostra disposizione e scegliere quella che meglio si adatta alle nostre esigenze, alle nostre capacità e alle tempistiche. È da prediligere una query leggermente più complessa che però fa risparmiare tempo nella consultazione dei risultati e consente di essere molto specifici. 1.1 Simple Query La Simple query ci permette di effettuare ricerche semplici, di una o più parole, non casesensitive (sia minuscole che maiuscole). Attenzione perché nei corpora lemmatizzati (EnTenTen, ItTenTen, ecc..) la ricerca è lemmatica, ossia se si inserisce il verbo “go” l’interfaccia ci restituirà anche “going”, “went”, ecc.. Mangiare  mangio, mangiarono, hai mangiato, mangiando, ecc.. Nota Bene: in un corpus lemmatizzato inserire il lemma per averne tutte le forme (es1.1. Go, go gO  go went gone going), inserire la forma per avere solo quella tra i risultati (es1.2. gone  gone) Come raffinare la query: usare le wildcards * e ? ossia go?  got, gor, God, ecc.. cioè la stringa go seguita sempre da uno e un solo carattere. Oppure go*  go, govern, goal, ecc… cioè la stringa go seguita da zero o più caratteri. 2

Anna Fantini, tutor del corso

Usare le wildcars all’interno della stringa ossia r?k  RFK, Rik, ecc.. cioè la stringa rk al cui interno si trova uno e un solo carattere. Oppure r*k remarks, rock, rank, right-click, ecc.. cioè la stringa rk al cui interno si trovano più di un carattere. Nota Bene: il numero di caratteri dopo la stringa può essere di zero o più, se non meglio specificato (es.remarks) Si possono cercare anche l’asterisco e il punto di domanda come elementi della query e non come wildcards, bisogna però farli precedere da un backslash \ per segnalarlo, quindi \* e \? 1.2 Lemma query La query per lemma è più complessa, infatti permette di immettere un lemma e trovarne tutte le forme nel corpus (flessione verbale, nominale, aggettivale, ecc...) specificando inoltre la POS che il lemma deve avere, quindi ad esempio cercare light come verbo, nome o aggettivo. 1.3 Phrase query La phrase query permette di cercare strutture multiwords e di ritrovare le esatte parole digitate, ciò significa che avremo solo la word form digitata. Se ad esempio ci interessano i contesti di occorrenza di una espressione formulare come good morning, nice to meet you, i don’t know, magari in un corpus di apprendenti o di parlanti non madre lingua, questa query può esserci d’aiuto. 1.4 Word query La Word query permette di cerca la word form esatta di una e una sola parola, la ricerca di base è case insensitive ma è possibile modificare spuntando l’opzione match case; anche in questa query è possibile scegliere la POS desiderata. 1.5 Character query La character query permette di cercare una sequenza di caratteri e di ottenere tutte le stringhe che la contengono. Quindi ly  only, gently, applying, ecc.. Utile per lingue di difficile tokenizzazione, come il Cinese, il Thai, il Greco Antico; può creare problemi con parole separate da hyphen come New York-based. 1.6 CQL query La CQL query è la più complessa e la più raffinata, essa infatti si basa su un linguaggio e una sintassi proprie che all’apparenza possono sembrare di difficile utilizzo, ma che con qualche ora di pratica si possono padroneggiare senza problemi. CQL sta per Corpus Query Language, venne ideata nei primi anni ’90 all’Università di Stoccarda dal Corpora and Lexicon group.

3

Anna Fantini, tutor del corso

Ogni query è un’espressione regolare la cui forma canonica è [attribute= “value”], come attribute si usano comunemente lemma, tag, word mentre i values possono essere o elementi lessicali o i simboli del tagset che corrispondono a POS e alla punteggiatura. Ogni corpus ha uno o più tagset propri, essi si trovano nella pagina stessa della query sotto la search box; a seconda della lingua e del corpus in uso i tagset sono più o meno specifici, per esempio DeTenTen per il tedesco ha due tagset diversi: TreeTagger e RFTagger, il primo è quanto più possibile language independent, mentre il secondo è language specific e quindi più approfondito. Nota Bene: i corpora che abbiamo visto assieme (ItTenTen, EnTenTen, BNC) sono taggati solo a livello di POS e – come abbiamo già detto – con granularità diverse; non è possibile fare una ricerca a livello sintattico perché questi corpora non sono parsati, o per lo meno non hanno un tagset per il livello sintattico. RuTenTen d’altra parte offre un tagset davvero specifico e si trovano anche tipi semantici di base (animate, not animate), essi comunque sono disponibili solo abbinati al tag della POS a cui si riferiscono (il nome solitamente) e non in un tagset semantico a parte. Nota Bene 2: all’attribute lemma o word corrisponde sempre un value=elemento lessicale, all’attribute tag corrisponde sempre un value=elemento del tagset. Nota Bene3: la sintassi delle CQL è molto precisa, bisogna sempre racchiudere gli attribute tra parentesi quadre e i value “tra virgolette”, preceduti dal simbolo =. Le quadre possono contenere più attribute, espressioni regolari speciali, parentesi tonde e le tonde possono essere usate per raggruppare più quadre. Tutto ciò che si apre si deve sempre chiudere. Vediamo ora un esempio base di una CQL q. su BNC [lemma="gnaw"] [tag="NN1"]  cerca tutte le forme del lemma gnaw seguito da un nome comune singolare. [lemma="gnaw"] [tag=”PRP”] [tag="NN1"]  cerca tutte le forme del lemma ganw seguito da preposizione e da un nome comune singolare Come si vede la ricerca è specifica ma anche limitante, se siamo interessati a qualsiasi nome segue il lemma gnaw dobbiamo aggiungere una precisazione alla nostra stringa e questo è fattibile tramite l’uso di espressioni regolari speciali, più in seguito vedremo quali. In alternativa, possiamo fare una query diversa per ogni tipologia di nome taggata. 1.6.1 Espressioni regolari speciali da combinare con CQL (BNC tagset): (?i) rende la query case sensitive (di base non l0 è). Es1.3: [lemma=”(?i)god”]  god, gods Ma [lemma=”god”]  god, God, Gods, gods [] match any token. Es1.4 [tag="NN1"][][tag="VVB"]  cerca un nome comune singolare, seguito da uno e un solo token di qualsiasi tipo, seguito da un verbo lessicale in forma base. Tra i risultati possiamo trovare “section numbers refer, century: see, work alone suggest, ecc…”

4

Anna Fantini, tutor del corso

[]{2} trova esattamente due token tra il primo elemento e il secondo elemento. Es1.5: [tag="NN1"][]{2}[tag="VVB"] []{0,2} trova da zero a due elementi in un intervallo Es1.6: [tag="NN1"][]{0,2}[tag="VVB"] []* trova un numero qualsiasi di elementi in un intervallo (uno, quattro, dieci elementi..) | disgiunzione Es1.7: [lemma="cut"] [tag="PRP" | tag="NN1"] ma anche [lemma="cut"] ([tag="PRP"] | [tag="NN1"]) ma anche [lemma="cut"] [tag="PRP|NN1"] ossia cerca tutte le forme del lemma cut seguita da una preposizione o da un nome comune singolare. & congiunzione Es1.7: [lemma="cut" & tag=”VVB”]  cerca tutte le forme del verbo cut ! negazione Es1.8: [lemma=”shop” & !tag=”VVB”]  cerca tutte le forme del lemma shop che non siano forme base del verbo. Nota Bene: l’operatore di negazione va accompagnato dall’operatore di congiunzione se è all’interno della stessa parentesi di un altro attributo, quindi se specifica una caratteristica dell’attributo che lo precede. Ma [lemma="shop"] [!tag="NN1"]  tutte le forme del lemma shop che non sono seguite da un nome comune singolare .* qualsiasi, questa espressione regolare aiuta ad esplorare in maniera veloce un tagset molto complesso. Es1.9: [tag=“VV.*”]  qualsiasi forma di un verbo lessicale, flesso per numero, persona, tempo e modo (che non sia verbo essere o verbo avere) Es1.10: [tag=”V.*”]  qualsiasi forma verbale. Le espressioni regolari speciali sono combinabili! Es1.11: [lemma="light" & tag="VVB"] [tag="PNP"] [tag="NN1|PRP"]  cerca le forme base del verbo light seguito da pronome personale e da un nome o da una preposizione Es1.12: [tag="NN1" | tag="NN0"]([]{0,5}[!tag="VBB"])[tag="AJ0|AV0"]  cerca un nome comune singolare o un nome comune neutro per numero, seguito da un intervallo di 0 o 5 parole nelle quali non deve comparire un verbo essere al presente e il tutto deve essere seguito da un aggettivo di grado zero o da un avverbio generale. Es1.13: [tag="NN1" | tag="NN0"]([]{0,5}[tag="VBB"])[tag="AJ0"]  cerca un nome comune singolare o un nome comune neutro per numero, seguito da un intervallo di 0 o 5 parole che deve contenere un verbo essere al presente, il tutto seguito da un aggettivo di grado zero. 1.6.2 Operatori avanzati Within permette di cercare all’interno di una struttura in cui il corpus è diviso, come paragrafi, frasi, ecc.. ma anche all’interno di una stringa di CQL. Es1.14: [tag=”VVB”] within [tag=”NN.*”][]*[tag=”AJ.*”]

5

Anna Fantini, tutor del corso

Nota Bene: la KWICK view mette in evidenza solo l’elemento” all’interno di”, in questo caso il verbo. Containing è speculare a within, permette di cercare tokens contenuti in una struttura in cui il corpus è diviso, come paragrafi, frasi, ecc.. ma anche all’interno di una stringa di CQL. Es1.15: [tag="NN.*"][]{0,5}[tag="AJ.*"] containing [tag="VVB"] Nota Bene: la KWICK view mette in evidenza solo l’elemento “contenuto”, in questo caso il verbo. Nota Bene: questi operatori possono essere combinati tra loro e non hanno bisogno di essere rinchiusi tra parentesi.

2 Context e text type Nella concordance page abbiamo, oltre alle tipologie di queries, altre due opzioni che permettono di raffinare la ricerca o di estenderla a un livello extralinguistico. 2.1 Context Questa opzione permette di specificare in che tipo di contesto deve inserirsi la ricerca; la sezione lemma filter consente di inserire la query in un contesto che abbia a destra, a sinistra, da entrambe le parti uno o più lemma specifici (all), almeno un lemma specifico (any), nessuno dei lemmi in questione (none) ; il tutto in un intervallo di parole che va da 1 a 15 o a destra, o a sinistra, o da entrambe le parti. L’opzione POS filter permette di fare la medesima operazione, solo che in questo caso al posto di un lemma si può specificare una part of speech. 2.2 Text Type Questa opzione permette di effettuare una ricerca extralinguistica, nel BNC per esempio possiamo limitare la query alla tipologia testuale relativa alla data di pubblicazione, al medium, al dominio per corpora di testo scritto, alla tipologia di testo. Purtroppo non tutti i corpora di Sketch Engine hanno tipologie testuali così ben definite, di nuovo è necessario scegliere il corpus che meglio si adatta alle nostre esigenze. Nota Bene: le due opzioni possono ovviamente combinarsi, quindi si può specificare un contesto e una tipologia testuale all’interno dei quali la query deve rientrare.

3 Query di corpora paralleli Per interrogare corpora paralleli è necessario tornare alla pagina iniziale con l’elenco di tutti i corpora e selezionale il tab parallel. Si è visto l’esempio tratto dall’Europarl7, en, un

6

Anna Fantini, tutor del corso

corpus tratto dalle riunioni del Parlamento Europeo, tradotto e allineato per 21 lingue europee. Nasce per allenare sistemi statistici di machine translation. I corpora paralleli hanno un sistema base di query identico a quello appena descritto, ma offrono la possibilità di interrogare due corpora contemporaneamente, infatti sotto la concordance page si possono trovare tutti i corpora allineati a Europarl7,en. A questo punto ci sono due possibilità: o si cerca un token preciso in Europarl7,en e si seleziona la lingua in cui si vuole esaminare il corrispondente, o si fa una query secondaria anche nel corpus parallelo della lingua prescelta per vedere se le due query corrispondono. Es3.1: query di privacy in Europarl7,en > selezione di Europarl7,it  trova tutti i modi in cui privacy è stato tradotto (o meno) in italiano. Oppure Es3.2: query di privacy in Europarl7,en > selezione di Europarl7,it > simple query di privat*  trova tutte le occorrenze di privacy tradotto in una forma che inizi con privat*. Nota Bene: in entrambi i corpora allineati presi in esame si possono effettuare, contemporaneamente, query molto complesse utilizzando CQL e/o opzioni di contesto e text type.

4 Manipolare i risultati – l’interfaccia di base Qualsiasi sia la query impostata, i risultati vengono presentati di base in formato KWIC (keywords in context) e questa è l’interfaccia di default.

7

Anna Fantini, tutor del corso

Figura 1 1. Numero di occorrenze del token, percentuale su milione. 2. ID del documento, se cliccato mostra l’origine (a volte il Link) del documento che contiene il token, il domino e altre informazioni extralinguistiche solitamente annotate con markup. 3. Visione KWIC del token, esso è evidenziato e rappresenta il nodo della ricerca, tutto ciò che sta a destra e a sinistra è contesto. 4. Contesto esteso del token selezionato, appare cliccando sul token stesso e può essere espanso cliccando su next o previous. 5. Numero di pagine, mostra la pagina corrente e le pagine totali. È possibile navigare usando i bottoni o inserendo il numero di pagina desiderato Nota Bene: i risultati sono randomici e vengono ordinati in maniera crescente in base al document ID, quindi inviando di nuovo la stessa query appariranno nella stessa sequenza. Questo è il sorting che l’interfaccia propone di base, tuttavia possiamo modificarlo a nostro piacimento e più avanti vedremo come.

5 Manipolare i risultati – View Options Come già accennato, il formato di default dei risultati è quello KWIC, tuttavia esso può essere modificato dopo aver lanciato la query, cliccando su view option nella colonna azzurra a sinistra. Tra le opzioni più utili ci sono quella che mostra il tag di ogni parola o del nodo e quella che mostra lemma + tag di ogni parola o del nodo; per attivarle procedere nei seguenti modi: View option > spuntare attribute word e tag > display attribute for each token > lasciare invariato structures e references  nel formato finale si potrà visualizzare la POS di ogni parola (sia del node, sia del contesto) View option > spuntare attribute word e tag > display attribute KWIC tokens only > lasciare invariato structures e references  nel formato finale si potrà visualizzare la POS del solo node. View option > spuntare attribute word e lempos > display attribute for each token > lasciare invariato structures e references  nel formato finale si potrà visualizzare il lemma e la POS di ogni parola (sia del node, sia del contesto) View option > spuntare attribute word e lempos > display attribute KWIC tokens only > lasciare invariato structures e references  nel formato finale si potrà visualizzare il lemma e la POS del solo node. Questo sono solo alcune delle opzioni disponibili ma sono anche tra le più utili, soprattutto se si effettuano query molto generiche per avere una prima idea del fenomeno da studiare, a volte si possono osservare pattern interessanti ed inaspettati. Le view options consentono anche di modificare il numero di righe per ogni pagina di risultati e il modo in cui esse si possono manipolare.

8

Anna Fantini, tutor del corso

6 Manipolare i risultati – Filtering Il filtraggio dei risultati è una valida alternativa alla CQL q., ma è un procedimento lento e macchinoso e spesso meno preciso, quindi si rischia di perdere dei dati importanti. Il filtraggio perciò deve essere usato preferibilmente fine a sé stesso, quando non esiste una query più precisa. Si possono filtrare i dati sia in positivo sia in negativo, basta cliccare su filtering e scegliere l’alternativa. Vediamo qualche esempio: Filtering positivo. Vogliamo fare una ricerca sull’uso transitivo del verbo leggere; siccome il corpus non è annotato sintatticamente, nella query facciamo seguire al verbo un intervallo da 0 a 3 token (per articoli, preposizioni, preposizioni articolate, aggettivi, ecc..) e poi un nome comune o un nome proprio o qualsiasi tipo di pronome. Ovviamente dovremmo fare una ricerca simile con il verbo preceduto da nomi, pronomi, ecc.. ma per il momento limitiamoci a questa prima query. [lemma="leggere" & tag=”VV.*”][]{0,3}[tag="NOUN|NPR|PRO.*"] La ricerca restituisce...