Linguistica dei corpora PDF

Title Linguistica dei corpora
Author Giusy Caristi
Course Informatica umanistica
Institution Università per Stranieri di Siena
Pages 7
File Size 88.1 KB
File Type PDF
Total Downloads 66
Total Views 140

Summary

Download Linguistica dei corpora PDF


Description

CHE COS’È UN CORPUS? È un insieme di testi che assume essere rappresentativo dello stato di una lingua o di una varietà di essa al fine di ottenerne una descrizione complessiva. Modernamente è implicitamente sempre informatizzato, perché si intende che possa essere accessibile elettronicamente e interrogabile con un computer, è costituito da una serie di documenti in formato test raccolti in cartelle. I temi della linguistica dei corpora sono: autenticità, rappresentatività e campionamento, informatizzazione e rappresentazione dei dati linguistici. !

Autenticità

Si indicano gli esempi per illustrare incerto fenomeno della lingua o il significato di un lemma in un dizionario. Oggi è molto facile attingere a grandi quantità di dati linguistici autentici, ma l’acquisizione dei dati può essere problematica per delle limitazioni. La più rilevante è la difficoltà di acquisire dati orali, di trascriverli e di superare altri ostacoli come l’ottenere i permessi per lo sfruttamento della proprietà intellettuale e i vincoli imposti dalla tutela della privacy. Queste limitazioni non alterano la definizione do corpus come raccolta di dati linguistici autentici. !

Rappresentatività e campionamento

Il campionamento dei testi in corpus è un’operazione necessaria. La selezione del materiale da includere nel campione deve avvenire secondo di criteri adeguati alla popolazione che si intende studiare. Quando si parla di ampiezza del corpus ci si riferisce alla lunghezza dei testi espressa in numero di parole. L’utilizzo di qualsiasi corpus non può prescindere dalla conoscenza del mondo in cui sono stati affrontati i problemi della variabilità della lingua e dell’esigenza di fornirne una rappresentazione bilanciata. Un esempio noto di corpora i cui criteri sono diventati un modello è il BNC(British National Corpus) nel quale sono presenti parole in inglese scritto e parlato, è un corpus generico e fa riferimento all’inglese britannico contemporaneo con un intervallo temporale che va dai primi anni Settanta del secolo scorso al 1993. La cornice temporale rende il campione deperibile e si potrebbe argomentare che visto l’arco temporale non rappresenta più la lingua corrente. I criteri di campionamento sono dati raccolti su base demografica e sulla base del contesto più o meno istituzionale. Un altro corpus inglese contemporaneo importante è il COCA(Corpus Of Contemporary American English), la sua forza consiste nella mole di dati a disposizione del ricercatore. Tale campionamento include script cinematografici e solo programmi televisivi e radiofonici. Vi è una differenza significativa rispetto al BNC che concerne il sistema di campionamento dei testi e l’aggiungere materiale nuovo con cadenza regolare. Il BNC è di estensione finita e statica(a campione chiuso) e lo differenzia dai corpora dinamici(monitoraggio). Un modello diverso è seguito dal BROWN(Brown University Standard Corpus of Present-Day American English) parole esclusivamente in americano scritto, prodotti nel 1961. Esclude il parlato-scritto. Il campionamento non è un procedimento scientifico in senso stretto, risponde a parametri soggettivi di scelta e classificazione dei testi. È l’ipotesi di ricerca che detta i criteri di campionamento che stabilisce gli usi che si potranno fare di un dato corpus. !

Informatizzazione e rappresentazione dei dati linguistici

L’attuale nozione di corpus implica il formato elettronico(machine-readible form), che porta con se il problema della rappresentazione dei dati testuali su un supporto digitale. La macchina deve riconoscere i caratteri, maiuscolo e minuscolo, i segni di punteggiatura. Deve poter codificare i contenuti che siano rilevanti ai fini di indagini linguistiche. Questi contenuti comprendono le analisi interpretative morfosintattiche, fonetiche, semantiche, pratiche. L’annotazione linguistica rende esplicita ed esplorabile la struttura linguistica del testo, è preferibile che la codifica sia standardizzata per facilitare la portabilità dei dati. !

Annotazione e mark-up

Una forma elementare di annotazione è quella di assegnare al file un nome sufficientemente esplicito o che richiami i contenuti del testo. In questo modo l’annotazione è estremamente limitata e senza la possibilità di indicare informazioni circostanti i dati testuali. Con annotazione si intende arricchire i dati grezzi contenuti nel corpus di metadati, conformemente a standard condivisi della comunità scientifica. Mark-up e annotazione sono sinonimi anche se il primo codifica i metadati contestuali e oggettivi relativi ai testi che si vogliono includere nel corpus(titolo,autore), ma anche le informazioni riguardanti la struttura originale del testo(suddivisione in paragrafi). le annotazioni sono informazioni di tipo linguistico-interpretativo, più soggettive e opinabili, incorporano all’interno del testo le informazioni corrispondenti ai diversi livelli dell’analisi linguistica, dalla mofosintassi alla semantica, dall’analisi del discorso alla pragmatica. L’utilità di corpora annotati risiede nella possibilità di effettuare ricerche sofisticate sui testi. Uno dei più interessanti esiti dell’analisi di corpora etichettati grammaticalmente è la Longman Grammar od Spoken and Written English, il criterio è la differenziazione sistematica tra sintassi del discorso e sintassi del testo scritto. Questo primo livello di annotazione è necessariamente preceduto dalla segmentazione del testo in parole(token). La tokenizzazione dei testi consente di distinguere ogni occorrenza di ciascuna forma. Tramite la lemmatizzazione è possibile associare le varianti morfologiche di una parola e considerare insieme le forme flesse come unico lessema o lemma. L’unità di un corpus lemmatizzato è maggiore per le lingue più flesse e minore per le lingue a ridotta variazione morfologica. Il primo livello di annotazione attribuisce a ogni parola nel corpus di una parte del discorso indicata nel tag che la delimita(PartOf-Speech tagging). Insieme all’annotazione sintattica o parsing sintattico è rilevante per lo studio della sintassi. Il secondo livello analizza le frasi nei loro costituenti sintattici, funzioni grammaticali e relazioni di dipendenza. Il parsing sintattico è noto come treebanking. Un ulteriore livello di annotazione è quello semantico, sta alla base di studi lessicali sul gergo specialistico e di studi sulle metafore dei testi. L’annotazione dei fenomeni della coesione testuale si basa su catene di riferimento analogico e cataforico tra pronomi e nomi di un testo. L’ultimo livello di annotazione riguarda la dimensione pragmatica dei testi presente in testi dove la struttura retorica sia altrettanto segmentatile in mosse distinte e ricorrenti. Questa annotazione ci conduce all’annotazione prosodica la quale è strettamente legata alla tipologia di corpora. A seconda del grado di astrazione dell’analisi linguistica che si intende annotare, l’annotazione può essere interamente automatica, interamente manuale o semiautomatica. Il parsing sintattico può essere automatizzato con una precisione tipicamente più bassa di quella raggiunta dall’etichettatura grammaticale e richiede un’ampia revisione e correzione manuale. Vi sono dei software per l’annotazione semantica tra cui annoverano USAS(Ucrel Semantic Analytic System). L’annotazione prosodica, può essere automatizzata solo parzialmente per la natura delle informazioni che si devono catturare nella trascrizione di testi orali. Esistono alcuni strumenti per l’annotazione prosodica i TOBI(Tones and Break Indices) per la trascrizione dell’intonazione e della struttura prosodica in diverse lingue.

Formati e linguaggi di codifica: XML e database relazionali

La standardizzazione in ambito linguistico deve essere opportunamente collocate distinguendone i livelli: primo formato file con sono codificati i testi; secondo modalità con cui avviene l’annotazione e terzo definisce il contenuto dell’annotazione. Per quanto riguarda il primo il format file ci sono varie possibilità.Il file è una sequenza di numeri a cui è associato in modo univoco un corrispondente carattere o simbolo. Lo standard Unicode consente di rappresentare tutti i caratteri speciali usati nei testi. Il corpus BROWN presenta un proprio metodo di codifica descritto nel manuale di accompagnamento. Il secondo livello definisce le regole con cui i tag devono essere inseriti. Lo standard XML(eXtensible Markup Language) definisce come indicare i marcatori e come possono formare delle gerarchie, anche se stabilisce le regole non da un nome né ai marcatori, né agli attributi, né predetermina le gerarchie. L’operazione di dare un nome ai marcatori appartiene al terzo livello di standardizzazione. Le regole sono scrivibili in un formato standard “grammatiche DTD”(Document Type Definition), essa è una parte di testo che può essere interno al file XML o costituire un file separato, che contiene le regole con cui i dati in formato XML devono essere letti e interpretati. Conterrà l’elenco, la struttura e le caratteristiche dei tag. Un file XML non può esistere senza l’associazione di una grammatica DTD, poiché non avremmo mai la certezza che il file XML rappresenti in modo corretto la struttura definita in esito alla fase di analisi linguistica. Un file XML che rispetta una grammatica DTD è valido solo in quella grammatica . La verifica della forma del file XML attraverso la sua grammatica è un processo preliminare essenziale per essere sicuri che i metadati rispettino la struttura inizialmente progettata(validizzazione). Un altro modo per rappresentare e annotare i corpus è rappresentata dai moderni database relazionali. I file non sono sono immediatamente leggibili con un semplice editor di testo, è necessari disporre di un database server interrogabile con opportune queries.I dati possono essere interrogati tramite un linguaggio che ha una base comune l’SQL(Structured Query Language). In un database le informazioni sono strutturate in tabelle composte da un insieme di colonne(campi) e ogni campo è collegato ad altre tabelle con una relazione uno a molti. Database e XML non sono scelte completamente antitetiche, è possibile esportare un database o una porzione di esso in un file di test XML e viceversa. Uno dei vantaggi dei database consiste nella capacità di immagazzinare enormi quantità di dati e contemporaneamente di compilare automaticamente un secondo database in cui è registrata la porzione delle singole parole all’interno del corpus. !

Questioni metodologiche aperte

La domanda generale che sottende tutte le possibili questioni particolari è dettata dall’osservazione empirica della variabilità dei dati linguistici e del tentativo di quantificare e descrivere sistematicamente tale variazione per comprenderne le ragioni. Vi sono due direzioni, generate dalla controversia all’interno della comunità scientifica: corpus-based(basati su corpora); corpus-driven(guidati dai corpora). La critica mossa agli studi corpus-based riguarda il fatto che solo dai fenomeni annotati possono essere tratte delle osservazioni. Il secondo approccio non vuole imporre alcun tipo di analisi preconcetta, sarà il dato stesso a suggerire le categorie analitiche necessarie a una descrizione esaustiva e potenzialmente nuova della lingua. Un approccio coprus-driven farà uso di megacorpora non annotati, l’approccio soft corpus-based tende a non fare tabula rasa dei sistemi teorico-descrittivi e precedenti all’era informatica per cercare di conferme e validazioni teoriche note. La distinzione riguarda il diverso ruolo delle osservazioni nel processo di formazione di un’ipotesi. Guidato dai corpora significa che induttivamente ci si muove dalle osservazioni per giungere alla formulazione di un’ipotesi; basato sui corpora vuol dire che partendo da una regola nota si va a verificarla tramite osservazioni ripetute sui dati. Dal versante corpus-driven deriva la visione olistica della descrizione linguistica e il superamento delle distinzioni teoriche tra lessico, sintassi, semantica e pragmatica. !

CREAZIONE DI CORPORA E TIPOLOGIE Corpora grezzi vs annotati

Il BNC e il COCA contengono una annotazione per parti del discorso. L’annotazione grammaticale aumenta le possibilità di una descrizione su larga scala delle caratteristiche morfosintattiche di una linguae aumenta le potenzialità della ricerca. I modelli sintattici a cui ispirarsi sono due: quelli fondati su un’analisi dei costituenti di frase e quelli basti sulle relazioni di dipendenza.I primi segmentano la frase in gruppi di parole in relazione logica tra loro, gli altri specificano le relazioni gerarchiche tra il verbo e i suoi argomenti. Esempio del primo tipo è il Penn Treebank che assegna la parte del discorso e il ruolo grammaticale a ogni elemento della frase rappresentando le relazioni sintattiche sotto forma di diagramma ad albero. La marcatura delle relazioni semantiche tra costituenti è considerata annotazione sintattica. Un parsing più leggero caratterizza il Lancaster Parsed Corpus assegna solo i costituenti principali usando molte meno etichette del Penn Treebank. Il sottoinsieme manuale annotato nel corpus LOB(Lancaster Oslo Bergen Corpus of British English) è basto sul sistema Lancaster-Leeds Treebank. Il PDT (Prague Dependency Treebank) è un corpora annotato con le relazioni di dipendenza, ogni verbo è trattato nelle sue relazioni gerarchiche con le parole della frase. In progetto ICE(International Corpus of English) presenta un’annotazione sintattica sofisticata: l’ICE-GB. Contiene parole etichettate per parte del discorso unitamente alla segmentazione di costituenti di frase. Per ogni frase indicata con PU(Parsing Unit) esiste un albero sintattico che specifica la parte del discorso di ogni parola contenuta nell’albero. Viene annotata anche la punteggiatura. FrameNet appartiene alla categoria di annotazione semantica. Richiama la grammatica in costituenti per individuare pattern associativi tra significati e realizzazioni sintattiche. Un esempio di corpus annotato per le relazioni di coriferimento è il Lancaster/IBM Anaphoric Treebank, sistema informatico Xanadu, consente di etichettare coppie formate da un antecedente e dall’elemento in relazione analogica. Il Nottingham Multi-Modal Corpus è un corpus annotato prosodicamente, studia le interazioni tra diversi canali semiotici e aspetti verbali. Il PCFD (Pavia Corpus of Film Dialogue) è un esempio di corpora annotati con un caso particolare di annotazione del parlato che ci è familiare.Offre un modello elettronico di parlar filmico in due lingue: inglese e italiano. La relazione tra le due lingue è di traduzione e costituisce un esempio di corpus parallelo. Vi sono dei problemi che comporta la rappresentazione del dialogo filmico. Il primo livello è la trascrizione, si operano delle scelte che hanno rilevanza teorica, non devono ridurre la complessità del dato orale e non devono perdere informazioni interessanti per il linguista. Il passaggio da orale a scritto pone la scelta tra trascrizione ortografica e prosodica. Il parlato spontaneo e il parlato filmico sono intrinsecamente multimediali, il contesto audio-video ha un ruolo prominente quale componente del dato nella sua complessità. La codifica in corpora computerizzati interrogabili elettronicamente sarà un compromesso tra mantenimento e semplificazione della complessità descritta. Gli elementi essenziali sono: battuta o turno di parola; chi parla, il personaggio e l’attore; in quale film; in quale lingua; in quale scena del film; come parla(tratti paralinguistici); per quale sceneggiatore; per quale traduttore-adattatore; in quale produzione; in che anno. L’unità di allineamento tra le due lingue è la battuta. !

Corpora e variazione diafasica

Vi è distinzione tra corpora di riferimento e specialisti, si riferisce alla dimensione più o meno settoriale del corpus. Un corpus di riferimento raccoglierà testi appartenenti a tutte le varietà considerate caratteristiche della lingua nel su insieme; un corpus specialistico sarà circoscritto a un solo genere o dominio. Un corpus di riferimento raccoglierà testi scritti e orali, letterali, giornalistici, conversazioni informali; mentre i corpus specialistici solo testi ad esempio di argomento medico. Entrambi sono valsi agli studi lessicali e lessicografici su larga scala in un caso e per la redazione di leciti specialistici per l’altro.

Corpora generici d riferimento

Coprono un’enorme varietà di testi sia scritti che orali. Introduce una nuova distinzione tra corpora detti statici e dinamici. Quest’ultimo corpora che vengono allargati e aggiornati periodicamente. I corpora statici sono atti a restituire il quadro di una lingua attraverso un numero di parole prefissato e raccolte in un arco temporale definito. BNC e ANC(American National Corpus). L’ANC è ridotto rispetto al BNC quindi la varietà delle tipologie testuali e il bilanciamento delle stesse è diverso. I corpora generici di riferimento sono utilizzati anche per gli studi di genere che si collocano a metà tra analisi sociolinguistica e del discorso, mettono in rilievo distribuzioni di frequenza diversamente associate al sesso e all’età del parlante. I corpora di lingue slave e dell’Europa dell’Est hanno avuto grande impulso dalla ricerca linguistica computazionale. Russian National Corpus(lingua russa dal 18esimo secolo a oggi); National Corpus of Polish; Bulgarian National Corpus; Slovak National Corpus. Diverso l’Hungarian National Corpus che campiona anche le varianti regionali di Transilvania; Slovacchia; Subcarpazia e contiene l’analisi morfologica di ciascuna parola e di ognuna viene annotata la radice e i morfemi flessivi. Il Corpus de Referencia del Español Actual contiene testi dal 1975 al 2004. Il Corpus de Español e il Corpus do Português comprendono testi dal Duecento al Novecento, consentono di confrontare la distribuzione di lemmi e strutture grammaticali in registri e dialetti diversi. !

Corpora specialistici

I corpora specialistici servono per studiare gli usi linguistici in relazione sistematica ai contesti comunicativi propri delle diverse discipline e ad attività sociali codificate da una comunità d parlanti. Isola le strutture tipiche della comunicazione specialistica(uso del passivo, dei tempi). Il MICASE(Michigan Corpus of Academic Spoken English) ha posto le basi per i corpora successivi, contiene solo testi orali di varietà americana. Il contesto d’uso guida il campionamento dei testi classificati a seconda del tipo di evento discorsivo, legato alle diverse forme di interazione che hanno luogo all’università e delle caratteristiche del parlante. Il BASE(British Academic Spoken English) è la controparte britannica e facilita lo studio della comunicazione dal punto di vista del repertorio lessicale specialistico e non; è un avanzamento per la cultura multimediale dei dati in quanto comprende video di almeno una parte delle lezioni dei seminari.Il BAWE(British Academic Written English) si distingue per la natura pedagogica perché contiene solo testi prodotti da studenti di livello avanzato, stessa cosa il MICUSP(Michigan Corpus of Upper-Level Student Paper). Il CPE(Corpus of Professional English) è un grosso progetto di ricerca usato da professionisti nel campo della scienza, dell’ingegneria e della tecnologia. È una risorsa per la formazione linguistica dei professionisti di settore.!

Corpora e variazione diabetica

La lingua scritta ha caratterizzato i primi corpora, i corpora di solo parlato sono molto più recenti in quanto il parlato studiato va prima trascritto. Il potenziamento dei mezzi informatici che consentono di passare più velocemente dall’orale alla sua trascrizione tramite sistemi di riconoscimento vocale hanno contribuito marginalmente allo sviluppo di corpora di parlato. Più che altro si tratta di una naturale evoluzione della ricerca verso una maggiore complessità e specializzazione. !

Corpora di scritto

Il BROWN è limitato a testi del 1961, ma è servito come modello ad altri corpora particolarmente a LOB per l’inglese britannico e due aggiornamenti sull’inglese degli anni Novanta il FROWN e il FLOB sviluppati in Germania e rappresentano l’inglese americano e britannico. Più recenti sono il BLOB-1901 e il BLOB-1931 e infine il B-BROWN...


Similar Free PDFs