Biostatistica PDF

Title Biostatistica
Author cecilia zerbinati
Course Biostatistica
Institution Università degli Studi di Ferrara
Pages 125
File Size 6.1 MB
File Type PDF
Total Downloads 757
Total Views 879

Summary

STATISTICA E CAMPIONILo studio degli esseri viventi è difficile perché: - non esistono due individui della stessa popolazione uguali; - non siamo mai in grado di misurare ogni individuo presente nella popolazione , infatti si studiano campioni di individui di una popolazione (per effetto del caso le...


Description

STATISTICA E CAMPIONI Lo studio degli esseri viventi è difficile perché: • non esistono due individui della stessa popolazione uguali; • non siamo mai in grado di misurare ogni individuo presente nella popolazione, infatti si studiano campioni di individui di una popolazione (per effetto del caso le proprietà del campione non sono mai uguali a quelle della popolazione).

CHE COS’È LA STATISTICA? La statistica è una disciplina che permette di descrivere e misurare diversi aspetti della natura basandosi su campioni. • Consente di quantificare l’incertezza di queste misure, ovvero di determinare la probabile entità del loro scostamento dal valore vero. • È lo studio scientifico dei dati, raccolti o ottenuti in un esperimento, al fine di descrivere un fenomeno, di interpretarlo e di scegliere tra ipotesi alternative. La statistica si occupa del processo di stima con cui viene inferita (= stimata) una grandezza incognita di una popolazione usando i dati campionari, cioè provenienti da un campione e permette di valutare le differenze tra gruppi e le relazioni tra variabili. • Tutte queste grandezze che descrivono la popolazione (medie, proporzioni, misure di variazione e misure di relazione) sono dette parametri. NB: il parametro è una grandezza che descrive una popolazione, mentre la stima del parametro è una grandezza correlata calcolata sulla base di un campione. Il parametro è il valore vero, mentre la stima è una approssimazione del valore vero soggetto a errore. La statistica serve anche per: • ragionare su come raccogliere dati in natura o attraverso esperimenti in laboratorio, ovvero per definire le buone pratiche di disegno dell’esperimento e di strategia del campionamento (è una fase cruciale); • riassumere e rappresentare graficamente i dati raccolti (distinzione tra statistica descrittiva e statistica inferenziale). Inoltre, la statistica si occupa della verifica delle ipotesi (o test delle ipotesi), un processo che permette di valutare se un’ipotesi nulla che riguarda una popolazione sia compatibile con i dati osservati dal campione. • L’ipotesi nulla (o ipotesi zero) è una particolare affermazione sul parametro della popolazione; viene formulata ai fini del ragionamento e rappresenta spesso il punto di vista scettico. Serve per capire quanto il caso abbia condizionato la nostra ipotesi (es: il nuovo farmaco non è migliore del precedente (ovvero, la velocità di guarigione non è cambiata). o Quando viene rifiutata un’ipotesi nulla allora si accetta un’ipotesi alternativa. La statistica permette anche di quantificare l’incertezza dovuta al fatto che riesco solo ad analizzare campioni e non popolazioni. La biostatistica è la statistica applicata alle aree biologiche e i dati provengono da organismi viventi, che sono altamente variabili.

La statistica si divide in: • descrittiva: viene utilizzata per riassumere e rappresentare i dati; • inferenziale: ci permette di generalizzare, con un certo grado di sicurezza, le conclusioni suggerite dall’analisi dei dati raccolti.

CAMPIONARE LE POPOLAZIONI La capacità di ottenere misure affidabili delle caratteristiche delle popolazioni, e di valutare l’incertezza di queste misure, dipende da come si campionano le popolazioni stesse. Spesso in questa fase iniziale dell’indagine viene segnato, nel bene o nel male, il destino di uno studio. Esempio: Whitney e Mehlhaff hanno presentato i risultati ottenuti studiando le lesioni che avevano riportato alcuni gatti precipitando degli edifici di New York da diverse altezze. Osservando i risultati, non sorprende trovare che i gatti caduti dal quinto piano riportino più lesioni rispetto a quelli precipitati dal secondo, e che ai gatti caduti dal settimo o ottavo piano vada ancora peggio. Ma il risultato stupefacente è che oltre queste altezze le cose sembrano migliorare. In media il numero di lesioni si riduce nei gatti precipitati da un’altezza superiore al nono piano, e questo risultato è riscontrabile anche analizzando separatamente diverse categorie di lesioni. Il numero di lesioni si avvicina a quello osservato in gatti caduti da un’altezza di soli 2 piani, mentre un gatto precipitato da un’altezza di 32 piani dopo la caduta si è allontanato sulle sue zampe riportando soltanto la scheggiatura di un dente. Questo effetto non può essere attribuito alla capacità degli animali di raddrizzarsi in modo da atterrare sulle zampe: a un gatto è sufficiente meno di un piano per farlo. Gli autori dell’esperimento hanno una spiegazione più sorprendente: dopo aver raggiunto la velocità limite di caduta (avviene con una caduta da un’altezza di 6 o 7 piani), il gatto si rilassa e il cambiamento dei suoi muscoli ammortizza l’impatto con il suolo. • Per quanto questi risultati appaiano notevoli, vari aspetti della procedura di campionamento sollevano dubbi. Un indizio è fornito dalla dimensione (detta anche numerosità) campionaria per ciascuna altezza di caduta; si tratta del numero di gatti caduti da un particolare piano, indicato tra parentesi lungo l’asse orizzontale nella figura. Nessun gatto è caduto dal primo piano e il numero di gatti precipitati aumenta all’aumentare del numero di piani. • Un forte sospetto è che non tutti i gatti siano stati visitati da un veterinario e che la probabilità che un gatto sia visitato dipenda dal numero di paini da cui è caduto. Questo esempio illustra i tipi di problemi di interpretazione che insorgono se i campioni sono distorti (cioè, affetti da distorsione o bias). • Se il campione di gatti portati nell’ambulatorio veterinario è, come si sospetta, un sottoinsieme distorto di tutti i gatti che sono caduti, allora anche la analisi sulla distribuzione delle lesioni in funzione dell’altezza saranno distorte.

POPOLAZIONE E CAMPIONI Il primo passo nella raccolta di dati biologici di qualsiasi tipo è decidere quale sia la popolazione da campionare.



Una popolazione è l’intero insieme di individui o di unità che interessano ad un ricercatore; è costituita da un gran numero di individui, infatti si suppone che la popolazione sia infinitamente grande.

Esempio: • tutti i gatti caduti dagli edifici di New York; • tutti i geni del genoma umano; • tutti gli individui maggiorenni in Australia; • tutto i serpenti volanti del paradiso nel Borneo; • tutti i bambini asmatici di Milano. Un campione è l’insieme molto più piccolo di individui selezionati dalla popolazione; il ricercatore usa il campione per trarre conclusioni che siano possibilmente valide per l’intera popolazione. Esempio: • i gatti caduti portati in un singolo ambulatorio in un certo intervallo di tempo; • 20 geni umani; • un pub in Australia frequentato da maggiorenni; • 8 serpenti volanti del Borneo; • 50 bambini asmatici a Milano. NB: a volte si usa come unità fondamentale il gruppo di individui quando un campione è costituito da un insieme di unità (e s: singola famiglia, una colonia di microrganismi, un acquario di pesci).

CAMPIONAMENTO DELLA POPOLAZIONE Le stime basate sui campioni si discostano dalle caratteristiche vere della popolazione semplicemente per effetto del caso. • Questa differenza rispetto al valore vero è detta errore di campionamento ed è la differenza dovuta al caso tra una stima e il parametro della popolazione che viene stimato. • La dispersione delle stime dovute all’errore di campionamento indica la precisione di una stima: più piccolo è l’errore di campionamento, più alta è la precisione. o I campioni più grandi saranno affetti da errori di campionamento inferiori e permetteranno una precisione più alta delle stime. Stimando molte volte un parametro ci aspettiamo che la media delle stime sia concentrata sul parametro stesso, cioè sul valore vero nella popolazione. In questi casi la stima è detta stima corretta (o non distorta o non affetta da bias). Se il campionamento non è effettuato correttamente, oppure lo strumento (anche matematico) per calcolare la stima non è adeguato, si potrebbe incorrere in una sottostima o sovrastima sistematica dal parametro della popolazione. • Questo è un secondo tipo di errore a cui può essere soggetta una stima ed è chiamato distorsione (o bias). È una discrepanza sistematica fra le stime e il valore vero della caratteristica della popolazione. Esempio: • piante raccolte solo sul bordo della strada; • stime basate su sondaggi telefonici;

• •

dimensioni medie di una specie di pesci catturati con reti da pesca con maglie troppo grandi; campionamenti in aree non rappresentative.

NB: l’obiettivo che si vuole raggiungere con un buon campione è quello di ridurre al minimo l’errore di campionamento e la distorsione delle stime. Esempio: la figura illustra gli obbiettivi (riportati nel NB) utilizzando un’analogia con il tiro al bersaglio. • Ogni punto rappresenta una stima del “centro del bersaglio” della popolazione (cioè della caratteristica vera). • Il centro del bersaglio rappresenta il parametro che si cerca di stimare. • I diversi “tiri” al bersaglio rappresentano tanti ipotetici campionamenti. In una situazione di stima favorevole tutte le stime basate su campioni dello stesso tipo sono molto vicine (= basso errore di campionamento) e sono localizzate intorno al centro del bersaglio (= bassa distorsione). Le stime sono imprecise se sono disperse, e sono distorte se sono spostate sistematicamente su un lato rispetto al centro del bersaglio. • Le stime in alto a sinistra sono corrette e precise. • Le stime in alto a destra sono corrette e imprecise perché sono ampiamente disperse, ma centrate sul bersaglio. • Le stime in basso a sinistra sono raggruppate non in prossimità del centro del bersaglio, quindi si dice che le stime sono precise ma distorte. NB: i dati che analizziamo, cioè il nostro campione, possono essere osservazioni (es: alberi sui quali misuro il tasso fotosintetico) o frutto di esperimenti (es: lo stato di salute dei pazienti trattati o meno con un farmaco) e devono essere rappresentativi della popolazione; se non lo sono il campione è distorto (o affetto da distorsione o bias).

CAMPIONAMENTO CASUALE Un campione casuale è un campione estratto da una popolazione che soddisfa due criteri: • la popolazione deve avere un’uguale probabilità di essere inclusa nel campione; • la selezione delle unità deve essere indipendente, cioè l’inclusione nel campione di un qualsiasi individuo della popolazione non deve influenzare in alcun modo l’inclusione di un altro individuo. o In caso di campionamento non indipendente, la dimensione campionaria è in effetti più piccola di quanto si ritenga, con la conseguenza che la precisione della stima viene sopravvalutata. NB: il campionamento casuale riduce al minimo la distorsione e permette di quantificare l’errore di campionamento. I campioni casuali pur essendo molto ambiti, spesso non sono disponibili per i biologi che operano nel campo.

COME OTTENERE UN CAMPIONE CASUALE 1. Creare una lista che includa ogni unità della popolazione di interesse e assegnare a ogni unità un numero compreso tra 1 e la distribuzione totale (numero di individui) della popolazione. 2. Decidere il numero di unità da campionare (chiamato n). 3. Usando un generatore di numeri casuali, generare n numeri interi compresi tra 1 e il numero totale di unità nella popolazione. 4. Campionare le unità i cui numeri coincidono con quelli prodotti dal generatore di numeri casuali. Esempio: nelle due figure sono state indicate la posizione di tutti i 5699 alberi presenti in un tratto accuratamente mappato della Harvard Forest, una delle foreste più antiche e più studiate nel Nordamerica. Ogni albero presente in questa popolazione è identificato da un numero compreso tra 1 e 5699. È usato un generatore di numeri casuali (= software specifico) per scegliere n = 20 numeri casuali compresi tra 1 e 5699, dove 20 è la dimensione campionaria desiderata. I 20 numeri interi casuali, dopo l’ordinamento, sono: 156, 167, 232, 246, 826, 1106, 1476, 1968, 2084, 2222, 2223, 2284, 2898, 3103, 3739, 4315, 4978, 5258, 5500 (indicati con i punti nella parte sinistra della figura). • La creazione di una lista numerata di ogni singolo individuo di una popolazione sarebbe possibile per pazienti registrati in un database ospedaliero o per qualche altra popolazione per la quale è disponibile un registro. Questa procedura è difficilmente attuabile per la maggior parte delle popolazioni di piante ed è inimmaginabile per la maggior parte delle popolazioni di animali o di microrganismi. o L’unità fondamentale di campionamento non deve essere necessariamente un singolo individuo, ma può essere un gruppo. È più facile usare una mappa per dividere un tratto di foresta in molte aree di uguali dimensioni, dette anche plot, e poi creare una lista numerata di questi plot, piuttosto che produrre una lista numerata di ogni albero. • È stata suddivisa l’area di Harvard Forest in 836 plot di 400 piedi quadrati (37 m 2) ciascuno e mediante un generatore di numeri casuali, si è identificato un campione casuale di 20 plot (indicati con i quadrati nella parte destra dell’immagine). o Gli alberi contenuti in un campione casuale di plot non costituiscono un campione casuale di alberi e gli alberi presenti nello stesso plot non sono campionati in modo indipendente. In questo caso i dati devono essere trattati attentamente. o Una tecnica consiste nel calcolare la media delle misure di tutti gli individui entro una certa unità e utilizzare questa media come osservazioni indipendente per quell’unità.

CAMPIONE DI CONVENIENZA Un’alternativa al campione casuale è il campione di convenienza, cioè l’insieme di tutti gli individui facilmente disponibili al ricercatore.



I ricercatori sono obbligati ad assumere che il campione di convenienza non sia distorto e sia indipendente, come un campione casuale.

Il problema principale è la presenza di distorsione e c’è una probabilità che violi anche l’ipotesi dell’indipendenza se gli individui presenti nel campione fossero più simili l’un l’altro di quanto siano gli individui scelti casualmente dall’intera popolazione. Esempio: il numero di lesioni subite dai gatti che cadono dai cornicioni tende a essere sottostimato, o sovrastimato, rispetto a un campione casuale, se misurato soltanto sui gatti ospedalizzati.

DISTORSIONE INTRODOTTA DAL VOLONTARIO La distorsione introdotta dal volontario (o bias del volontario) è la distorsione derivante da una differenza sistematica tra il pool di volontari ( = campione di volontari) e la popolazione a cui appartengono. • Il problema insorge quando il comportamento dei soggetti influenza la possibilità che vengano campionati. Esempio: in un grande esperimento per testare i benefici di un vaccino antipoliomielite, gli scolari che hanno partecipato al test sono stati scelti casualmente, ricevendo il vaccino oppure una soluzione salina (come controllo). Il vaccino si è dimostrato efficace, ma il tasso a cui i bambini del gruppo di controllo (quelli che avevano ricevuto la soluzione salina) si sono ammalati di poliomielite è stato superiore rispetto a quello della popolazione generale. Forse i genitori che non erano stati esposti a questa malattia prima dello studio, e che quindi non avevano acquisito immunità verso la poliomielite, erano più propensi a “offrire” i loro figli come volontari rispetto ai genitori dei bambini che invece erano già stati esposti al virus. In generale, quindi, rispetto al resto della popolazione, i volontari potrebbero: • essere più attenti alla propria salute e più intraprendenti; • avere un basso reddito se i volontari vengono retribuiti; • essere più malati (gli individui che stanno comunque per morire potrebbero essere spinti a tentare qualsiasi terapia); • avere più tempo a disposizione; • essere più arrabbiati (le persone sconvolte o agitate hanno una maggiore tendenza a parlare); • essere meno puritani (le persone con una mentalità più aperta hanno minor difficoltà a parlare).

TIPI DI DATI E VARIABILI La variabile è qualsiasi caratteristica o misura che può differire da individuo a individuo. • È una qualsiasi caratteristica che possiamo misurare o registrare in un’unità campionaria. o Generalmente le variabili sono indicate con lettere maiuscole e i valori che possono assumere con lettere minuscole. I dati sono i risultati grezzi delle misurazioni di una o più variabili effettuate su un campione di individui.

VARIABILI QUALITATIVE E VARIABILI QUANTITATIVE Le variabili qualitative (o dati categorici) descrivono caratteristiche che non possono essere misurate con un numero, ma che permettono di inserire gli elementi di un campione in una categoria o un gruppo (es: genotipo, modalità di trasmissione delle malattie, lingua parlata, gravità del morso di serpente, classe di dimensione). • Le variabili categoriche si dividono in: o nominali: quando le differenti categorie non hanno un ordine intrinseco, ma hanno solo un nome (es: genotipo dei cromosomi sessuali, modalità di trasmissione delle malattie, lingua parlata); o ordinali: quando i valori possono essere ordinati nonostante non siano rappresentabili su scala numerica (es: gravità del moroso di un serpente, classe di dimensione). Nelle variabili quantitative (o dati numerici) le misure degli individui sono associate a un valore di una scala numerica (es: temperatura corporea interna, area di un territorio, tasso di consumo di sigarette, numero di accoppiamenti durante la stagione riproduttiva, numero di amminoacidi in una proteina). • Le variabili numeriche si dividono in: o continue: possono assumere qualsiasi valore numerico reale in un certo intervallo di variazione. Tra due valori qualsiasi di una variabile continua possono essere infiniti altri valori e i dati sono arrotondati a un numero predeterminato di cifre (es: temperatura corporea interna, area di un territorio, tasso di consumo di sigarette); o discrete: si presentano come unità indivisibili ; sono spesso analizzate come se fossero continue se il numero dei valori possibili è grande (es: numero di accoppiamenti durante la stagione riproduttiva, numero di amminoacidi in una proteina).

VARIABILI RISPOSTA E VARIABILI ESPLICATIVE La statistica trova un impiego importante nel mettere in relazione una variabile con un’altra, esaminando le associazioni tra variabili e le differenze tra gruppi. • In termini statistici, misurare un’associazione equivale a misurare una differenza. Nell’analisi statistica si cerca spesso di prevedere una delle variabili, detta variabili risposta (o variabile dipendente), in base ad una seconda variabile, detta variabili esplicative (o variabile indipendente). Esempio: se si volesse esaminare la possibilità che l’ipertensione arteriosa causi un aumento del rischio di ictus, la pressione arteriosa è la variabile esplicativa e gli individui colpiti da ictus è la variabile risposta. NB: non sempre è possibile fare una distinzione tra variabile risposta ed esplicativa.

DISTRIBUZIONI DI FREQUENZA E DISTRIBUZIONI DI PROBABILITÀ Gli individui in un campione hanno generalmente diversi valori della grandezza analizzata. Si può notare questa variabilità considerando una distribuzione di frequenza.

• •

La frequenza di una misura in un campione è il numero di osservazioni di un determinato valore della misura. La distribuzione di frequenza è la rappresentazione del numero di volte che ogni valore di una variabile si osserva in un campione. o Si usa la distribuzione di frequenza di un campione per acquisire informazioni sulla distribuzione della variabile nella popolazione dalla quale il campione è stato estratto.

La distribuzione di una variabile in tutta la popolazione è detta distribuzione di probabilità. • Esistono parecchie distribuzioni di probabilità teoriche utili per approssimare le distribuzioni di frequenza che si incontrano nella vita reale. • Nel caso di una variabile continua, la distribuzione nella popolazione viene approssimata spesso con una distribuzione di probabilità teorica, detta distribuzione normale (o distribuzione di Gauss) è la “curva a campana” ed è forse la distribuzione di probabilità più importante di tutta la statistica.

TIPI DI STUDIO In biologia i dati si ottengono da uno studio sperimentale oppure da uno studio os...


Similar Free PDFs