Elementi di Statistica descrittiva e inferenziale PDF

Title Elementi di Statistica descrittiva e inferenziale
Course Statistica
Institution Università degli Studi di Urbino Carlo Bo
Pages 23
File Size 1.2 MB
File Type PDF
Total Downloads 94
Total Views 137

Summary

Elementi di Statistica descrittiva e inferenziale Montanari RIASSUNTO...


Description

LA STATISTICA DESCRITTIVA E LA STATISTICA INFERENZIALE Negli ultimi anni i metodi statistici hanno assunto un ruolo sempre più importante nel settore socio-sanitario e in particolare in quello della ricerca medica. L'esigenza principale è quella di trattare e interpretare una grossa mole di dati messi a disposizione dagli operatori sanitari e dal continuo progresso tecnologico. Dati quantitativi e qualitativi che se elaborati rapidamente e con le opportune metodiche statistiche, permettono di eseguire delicate sperimentazioni cliniche, di pianificare interventi di prevenzione, profilassi e cura sul territorio migliorando la qualità delle azioni e consentendo una precisa analisi e valutazione dei risultati conseguiti. Possiamo dividere il nostro corso in due ambiti generali: quello della STATISTICA DESCRITTIVA e quello della STATISTICA INFERENZIALE La STATISTICA DESCRITTIVA è quel filone della Statistica in cui il fenomeno studiato si riferisce all'intera comunità di individui in cui tale fenomeno si manifesta. Ovvero viene studiato un carattere della popolazione attraverso l'osservazione e la descrizione della "popolazione statistica" nel suo insieme(Ad esempio descrizione delle nascite, delle morti, diplomati laureati ecc.) La STATISTICA INFERENZIALE invece si basa sullo studio del "campione". Il fenomeno oggetto dell'osservazione viene studiato, cioè, non attraverso l'analisi di tutta la popolazione ma attraverso l'osservazione di una parte più piccola di essa che sia sufficientemente rappresentativa. I dati così rilevati vengono poi riferiti all'intera popolazione attraverso dei processi induttivi. Le variabili Gli elementi appartenenti ad una popolazione che viene sottoposta ad osservazione prendono il nome di unità Statistiche (ogni bambino nato). Le caratteristiche di ogni unità statistica (ad esempio il sesso, l'altezza, il peso) vengono definite CARATTERI dell'unità statistica o VARIABILI. Le VARIABILI possono essere di tipo QUALITATIVO o QUANTITATIVO. Le VARIABILI o CARATTERI di tipo QUALITATIVO sono ad esempio il sesso (maschio, femmina), la nazionalità (italiana, straniera) e vengono quindi definiti da degli aggettivi a cui può essere assegnato un codice numerico (ad es. nati da parto naturale = 1, nati da parto cesareo = 0). Le variabili QUANTITATIVE sono riferite ad intensità misurabili ad esempio l'età o l'altezza. Le variabili quantitative si dividono a loro volta in discrete e continue. L'età appartiene alla categoria delle variabili discrete perché può assumere un numero finito di valori rappresentabile da numeri naturali mentre l'altezza è un carattere di tipo continuo perché può assumere anche valori compresi in un intervallo e è rappresentata attraverso numeri reali. Le scale di misura Le OPERAZIONI che si possono eseguire sulle variabili dipende dalla "scala" con cui sono "misurabili". La scala di MISURA più semplice è quella NOMINALE che permette di effettuare solo relazioni di uguaglianza (ad es. di due gruppi sanguigni si può solo dire se sono uguali o diversi). La scala di MISURA ORDINALE può essere utilizzata solo se le variabili qualitative possono essere ordinate in base a qualche criterio. In questo caso, oltre all'uguaglianza, risultano definite anche le relazioni di maggioranza (ad es. il titolo di studio che può essere uguale o maggiore o minore di un altro). La SCALA ad INTERVALLI oltre che per ordinare i dati può essere utilizza per determinare degli intervalli (ad esempio i voti di un esame 18-22, 23-26, 27-30). La SCALA DI MISURA di RAPPORTI può essere infine utilizzata per tutte le operazioni algebriche (1/3, 1/5, ...) Prova a rispondere alle seguenti domande * L'altezza è una variabile qualitativa nominale? SI / NO * Quale delle seguenti variabili è quantitativa! - Numero dei divorzi in una nazione - Stato civile - Livello di istruzione * Quale delle seguenti variabili è quantitativa continua? - Numero dei figli - Altezza - Età * Quale delle seguenti variabili è qualitativa? - Peso

- Gruppo sanguigno - Altezza

LA RAPPRESENTAZIONE DEI DATI Un modo di rappresentare in modo sintetico una grande quantità di dati è la DISTRIBUZIONE DI FREQUENZA. La distribuzione può essere organizzata in tabelle a due entrate in cui da un lato si riportano i valori che la variabile può assumere e dall'altro il numero di volte che la variabile ha assunto uno stesso valore. es. distribuzione di frequenza dei sessi in una classe scolastica

Questo nel caso in cui la variabile sia di tipo qualitativo. Nel caso, invece, in cui la variabile sia di tipo quantitativo, la distribuzione di frequenza si ottiene suddividendo i dati in intervalli di ampiezza uguale, detti CLASSI. es. distribuzione di frequenza delle altezze degli studenti in una classe scolastica

Con una variabile di tipo quantitativo, il problema che si pone è quello della scelta del numero di classi e della loro ampiezza. Anche se si possono trovare regole per determinare il numero e l'ampiezza delle classi preferiamo dare delle regole generali derivate dall'esperienza diretta. E' perciò opportuno fissare un numero di classi compreso tra 10 e 20 tutte con uguale ampiezza. Gli estremi della classe si chiamano CONFINI e si calcolano facendo la semisomma fra il limite superiore della classe precedente e il limite inferiore della classe considerata. es. se abbiamo le seguenti due classi di età 11- 20 e 21 -30 il confine tra le due classi è dato da (20+21)/2=20.5 La numerosità di ciascuna classe è detta FREQUENZA ASSOLUTA della classe. La FREQUENZA RELATIVA della classe è data, invece, dal rapporto tra la frequenza assoluta della classe e il numero totale di osservazioni.

La distribuzione di frequenza può essere rappresentata graficamente attraverso un ISTOGRAMMA. es. rappresentazione grafica della DISTRIBUZIONE di FREQUENZA dell'esempio precedente

Prova a rispondere alle seguenti domande: * Relativamente alla distribuzione precedente indicare - Il numero inferiore dalla seconda classe - Il limite superiore della terza classe - L'ampiezza delle classi - La frequenza assoluta della quarta classe - La frequenza relativa della seconda classe (in percentuale) Gli indicatori di tipo posizionale Si definisce MEDIA ARITMETICA di un insieme di n valori per il numero dei valori. La media aritmetica viene descritta con il simbolo

la sommatoria degli n valori diviso . In formula

Qualora i dati siano organizzati in una distribuzione di frequenza la formula si trasforma in:

Dove m è il numero di classi in cui è divisa la variabile osservata è il valore centrale della classe e frequenza della classe i-esima. Prova a rispondere alle seguenti domande: * Calcolare la media aritmetica dei seguenti valori: 7, 9, 13, 15, 19 * Calcolare la media aritmetica della distribuzione di frequenza dell'esempio precedente:

è la

LA MODA, LA MEDIANA E I QUANTILI

La Moda In una distribuzione di n osservazioni il valore che si presenta con maggiore frequenza vien definito MODA. Prova a rispondere alle seguente domanda: * Trovare la MODA delle seguenti 10 osservazioni: 3,5,9,11,9,7,5,3,9,1 Nel caso di una distribuzione di frequenza la CLASSE MODALE rappresentata dalla classe con maggiore frequenza. La MODA vera e propria è invece determinata dalla seguente formula:

dove:

è il limite inferiore della classe MODALE

è la differenza tra la frequenza modale e quella della classe immediatamente inferiore è la differenza tra la frequenza MODALE e quella classe immediatamente superiore C ampiezza della CLASSE MODALE Prova a rispondere alle seguente domanda: * Calcolare la MODA della distribuzione di frequenza dell'esempio Età dei pazienti in un reparto specialistico:

La Mediana La media aritmetica può essere sensibilmente influenzata da valori estremamente alti e/o estremamente bassi. Un indicatore di tipo posizionale che non risente degli estremi dalla distribuzione è la MEDIANA. Per il calcolo della mediana, le osservazioni devono essere ordinate in senso crescente. Se il numero di osservazioni è dispari LA MEDIANA è il valore centrale, ovvero quello che lascia alla sua destra ed alla sua sinistra lo stesso numero di osservazioni. Nel caso che il numero di osservazioni sia pari la mediana è data dalla

media aritmetica dei due valori centrali. Dati i seguenti 7 valori per calcolare la mediana occorre ordinare i dati in ordine crescente. essendo dispari il numero delle osservazioni la mediana sarà il quarto valore (8) che lascia alla sua ds e alla sua sn lo stesso numero di osservazioni (tre). esempio 27, 30, 21, 25, 19, 31 per calcolare la mediana di questa serie di osservazioni dobbiamo, prima di tutto, ordinarle in ordine crescente. 19, 21, 25, 27, 30, 31 in questo caso n = 6 è pari, la MEDIANA è quindi data dalla media aritmetica dei due valori centrali 25 e 27. Quindi MEDIANA = 26 Se i dati sono raggruppati in una distribuzione di frequenza o raggruppati in classi, la mediana è data da:

dove: = limite inferiore della classe mediana n = frequenza totale = sommatoria di tutte le classi inferiori alla MEDIANA = frequenza della classe mediana c = ampiezza della classe mediana esempio data la seguente tabella di distribuzione di frequenza delle età di un gruppo di pazienti, calcoliamo l'età mediana :

- la frequenza più alta è quella della quarta classe che viene detta classe MEDIANA Prima di applicare la formula assegniamo i valori ai vari termini:

Quantili Un altro modo per descrivere un insieme di dati sperimentali di tipo quantitativo è quello dei QUANTILI. Una volta ordinati i dati in ordine crescente, si dividono in quattro parti uguali definiti QUARTILI. Il primo e il terzo quartile delimitano il 25% e il 75% dei dati, mentre il secondo quartile corrisponde al 50% delle osservazioni e coincide con la MEDIANA. Se si dividono i dati in 10 parti, i valori corrispondenti a ciascuna parte vengono definiti DECILI. Il quinto decile corrisponde alla MEDIANA. Se le divisioni sono 100 prendono il nome di PERCENTILI e in questo caso la mediana corrisponderà al 50° percentile. Ambiguità nel calcolo di un quantile Un valore con le proprietà richieste ad un quartile può non essere unico. Vediamo i seguenti esempi: Prendiamo una sequenza di dati già ordinati in ordine crescente 6,4 6,7 6,8 7,0 7,3 7,5 7,6 7,9 8,1 Calcoliamo prima la mediana che come abbiamo detto è data dalla media dei due valori centrali ovvero

Calcoliamo ora il valore del primo e terzo quartile (abbiamo visto che secondo quartile e mediana coincidono). Il primo quartile dovrebbe lasciare sulla SN il 25% delle osservazioni. Essendo le osservazioni dieci il 25% è quindi pari a 2,5. Non potendo definire due osservazioni e mezzo possiamo procedere in due modi: Così come per la mediana possiamo interpretare "lasciare a SN 2,5 osservazioni" come posizionarsi nel valore intermedio tra il secondo e il terzo ovvero 1° quartile

Analogamente il terzo quartile assumerà il valore di 7,75 ovvero il valore intermedio tra la settimana e l'ottava osservazione. L'altra soluzione è quella di considerare il primo quartile come quello che divide le osservazioni a sinistra dalla mediana in due parti uguali. Quindi avendo a sinistra della mediana 5 osservazioni possiamo considerare 6,8 il primo quartile analogamente assegneremo al terzo quartile il valore di 7,6. Entrambe le soluzioni proposte sono valide e tale problema tende a ridursi all'aumentare del numero di osservazioni. Quando queste sono infatti maggiormente addensate la differenza tra i due valori tende a diminuire.

INDICATORI DI VARIABILITA’, INDICATORI DI DISPERSIONE Questo tipo di indicatori servono a capire quanta dispersione c'è intorno alla MEDIA ARITMETICA di un insieme di osservazioni ovvero, in altre parole, quanto siano disposti intorno alla MEDIA i valori osservati. Uno di questi indici è il CAMPO DI VARIAZIONE , ovvero la differenza tra l'osservazione più grande e quella più piccola. esempio: il campo di variazione dei seguenti valori 7, 12, 15, 18, 25, 37 è 37 - 7 = 30 Un altro indice di variabilità è dato dallo SCOSTAMENTO SEMPLICE MEDIO dalla media definito come:

la differenza tra le singole osservazioni e la media deve essere calcolata con i valori assoluti (senza tenere quindi conto dell'eventuale segno meno). esempio: dati i valori 12, 18, 20, 22, 28 per calcolare lo SCOSTAMENTO SEMPLICE MEDIO dobbiamo innanzi tutto calcolare la media aritmetica

Poi applicare la formula:

Se lo SSM si applica a osservazioni associate a frequenze

es.: data la seguente distribuzione di frequenza per classi di età

la formula si trasforma in:

come primo passo dobbiamo calcolare la media aritmetica utilizzando nel caso della distribuzione in classi il valore centrale di ciascuna classe.

Un indicatore di variabilità analogo al precedente ma che risolve il problema del segno anziché con il valore assoluto con l'elevamento al quadrato è la VARIANZA. Dato un gruppo di n osservazioni si definisce VARIANZA la seguente quantità:

es.: per calcolare la varianza della seguente serie di osservazioni 3, 4, 6, 7, 2, 8 si deve procedere prima di tutto a calcolare la media aritmetica

la varianza sarà quindi:

Se i dati sono raggruppati in una distribuzione di frequenza la varianza è data da:

dove m è il numero di classi, fi è la frequenza della classe i-esima e xi è il valore centrale della classe. esempio:

Calcoliamo prima la media aritmetica

Alcune considerazioni La varianza quindi ci dà la possibilità di valutare la "DISPERSIONE" dei dati intorno alla media. Infatti, trovandoci di fronte a due risultati di una indagine statistica come quelli qui sotto riportati: 1° risultato 5, 4, 5, 4, 2, 4 su di questo calcoliamo la media aritmetica ed otteniamo:

come possiamo vedere ad "occhio nudo" in questo caso i dati si distribuiscono intorno alla media "non c'è dispersione" infatti la VARIANZA

Ma se prendiamo il seguente 2° risultato della stessa indagine 2° risultato 8, 10, 2, 2, 1, 1 abbiamo sempre la stessa media aritmetica

ovvero molto superiore rispetto a quella dell'esempio precedente. Questo ci deve far riflettere sulla natura dei risultati ottenuti che, pur avendo la stessa media, possono differire enormemente gli uni dagli altri. Se, infatti, pensiamo che quelle sopra riportate sono le età dei bambini ricoverati in un reparto di pediatria in due settimane diverse, dire che nel reparto ci sono stati in media bambini di 4 anni di età può essere assai significativo nel primo caso, mentre sarebbe completamente privo di senso nel secondo caso. Deviazione standard o Scarto quadratico La VARIANZA grazie all'elevamento al quadrato risolve il problema del segno, infatti per definizione la sommatoria degli scostamenti dalla media darebbe sempre come risultato zero. esempio: 5, 4, 5, 4, 2, 4

dall'altro però ci fornisce un valore che da un punto di vista dell'unità di misura è il QUADRATO rispetto a quello originale. Nell'esempio precedente, infatti, se la media è pari a 4 anni, la VARIANZA è espressa rispettivamente in 1 e 13 anni2 (anni al quadrato). Per riportare quindi la VARIANZA allo stesso ordine di grandezza, è sufficiente porre la VARIANZA sotto radice quadrata:

tale valore prende il nome di DEVIAZIONE STANDARD o SCARTO QUADRATICO MEDIO in caso di dati raggruppati avremo:

esempio: in un reparto audiologico viene condotto uno studio epidemiologico su un campione di cittadini di età che varia tra 3 e 51 anni. Viene riportato in tabella il relativo numero di ipoacusie di tipo trasmissivo riscontrate:

N. di ipoacusie totali = 246 Calcolare per questo campione: 1) la media aritmetica delle ipoacusie 2) lo scostamento semplice medio dalla media 3) la varianza 4) la deviazione standard o scarto quadratico medio 1) la media aritmetica è data da:

dove sono i valori centrali di età e quindi 6, 13, 20, 27, 34, 41, 48 che devono essere moltiplicati per le relative frequenze

2) lo scostamento semplice medio dalla media:

3) la varianza

4) la deviazione standard o scarto quadratico medio

ELEMENTI DI CALCOLO DI PROBABILITA’ Introduciamo il concetto di probabilità con un esempio: Sottoponiamo cinquanta pazienti ad una terapia che chiamiamo di tipo A e trattiamo un gruppo della stessa numerosità con una terapia di tipo B. Se i pazienti trattati con A al termine della terapia stanno meglio di quelli trattati con B posso affermare che la terapia A è migliore della terapia B? Il medico in futuro userà la terapia A o B? La risposta, come sempre in statistica, ha un certo grado di incertezza. Il grado di incertezza può essere nel prendere una decisione può essere misurato attraverso la teoria del Calcolo delle Probabilità. Lancio della moneta

Prendiamo come esempio introduttivo il lancio di una moneta in aria e analizziamo il risultato di testa o croce. La serie di lanci in aria della moneta viene chiamata sequenza o serie casuale. Ogni lancio effettuato viene definito prova, mentre il risultato finale di testa o croce viene detto evento o risultato. Una serie casuale è caratterizzata dalla irregolarità o imprevedibilità del risultato. La probabilità che esca Testa o Croce è sempre la stessa e non è mai influenzata dal risultato precedente. Più il numero dei lanci o prove aumenta, più la frequenza dei risultati diventa meno variabile. Ovvero, il numero di risultati "testa" e quello dei risultati "croce" tende a uguagliarsi all'aumentare dei lanci. La frequenza relativa di lungo periodo è detta probabilità dell'evento. Nel caso del lancio della moneta tale frequenza è pari a 1/2 ovvero 0,5 altri esempi: - lancio di un dado: la probabilità di uscita di una qualunque delle sei facce del dado è pari a 1/6 ovvero ,016 - il sesso dei nati (vivi): in una popolazione molto numerosa la probabilità che nasca un maschio o una femmina è circa uguale a 1/2 ovvero 0,5. La probabilità viene quindi espressa con un numero che varia da 0 a 1 Se un evento non si verifica mai, la probabilità di quel risultato è zero Se un evento si verifica sempre, la probabilità che quel risultato si verifchi è 1. Tramite il concetto di probabilità si misura quindi il grado di incertezza di un fenomeno. Per gli esempi fatti, più la probabilità si avvicina a 0,5 più il risultato del fenomeno è incerto. Eventi combinati Come cambia la probabilità quando gli eventi si sommano tra di loro? Qual'è ad esempio la probabilità, durante i lanci di un dado, che esca il numero uno o il numero tre? La probabilità di uscita di ogni singola faccia abbiamo visto che è pari a 1/6 i due eventi (1 o 3) non si possono verificare contemporaneamente quindi la probabilità che ad un lancio del dado possa uscire la faccia 1 o la faccia 3 è data dalla somma delle singole probabilità: 1/6+1/6=2/6=1/3 tale evento viene definito come mutamente esclusivo. Vediamo invece cosa succede nel caso di eventi simultanei: Ad esempio quale è la probabilità che lanciando contemporaneamente un dado e una moneta escano il numero cinque e testa? In questo caso si tratta di calcolare la probabilità congiunta: P(Testa e 5) = P(T) x P(5) La probabilità P(Testa) = 1/2 La probabilità P(5) = 1/6 La probabilità congiunta è quindi P(Testa e 5) = 1/2 x 1/6 = 1/12 = 0,083 Prendiamo invece ad esempio un calcolo di probabilità non mutuamente esclusivo: Poniamo ad esempio che al Policlinico delle Scotte a probabilità di incontrare un medico maschio sia pari a 0,6 e la probabilità di incontrare un medico che si è laureato a Siena sia di 0,8. Qual'è allora la probabilità di incontrare un medico maschio laureatosi a Siena? Verrebbe da dire 0,6+0,8 ma la somma sarebbe 1,4 e come abbiamo visto la probabilità di un evento non può essere superiore a 1. I due eventi infatti non sono mutuamente esclusivi, ovvero il verificarsi di uno non esclude il verificarsi dell'altro. La formula generale in questi casi è la seguente: P(A o B o entrambi)= P(A)+P(B)-P(AeB) Siamo in grado quindi di calcolarci la probabilità di incontrare un medico maschio laureatosi a Siena? Poniamo med...


Similar Free PDFs