Appunti Statistica PDF

Title Appunti Statistica
Course Probabilita' e statistica
Institution Università degli Studi di Verona
Pages 78
File Size 12.7 MB
File Type PDF
Total Downloads 86
Total Views 242

Summary

SESTA LEZIONE (slide lezione 5 con esempi da riguardare) Ampiezza di una classe:limite superiore - limite inferiore diviso numero di una classe Carattere quantitativo continuo: si sottrae metà del limite inferiore e si somma metà del limite superiore. Si fa così per ogni carattere continuo.LE STATIS...


Description

SESTA LEZIONE (slide lezione 5 con esempi da riguardare) Ampiezza di una classe:limite superiore - limite inferiore diviso numero di una classe Carattere quantitativo continuo: si sottrae metà del limite inferiore e si somma metà del limite superiore. Si fa così per ogni carattere continuo.

LE STATISTICHE Cosa è una statistica? Inteso come indice calcolato su un campione o un collettivo, è una funzione che associa a ciascun collettivo un indice numerico che rappresenta una particolare caratteristica di quel collettivo. Una statistica può anche essere la somma di un certo numero di dati all’interno di un collettivo. (la sommatoria di tutti i valori x-esimi). Numero delle classi di equivalenza (𝑁𝑑𝑒) È quella funzione che, relativamente ad una data variabile, associa all’insieme dei dati il numero dei valori distinti di tali dati, che corrisponde al numero di modalità della stessa variabile. Ad esempio, all’interno della variabile “Genere”, il numero di classi di equivalenza Nde sarà uguale a “2” (maschi e femmine). Come si può facilmente dedurre, il numero delle classi di equivalenza corrisponde al numero di livelli di una determinata variabile. Dato un campione di k elementi, la statistica Nde è quindi il numero delle classi di equivalenza presenti in un sistema empirico:

INDICI DI TENDENZA CENTRALE : sono delle medie (Moda, Mediana, Media) è l’argomento più importante! Moda (𝑀𝑜): media che usiamo quando la variabile è nominale, ma non solo. La moda è una media di posizione ed è il più semplice indicatore del centro di una distribuzione. Può essere calcolata per qualsiasi tipo di carattere, in particolare anche per i caratteri qualitativi discreti. È la modalità più frequente nel collettivo osservato. Formalmente, è quella funzione che associa, ad ognuno dei possibili campioni di k elementi, il dato che si presenta con maggior frequenza. ◦Ad esempio, in un campione di 9 misure {2, 5, 8, 2, 5, 3, 7, 5, 1} la moda è “5”, poiché il valore 5 appare più volte (in tutto tre), rispetto agli altri dati.

Limiti della moda Sebbene la moda indichi la modalità più frequente di una variabile, nulla però ci dice riguardo alle restanti modalità. Questo difetto può essere rilevante nei casi in cui il numero di unità che presentano modalità diverse dalla moda sia piuttosto elevato. Essa non può subire variazioni: ci da poche info, però è anche un aspetto positivo questo, perché è un indice di robustezza della statistica. Calcolo della moda per dati raggruppati in classi

Se la distribuzione del carattere è suddivisa in classi, abbiamo, al posto della moda, la classe modale, che è definita come la classe alla quale corrisponde la frequenza più alta. Se all’interno di essa vogliamo individuare un unico valore, si potrà prendere il valore centrale della classe, dato dalla semisomma (somma di due elementi diviso 2) dei valori estremi della classe stessa: ◦ ad es., la classe 10-20 avrà come valore centrale 𝒄 = 𝟏𝟎+𝟐𝟎 / 2 = 𝟏𝟓 Se la distribuzione possiede classi di diversa ampiezza (classe modale), occorre, come già visto per gli istogrammi di frequenze, dividere la frequenza delle classi per la loro ampiezza e confrontare tali quozienti: quello più grande individuerà la classe modale.

10 sta per densità di frequenza, come 3,75 e 11. Rapporto della frequenza diviso l’ampiezza della classe. Nel secondo caso è 40 perché l’ampiezza è 50 meno 10 che fa 40. Devo comportarmi così quando le classi hanno diversa ampiezza. Distribuzioni unimodali e bimodali Se rappresentiamo la distribuzione di frequenze in termini grafici, ad esempio mediante un istogramma di frequenze, la moda corrisponde al picco della distribuzione. Una distribuzione si dice unimodale se presenta un solo picco e bimodale se presenta due picchi di medesima altezza, ovvero due modalità o valori che presentano uguale frequenza massima. Mediana (𝑀𝑒) Una media più «robusta» della media aritmetica, ovvero meno sensibile ai valori estremi, che può essere calcolata anche sui caratteri qualitativi (a patto che siano ordinabili), è la mediana. Per le distribuzioni in cui si possono presentare valori estremi molto grandi o molto piccoli, infatti, questo indice è decisamente preferibile: ◦ redditi ◦ investimenti ◦ consumi Formalmente, dato un campione di k elementi, la mediana (𝑀𝑒) è il dato che occupa la posizione centrale nell’insieme dei dati stessi una volta che essi siano stati disposti in ordine crescente (o decrescente).

La mediana (𝑀𝑒) di un insieme di unità ordinate (secondo un carattere ordinabile) è la modalità presentata dall’unità centrale, dove per unità centrale si intende quell’unità che divide il collettivo in due parti di uguale numerosità: ◦una parte formata dalle unità che presentano una modalità precedente o uguale a quella dell’unità centrale e una parte formata dalle unità che presentano una modalità successiva o uguale a quella dell’unità centrale.

SETTIMA LEZIONE (Esistono anche distribuzioni a-modali: in cui la moda non esiste, ma sono casi rarissimi. Quando una distribuzione è a-modale è perché lo strumento utilizzato è precisissimo, e si ricorre ad una classificazione.) La mediana è quel valore della variabile che divide in due parti uguali la distribuzione. I dati devono essere in ordine dal più piccolo al più grande. Se n è dispari è facile, se n è pari la mediana è compresa tra i due valori centrali. Per calcolare la mediana si possono anche solo osservare le frequenze cumulate relative

L’operazione per trovare la mediana si chiama interpolazione e da essa risultano spesso numeri decimali, quindi non discreti.

Attenzione: posizione della mediana e valore della mediana non sono la stessa cosa! È uno degli errori più frequenti!

La mediana è equivalente a: l’estremo inferiore della classe mediana (classe le cui frequenze cumulate siano non inferiori al 50%) + 0,5 (è una costante ed è la frequenza relativa della classe mediana) - frequenza relativa cumulata fino alla classe precedente della mediana / frequenza relativa cumulata fino alla classe mediana - frequenza relativa cumulata fino alla classe precedente della mediana, tutto questo moltiplicato per l’ampiezza della classe mediana. Questa formula è valida solo per i caratteri quantitativi

Media aritmetica Nel caso in cui il carattere sia quantitativo, la media più frequentemente utilizzata è la media aritmetica, che indicheremo con 𝑥 (con sopra un trattino), che è pari alla somma dei valori osservati divisa per il loro numero. Non è un indice robusto, è influenzato dagli estremi.

La scritta ni sta per esempio: se abbiamo 4 volte 5, scriveremo 20 e non 5+5+5+5

Media aritmetica per un carattere suddiviso in classi La classica formula per il calcolo della media aritmetica non può essere utilizzata nel caso di una distribuzione di frequenza se il carattere quantitativo X è suddiviso in classi, dal momento che non conosciamo con esattezza i valori osservati, ma solo la classe di appartenenza. Un’approssimazione della media aritmetica può comunque essere ottenuta considerando al posto della classe il suo valore centrale, ossia il valore che si ottiene come semisomma degli estremi della classe.

OTTAVA LEZIONE

Si divide sempre per il totale delle frequenze!!!!!! Qui è 40, e non 4 come il numero delle classi!!!! Semisomma dei due estremi di una classe diviso 2 se i valori sono decimali! Es 20 + 30 diviso 2

Il concetto di «scarto» o scostamento ഥ Dato un campione numerico di k elementi 𝐶 = 𝑥1, 𝑥2, ... , 𝑥𝑘 , sia 𝑿 la media di tale campione, si chiamano «scarti» o «scostamenti» dei ത singoli elementi dal loro valore medio 𝑋 le differenze (positive, nulle o negative) fra ciascuno di detti numeri ed il loro valore ഥ medio 𝑿. Gli scarti possono essere nulli, positivi o negativi. La deve essere almeno intervallo.

Importante proprietà degli scarti La somma algebrica degli scarti della media aritmetica vale sempre zero: ◦ Dato un campione numerico di k elementi 𝐶 = 𝑥1,𝑥2,...,𝑥𝑘 , sia 𝑿 la media di tale campione: ◦ Primo valore meno la media ecc, oppure totale dei casi meno media moltiplicata per totale

Confronto fra i tre valori medi Si noti che le tre affermazioni si basano su tre concetti diversi di «valore medio»: Media aritmetica 𝑋 = 22.240 € Moda o valore normale 𝑀𝑜 = 17.000 € Mediana o valore centrale 𝑀𝑑𝑛 = 20.500 €

La media aritmetica indica che, se il denaro fosse stato distribuito in modo che ciascuno ricevesse la stessa somma, ciascun dipendente avrebbe avuto 22.240 €. La moda ci dice che la paga annua più comune è pari ad euro 17.000. La mediana indica che circa la metà dei dipendenti hanno meno di 20.500 €, mentre l’altra metà ne percepisce di più. Confronto tra media e mediana La media e la mediana di una distribuzione simmetrica sono molto vicine. Se la distribuzione è esattamente simmetrica, esse coincidono. In una distribuzione asimmetrica, la media si trova più all’esterno sulla coda lunga rispetto alla mediana. Distribuzione gaussiana: media, mediana e moda coincidono. È una distribuzione uniforme e simmetrica. Se la distribuzione non è simmetrica, la media si sposta indietro (la mediana avanza)e tiene in equilibrio l’asticella immaginaria che tiene in equilibrio la distribuzione. (INDICI DI TENDENZA CENTRALE: MODA, MEDIA, MEDIANA) Quesito Un’importante azienda di capi di abbigliamento sta per lanciare nel mercato una nuova serie limitata di camicie da uomo e, per motivi economici, deve scegliere la taglia sulla base della quale concentrare la produzione. Qual è la statistica più appropriata per la scelta della taglia giusta? La MODA. La media geometrica (𝑥𝑔) (indica la crescita media nell’arco di un certo periodo: la media non tiene conto dell’effetto composto della media, ovvero se il primo anno c’è un aumento del 5% e il secondo anno del 10%, non vene tenuto conto del primo aumento). Essa tiene conto anche delle minime variazioni. Variabile quantitativa, continua, valori preferibilmente rapporti statistici, non devono esserci valori nulli. Se le modalità numeriche di una variabile, osservate in un collettivo di unità statistiche, sono tutte positive, il centro di una distribuzione può essere rappresentato anche dalla media geometrica 𝒙𝒈 Tale indice viene utilizzato soprattutto quando i valori delle osservazioni sono frutto di rapporti statistici, costituendo degli indici, come ad esempio i tassi di crescita, i tassi di inflazione, gli interessi, ecc. Per questi motivi, nel calcolo della media geometrica, i valori piccoli sono più influenti dei valori grandi: in particolare, è sufficiente la presenza di un unico valore nullo perché valga zero anche la media geometrica. Si fa la produttoria messa sotto radice per il numero di unità statistiche.

Effetto composto della crescita è sempre da considerare, ecco perché sembra che l’azienda sia crescita del 27% e non del 25%.

La «trimmed» mean (𝑥𝑝) (il suo scopo è quello di eliminare i dati anomali) Per diminuire l’effetto dei valori estremi nel calcolo della media aritmetica, è possibile effettuare il calcolo soltanto sui valori centrali. La media così ottenuta viene detta trimmed mean 𝑥𝑝 La trimmed mean al 50% di un carattere quantitativo, ad esempio, è la media aritmetica del 50% dei valori centrali di un insieme di osservazioni. In pratica, nel calcolo della media aritmetica non vengono considerati il 25% dei valori più piccoli e il 25% dei valori più grandi.

La trimmed mean può essere calcolata anche in riferimento a percentuali diverse dal 50%. Naturalmente, più grande è la percentuale, minore è il numero di valori estremi da escludere. ◦Es. la trimmed mean al 90% su un insieme formato da 100 osservazioni, esclude solo il 10% dei valori estremi, che corrispondono al 5% di valori più grandi e al 5% di valori più piccoli. INDICI DI DISPERSIONE (misura la variabilità) La variabilità dei dati Si è visto come, qualunque sia il valore medio ottenuto relativamente ad un gruppo di osservazioni, non sempre esso dà un’informazione esauriente del fenomeno oggetto di studio. Ad esempio, se la media 𝑋 può informarci sul valore medio di un dato carattere (es. statura dei bambini di una certa età, durata media di una partita di pile elettriche, ecc.), tuttavia nulla può dirci di quanto i singoli valori si scostino in più o in meno da essa. Per una descrizione più completa, si rende necessario studiare come «variano», come «si disperdono», cioè come «si sparpagliano» i singoli valori intorno alla media. Quando la variabilità è nulla, tutti i dati sono eguali fra loro e quindi è come se si identificassero in uno solo. Man mano che la variabilità cresce, le unità si diversificano sempre più e, quando la variabilità è molto alta, troviamo sia unità aventi un valore molto piccolo che unità aventi un valore molto grande: siamo cioè di fronte ad una grande eterogeneità di valori. Il problema che ci si pone, quindi, è quello di misurare tale variabilità. Gli indici di variabilità Le statistiche in grado di fornire una misura della variabilità dei dati vengono definite «indici di variabilità» o «di dispersione». Ogni indice di variabilità tende a mettere in rilievo un particolare aspetto della variabilità del fenomeno. La scelta di un indice piuttosto che di un altro dipende quindi dalle particolari caratteristiche che si vogliono mettere in evidenza, rispetto alla distribuzione in esame.

Campo di variabilità (𝑅 o CV) La più semplice misura della variabilità di un insieme di valori è data dal «campo di variabilità» Si chiama «campo di variabilità» di un insieme di n valori la differenza tra il valore massimo ed il valore minimo.

Il campo di variabilità R è una misura grossolana e poco significativa della dispersione, dal momento che su di esso non influiscono affatto i valori intermedi della distribuzione. Tuttavia, tale statistica ha il pregio di essere molto facile da calcolare ed è particolarmente utile nei piccoli campioni. Trova vaste applicazioni nel controllo statistico di qualità, in meteorologia ed in biologia.

Scarto semplice medio dalla media: sommatoria degli scarti in valore assoluto (perché la somma degli scarti altrimenti darebbe zero). Mi dice qual è lo scostamento medio dalla media aritmetica: di quante unità di misura mediamente le unità si discostano dalla media i termini di unità di misura. Più si avvicina a zero più mi dice che le unità statistiche si avvicinano alla media.

Mi restituisce un valore d’area: più e grande e più i miei dati si sparpagliano attorno alla media e si discostano tra loro (ecco differenza con scarto dalla media)

La varianza è una misura del grado di variazioni o oscillazioni presenti, relativamente al parametro che vogliamo stimare, nella popolazione. Una popolazione in cui il parametro da misurare presenta ampie oscillazioni ha una varianza elevata; una popolazione in cui le oscillazioni sono scarse ha una varianza bassa. È intuitivo che la precisione di un campione è maggiore quando la popolazione da cui è stato estratto è tendenzialmente omogenea, mentre è minore quando la popolazione è eterogenea. Consideriamo due diverse popolazioni: ◦ La popolazione A è costituita da bovine da latte ad alta produzione della stessa razza ed allevate in grandi allevamenti intensivi. ◦ La popolazione B è rappresentata da bovine da latte di razza diversa ed allevate in allevamenti a differente tipologia (sia intensivi che piccoli allevamenti tradizionali). Se siamo interessati al calcolo della produzione media di latte nelle due popolazioni, sarà evidente che la varianza della popolazione A sarà minore rispetto alla varianza della popolazione B. Deviazione standard della popolazione (σ) Quando si usa la varianza, va tenuto presente che essa opera sui quadrati degli scarti e, di conseguenza, altera certi aspetti. Ciò risulta evidente se i dati hanno una certa unità di misura, poiché, in tal caso, la varianza risulta essere espressa nel quadrato dell’unità di misura. Tale inconveniente si può eliminare estraendo la radice quadrata della varianza, ottenendo così una nuova statistica: lo scarto quadratico medio o deviazione standard. Definita anche scarto quadratico medio, è quindi la radice quadrata della varianza e, di conseguenza, fornisce una misura lineare della distanza media dei dati dalla media aritmetica della loro distribuzione:

Varianza e deviazione standard sono gli indici più precisi. Deve esserci almeno scala intervallo. Se la varianza vale zero, tutte le unità del collettivo presentano lo stesso valore. Deviazione standard: si calcola facendo la radice della varianza. 3.84= unità statistiche si discostano dalla media…discostamento medio dalla media e dalla media delle unità statistiche.

NONA LEZIONE Gli indici di dispersione ci indicano quanto è eterogenea la nostra distribuzione.

N-1 si indica con “grado di libertà”: quando estraiamo le unità statistiche, l’ultima estratta dalla popolazione è vincolata. Il grado di libertà indica in numero di unità statistiche che sono libere di variare. Matematicamente questo concetto deriva dalla sommatoria degli scarti, la quale deve sempre combaciare con lo zero (l’ultima unità statistica non è libera di variare perché il risultato deve essere zero). Nella popolazione si utilizza solo N, con il campione N meno 1. Statistica riferita ad una popolazione: parametro Statistica riferita ad un campione: statistica Deviazione standard campionaria (𝑠) La ragione è che la somma delle deviazioni 𝐱𝐢 − 𝐱ത è sempre zero, cosicché 𝒏 − 𝟏 deviazioni determinano quella restante. Soltanto 𝑛 − 1 deviazioni al quadrato variano liberamente! Di conseguenza, la deviazione standard campionaria, risulta essere:

Coefficiente di variazione o variabilità Il CV è uno degli indici di dispersione che permette di confrontare misure di fenomeni riferite a unità di misura differenti, in quanto si tratta di un numero puro (ovvero non riferito ad alcuna unità di misura). Indica la percentuale di eterogeneità nel mio campione. È dato dal rapporto tra Deviazione Standard e Media, per cui: 𝐶𝑉 = 𝑠 fratto X Il CV viene spesso moltiplicato per 100 e quindi espresso in termini percentuali (ad es. CV=0,05 é lo stesso che scrivere.

INDICI DI POSIZIONE La mediana è un indice di posizione. Essi sono statistiche se la variabile è misurata almeno su scala ordinale.

La posizione del primo quartile occupa la posizione data da k+1 diviso 4. Non si arrotonda per eccesso, poiché la posizione deve essere uguale o immediatamente inferiore. Devo ordinare i dati, k è la posizione e anche il conteggio. Primo quartile: sotto di essa c’è il 25 % dei dati ecc ecc

Il 2 si semplifica con 4: resta la formula della MEDIANA. La mediana corrisponde al cinquantesimo percentile. (percentile e centile sono la stessa cosa)

Ci servono per scovare quel dato, sotto al quale cade una data percentuale dei casi. Ci permettono di coprire l’intera gamma di valori percentuali. I indica la posizione K il totale dei casi Ordino in ordine crescente M rappresenta la percentuale che ci interessa

Il valore al di sotto del quale cade il 36% dei casi. Secondo quartile= mediana = cinquantesimo percentile

Il sommario a 5 numeri (prima fotografia della distribuzione) Per avere una prima idea sulla distribuzione dei dati raccolti, Tukey (1977) suggeriva di utilizzare il sommario a 5 numeri: • Valore Minimo • 25-esimo percentile • Mediana • 75-esimo percentile • Valore Massimo PUNTI Z o valori standardizzati: sono valori puri e prescindono dall’unità di misura.

Prova A il soggetto si colloca più due deviazioni standard dalla media. Ma è andato meglio nella prova B. Rapporto del valore tra lo scarto del valore dalla media e la deviazione campionaria il punto zeta mi informa di quante unità , in termini d deviazione standard, quel dato si discosta dalla media.

Distribuzione dei valori standard Un qualunque insieme numerico le cui misure siano espresse in punteggi standardizzati, fa riferimento alla distribuzione normale standard, che ha media zero e deviazione standard pari a 1. Nell’intervallo che va da -1 a +1 deviazioni standard dalla media si trova il valore di ...


Similar Free PDFs