IL Poligono DI Frequenza PDF

Title IL Poligono DI Frequenza
Author Antonio Carlomagno
Course Statistica
Institution Università degli Studi della Basilicata
Pages 15
File Size 1.2 MB
File Type PDF
Total Downloads 47
Total Views 142

Summary

---------------------------------------------------------------------------------------------------------------...


Description

IL POLIGONO DI FREQUENZA In questo grafico appare sia un istogramma con un diagramma cartesiano  

Asse X: modalità rispetto ad un carattere oggetto d’ indagine Asse Y: densità di frequenza (freq.assoluta/taglia), se relativa (freq. Relativa/ampiezza classi)

L’area sottesa dall’istogramma delle densità delle frequenze relative (e dal poligono delle densità di frequenze) è uguale a 1. Punti grafico: punto che si ottiene in corrispondenza del punto centrale e densità di frequenza della sua classe di modalità. Si uniscono tutti i punti medi delle classi e ottengo una poligonale quando unisco i punti trovati. Per calcolare l’area sottesa al grafico cartesiano, bisogna tenere in considerazione tutta l’area dell’istogramma (restano spazi in forma triangolare che sono equivalenti alle parti dell’istogramma cui non sono stati sottesi al grafico) Per questo entrambe le aree si equivalgono (Area=1) In base al modello teorico, nel caso di classi di modalità delle frequenze, se tento di aumentare le classi di modalità e riduco le ampiezze, la poligonale tende a cambiare e a creare dei dislivelli (in quanto se avrò più barre, allora avrò più punti (poligonale, linea spezzata man mano che aumenta la taglia avrà origine a una linea continua associata ad una funzione continua) Raggiungimento MT > descrizione distribuzione frequenze relative (curva di densità di probabilità, funzione continua con caratteri di derivabilità con area che sottende a 1) Simmetria poligono di frequenza Poligono di frequenza

Forma

Simmetrica: Moda, media e mediana coincidono e anche le code terminali sinistra e destra sono uguali

Asimmetrica con coda a destra

Asimmetrica con coda a sinistra

La distribuzione si considera asimmetrica se gli indici non corrispondono ad un unico numero > la simmetria si perde e l’asse centrale (che fa da specchio) non fa simmetrica la forma. Bisogna stimare in questo caso il discostamento dalla simmetria. Ipotizziamo di effettuare 2 indagini statistiche.

Individuiamo un possibile indice statistico. Per esempio: Media-mediana

L’indice di asimmetria è definito come la differenza tra la distanza dal valore massimo e mediana e la distanza tra la mediana e il valore minimo. Si ha asimmetria negativa se i valori si spostano verso il massimo, invece si ha asimmetria positiva se i valori si spostano verso il minimo.

Quartili > correlato con la mediana Indice legato alla posizione che i dati occupano all’interno del campione.

Valore quartile

Calcolo rango di posizione Q1 1 ( ) = ( + 1) 4

25% dei dati

1° quartile (Q1)

75% dei dati

3° quartile (Q3)

Calcolo rango di posizione Q3 3 ( ) = ( + 1) 4

BOXPLOT Il Box-plot (o diagramma a scatola e baffi) è un diagramma che fornisce una rappresentazione grafica della distribuzione dei dati, evidenziando dove cade la maggioranza dei valori, e di quei valori che differiscono di parecchio dalla norma, cosiddetti dati anomali. Questa rappresentazione dei dati è dovuta all’uso delle medie di posizione (mediana e i quartili > come i dati sono ripartiti) I capisaldi nella rappresentazione di un box-plot sono:     

Valore minimo (Q0) 1° quartile (Q1) Mediana (Q2) 3° quartile (Q3) Valore massimo (Q4)

Introduciamo infine il campo di variazione interquartile (distanza del valore del terzo quartile e primo, valore sempre positivo o 0 se essi coincidono)  =  − 

Ex studenti

Fasi costruzione boxplot: Riordinare i campioni Stabilire i ranghi di mediana e quartili > determinare Q1, Me, Q3 Disegno scatola > valore intorno alla mediana (escludono quelli che stanno sotto il 25% e al di fuori il 75%)

Disegno baffi inferiori e superiori (segmento con una linea che rappresenta l’inizio e la fine, esso rappresenta dove i mei dati si collocano): Importante: la lunghezza di ciascun baffo "non supera" il valore convenzionale: 1.5(Q3-Q1) = IQR*1.5 Per verificare fino dove devo raggiungere i baffi devo calcolarmi 2 valori: Q1- IQR*1.5 per il baffo inferiore (si effettua il confronto tra valore minimo dell’indagine e il valore indicato. Se min è maggiore di quel numero, il baffo si conclude al valore minimo altrimenti sul valore trovato) Q3+ IQR*1.5 per il baffo superiore (si effettua la somma tra valore massimo e il valore indicato. Se il max supera il valore trovato, quest’ultimo conclude il baffo superiore tenendo conto che il massimo sarà un punto anomalo. Caso contrario sarà il massimo a chiudere sopra il dataset.)

Un valore del campione casuale “troppo distante” dal resto del campione casuale si dice outlier o valore anomalo. Più precisamente un outlier è un dato che si trova al di sopra del baffo superiore o al di sotto del baffo inferiore del box-plot. Esso viene rappresentato dai punti.

EX 2 Assimmetrie

Proprietà asimmetria è evidente nella costruzione del boxplot Dato:  = ( − ) − ( − ) Se A è negativo > asimmetria negativa > valori sbilanciati verso il massimo Se A è positivo > asimmetria positiva > valori sbilanciati verso il minimo EX 3 con le classi di modalità

Importante le frequenze cumulate per la determinazione del rango (importante anche per il calcolo della mediana) Il calcolo del quartile corrisponde alla modalità in cui il quartile viene situato. PERCENTILI I percentili sono indicatori di posizione che serve a generalizzare i quartili (e altri indicatori di posizione come la mediana). Quindi è quel valore x che corrisponde a x% dei dati.  = 25% ⇒  = 25%  = 50% ⇒  = 50% ⇒  = 50% EX: Dopo una visita di controllo ad un bambino (se il peso di un bambino fino a cinque anni rientra nei parametri della normalità, peso corrispondente in un intorno che ha la maggioranza dei pesi, senza outliner), il medico farà uso di un grafico come questo:

Quindi, dopo aver constatato che il soggetto in questione è al 95-esimo percentile, si preoccuperà un po’. Linee nel piano: rappresentazione percentili

Come determinare il percentile

Si può utilizzare le frequenze cumulate (facendo il rapporto tra la posizione e la taglia)

In sintesi: 27 è il 90° percentile del campione casuale perché la percentuale di studenti del campione che studia 27 ore o meno è il 90%.

Mediana e quartili per classi di modalità > variabili continue Finora abbiamo sempre parlato di distribuzione di frequenze in relazione alle modalità che elencavamo singolarmente non so quando parlavamo degli studenti avevamo i dati rapida ciascun studente qui abbiamo parlato e appartamenti elencavano le varie modalità con appartamento con una stanza due stanze fino a sette stanze. Quando abbiamo a che fare con un carattere quantitativo continuo purtroppo abbiamo quel problema della rappresentazione dei dati che non è possibile farla elencando singolarmente ogni elemento sottoposto a indagine statistica, in quanto si presentano tanti valori che avvolte sono non contabili o infinite. Per questo, dobbiamo ricorrere a una un raggruppamento in classe e quindi ad una descrizione sintetica nella quale necessariamente perderemmo precisione nella determinazione dei dati delle medie o degli indicatori sintetici per esempio la mediana. Provo a calcolare la mediane grazie ad una distribuzione di frequenze per classe di modalità

Abbiamo un raggruppamento di classi. Come cercare la mediana? Abbiamo 30 dati (primi 15 e ultimi 15), scriviamo le frequenze cumulate (n° studenti che studiano al di sotto di una determinata ora). Stabilire la collocazione della mediana in base alle classi di frequenza > quella classe che consente di individuare il 50% del mio campione > devo attribuire un valore alla mediana (e non si ricorre al punto medio ma all’estremo inferiore delle classi)

Invece se considero le frequenze relative, si può calcolare il rango della mediana. Si calcola nella classe [a;b) con frequenza relativa cumulata di a pari a 0,47 e frequenza relativa cumulata di b pari a 0,7 Per ottenere la mediana procedo all’operazione di distanza tra 2 punti

 =  + 

0,5 −   ( − ) −

Stesso calcolo vale per verificare i quartili tenendo conto che Q1 rappresenta il 25% delle frequenze osservate mentre Q3 è il 75%.

Adesso possiamo anche a disegnare il box plot per questa distribuzione in classe (non dettagliato rispetto alla costruzione generale) Per disegnarlo, riportiamo i quartili, la mediana. I baffi vengono disegnati in base ai nuovi valori dei capisaldi e in base al campo interquartile. (baffi possono prendere misure diverse). Infine rappresentiamo i punti anomali Baffo lo prolungo a 10, rispetto a 10,3. Il massimo finisce a 34 Minimi e massimi stabiliti come 10 il minimo e 34 il massimo come per convenzione, in base alle classi di frequenza Il baffo l’ho prolungato fino a 10, non tenendo conto che il minimo dei dati era 10,8 Il massimo in corrispondenza di 34 e si trova più in alto di 33,8 Di questa arriva a 33,8 e questo trentaquattro. In entrambi i casi vanno al di là della lunghezza massima del baffo. Vedere anche i quartili non corrispondono. Questi sono due quarti calcolati sulla base di raggruppamenti classi (in verde) e l’altro i quartili esatti (sulla base del dataset, quello in rosso come da parte precedente)...


Similar Free PDFs