Title | 6. Asimmetria - riassunto |
---|---|
Course | Statistica I |
Institution | Università degli Studi di Bergamo |
Pages | 7 |
File Size | 276.8 KB |
File Type | |
Total Downloads | 32 |
Total Views | 152 |
riassunto...
SIMMETRIA E ASIMMETRIA Come introduzione al concetto di simmetria e asimmetria si consideri il seguente esempio. Esempio Si consideri il “Tempo (in minuti) impiegato per andare a scuola” dagli studenti della scuola A (carattere X) e dagli studenti della scuola B (carattere Y). Le distribuzioni di frequenza con modalità raggruppate in classi sono: classi (X) [0 – 15) [15 – 20) [20 – 30) [30 – 40) [40 - 60)
ni 30 70 10 8 2 120
classi (Y) [0 – 15) [15 – 20) [20 – 30) [30 – 40) [40 - 60)
ni 50 30 100 180 100 460
Per entrambe le scuole possiamo calcolare la moda, la media e i quartili e rappresentare graficamente le distribuzioni attraverso l’istogramma e il box-plot. Scuola A: classi (X) [0 – 15) [15 – 20) [20 – 30) [30 – 40) [40 - 60)
Scuola B: classi (Y) [0 – 15) [15 – 20) [20 – 30) [30 – 40) [40 - 60)
nj 30 70 10 8 2 120
fj 0.25 0.58 0.08 0.07 0.02
cj 7.5 17.5 25 35 50
Fj 0.25 0.83 0.91 0.98 1
hj rel 0.017 0.116 0.008 0.007 0.001
nj 50 30 100 180 100 460
fj 0.11 0.06 0.22 0.39 0.22
cj 7.5 17.5 25 35 50
Fj 0.11 0.17 0.39 0.78 1
hj rel 0.007 0.012 0.022 0.039 0.011
1
Scuola A:
Scuola B:
0.25 − 0 𝑄1 = 0 + ( ) 15 = 15 0.25 − 0
𝑄1 = 20 + (
0.5 − 0.25 𝑄2 = 15 + ( ) 5 = 17.2 0.83 − 0.25
0.5 − 0.39 𝑄2 = 30 + ( ) 10 = 32.8 0.78 − 0.39
0.75 − 0.25 𝑄3 = 15 + ( ) 5 = 19.33 0.83 − 0.25
0.75 − 0.39 𝑄3 = 30 + ( ) 10 = 39.2 0.78 − 0.39
𝑀𝑜 =
15 + 20 2
𝑀𝑜 =
= 17.5
0.25 − 0.17 ) 10 = 23.5 0.39 − 0.17
30 + 40 2
= 35
𝑀(𝑋) = 32
0
10
20
30
40
50
60
𝑀(𝑋) = 17.33
ScuolaA
ScuolaB
Istogramma Scuola A
Istogramma Scuola B
0,14
0,05
0,12
0,04 Densità
Densità
0,1 0,08 0,06 0,04
0,03 0,02 0,01
0,02 0
0 0
20
40
60
0
80
Modalità
2
20
40 Modalità
60
80
Gli istogrammi e i box-plot confermano il fatto, già messo in evidenza dall’analisi delle frequenze relative, che nella scuola A prevalgono tempi di percorrenza inferiori ai 20 minuti, mentre nella scuola B prevalgono tempi di percorrenza superiori ai 20 minuti. Inoltre dall’istogramma si nota la presenza di una “coda più lunga verso destra” per la scuola A e di una “coda più lunga verso sinistra” per la scuola B. Questo indica la presenza di una asimmetria positiva nel primo caso e di asimmetria negativa nel secondo caso. In caso di asimmetria positiva, in generale, si osserva Moda < Mediana < Media, mentre in caso di asimmetria negativa Media < Mediana < Moda.
DEFINIZIONE DI SIMMETRIA Una distribuzione si dice simmetrica rispetto ad un centro c, se 0
Freq c X c + = Freq c − X c . Se una distribuzione è simmetrica si verifica che Mediana = Media, mentre non vale il viceversa; se una distribuzione è simmetrica e unimodale si verifica che Mediana = Media = Moda, mentre non vale il viceversa. Si possono quindi avere delle distribuzioni in cui Mediana = Media = Moda, che non sono simmetriche. A questo proposito si veda il seguente contro-esempio: Contro-esempio Si consideri la distribuzione di frequenza di un carattere X discreto, osservato su 93 unità statistiche: xj 0 1 2 3 4 5 6 13
nj 5 7 19 40 9 7 5 1 n = 93
Nj 5 12 31 71 80 87 92 93
x j nj 0 7 38 120 36 35 30 13 279
Moda = 3 Mediana = 3 Media = 279 / 93 = 3
3
Dato che la distribuzione è unimodale e che vale l’uguaglianza tra moda, mediana e media si potrebbe pensare ad una distribuzione simmetrica. Dal diagramma a bastoncini, però, si nota che la distribuzione presenta un certo grado di asimmetria positiva.
n
Grafico a bastoncini 45 40 35 30 25 20 15 10 5 0 0
5
10
15
x
INDICI RELATIVI DI ASIMMETRIA Se dal grafico risulta che una distribuzione è asimmetrica è possibile calcolare un indice di asimmetria. INDICE DI ASIMMETRIA DI PEARSON O SKEWNESS Lo skewness è un indice relativo di asimmetria ottenuto facendo il rapporto tra la differenza (Media – Moda) e lo scarto quadratico medio,
A3 = SK =
M (X ) − Mo
.
E’ anche possibile utilizzare il rapporto tra la differenza (Media – Mediana) e lo scarto quadratico medio:
A2 = SK * =
M ( X ) − Me
Il segno positivo o negativo di questi indici dipende esclusivamente dal fatto che la Media sia, rispettivamente, maggiore o minore della Moda (Mediana); l’indice assume, invece, il valore zero solo nel caso in cui la Media sia uguale alla Moda (Mediana). I due indici skewness A2 e A3 assumono generalmente segno positivo se la distribuzione è asimmetrica positiva e valore negativo se la distribuzione è asimmetrica negativa, per cui: 4
SK > 0; SK* > 0 → asimmetria positiva SK < 0; SK* < 0 → asimmetria negativa. Per quanto detto precedentemente se gli skewness assumono valore zero, non è detto che la distribuzione sia simmetrica, mentre se la distribuzione è simmetrica gli skewness assumono valore zero. L’indice SK (A3) non può essere calcolato nel caso di una distribuzione plurimodale. L’indice A2 ha il vantaggio di essere compreso tra -1 ed 1, quindi oltre al segno è possibile anche interpretare l’intensità di asimmetria: tanto più l’indice si avvicina agli estremi, tanto l’asimmetria è marcata, tanto più l’indice è prossimo allo 0, tanto la distribuzione è poco simmetrica. INDICE DI ASIMMETRIA DI FISHER L’indice di Fisher è un indice relativo di asimmetria, ottenuto facendo il rapporto tra il momento terzo centrale e il cubo dello scarto quadratico medio: 3 (x j − M (X )) n j k
1 = 33 =
j =1
n
(
)
2 x j − M (X ) n j j =1 n k
3 2
Il segno positivo o negativo di questo indice dipende esclusivamente dal segno del momento terzo centrale 3:
3 > 0 se prevalgono scarti dalla media con segno positivo, 3 < 0 se prevalgono scarti dalla media con segno negativo, se 3 = 0 non è detto che la distribuzione sia simmetrica, mentre se la distribuzione è simmetrica si ha che 3 = 0. Nell’ esempio di apertura, dopo aver calcolato lo scarto quadratico medio delle due distribuzioni X (scuola A) e Y (scuola B):
σ (X ) = 8.23
σ (Y ) = 12.79
5
si possono determinare i due indici relativi di asimmetria A3:
A3 = SK ( X ) =
17.33 − 17.5 = −0.02 problema!! l’indice mostra un’asimmetria negativa 8.23
A3 = SK (Y ) =
32 − 35 = − 0,23 asimmetria negativa 12,79
In modo del tutto analogo è possibile determinare l’indice A2:
A2 = SK * ( X ) =
17.33 − 17.2 = +0,016 asimmetria positiva 8.23
A2 = SK * (Y ) =
32 − 32.8 = − 0, 063 asimmetria negativa. 12,79
Per determinare l’indice di Fisher è necessario calcolare il momento terzo centrale delle tre distribuzioni:
3 (X ) = 748.43
3 (Y ) = − 572.16
A questo punto gli indici di Fisher risultano pari a:
1 (X ) =
748.43 3
8.23
= 1.343
1 (Y ) =
− 572.16 = − 0.273 12,793
Quindi l’indice di Fisher per la scuola B conferma l’asimmetria negativa già evidenziata con i due indici precedenti, mentre per la scuola A sottolinea la presenza di asimmetria positiva. Dato che gli indici calcolati sono numeri puri (in quanto l’unità di misura del numeratore e quella del denominatore sono uguali) possono essere impiegati per effettuare confronti fra diverse distribuzioni.
Nel contro-esempio si ottengono i seguenti risultati: A2 = A3 = 0 dato che la Media è uguale alla Moda e per il discorso fatto precedentemente non è significativo;
6
3 =
( 0 − 3)3 5 + (1 − 3)3 7 + (2 − 3)3 19 + ( 4 − 3) 3 9 + (5 − 3)3 7(6 − 3)3 5 + 93
(13 − 3 )
3
=+
93
= 10,645
1
(0 − 3 )2 5 + (1 − 3 )2 7 + (2 − 3 )2 19 + (4 − 3 )2 40 + (5 − 3)2 7 + (6 − 3)2 5 + (13 − 3)2 2 = = 93 = 1,716
da cui:
1 =
10,645 = 2,107 . 1,7163
L’indice di Fisher è significativo e conferma l’asimmetria positiva evidenziata dal grafico.
7...