Misura associazione carattere quantitativo e qualitativo PDF

Title Misura associazione carattere quantitativo e qualitativo
Course Statistica
Institution Università degli Studi di Firenze
Pages 7
File Size 233.5 KB
File Type PDF
Total Downloads 59
Total Views 131

Summary

Misura associazione carattere quantitativo e qualitativo appunti lezione integrati libro...


Description

Misura dell’associazione tra un carattere qualitativo e un carattere quantitativo Abbiamo visto che l’indice V di Cramer può essere utilizzato per valutare il livello di associazione tra due caratteri per i quali si disponga della distribuzione doppia di frequenza. È quindi calcolabile qualunque sia la natura dei due caratteri considerati (qualitativi o quantitativi). Tuttavia, quando uno o entrambi i caratteri sono quantitativi, è più opportuno calcolare indici di associazione che facciano uso dei valori dei caratteri quantitativi. Utilizzeremo quindi il rapporto di correlazione η2 per valutare il livello di associazione tra un carattere qualitativo e un carattere quantitativo, mentre per valutare il livello di associazione tra due caratteri quantitativi utilizzeremo il coefficiente di correlazione lineare ρXY oppure la retta di regressione. Medie e varianze condizionate Sia X il carattere qualitativo (con modalità xi, i = 1, . . . , H) e Y il carattere quantitativo, per valutare il livello di associazione tra X e Y calcoliamo le H medie condizionate di Y rispetto alle modalità di X e le H varianze condizionate di Y rispetto alle modalità di X. Attraverso tali medie e varianze possiamo definire due situazioni: • Dipendenza in media: la conoscenza della modalità di X influisce sulla media della Y, con un livello di dipendenza più o meno forte • Indipendenza in media: tutte le medie condizionate di Y da X sono uguali tra loro e uguali anche alla media di Y (non condizionata) Per valutare l’associazione tra X e Y dovremo confrontare le medie di Y condizionate rispetto alle modalità di X, tenendo conto anche della variabilità (varianze condizionate). Le medie e le varianze condizionate possono essere calcolate nel seguente modo: 1 Medie condizionate: µY|X = xi = ∑ yjnij,i=1,…, H ¿. yj−µ ¿

¿nij,i=1,…,H Y|X = xi ¿ 2

Varianze condizionate: σY|X = xi =

1 ¿

N.B. Poiché X ha H modalità, le medie condizionate di Y saranno H, così come le varianze condizionate Dipendenza perfetta in media Vediamo un esempio di dipendenza perfetta in media, ovvero di una situazione in cui la conoscenza della modalità di X influisce sulla media della Y al livello più forte di associazione. Consideriamo il seguente esempio (fittizio): 110 donne sono state classificate secondo i caratteri X “Livello di scolarità raggiunto” (modalità x1 = elementare, x2 = medio, x3 = superiore) e Y “Reddito annuale (migliaia di Euro)” (y1 = 10, y2 = 20, y3 = 50) Y X X1 X2 X3

10 43 0 0

20 0 0 52

50 0 15 0

Totale 43 15 52

Totale 43 In generale (ignorando la X): μY =

52

15

110

Calcoliamo invece le medie di Y condizionate alle modalità della X: μY|X = x1 = μY|X = x2 = μY|X = x3 = Le medie condizionate sono tutte diverse tra loro e diverse da μY Calcoliamo anche le tre varianze condizionate:

σ2Y|X = x1 σ2Y|X = x2 σ2Y|X = x3 Le varianze condizionate sono tutte uguali a 0 Dall’esempio abbiamo verificato che si ha dipendenza in media quando la conoscenza della modalità di X influisce sulla media della Y. Inoltre, nel caso estremo di dipendenza perfetta le varianze condizionate sono tutte pari a 0: questo perché ad ogni modalità della X corrisponde un solo valore della Y. La dipendenza perfetta in media corrisponde quindi a quella che avevamo definito (inter)dipendenza perfetta, definita attraverso le frequenze congiunte di due caratteri: ad ogni modalità di X corrisponde un unico valore di Y. Indipendenza in media Vediamo adesso un esempio di indipendenza in media, ovvero di una situazione in cui tutte le medie condizionate di Y da X sono uguali tra loro e uguali anche alla media generale. Consideriamo il seguente esempio (fittizio) di indipendenza in media: 60 individui sono stati classificati secondo i caratteri X “Quartiere di residenza” (modalità x1, x2 e x3) e Y “Reddito annuale (migliaia di Euro)” (y1=10, y2=20, y3=50) Y X X1

10 10

20 5

50 5

Totale 20

X2 X3

10 10

5 5

5 5

20 20

Totale

30

15

15

60

In generale (ignorando la X): μY =

Calcoliamo invece le medie di Y condizionate alle modalità della X: μY|X = x1 = μY|X = x2 = μY|X = x3 = Le medie condizionate sono tutte uguali tra loro e uguali a μY Calcoliamo anche le tre varianze condizionate: σ2Y|X = x1 σ2Y|X = x2 σ2Y|X = x3 Le varianze condizionate sono tutte uguali tra loro e uguali a σ2Y Dall’esempio abbiamo verificato che si ha indipendenza in media quando tutte le medie condizionate di Y da X sono uguali tra loro e uguali anche alla media generale di Y. Inoltre, le varianze condizionate risultano in questo caso tutte uguali tra di loro e uguali alla varianza di Y. Tale situazione corrisponde a quella che avevamo definito indipendenza attraverso le distribuzioni di frequenza condizionate di riga e di colonna dei due caratteri. In effetti, in questo caso conoscere la modalità della X non modifica né la media né la varianza della Y. Il rapporto di correlazione Abbiamo già definito i due casi estremi di associazione che possiamo definire tra un carattere qualitativo e uno quantitativo: la dipendenza in media e l’indipendenza in media. Adesso definiamo un indice di associazione che ci consenta di valutare anche tutti i livelli di associazione intermedi, e i cui valori massimo e minimo corrispondano proprio ai casi di dipendenza e indipendenza in media. Tale indice si basa su un risultato molto importante della statistica: la scomposizione della varianza. Sia dato un carattere quantitativo Y ed un carattere qualitativo X (che in pratica suddivide in “gruppi” i valori yj). Allora, per la varianza di Y, σ2Y, vale sempre la seguente scomposizione: σ2Y = σ2Medie (Y|X) + Media (σ2Y|X) dove

¿ ¿ 22

σ Medie (Y|X) =

1µY|X = xi - µY ¿

ni. ¿

indica la varianza delle medie condizionate di Y |X (o varianza spiegata o varianza tra i gruppi o varianza esterna), e 1 σ 2 ∑ 2 N Media(σ Y|X) = Y|X = xi ni. indica la media delle varianze condizionate di Y |X (o varianza residua o varianza entro i gruppi o varianza interna). N.B. La varianza di Y è detta anche varianza “totale” di Y (poiché composta da più componenti) A partire dalla scomposizione della varianza, definiamo l’indice che possiamo utilizzare per valutare l’associazione tra un carattere qualitativo X e uno quantitativo Y. Tale indice si chiama Rapporto di correlazione e si indica con η2Y|X : σ2Medie (Y|X ) 2

η Y|X =

σ Y 2

L’indice η2Y|X è compreso tra 0 ed 1: • Se η2Y|X = 1 allora c’è dipendenza in media (dipendenza perfetta) • Se η2Y|X = 0 allora c’è indipendenza in media (indipendenza) Basandoci sulla scomposizione della varianza possiamo dire che η2Y|X misura la parte di variabilità del carattere Y dovuta alla dipendenza (in media) di Y dal carattere X. Esempio di dipendenza perfetta in media: Controlliamo quale valore assume l’indice η2Y|X nel nostro esempio di dipendenza perfetta in media. Abbiamo già calcolato il valore di μY = 20.18, di σ2Y = 161.79 e delle tre medie condizionate: μY|X = x1 = 10 con n1.= 43, μY|X = x2 = 50 con n2.= 15, μY|X = x3 = 20 con n3.= 52. Quello che ci manca per calcolare η2Y|X è σ2Medie (Y|X), la varianza delle medie condizionate:

σ2Medie (Y|X) da cui η2Y|X =

=1

Abbiamo quindi verificato che nel caso di dipendenza perfetta in media, η2Y|X assume il suo valore massimo, 1. In questo caso la varianza di Y è totalmente “spiegata” dalla dipendenza media di Y da X. Esempio di indipendenza in media:

Controlliamo adesso quale valore assume l’indice η2Y|X nel nostro esempio di indipendenza in media. Abbiamo già calcolato il valore di μY = 22.50, di σ2Y = 268.75 e delle tre medie condizionate: μY|X = x1 = 22,50 con n1.= 20, μY|X = x2 = 22,50 con n2.= 20, μY|X = x3 = 22,50 con n3.= 20. Quello che ci manca per calcolare η2Y|X è σ2Medie (Y|X), la varianza delle medie condizionate: in questo caso, poiché le medie condizionate sono tutte uguali tra loro e uguali a μY, σ2Medie (Y|X) = 0. Verifichiamolo: σ2Medie (Y|X) da cui η2Y|X =

=0

Abbiamo quindi verificato che nel caso di indipendenza in media η2Y|X assume il suo valore minimo, 0. In questo caso quindi la dipendenza in media di Y da X non è in grado di spiegare nessuna auto della varianza di Y.

In questo caso calcoliamo anche Media(σ2Y|X) per verificare che valga la scomposizione della varianza σ2Y Media(σ2Y|X)= Ovvero σ2Y = σ2Medie (Y|X) + Media (σ2Y|X)= 0 + 268,75 = 268,75 valore che avevamo già ottenuto calcolando direttamente σ2Y Esempio con rapporto di correlazione: Consideriamo adesso il problema di valutare il livello di associazione tra i caratteri X = Stato civile (con x 1 = Coniugato, x2 = Non coniugato) e Y = Numero di familiari per una popolazione di 1355 individui (laureati provenienti dalla popolazione Demo) Y X Coniugato

1 521

2 96

3 50

4 25

5 6

6 2

7 0

8 0

Totale 700

Non coniugato 0 229 114 168 96 41 6 1 655 Totale 521 325 164 193 102 43 6 1 1355 In questo caso X è un carattere qualitativo (sconnesso) ed Y è un carattere quantitativo (discreto). È quindi corretto utilizzare η2Y|X. Sappiamo che: σ2Medie (Y|X ) 2

η Y|X =

2σ Y

In generale (ignorando la X): μY =

Adesso dobbiamo calcolare le medie condizionate: μY|X = x1 = μY|X = x2 =

Dalle medie condizionate calcoliamo: σ2Medie (Y|X) Allora 2

1 =0,44 η Y|X = 2,24

Ciò vuol dire che la dipendenza in media del carattere Y (Numero di familiari) dal carattere X (Stato civile) spiega il 44% della variabilità totale di Y. Il livello di associazione tra Y e X è moderatamente forte.

Esempio con carattere quantitativo suddiviso in classi: Il carattere quantitativo Y per il quale ci interessa valutare l’associazione con il carattere qualitativo X potrebbe essere suddiviso in classi. In questo caso per il calcolo di η2Y|X si procede come visto precedentemente, utilizzando il valore centrale di ogni classe come rappresentativo della classe stessa. Consideriamo adesso il problema di valutare il livello di associazione tra i caratteri X = Livello di Istruzione (con x1 = Inferiore al diploma, x2 = diploma, x3 = Iscrizione all’università, x4 = Laurea, x5 = Spec. post-laurea) e Y = Età (in classi) per una popolazione di 6400 unità (popolazione Demo) Y [28,48)

[48,78)

Totale

X1

[18,28 ) 123

656

611

1390

X2 X3 X4 X5

250 218 173 19

1035 738 840 245

651 404 342 95

1936 1360 1355 359

Totale

783

3514

2103

6400

X

Sappiamo che: σ2Medie (Y|X ) 2

η Y|X =

2σ Y In generale (ignorando la X): μY =

Adesso dobbiamo calcolare le medie condizionate: μY|X = x1 = μY|X = x2 = μY|X = x3 = μY|X = x4 = μY|X = x5 =

Dalle medie condizionate calcoliamo: σ2Medie (Y|X) = Allora

η2Y|X =

=0,02

Ciò vuol dire che la dipendenza in media del carattere Y (Età) dal carattere X (Livello di istruzione) spiega solamente il 2% della variabilità totale di Y. Il livello di associazione tra Y e X è molto basso, vicino alla situazione di indipendenza in media....


Similar Free PDFs