La concentrazione - statistica PDF

Title La concentrazione - statistica
Course Statistica
Institution Università degli Studi di Palermo
Pages 7
File Size 242.5 KB
File Type PDF
Total Downloads 81
Total Views 135

Summary

File contentente la spiegazione della concentrazione statistica...


Description

6 Statistica - 3o canale (P-Z) - Prof.ssa M. Barbieri - a.a. 2005-2006

1

2

Consideriamo un collettivo di n unit`a statistiche sulle quali siano state rilevate le modalit`a del carattere X, diciamo il reddito:

La Concentrazione Un aspetto particolare della variabilit`a, specifico dei caratteri quantitativi, positivi e trasferibili `e la concentrazione. Un carattere si dice trasferibile se, almeno in linea di principio, pu`o essere trasferito da un’unit`a all’altra. E’ non trasferibile un carattere proprio di ogni singola unit`a statistica e per cui non abbia alcun senso pensare a situazioni in cui l’ammontare totale ad esso relativo sia posseduto da una sola o poche unit`a e le altre ne possiedano poco o per niente, o che una parte del totale possa passare da un’unit`a all’altra. Sono trasferibili ad esempio il reddito, i finanziamenti alle imprese, il numero di occupati, il numero di arrivi o presenze in localit`a turistiche, la superficie agricola, il numero di addetti o il fatturato di un’azienda. Sono non trasferibili ovviamente, ad esempio, tutti i caratteri antropometrici (altezza, peso, et`a, ...).

x1, x2, x3, . . . , xi, . . . , xn, che in questo contesto supporremo disposte in ordine non decrescente x1 ≤ x2 ≤ x3 ≤ . . . ≤ xi ≤ . . . ≤ xn . Attenzione: quindi, in generale, ricordiamo che quando ci occupiamo di concentrazione dobbiamo necessariamente ordinare preventivamente le modalit`a osservate. La concentrazione studia il grado di disuguaglianza tra le unit`a della popolazione nella distribuzione del totale del carattere rilevato, pari a: n  xi = n µ. i=1

3

E’ di solito interessante valutare se l’ammontare complessivo `e equamente distribuito tra tutte le unit`a oppure `e concentrato in corrispondenza di una o poche di esse. Ad esempio diremo che il reddito di un paese `e tanto pi`u concentrato quanto pi`u il reddito complessivo `e posseduto da una frazione modesta delle unit`a statistiche (cio`e quanti pi`u poveri vi sono in quel paese). La concentrazione cresce con il crescere della frazione di unit`a statistiche che possiedono il carattere in misura inferiore alla media e quindi con il diminuire del numero di unit`a statistiche che possiedono il carattere in misura superiore alla media. Cio`e assume un valore tanto maggiore quanti pi`u “poveri” e meno “ricchi” ci sono nella popolazione.

4

La concentrazione varia tra due estremi teorici: • concentrazione minima o assenza di concentrazione: se tutte le unit`a possiedono lo stesso ammontare del carattere, cio`e x1 = x2 = · · · = xn = µ (coincide con il caso di variabilit`a minima); • concentrazione massima: se una sola unit`a possiede l’ammontare complessivo del carattere (e quindi le altre n − 1 non ne possiedono affatto), cio`e x1 = x2 = · · · = xn−1 = 0 e xn = n µ (coincide con il caso di variabilit`a massima). I casi reali fanno riferimento a situazioni intermedie, in cui vi sono unit`a statistiche che possiedono il carattere in misura inferiore e altre in misura superiore alla media. Per analizzare tali situazioni consideriamo, per ogni i = 1, . . . , n, le seguenti quantit`a:

5

6

• la frazione delle i unit`a pi`u “povere” (frequenza relativa cumulata) i pi = , n

• nella situazione di equidistribuzione (cio`e minima concentrazione) pi = qi, con i = 1, 2, . . . , n, poich´e, per ogni i, xi = µ e 

• la frazione (cumulata) di reddito posseduta dalle i unit`a pi`u “povere” i i xj j=1 xj = qi = j=1 . n x nµ j=1 j Per ogni i = 1, . . . , n, risulta pi ≥ qi.

xj



i

µ

• nella situazione di massima concentrazione q1 = q2 = . . . = qn−1 = 0 e qn = 1 (mentre resta sempre vero che pi = ni , i = 1, 2, . . . , n), poich´e x1 = · · · = xn−1 = 0 e xn = n µ, cio`e i valori dei pi e qi sono pi`u distanti possibile. Viceversa q1 = q2 = . . . = qn−1 = 0 e qn = 1 corrisponde necessariamente al caso in cui un solo individuo possiede tutto il carattere.

Infatti, ricordando che le osservazioni sono ordinate e che quindi le prime i sono pi` u piccole o al limite uguali alle successive, abbiamo che la media delle prime i osservazioni `e pi` u piccola o uguale alla media generale: (x1 + · · · + xn )/n ≥ (x1 + · · · + xi)/i, da cui n i/n ≥ ij=1 xj / j=1 xj .

Notiamo anche che 0 ≤ pi ≤ 1, 0 ≤ qi ≤ 1, che pi ≤ pi+1, qi ≤ qi+1 e che si ha sempre pn = qn = 1. Inoltre,

i

iµ i qi = j=1 = j=1 n µ = n µ = n = pi. nµ Viceversa se pi = qi, per ogni i = 1, 2, . . . , n, `e come dire che ad esempio il 10% delle unit`a pi`u povere possiedono il 10% del reddito, . . ., il 90% delle unit`a pi`u povere possiedono il 90% del reddito, . . ., cio`e tutti hanno lo stesso reddito (x1 = · · · = xn);

Quindi, pi`u i valori delle qi sono vicini a quelli delle pi, minore `e il livello di concentrazione.

7

8

Esempio: Dieci individui possiedono in totale 10 euro. La situazione di equidistribuzione (minima concentrazione) `e quella in cui tutti possiedono una quantit`a del carattere pari alla media µ = 10 euro = 1 euro. La 10 distribuzione unitaria `e

Nella situazione di massima concentrazione un solo individuo possiede la totalit`a del carattere, mentre gli altri non ne possiedono affatto. La distribuzione unitaria `e

i 1 2 3 4 5 6 7 8 9 10 xi 1 1 1 1 1 1 1 1 1 1

i 1 2 3 4 5 6 7 8 9 10 xi 0 0 0 0 0 0 0 0 0 10 e la distribuzione di frequenza euro posseduti frequenze assolute 0 9 10 1 totale 10

e la distribuzione di frequenza euro posseduti frequenze assolute 1 10 rappresentabile graficamente come

6 2

4

frequenze assolute

6 4

0

0

2

frequenze assolute

8

8

10

rappresentabile graficamente come

0

1

2

3

4

5

6

7

8

9

10

0

1

num ero d i euro po ssed uti

In tal caso si ha i 1 2 3 4 5 6 7 8 9 10 pi 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 qi 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

2

3

4

5

6

7

8

9

10

num ero d i euro po ssed uti

In tal caso si ha i 1 2 3 4 5 6 7 8 9 10 pi 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 qi 0 0 0 0 0 0 0 0 0 1

9

Una sintesi delle differenze pi −qi pu`o fornire una misura della concentrazione del carattere nella popolazione.

i=1

(pi − qi) =

n−1  i=1



n−1  i=1

i=1

(pi − qi).

n−1 i=1 (p i − qi) = 0

nel caso di minima concentrazione o equidistribuzione, cio`e quando pi = qi, per ogni i = 1, 2, . . . , n;



pi,

si ottiene l’indice o rapporto concentrazione di Gini: n−1 (p − qi) R = i=1n−1i i=1 p i

di

Non dipende dall’unit`a di misura del carattere (`e un numero puro) e vale • R = 0 nel caso di minima concentrazione (pi = qi, i = 1, 2, . . . , n);

mentre •

(pi − qi),

n−1 

Inoltre •

Normalizzando l’indicatore

cio`e dividendo per il suo massimo

In particolare, ricordando che vale sempre pn = qn = 1, si ha: n 

10

n−1 n−1 i=1 (p i − qi) = i=1 p i

nel caso di massima concentrazione, cio`e quando qi = 0 per ogni i = 1, 2, . . . , n − 1 e tutto il fenomeno `e concentrato in una sola unit`a.

• R = 1 nel caso di massima concentrazione (q1 = q2 = . . . = qn−1 = 0). In generale: 0 ≤ R ≤ 1.

11

12

Un’espressione dell’indice, semplificata dal punto di vista del calcolo, `e data da: 2 n−1  R = 1− qi n − 1 i=1 che si ottiene da n−1 n−1 n−1 n−1 i=1 (p i − qi) = i=1 p i − i=1 qi = 1− i=1 qi n−1 n−1 n−1 i=1 p i i=1 p i i=1 p i

Esempio: Supponiamo di aver rilevato il reddito annuo X (in migliaia di euro) di nove famiglie 22, 35, 41, 66, 15, 54, 42, 48, 27. Si ha

notando che n−1  i=1

pi =

n−1 i 

i=1 n 1 n−1 

=

i= n i=1 1 n(n − 1) = = 2 n n−1 . = 2

=

Fam. 1 2 3 4 5 6 7 8 9

xi 15 22 27 35 41 42 48 54 66

i

j=1 xj

R= o

pi 1/9=0.1111 2/9=0.2222 3/9=0.3333 4/9=0.4444 5/9=0.5556 6/9=0.6667 7/9=0.7778 8/9=0.8889 1

15 37 64 99 140 182 230 284 350

qi 15/350=0.0429 37/350=0.1057 64/350=0.1829 99/350=0.2829 140/350=0.4000 182/350=0.5200 230/350=0.6571 284/350=0.8114 1

pi − qi 0.0682 0.1165 0.1504 0.1615 0.1556 0.1467 0.1207 0.0775 0

n−1

i=1

(pi − qi) 0.9971 = 0.2493 = 4 i=1 pi

n−1

2 2 n−1  qi = 1 − 3.0029 = 1 − 0.7506 = 0.2493 8 n − 1 i=1 L’ammontare totale del reddito `e abbastanza equidistribuito tra le varie famiglie, ad eccezione delle pi` u povere che possiedono una quota molto inferiore rispetto alle altre. R = 1−

14

13

pi qi 50 1/4=0.25 50/1000=0.05 150 2/4=0.50 150/1000=0.15 300 3/4=0.75 300/1000=0.30 1000 1 1

2 2 n−1 2  qi = 1 − 0.5 = = 0.6667 3 3 n − 1 i=1 L’ammontare totale degli introiti pubblicitari `e piuttosto concentrato: l’ultima emittente ha una quota molto superiore rispetto alle altre.

Curva di Lorenz per il reddit o delle nove f amiglie

Curva di Lorenz per gli int roit i pubblicit ari delle quat t ro emit t ent i radiof onich 1.0

j=1 xj

0.8

i

1.0

Emittente Introiti radiopubbl. fonica xi 1 50 2 100 3 150 4 700

Una rappresentazione grafica molto efficace si ottiene ponendo su un diagramma cartesiano in ascissa i valori pi ed in ordinata i corrispondenti valori qi. I punti di coordinate (pi, qi) (i = 1, 2, . . . , n) vengono uniti a quelli adiacenti attraverso segmenti di retta. Per convenzione p0 = 0 e q0 = 0. La curva risultante viene detta curva di Lorenz o spezzata di concentrazione.

0.8

Esempio: Analizziamo la concentrazione degli introiti pubblicitari (in migliaia di euro), riferiti ad uno specifico anno, delle quattro emittenti radiofoniche di una determinata zona:

0.6 q_i 0.0

0.2

0.4

q_i 0.4 0.2 0.0

Attenzione: le espressioni dell’indice di concentrazione finora introdotte sono applicabili solo nel caso di distribuzione unitaria . Vediamo come ricavare un’espressione applicabile anche nel caso pi`u generale di distribuzione di frequenza.

0.6

R = 1−

0.0

0.2

0.4

0.6

0.8

1.0

0.0

0.2

0.4

p_i

0.6

0.8

La curva `e sempre sotto alla bisettrice del quadrato unitario (il segmento che unisce i punti di coordinate (0, 0) e (1, 1)) ed `e non decrescente. Ricordiamo infatti che qi ≤ pi e che pi < pi+1 e qi < qi+1.

16

15

La spezzata • coincide con la bisettrice del quadrato unitario nel caso di equidistribuzione (pi = qi; i = 1, 2, . . . , n);

1.0

p_i

Sulla base delle considerazioni precedenti, una misura assoluta della concentrazione e` ricavabile attraverso la misura dell’area compresa tra la spezzata di concentrazione e la bisettrice del quadrato unitario, detta area di concentrazione.

0.2

0.8 0.6

0.0

0.8

0.0

q_i

q_i

0.6

1.0

0.4

Curva di Lorenz - concent razione massima

1.0

Curva di Lorenz - concent razione minima

q_i

0.6

0.8

1.0

• va quasi a coincidere con il segmento che unisce i punti (0, 0) e (1, 0) e quello che unisce i punti (1, 0) e (1, 1) nel caso di concentrazione massima (q1 = · · · = qn−1 e qn = 1);

0.2

0.4

0.6

0.8

1.0

0.4 0.2 0.0

0.0

0.2

0.4

p_i

0.0

0.2

0.4

0.6 p_i

0.8

1.0

0.0

0.2

0.4

0.6

0.8

1.0

p_i

• nei casi intermedi, pi` u la spezzata si avvicina alla bisettrice del quadrato unitario minore e` la concentrazione, pi`u si avvicina all’asse delle ascisse maggiore e` la concentrazione.

La misura dell’area di concentrazione vale 0 nel caso di equidistribuzione o concentrazione ·1 = n−1 minima e pn−1 2 2 n (l’area del triangolo con misura della base pn−1 = n−1 n e dell’altezza 1) nel caso di massima concentrazione. Tuttavia n−1 1 2 n ≃ 2 (l’approssimazione migliora al crescere di n).

18

17

Una valutazione numerica della misura dell’area di concentrazione pu`o essere ottenuta sottraendo alla misura dell’area del triangolo rettangolo che ha per vertici i punti (0, 0), (1, 0) e (1, 1) (la met`a inferiore del quadrato di lato unitario) pari a 21, quella della somma delle aree degli n trapezi delimitati dai punti (pi, qi) (i = 0, 1, 2, . . . , n). La misura dell’area di ogni singolo trapezio `e (qi+qi+1)(pi+1 −pi) . 2

Una misura relativa di concentrazione si ottiene dividendo la misura dell’area di concentrazione per il suo massimo, cio`e:

R =

area di concentrazione = area di massima concentrazione

1 − 1 n−1 (q + q )(p − pi) = 2 2 i=0 i 1 i+1 i+1 2

0.6

0.8

1.0

che fornisce una diversa espressione per l’indice di concentrazione di Gini:

0.4

q_i

R = 1−

0.2

0.2

0.4

0.6

0.8

i=0

(qi + qi+1)(pi+1 − pi)

(∗)

L’importanza di questo risultato risiede nel fatto che la formula (∗) pu`o essere applicata anche nel caso di distribuzioni di frequenza .

0.0 0.0

n−1 

1.0

p_i

area di concentrazione = =

1 1 n−1  (qi + qi+1)(pi+1 − pi) − 2 2 i=0

19

Se ci riferiamo al caso di distribuzioni unitarie, attraverso semplici passaggi algebrici si mostra l’equivalenza della formula (∗) con le espressioni viste in precedenza. Consideriamo la formula esatta: 1 − 1 n−1 (q + q )(p − pi) R = 2 2 i=0 i n−1i+1 i+1 . 2n

Infatti la (∗) `e la versione semplificata, frutto ≃ 21, accettabile dell’approssimazione n−1 2n quando n `e sufficientemente grande. 1 i Notiamo che pi+1 − pi = i+1 n − n =n e n−1  i=0

da cui

(qi + qi+1)(pi+1 − pi) =  1 n−1 n−1 =   qi +  qi+1 = i=0 n  i=0  n−1 1 n−1 1 n−1     =  qi + 1  = + 2 qi qi + n n i=1 i=1 i=1

n n−1 n  (qi + qi+1)(pi+1 − pi) = − n − 1 n − 1 i=0  n  1 n n−1    − = qi = +2  n−1 n−1 n i=1 2 n−1  = 1− qi n − 1 i=1

R =

20

Se sono state rilevate le modalit`a x1 x2 · · · xk con frequenze n1 n2 · · · nk , l’ammontare totale del carattere rilevato con la modalit`a xj nel collettivo e` nj xj . Possiamo definire, per i = 1, 2, . . . , k, 1 i nj pi = n j=1 e i xj nj qi = j=1 k x n j=1 j j e calcolare necessariamente l’indice come R = 1−

k−1  i=0

(qi + qi+1)(pi+1 − pi).

Se il carattere `e suddiviso in classi possiamo individuare per ogni classe la modalit`a centrale x˜j e calcolare l’ammontare totale del carattere rilevato nella classe come nj x˜j . Se per`o `e noto l’ammontare medio µj o direttamente l’ammontare complessivo del carattere nj µj in ciascuna classe, e` preferibile utilizzare i µj nj (i = 1, 2, . . . , k). qi = j=1 k µ n j=1 j j

21

22

Esempio: Consideriamo la distribuzioni di n = 20 aziende agricole per superficie coltivata (in ettari)

Esempio: Nella seguente tabella `e riassunta la distribuzione del reddito familiare annuo (al netto delle imposte sul reddito e dei contributi previdenziali ed assistenziali), in migliaia di euro, in Italia nel 2000 (Banca d’Italia, Indagine sui bilanci delle famiglie italiane nell’anno 2000)

Superficie Frequenze valore (in ettari) relative centrale fi x˜i fix˜i 0 ⊣ 10 0.4 5 2 10 ⊣ 20 0.5 15 7.5 20 ⊣ 40 0.1 30 3 Superficie 0 ⊣ 10 10 ⊣ 20 20 ⊣ 40

R = 1−

k−1  i=0

i

˜j j=1 fj x 2 9.5 12.5

Classe di reddito frequenze reddito medio familiare assolute (in migliaia di euro) (in migliaia di euro) ni µi fino a 10 983 6564 da 10 a 20 2478 14985 da 20 a 30 1878 24613 da 30 a 40 1265 34718 oltre 40 1397 59931 totale 8001

pi qi 0.4 2/12.5=0.16 0.9 9.5/12.5=0.76 1 1

(qi + qi+1)(pi+1 − pi) =

= 1 − [(0 + 0.16)(0.4 − 0) + (0.16 + 0.76)(0.9 − 0.4) + +(0.76 + 1)(1 − 0.9)] = 0.3

Le quantit` a necessarie per calcolare la misura di concentrazione sono, per i = 1, 2, . . . , k, pi =

1 i nj n j=1

e

qi =

i

j=1 µj nj

k

j=1 µj nj

0.8

1.0

Curva di Lo renz per la superf icie co lt ivat a delle aziende agrico le

q_i

0.6

Nel nostro caso n = 8001 e k = 5.

0.0

0.2

0.4

Notiamo che, sulla base delle informazioni disponibili, non `e necessario chiudere le classi estreme della distribuzione. Dal momento che conosciamo le medie, non `e necessario individuare i valori centrali delle classi.

0.0

0.2

0.4

0.6

0.8

1.0

p_i

24

23

reddito frequenze cumulato cumulate i i j=1 nj j=1 µj nj 6452412 983 43585242 3461 89808456 5339 133726726 6604 217450333 8001

Possiamo renderci conto della presenza di una certa concentrazione dei redditi anche semplicemente guardando ai valori di pi e qi. Da questi si ha che il 12% di famiglie a pi` u basso reddito percepisce soltanto il 3% del totale dei redditi prodotti. Mentre il 17% di famiglie con redditi pi`u elevati percepisce il 39% del totale. Curva di Lorenz per la distribuzione del reddito

0.6 q_i 0.4 0.2 0.0

pi qi 983/8001 = 0.12 6452412/217450333 = 0.03 3461/8001 = 0.43 43585242/217450333 = 0.20 5339/8001 = 0.67 89808456/217450333 = 0.41 6604/8001 = 0.83 133726726/217450333 = 0.61 1 1

0.8

1.0

reddito complessivo nella classe n i µi 983 · 6564 = 6452412 2478 · 14985 = 37132830 1878 · 24613 = 46223214 1265 · 34718 = 43918270 1397 · 59931 = 83723607

da cui

0.0

0.2

0.4

0.6 p_i

R = 1− = + + + +

k−1 

i=0

(qi + qi+1)(pi+1 − pi) =

1 − [(0 + 0.03)(0.12 − 0) + (0.03 + 0.20)(0.43 − 0.12) + (0.20 + 0.41)(0.67 − 0.43) + (0.41 + 0.61)(0.83 − 0.67) + (0.61 + 1)(0.83 − 0.67)] = 0.3418

0.8

1.0

25

Il calcolo di una misura di concentrazione `e utile per la gestione del rischio (risk management) in ambito aziendale. Fa parte del rischio gestionale il rischio commerciale collegato al grado di concentrazione del fatturato (tra i clienti, i prodotti, le aree geografiche). Se ad esempio un’azienda `e legata in modo forte a pochi importanti clienti, e` sufficiente la perdita di uno solo di essi per avere una d...


Similar Free PDFs