10. Determinazione della numerosità campionaria PDF

Title 10. Determinazione della numerosità campionaria
Course Matematica
Institution Università degli Studi di Trento
Pages 4
File Size 134 KB
File Type PDF
Total Downloads 64
Total Views 137

Summary

lezione 10: formule numerosità campionaria...


Description

LA DETERMINAZIONE DELLA NUMEROSITA’ CAMPIONARIA Per comprendere meglio questa lezione è necessario aver preparato la lezione sulle variabili casuali e quella sull’Analisi dei risultati di un’indagine in quanto si utilizzeranno molte informazioni date in quelle sedi. La determinazione della numerosità campionaria rappresenta un elemento fondamentale in un’indagine: deve essere tale da garantire la possibilità di avere informazioni sui valori di tutta la popolazione ed in particolare sulla media attraverso la costruzione di intervalli di confidenza; deve essere sotto controllo l’errore di campionamento cioè la distanza fra il valore della stima ed il valore dell’intera popolazione; deve avere le dimensioni tali da garantire che l’indagine sia completata in un certo periodo predefinito dall’azienda; i costi devono rimanere all’interno di un certo budget.

   

Di seguito vengono presentati gli approcci al calcolo della numerosità campionaria per una variabile quantitativa X e per una variabile qualitativa con probabilità p. Ciò presuppone che, prima di determinare la numerosità campionaria, è necessario definire una variabile di riferimento come la variabile focus di tutta l’indagine. a. Determinazione della numerosità campionaria per variabili quantitative Nelle lezioni precedenti si era definito l’intervallo di confidenza di una variabile quantitativa come

(

Pr −1,96

)

σ σ +´x ≤ μ ≤ ´x +1,96 =0,95 √n √n

questo modo

Pr

(

|x´ −μ| σ √n

)

≤ 1,96 =0,95

che, utilizzando il valore assoluto, può anche essere scritto in

.

L’espressione mi indica un vincolo di probabilità dovuto al fatto che la distribuzione di riferimento è la distribuzione normale. Si è inoltre assunta l’ipotesi, utilizzata praticamente in tutte le indagini di mercato, di una probabilità al 95% che va a definire il valore sulla normale standardizzata di 1,96. NB: In studi su altre tematiche come la sanità o i processi industriali, la probabilità richiesta può essere superiore. In questi casi il valore non sarà più 1,96 ma il corrispondente valore di

zα 2

Al contempo, come detto in precedenza, è interesse della ricerca che la differenza fra il valore stimato e quello reale, chiamato errore di campionamento, non sia troppo elevata. Formalmente questo può essere scritto nel modo seguente percentuale.

|´x −μ| u

≤δ

dove il simbolo

δ

rappresenta l’errore di campionamento espresso in

Mettendo

a

(

Pr

sistema

)

σ =0,95 . Pr |´x −μ|≤ 1,96 √n

(

|x´ −μ| σ √n

≤ 1,96 =0,9 5

)

Si può affermare che una soluzione del sistema è data da

n=

1,962 ⋅c v 2 δ2

dove

cv

1,96

|´x −μ|

e

u

σ =μδ √n

rappresenta il coefficiente di variazione

≤δ

si

ottiene

dalla quale si ricava che

σ cv= . μ

Dunque, la numerosità del campione dipende da quattro elementi: 

 

la probabilità desiderata del 95%; l’appartenenza ad una distribuzione normale (garantita dal teorema del limite centrale) che mi indica il valore 1,96; la media e la varianza della popolazione rispetto alla variabile esaminata; l’errore di campionamento δ che sono disponibile ad accettare.

Per il calcolo di  

n è pertanto necessario definire:

l’errore campionario δ che viene fissato dal ricercatore; il coefficiente di variazione che è ignoto. Per superare questo problema si hanno due soluzioni possibili: a. considerare il valore del coefficiente di variazione di un’altra indagine fatta in azienda o da terzi; b. effettuare un’indagine pilota di poche unità (20-30) e calcolare il coefficiente di variazione che poi viene inserito nella formula per il calcolo di n .

Questo approccio vale per popolazioni molto grandi (formalmente infinite). Per popolazioni finite, come evidenziato nelle lezioni precedenti, la varianza della media campionaria presenta il fattore di correzione (N-n) / (N-1) e pertanto la soluzione del sistema è data da

1,96

quadrato e fatti gli opportuni spostamenti ricordando che

cv=

σ



( N−n )

√ n ( N−1 )

σ μ

si trova

=δμ n=

e dopo aver elevato al

1,962 c v 2 N ( N −1 ) δ2 +1,962 c v 2

che

rappresenta la formula per il calcolo della numerosità campionaria per popolazioni finite. Si dimostra facilmente che per N che tende all’infinito (basta calcolare il limite) la formula per trovare uguale sia che venga inserito sia che non venga inserito il fattore di correzione.

n è

Dunque, per popolazioni finite la numerosità campionaria oltre che dal valore della normale standardizzata di 1,96, dalla media, dalla varianza della popolazione e dall’errore di campionamento dipende anche dalla numerosità della popolazione. Va sottolineato che la numerosità campionaria non è proporzionale alla numerosità della popolazione. Ciò significa che all’aumentare della popolazione la numerosità campionaria non cresce in maniera proporzionale ma asintotica nel senso che al crescere della numerosità della popolazione la numerosità campionaria tende a stabilizzarsi. Ed infatti quando la popolazione è molto grande la numerosità N non influisce nella determinazione della numerosità del campione. Esercizio Calcolare la numerosità del campione nelle situazioni sotto indicate:  popolazione di 10.000, 100.000, 1.000.000  cv = 1  δ uguale a 0,05 – 0,03 – 0,01 Si può verificare che il valore di n calcolato con in fattore di correzione si avvicina a quello calcolato senza

tale fattore al crescere della popolazione. b. Determinazione della numerosità campionaria per variabili qualitative Se la variabile di riferimento è di tipo qualitativo, cioè una percentuale p, per la determinazione della numerosità campionaria, il metodo non cambia mentre le formule sono diverse. Nella lezione sull’analisi dei risultati di un’indagine si era definito l’intervallo di confidenza di una variabile qualitativa nel modo seguente

(

Pr −1,96



√ )

pq pq +^p ≤ p ≤ ^p +1,96 =0,95 n n

utilizzando il valore assoluto, anche in questo modo

Pr

(√

)

|^p − p| pq n

che può essere scritto,

≤ 1,96 =0,9 5.

L’espressione mi indica un vincolo di probabilità dovuto al fatto che la distribuzione di riferimento è la distribuzione normale. Come detto in precedenza il ricercatore desidera che la differenza fra il valore stimato e quello reale non sia troppo elevato. Formalmente questo può essere scritto nel modo seguente |^p− p| ≤ δ dove il simbolo δ rappresenta l’errore di campionamento espresso in percentuale. A differenza del modello basato su una variabile quantitativa in questo caso non si divide per la media in quanto p è già espresso in forma percentuale. Mettendo a sistema le due formule precedenti si ottiene il sistema:

Si può affermare che una soluzione del sistema è data da

n=

(

Pr |^p− p |≤ 1,96



1,96

1,962 ⋅ pq . δ2

pq =δ n

√ )

p ⋅q =0,95 . n

dalla quale si ricava che

Dunque, la numerosità campionaria dipende da:    

la probabilità desiderata (95%); l’appartenenza ad una distribuzione normale (garantita dal fatto che la binomiale si approssima ad una normale anche per valori limitati di n) data da 1,96; l’errore di campionamento che si è disposti ad accettare δ ; dal prodotto pq che non conosco. Conosco tuttavia il suo valore massimo che è 0,25 quando p=0,5 cioè nella situazione di una popolazione divisa a metà. In alternativa posso utilizzare un valore preso da altre indagini o condurre un’indagine pilota nella quale calcolare un valore pq.

1,962 ⋅ 0,25 2 δ

0,96 per cui la numerosità campionaria, nel caso δ2 di popolazione infinita, dipende solo dall’errore campionario δ che viene fissato dal ricercatore. Utilizzando il valore massimo si ha

n=

=

Per popolazioni finite la varianza della media campionaria presenta il fattore di correzione (N-n) / (N-1) e pertanto la soluzione del sistema diventa

√ √

1,96

pq ( N−n ) =δ . n ( N−1) 2

Dopo aver elevato al quadrato e fatto gli opportuni spostamenti si trova

n=

1,96 pqN ( N −1) δ 2 +1, 962 pq

che

rappresenta la formula per il calcolo della numerosità campionaria per popolazioni finite. Si dimostra facilmente che per N che tende all’infinito la numerosità campionaria calcolata inserendo il fattore di correzione risulta uguale alla stessa senza fattore di correzione.

Se si considera la situazione più sfavorevole per cui pq=0,25

n sarà dato da:

n=

0,96 N ( N −1) δ 2 +0,96

Dunque, per popolazioni finite la numerosità campionaria oltre che dal valore della normale standardizzata (1,96) e dall’errore di campionamento ( δ ) dipende anche dalla numerosità della popolazione (N). Come si può notare, anche in questa situazione, la numerosità campionaria non è proporzionale alla numerosità della popolazione bensì asintotica al suo valore massimo (pq = 0,25 quando p = 0,5) nel senso che per N che tende all’infinito la numerosità campionaria, sia che si tratti della situazione più favorevole sia di quella meno favorevole, darà il medesimo risultato. Una volta fissato l’errore di campionamento e deciso di considerare pq=0,25, essendo noto N, si può calcolare la numerosità del campione dato da:

n=

0,96 N ( N −1) δ2 +0,96

Esercizio Calcolare la numerosità del campione nel caso di una variabile qualitativa nelle situazioni sotto indicate:  popolazione di 10.000, 100.000, 1.000.000;  δ uguale a 0,05 – 0,03 – 0,01;  pq a piacere. Verificare che il valore di

n

calcolato con

n=

1,962 ⋅ pq 2 δ

si avvicina a quello calcolato con

2

n=

1,96 pqN ( N −1) δ 2 +1, 962 pq

al crescere della popolazione ed a

n=

0,96 N ( N −1) δ2 +0,96

se si utilizza

pq=0,25. Vi è un ultimo aspetto al quale è opportuno fare cenno ed è il rapporto fra budget ed errore di campionamento. Spesso accade che il budget a disposizione non permetta di poter condurre un’indagine con la numerosità campionaria desiderata o calcolata secondo l’approccio di cui sopra. Abbiamo quindi una distanza fra il campione desiderato ed il campione che si può realizzare con il budget a disposizione. Un’operazione ragionevole consiste nell’individuare quale errore di campionamento si andrebbe a commettere utilizzando la numerosità del campione definita dal budget. A tal fine è necessario isolare l’errore di campionamento dalle espressioni (6), (8), (14) e (18) che indicano le formule per il calcolo della numerosità campionaria. Ad esempio, utilizzando la (6)

n=

1,962 ⋅c v 2 δ2

Se invece utilizziamo l’espressione (18)

n=

si riscontra quanto segue:

0,96 ( N −1) δ 2 +0,96

avremo che

δ=

1,96⋅ cv √n

√ √

δ=

0,96 ( N −n ) ( N −1 ) n

Come si può notare il secondo elemento sotto radice è il fattore di correzione. È facile verificare che il primo elemento sotto radice rappresenta l’errore se si utilizza la (15). Lascio agli studenti trovare l’errore per le altre situazioni previste dalle formule (8) e (14)....


Similar Free PDFs