Teoria Statistica Delle Decisioni PDF

Title Teoria Statistica Delle Decisioni
Author Gemma Braschi
Course Statistica
Institution Università degli Studi di Torino
Pages 50
File Size 3.2 MB
File Type PDF
Total Downloads 4
Total Views 128

Summary

principi di statistica inferenziale ...


Description

TEORIA STATISTICA DELLE DECISIONI La chiave di lettura fondamentale di questa materia è quella di seguire un procedimento “induttivo” o “inferenziale” dove si porta conoscenza dal particolare ( campione statistico) al generale (popolazione statistica). Viene dunque costituito un anello di congiunzione tra il calcolo delle probabilità e l’inferenza statistica e si ha come protagonista il CAMPIONE CASUALE, che è la fonte delle informazioni su cui sono basate le inferenze, intese, in prima approssimazione, come generalizzazioni delle evidenze empiriche ricavate dai dati del campione casuale. Si cerca quindi, in termini più blandi, di ricavare informazioni su una generale popolazione statistica con infinite realizzazioni a partire da un campione casuale da essa estratto. CAMPIONE CASUALE Consideriamo una popolazione di N unità, dove il carattere X di interesse presenta r modalità ( x₁, x₂,...,xᵣ), con frequenze relative (f₁, f₂,..., fᵣ ). Pensiamo ora di estrarre a sorte un’unitàX di questa popolazione. Con l’estrazione a sorte la distribuzione di frequenze assume la veste di distribuzione di probabilità: il carattere X diventa una variabile casuale che può assumere i valori x₁, x₂,...,xᵣ , con probabilita p₁, p₂,...,pᵣ. In termini generali, l’estrazione a sorte di una unità statistica da una popolazione di N unità genera una v.c la cui distribuzione di probabiliità è identica alla distribuzione di frequenze della popolazione, nel senso che la probabilità associata al singolo valore di X è uguale alla frequenza relativa che tale valore presenta nella popolazione. Ci si deve mettere in condizione in cui una volta individuata la popolazione, questa sia una “urna ideale”, cioè un’urna contenente palline indistinguibili tra loro, rimescolate e pescate a caso. Immaginiamo ora di ripetere l’estrazione n volte, con ripetizione, ossia riponendo dopo ogni prova l’unità estratta nella popolazione. In questo modo si creano n variabili casuali X₁,X₂,..., X n indipendenti e identicamente distribuite (sono indipendenti perchè la singola osservazione non produce effetti sulle altre e sono identiche perchè l’esperimento è ripetuto nelle stesse condizioni). L’esperimento casuale dato dall’estrazione origina una v.c X della quale interessano una o più costanti caratteristiche (media, varianza); la ripetizione dell’esperimento casuale X per n volte, nelle stesse condizioni, genera le v.c X₁,X₂,..., X n “campione casuale” di X.

i.i.d  tali variabili casuali rappresentano quello che viene detto

Si chiama campione casuale di ampiezza n la n-upla di v.c (X₁,X₂,..., X n ) indipendenti e identicamente distribuite come la variabile casuale X oggetto di studio. Non lo sono invece i campioni casuali estratti con altri schemi di campionamento (campionamento casuale senza ripetizione, campionamento casuale stratificato – quando segmento la popolazione e seleziono un campione da ogni strato per rispettare la struttura della popolazione - ). Un campione per essere rappresentativo deve avere dimensione campionaria elevata, ma se l’ampiezza del campione è piccola rispetto all’ampiezza della popolazione, ai fini applicativi, il campionamento casuale senza ripetizione può essere equiparato a quello con ripetizione.

POPOLAZIONE Si parla di popolazione Bernoulliana quando si ha a che fare con esperimenti a due alternative, “successo” e “insuccesso”e di popolazione normale quando il fenomeno casuale può essere descritto da una da una variabile casuale normale. Il modello descrittivo della v.c verrà indicato con f x ( x , θ ) dove il simbolo θ indica il parametro, la costante caratteristica presente nel modello (come la quantità p per la v.c bernoulliana e le quantità μ e σ per la normale). La scelta di una dell’altra grandezza dipende dalle finalità dello studio; se l’interesse prevalente è quello di tenere sotto controllo la qualità del prodotto l’attenzione sarà concentrata sulla media, se invece interessa in modo specifico la stabilità del processo produttivo, il parametro di interesse è la varianza. Si chiama parametro una costante numerica che caratterizza la v.c X oggetto di studio. Viene quindi identificato un problema concreto e in relazione a questo viene definita una v.c eventualmente descritta da un modello probabilistico. Il calcolo delle probabilità fornisce gli strumenti per fare “previsioni” sui possibili campioni casuali di ampiezza definita estraibili dalla popolazione, o meglio sui valori di una conveniente funzione dei dati del campione  fare previsioni significa poter assegnare delle probabilità o delle densità di probabilità ai valori di tale funzione. Tutto ciò attiene al problema diretto; il problema inverso è invece quello che viene affrontato con i metodi dell’inferenza statistica. INFERENZA STATISTICA Con l’espressione inferenza statistica si intende l’insieme dei metodi e delle tecniche con cui si fa luce su uno o più parametri della popolazione generatrice, utilizzando i dati di un campione casuale.

Dato un campione (X₁,X₂,..., X n ) di una popolazione X, nota la forma o di px ( x , θ ) o f x ( x , θ ), il problema è trovare dei valori plausibili per il parametro incognito θ all’interno dello spazio Θ . Si tratterà in questo caso di: -

Inferire un valore plausibile per θ ∈ Θ  STIMA PUNTUALE ∈ Θ  STIMA MEDIANTE INTERVALLI O Inferire un intervallo di valori plausibili per θ INTERVALLI DI CONFIDENZA ∈ Θ  TEST DI IPOTESI STATISTICHE Testare un valore di θ

Ragionando per trovare il parametro incognito, date le osservazioni, introduco quella che viene definita funzione di massima verosimiglianza di θ .

L ( θ| X 1 , … , X n ) Questa funzione, se massimizzata, mi permette di trovate il valore di probabilità congiunta di osservare davvero il campione osservato.

θ che avrebbe reso massima la

SPAZIO CAMPIONARIO Consideriamo il campione casuale (X₁,X₂,..., X n ) composto da n v.c i.i.d. Denominiamo campione osservabile una specifica realizzazione del campione casuale, ossia una n-upla di numeri che indichiamo con ( x 1 , x 2 , … , x n ) dove le lettere minuscole segnalano che ci riferiamo a numeri e non a variabili casuali. Immaginiamo di essere in grado di elencare tutti i possibili campioni osservabili; questi campioni costituiscono lo spazio campionario Θ . Pensiamo ora di assegnare una probabilità o una densità di probabilità a ogni campione dello spazio campionario. Considerando uno specifico campione, poniamo la terna di numeri (1,2,3), ci possiamo chiedere quale sia la densità di probabilità da assegnare ad esso. La risposta è che la densità di probabilità dipende dalla media e dalla varianza della v.c oggetto di studio  le probabilità e le densità di probabilità assegnate ai campioni dello spazio campionario dipendono dal modello descrittivo della popolazione e dei relativi parametri. STATISTICHE CAMPIONARIE I procedimenti di stima dei parametri e di verifica delle ipotesi richiedono che i dati del campione vengano elaborati. Indichiamo con ( x 1 , x 2 , … , x n ) il campione osservato (≠ dal campione osservabile poichè quest’ultimo è un elemento dello spazio campionario, ossia uno tra i campioni possibili, mentre il campione osservato si è effettivamente realizzato). La media aritmetica di questi numeri è espressa dalla formula:

´x =

x 1 +x 2+…+x n 1 n = ∑ xi n i=1 n

Un’altra elaborazione a cui si ricorre frequentemente è rappresentata dalla varianza, espressa dalla formula:

x x i−´¿ ¿ ¿ ¿ n 1 2 s c= ∑¿ n−1 i=1 Quando queste funzioni vengono applicate al campione osservato restituiscono un numero, mentre quando vengono riferite al campione inteso come n-upla di v.c (X₁,X₂,..., X n ) assumono la veste di v.c e vengono chiamate statistiche campionarie. n

1 X´ = ∑ X i n i=1 n

1 ´ )2 S = ( X i− X ∑ n−1 i=1 2 c

La distribuzione campionaria di una statistica è la distribuzione dei valori che la statistica assume nello spazio campionario. Possiamo ora intuire il processo con cui so determina la distribuzione campionaria di una qualsiasi statistica T= t(X₁,X₂,..., X n ). Si assegnano le probabilità o le densità ai campioni dello spazio campionario, probabilità o densità che dipendono dal modello descrittivo della v.c oggetto di studio. Dopodichè la funzione di ripartizione F(t) della statistica data è espressa da:

F(t)= P(T ≤t )= P [ ( X 1 , … , X n ) ∈ I t ] Dove

Xn

I t è l’insieme dei campioni dello spazio campionario per i quali vale la disuguaglianza t(X₁,X₂,..., ) ≤ t.

DISTRIBUZIONE CAMPIONARIA DELLA MEDIA Osserviamo innanitutto che la media campionaria ha valore atteso e varianza che dipendono solo dalla media e dalla varianza della popolazione generatrice e non dalla struttura di questa. Valgono, infatti, le seguenti formule:

E( ´X)=μ x =μ σ 2 Var ( X´ )=σ x = n Essendo

μ

e

2

σ

2

la media e la varianza della popolazione generatrice.

La radice quadrata della varianza di dal simbolo attorno a

´ X

è la deviazione standard della media campionaria e sarà denotata

σ X´ . Questa quantità rappresenta la media delle oscillazioni della variabile casuale X´ μ .

Il caso dei grandi campioni

Si consideri un campione casuale di ampiezza n proveniente da una popolazione qualsiasi con media varianza

σ

2

. Allora, se n è sufficientemente grande, la distribuzione campionaria di



μ e

può essere

approssimata con una normale N( μ , σ 2 /n). Questo perchè all’aumentare dell’ampiezza del campione la distribuzione campionaria della media tende a una forma sempre più stabile, cioè sempre più incentrata sul parametro θ che si sta indagando ( questo è dovuto al fatto che più aumenta la dimensione campionaria, più il campione rassomiglia alla popolazione di riferimento, e quindi più vicini saranno i valori ´x stimati al vero valore del parametro).

Il risultato enunciato va sotto il nome di Teorema del limite centrale ed è estremamente importante: se disponiamo di un campione di ampiezza sufficientemente grande, possiamo dire, ai fini esplicativi, che la statistica X´ è assimilabile a una v.c normale, indipendentemente dalla struttura della popolazione generatrice che può essere distribuita secondo un qualsiasi modello. DISTRIBUZIONE CAMPIONARIA DELLA VARIANZA La distribuzione campionaria della varianza, n

2

Sc=

1 ´ )2 ( X i− X ∑ n−1 i=1

dipende, come avviene per una qualsiasi statistica, dalla struttura della popolazione. Tuttavia, analogamente a quanto visto per la media campionaria, le formule del valore atteso e della varianza di

S2c si possono

ricavare in generale per qualsiasi popolazione generatrice. 2

E(S )=σ

2

Var (S2 )= Dove

(

n σ4 β +2 n−1 n

)

β è l’indice di disnormalità della popolazione, che è nullo se la popolazione generatrice è normale.

STIMA PUNTUALE DEI PARAMETRI Illustriamo ora i criteri e le tecniche che consentono di attribuire un valore a una costante caratteristica, a un parametro della popolazione oggetto di studio, utilizzando i dati contenuti in un campione casuale osservato. Ci si deve innanzitutto chiedere quale debba essere la statistica campionaria, ossia la funzione dei dati del campione, da utilizzare per assegnare un valore al parametro θ . La statistica campionaria T= t(X₁,X₂,..., X n ) utilizzata per stimare

θ viene denominata STIMATORE. Si chiama invece STIMA la singola determinazione dello stimatore, il valore t( x 1 , x 2 , … , x n ) che esso assume nel campione ( x 1 , x 2 , … , x n ) inteso come n-upla di numeri effettivi.

PROPRIETÁ DEGLI STIMATORI Sia T= t(X₁,X₂,..., X n ) uno stimatore del parametro T-

θ . Consideriamo la v.c

θ

che chiameremo “errore di stima”. Si tratta di una v.c che nel singolo campione dello spazio campionario assumerà un valore positivo, negativo o nullo, a seconda che la stima sia al di sopra, al di sotto o sia pari al valore del parametro. Studiare l’errore di stima dello spazio campionario è cruciale per stabilire se lo stimatore T è più o meno appropriato per la soluzione del nostro problema di stima. Due valori di sintesi sono essenziali per emettere un giudizio sullo stimatore:

θ )

-

La media degli errori di stima, espressa da: E(T-

-

La media dei quadrati degli errori di stima, espressa da: MSE(T)=

E(T −θ)2

La prima quantità è bene che sia nulla; se fosse positiva lo stimatore sovrastimerebbe, in media, il parametro. La seconda quantità, denominata “errore quadratico medio”, è bene che sia il più possibile piccola, in quanto essa segnala il livello medio di oscillazione delle stime intorno al valore vero del parametro: minore è tale oscillazione media, maggiore è l’affidabilità dello stimatore. É bene chiarire in generale che l’errore quadratico medio di uno stimatore non rappresenta l’errore che si commette nella stima ottenuta dal singolo campione osservato, ma è una media degli errori di stima associati a tutti i campioni dello spazio campionario: in altri termini, è una proprietà dello stimatore nello spazio campionario. Proprietà della non distorsione Uno stimatore T= t(X₁,X₂,..., X n ) del parametro θ si dice non distorto se il valore atteso dell’errore di stima è uguale a 0 per qualunque valore del parametro. E(T- θ )= 0 per ogni

θ

Oppure

θ

E(T)= La differenza D(T)= E(T) –

θ è denominata “distorsione”.

L’errore quadratico medio dello stimatore T di

θ può essere scritto nella forma ,

MSE(T)= Var(T) +

[ D (T ) ]

2

Dove Var(T)= E(T −θ)2 è la varianza dello stimatore T. L’errore quadratico medio coincide con la varianza se lo stimatore è non distorto. Dati due stimatori dello stesso parametro θ

T 1 = t 1 (X₁,X₂,..., X n ) e

2=¿ t 2 (X₁,X₂,..., X n ), T¿

si dice che il primo è più efficiente del secondo se

E (T 1 −θ )2 ≤ E ( T 2−θ) 2

La media campionaria è uno stimatore non distorto del parametro media della popolazione

μ , essendo

E( ´X)=μ x =μ L’errore quadratico medio di

´ X

è dato da : 2

´ −μ )2=σ x2= σ MSE( ´X )= E ( X n

La frequenza relativa dell’evento “successo” nel campione ^p è uno stimatore non distorto del parametro p della popolazione bernoulliana da cui proviene il campione, essendo: E( ^p )=p L’errore quadratico medio di 2

2 MSE( ^p )= E ( ^p − p) =σ ^p =

per ogni p

^p è dato da p ( 1−p ) n

La varianza campionaria è uno stimatore non distorto del parametro varianza della popolazione, essendo:

E ( S 2 )=σ 2 L’errore quadratico medio dello stimatore è dato da 2

2 2 2 E (S −σ ) =σ S = 2

Dove

(

σ4 n β+ 2 n n−1

)

β è una misura dello scostamento della popolazione dal modello gaussiano (normale).

Proprietà asintotiche degli stimatori È lecita l’aspettativa che gli errori di stima tendano mediamente a diminuire al crescere della dimensione del campione. L’attesa è fondata sul fatto che un campione più grande riesce a riprodurre più fedelmente le caratteristiche numeriche della popolazione. Qui di seguito si intende studiare il comportamento degli stimatori quando si fa tendere n a infinito. Preso uno stimatore T del parametro θ e fissato un numero positivo ε piccolo a piacere, consideriamo la probabilità che T differisca da θ , in valore assoluto, per meno di ε:

P ( |T −θ|< ε ) =P ( θ −ε σ 0

Fissato un livello di significatività α, sia

X2n−1 ;1−α il quantile di livello 1-α della v.c chi-quadrato con n-1

gradi di libertà, individuiamo, nello spazio dei campioni associati a una popolazione normale con varianza

σ 02 , i campioni più estremi. I campioni più estremi sono quelli in cui la statistica test assume valori superiori alla soglia quindi se appartengono alla regione di rifiuto 2 R= {v :v > X n−1 ; 1 −α}

X 2n−1 ;1−α ,

RIEPILOGO TEST D’IPOTESI Test d’ipotesi sulla media di una popolazione normale con varianza nota

Test d’ipotesi sulla media di una popolazione normale con varianza incognita

Test d’ipotesi sulla media nel caso dei grandi campioni

Test d’ipotesi nel caso delle popolazioni bernoulliane

Test d’ipotesi sulla varianza di una popolazione normale...


Similar Free PDFs