Strumenti Statistici Per L’analisi Económica PDF

Title Strumenti Statistici Per L’analisi Económica
Author Blerte Shehu
Course Statistica economica 
Institution Università degli Studi di Udine
Pages 148
File Size 24.9 MB
File Type PDF
Total Downloads 211
Total Views 670

Summary

STIMA PUNTUALE = Sia X una variabile casuale che rappresenta un carattereosservato su una popolazioneSTRUMENTI STATISTICI15/02/RIPASSOSTIMA i seX èDISCRETA,la se XèCONTINUAlafunzionediprobabilitàfunzione di densitàverrà indicata conviene indicataconPLX,0)f-(x.0)OBIETTIVO : ottenere attraverso un'opp...


Description

STIMA PUNTUALE = Sia X una variabile casuale che rappresenta un carattere osservato su una popolazione

se lo stimatore 𝑇 è CORRETTO 𝑀𝑆𝐸 (𝑇 ) = 𝑉 (𝑇) per tutti i possibili valori di 𝜃. Dati due stimatori corretti 𝑇 e 𝑇 del parametro 𝜃, 𝑇 è più efficiente di T 𝑉(𝑇 ) < 𝑉(𝑇 ) per tutti i possibili valori di 𝜃.

Lo stimatore 𝑇 di un parametro 𝜃 è uno stimatore consistente in media quadratica se:

Lo stimatore 𝑇 di un parametro 𝜃 è uno stimatore asintoticamente corretto se:

Si consideri una v.c. 𝑋 con media 𝜇 e un campione casuale 𝑋 ,...,𝑋 .

Altrimenti, si può ricorrere al t

La proporzione è il parametro 𝜋 della v.c. di Bernoulli, quindi è la media della distribuzione.

La media campionaria è uno stimatore consistente:

Si consideri una v.c. 𝑋 con media 𝜇 e varianza 𝜎2(entrambe ignote) e un campione casuale 𝑋 ,...,𝑋 .

Sia X una v.c. che rappresenta un carattere osservato su una popolazione. Se X è DISCRETA, la sua funzione di probabilità verrà indicata con p(x;θ). Se X è CONTINUA, la sua funzione di densità verrà indicata con f(x;θ)

L’intervallo casuale [L1(X1,...,Xn), L2(X1,...,Xn)] si definisce INTERVALLO DI CONFIDENZA DI LIVELLO 1-α per il parametro θ se contiene con probabilità 1-α il parametro ignoto θ della popolazione, ossia:

INTERVALLO DELLA MEDIA CON

Ci sono delle analogie tra STIMA PUNTUALE e STIMA INTERVALLARE:

INTERVALLO DI CONFIDENZA PER LA MEDIA CON V Sia X una v.c. che rappresenta un carattere osservato su una popolazione. Supponiamo che la v.c. sia distribuita come una Normale con media e varianza ignota.

INTERVALLO DI CONFIDENZA PER LA MEDIA (POPOLAZIONE NON NORMALE) Quando non è nota la popolazione ma il campione ha una dimensione sufficientemente grande, possiamo considerare un’approssimazione dell’intervallo di confidenza per la media ottenuta attraverso il teorema del limite centrale.

INTERVALLO DI CONFIDENZA PER UNA PROPORZIONE (campioni di dimensioni elevate)

Quando la popolazione è riferita a un carattere che può assumere solo due modalità (popolazione Bernoulliana), siamo interessati all’intervallo di confidenza per una proporzione π. Come sappiamo un buon stimatore per π è la media campionaria X .

Si consideri una popolazione Normale con media e Si può dimostrare che la v.c.

a entrambe ignote.

TEORIA DEI TEST STATISTICI • I test statistici si usano per verificare delle ipotesi. • Se l’ipotesi riguarda uno o più parametri della distribuzione di probabilità della popolazione, si parlerà di test parametrico. • L’impostazione data da J.Neyman e E.S.Pearson, nota come test d’ipotesi, prevede la formulazione di un’ipotesi nulla e un’ipotesi alternativa. • : attraverso un campione di osservazioni stabilire, con un certo grado di attendibilità, se poter rifiutare o meno l’ipotesi nulla a favore dell’ipotesi alternativa.

• Ipotesi nulla: H

• Ipotesi alternativa: H • Spazio parametrico : insieme di tutti i possibili valori che può assumere • Partizione dello spazio parametrico • Indichiamo le due ipotesi con il seguente sistema

• Il test si basa sul valore assunto da una statistica test.

• La s è una (funzione del campione casuale che non dipende da parametri incogniti) la cui distribuzione deve essere completamente nota sotto l’ipotesi nulla. • L’insieme dei valori della statistica test che portano all’accettazione dell’ipotesi nulla è chiamata regione di accettazione. • L’insieme dei valori della statistica test che portano al rifiuto dell’ipotesi nulla è chiamata regione di rifiuto.

• Valori critici: delimitano la zona di accettazione dalla zona di rifiuto • Livello di significatività

: probabilità di rifiutare H quando questa è vera.

IL P-VALUE

P-value = probabilità di osservare un valore della statistica test uguale o più estremo del valore ottenuto dal campione, sotto l’ipotesi nulla. Il p-value non è un quantità fissata come il livello di significatività, ma al contrario è una quantità che misura l’evidenza fornita dai dati contro l’ipotesi nulla. Minore è il valore del p-value, più è forte l’evidenza contro l’ipotesi nulla.

ERRORE DI I E II TIPO • errore del I tipo: si rifiuta l’ipotesi nulla mentre questa è vera. • errore del II tipo: si accetta l’ipotesi nulla mentre questa è falsa

PASSI DA SEGUIRE NELL’EFFETTUARE UNA VERIFICA D’IPOTESI - definizione del sistema d’ipotesi - scelta della statistica test - scelta del livello di significatività e della numerosità del campione - definizione della regione di rifiuto -estrazione del campione - calcolo della statistica test

FUNZIONE DI POTENZA • Si chiama funzione di potenza del test la funzione che descrive la probabilità, al variare di rifiutare H e viene indicata con

, di

TEST UNIFORMEMENTE PIÙ POTENTE Un test con livello di significatività e funzione di potenza uniformemente più potente a livello se:

per ogni altro test con uguale livello di significatività

è detto

e funzione di potenza

ALCUNI TEST STATISTICI (CAP. 14) TEST PER LA MEDIA, POPOLAZIONE NORMALE, VARIANZA NOTA

Statistica test: Il numeratore di Z è la differenza tra la media campionaria e il suo valore atteso, mu con 0, quando l’ipotesi nulla è vera, mentre il denominatore è la devianza standard della media campionaria.

La statistica ci indica se lo scostamento osservato rientra nella variabilità media dello stimatore o se al contrario è troppo grande da poter essere giustificata dalla variabilità campionaria.

TEST PER LA MEDIA, POPOLAZIONE NORMALE, VARIANZA IGNOTA

TEST PER LA MEDIA, POPOLAZIONE NON NORMALE, VARIANZA IGNOTA

TEST PER UNA PROPORZIONE

TEST PER LA VARIANZA, POPOLAZIONE NORMALE, MEDIA IGNOTA

TEST SULLA DIFFERENZA TRA MEDIE, POPOLAZIONI NORMALI INDIPENDENTI, VARIANZA NOTA

TEST SULL DIFFERENZA TRA MEDIA, POPOLAZIONI NORMALI INDIPENDENTI, VARIANZE IGNOTE E UGUALI

TEST SULLA DIFFERENZA TRA MEDIA, POPOLAZIONI NON NORMALI INDIPENDENTI, VARIANZE IGNOTE

TEST SULLA DIFFERENZA TRA PROPORZIONI

TEST UGUAGLIANZA SULLE VARIANZE, POPOLAZIONI NORMALI INDIPENDENTI

TEST DI INDIPENDENZA

Un test non parametrico molto utilizzato è il test di indipendenza che permette di verificare se tra due variabili sussiste o meno associazione. Il test che abbiamo considerato può essere applicato sia a variabili quantitative (suddivise in classi) sia a variabili qualitative, per le quali non sono applicabili i test descritti in precedenza.

METODO DELLA MASSIMA VEROSIMIGLIANZA Il metodo della verosimiglianza è un metodo inferenziale, quindi è una teoria molto generale che permette di fare inferenza. X: variabile casuale discreta o continua x: realizzazione della variabile casuale X

LA FUNZIONE DI VEROSIMIGLIANZA

STIMA DI MASSIMA VEROSIMGLIANZA

STIMA DI MASSIMA VEROSIMIGLIANZA

ASPETTI COMPUTAZIONALI Quando non si riesce ad esprimere la stima di massima verosimiglianza in forma esplicita diventa necessario ricorrere a metodi di calcolo numerico. Esistono diversi metodi di calcolo numerico. Uno di questi è il metodo di Newton-Raphson. Si consideri il caso di un’equazione in una variabile f (x) = 0. Partendo da un valore iniziale x0, la funzione f (x) viene approssimata attraverso uno sviluppo in serie di Taylor fino al primo ordine intorno al punto x0

Ponendo pari a zero e risolvendo per x si ottiene l’approssimazione successiva:

INFORMAZIONE OSSERVATA DI FISHER

Nel caso multiparametrico, l’informazione osservata è:

Essa è una matrice semidefinita positiva

L’INFORMAZIONE ATTESA DI FISHER L’informazione attesa di Fisher è la quantità:

DISEGUAGLIANZA DI CRAMER-RAO Sia T uno stimatore non distorto del parametro θ di un modello statistico monoparametrico in cui l’informazione attesa è I(θ). Allora, sotto alcune condizioni di regolarità,

PROPRIETÀ DEGLI STIMATORI DI MASSIMA VEROSIMIGLIANZA

Esempio: Nel caso di una popolazione normale, lo stimatore di massima verosimiglianza di σ2 è:

Lo stimatore di massima verosimiglianza di σ è:

Sia θˆ uno stimatore di massima verosimiglianza di θ. Sotto alcune condizioni di regolarità, lo stimatore di massima verosimiglianza è asintoticamente Normale e asintoticamente efficiente, cioè

Quindi, la varianza dello stimatore di massima verosimiglianza raggiunge il limite inferiore di Cramer-Rao.

IDENTIFICABILITÀ DEI PARAMETRI

Se invece L(θ′;x)=L(θ;x) ∀x, i parametri non sono identificabili e non è possibile ottenere le stime di massima verosimiglianza.

TEST DEL RAPPORTO DI VEROSIMIGLIANZA

Dato un problema di verifica d’ipotesi H0 : θ ∈ Θ contro H1 : θ ∈ Θ, la statistica rapporto di verosimiglianza è definita come:

La regione di rifiuto è individuata dalla relazione λ(x) ≤ c scelto un opportuno c tale che 0 < c < 1.

La costante c viene scelta in modo tale che il livello di significatività del test sia uguale ad un α prefissato. Per trovare il valore c si dovrà conoscere, almeno in modo approssimato, la distribuzione della statistica λ(x) sotto l’ipotesi nulla H0.

Quando la distribuzione di λ(x) è troppo complessa da trattare e non è possibile trovare una trasformazione ragionevole che porti ad una distribuzione piu` semplice, si può far uso della teoria asintotica.

Sotto alcune condizioni di regolarità e se l’ipotesi nulla è vera, la distribuzione di W (x ) = −2 log λ(x ) tende, al tendere di n all’infinito, a una distribuzione Chi-quadrato con gradi di libertà pari al numero di restrizioni imposte:

W(x) costituisce una nuova statistica test, anch’essa chiamata rapporto di verosimiglianza.

LEMMA DI NEYMAN-PEARSON Per H : θ=θ contro H :θ=θ il test del rapporto di verosimiglianza ha potenza massima tra tutti i test con livello di significatività non superiore ad α. Per tali ipotesi è dunque un test uniformemente piu` potente, o test ottimo.

MODELLO DI REGRESSIONE LINEARE SEMPLICE Consideriamo due variabili quantitative, Y ed X, e supponiamo di essere interessati a comprendere come la variabile Y (= variabile dipendente o risposta) sia influenzata dalla variabile X (= variabile esplicativa o indipendente). L’OBIETTIVO è individuare una funzione che descriva la relazione tra le due variabili. Una variabile Y è una funzione di X se a ogni valore di X corrisponde uno è un solo valore di Y. In questo caso esiste una RELAZIONE FUNZIONALE tra le due variabili. Una relazione funzionale lineare può essere scritta come:

Per descrivere e analizzare i fenomeni empirici è opportuno introdurre una relazione più complessa di quella funzionale che prende il nome di RELAZIONE STATISTICA. Una relazione statistica tra una variabile indipendente X è una variabile dipendente Y può essere descritta dall’equazione:

In cui f(X) descrive il contributo della variabile esplicativa al valore della variabile risposta Y mentre epsilon rappresenta il contributo di tutti gli altri fattori, non osservati, in grado di influenzare la risposta ed è quindi una variabile casuale.

IL MODELLO DI REGRESSIONE Obiettivo = individuare una funzione che descrive la relazione tra due variabili • Y: variabile dipendente o risposta • X: variabile indipendente o esplicativa • Relazione statistica: 𝑌=𝑓(𝑋)+𝜀

ASSUNZIONE DEL MODELLO DI REGRESSIONE LINEARE SEMPLICE

La condizione di varianza costante viene detta IPOTESI DI OMOSCHEDASTICITÀ: per ogni valore fissato di X, la Y possiede sempre lo stesso grado di variabilità. Per esempio, se X è il reddito famigliare e Y il consumo per beni alimentari, allora i due insieme di famiglie corrispondenti a due diversi livelli di reddito, x1 e x2, presenteranno la stessa varianza sigma quadro dei consumi per beni alimentari.

STIMA DEI COEFFICIENTI DI REGRESSIONE

SCOMPOSIZIONE DELLA VARIANZA TOTALE

IL COEFFICIENTE DI DETERMINAZIONE Indica la porzione di variabilità di Y spiegata da X attraverso il modello di regressione, ovvero la bontà di adattamento del modello ai dati. Ma è anche un indice di bontà di adattamento cioè ci dice se questo modello descrive bene la relazione tra le due variabili.

PARAMETRI, STIME E STIMATORI PARAMETRI = i valori veri quelli non osservabili, sono delle costanti però di solito ignoti. STIME = valore che viene attribuito ai parametri su un particolare campione , sono dei numeri calcolati su un particolare campione e viene indicato mettendo un cappello sopra i veri valori. STIMATORI = è una variabile casuale. Vengono indicate con una B grande non con beta. Lo stimatore della risposta media è una Y grande con il cappello. Le stime dei coefficienti del modello di regressione lineare dipendono dal campione osservato e al variare di questo generano le variabili casuali stimatori dei coefficienti di regressione che indichiamo con B0 e B1.

PROPRIETÀ DEGLI STIMATORI B0 e B1

Nella classe degli stimatori lineari e corretti, gli stimatori dei minimi quadrati sono i più efficienti (teorema di Gauss-Markov). Se si prende uno stimatore che soddisfa queste due condizioni lo stimatore dei minimi quadrati è lo stimatore con la varianza più piccola possibile.

PROPRIETÀ DELLO STIMATORE DELLA RISPOSTA MEDIA

Lo stimatore corretto della varianza dei residui è dato da:

La radice quadrata di s^2 è una misura della variabilità degli scostamenti dei valori osservati da quelli previsti dal modello. Per questa ragione viene chiamato ERRORE STANDARD DI REGRESSIONE.

INFERENZA NEL MODELLO DI REGRESSIONE SEMPLICE Bisogna introdurre un’ulteriore assunzione, affinché sia possibile determinare intervalli di confidenza per i parametri e verificare alcune ipotesi su di essa.

La retta di regressione nella popolazione indica l’andamento del valore atteso della variabile dipendente Y al variare della X e le distribuzioni Normali indicano come varia la Y per un prefissato valore della X.

Implicazioni: • 𝐵0 e 𝐵1 hanno distribuzione normale bivariata (sono due normali) • si può applicare il metodo della massima verosimiglianza per trovare gli stimatori di massima verosimiglianza dei parametri del modello.

STIMA DEI PARAMETRI CON IL METODO DELLA MASSIMA VEROSIMIGLIANZA

INTERVALLI DI CONFIDENZA PER I COEFFICIENTI B0 e B1

VERIFICA D’IPOTESI SUI COEFFICIENTI DI REGRESSIONE

La statistica test si distribuisce, sotto l’ipotesi nulla, come una t-Student con n-2 gradi di libertà.

In corrispondenza del valore osservato della statistica test possiamo calcolare il p-value che è una misura del “grado di disaccordo” rispetto all’ipotesi nulla: quanto più è piccolo il p-value, tanto maggiore è l’evidenza contro l’ipotesi nulla.

TEST F

A ogni termine della decomposizione è associato un numero di grado di libertà che corrisponde al numero di termini sommati meno il numero di vincoli che tali quantità devono soddisfare.

Il p-value corrisponde alla probabilità che la variabile casuale F-FISHER sia maggiore o uguale al valore osservato f. Quindi minore è il p-value, più è forte l’evidenza contro l’ipotesi nulla.

INTERVALLO DI CONFIDENZA PER LA RISPOSTA MEDIA

L’ampiezza dell’intervallo di confidenza dipende da diversi fattori: aumenta al crescere dell’errore standard s; diminuisce al crescere della dimensione campionaria n; è piccolo quando xi è in prossimità della media campionaria x e cresce via via che ci si allontana da x.

INTERVALLO DI CONFIDENZA PER LA PREVISIONE

Ci interessa trovare l’intervallo con un’alta probabilità di includere il punto che rappresenta il valore di y proprio per quell’unità statistica.

ANALISI DEI RESIDUI Si è visto che quando le assunzioni alla base del modello di regressione lineare sono vere, gli stimatori dei minimi quadrati possiedono numerose proprietà e possono essere utilizzate per inferire sulla relazione statistica esistente tra le variabili nella popolazione. Se una o più assunzioni sono violate diremo che il modello è mal specificato è in questo caso le procedure inferenziali descritte nei precedenti paragrafi dovranno essere utilizzate con molta cautela. La principale tecnica che consente di investigare sulle cause di errata specificazione del modello è quella basata sull’ANALISI DEI RESIDUI.

Quando sul grafico i residui si dispongono in modo non casuale è il segnale che il modello di regressione non rappresenta in modo appropriato la relazione statistica tra le due variabili ed è necessario ricercare un modello nuovo.

Attraverso l’analisi dei residui possiamo valutare: se la funzione di regressione è lineare; se la distribuzione delle epsilon i presenta varianza costante per tutti i valori della X; se gli errori epsilon i sono variabili casuali indipendenti; se la distribuzione della epsilon i è Normale.

LINEARITÀ La prima assunzione è la linearità ma se questa assunzione non è rispettata abbiamo i seguenti casi:

Per controllare se la funzione di regressione è lineare o invece curvilinea su può utilizzare sia il grafico di dispersione dei dati osservati, sia il grafico dei residui. Dal grafico di dispersione è evidente che i dati non seguono un trend lineare ma piuttosto un andamento non lineare. Questo aspetto è reso ancora più evidente dal grafico dei residui (quello a destra) dove si vede chiaramente la natura non lineare della relazione tra i due caratteri.

OMOSCHEDASTICITÀ La varianza è costante ed era un’altra assunzione chiamata omoschedssticità, ma il caso opposto è l’eteroschedasticità in cui non è rispettata l’assunzione, cioè la varianza non è costante.

In presenza di omoschedasticità, il grafico dei residui si presenta come una nuvola di punti che si dispone in modo casuale all’interno di una fascia orizzontale. Mentre nel caso di eteroschedasticità la distanza dei residui attorno allo zero aumenta (o diminuisce) in modo sistematico al crescere dei valori stimati della Y così da formare una nuvola a imbuto

In caso di eteroschedasticità: al crescere dei valori stimati della Y aumenta la variabilità dei residui. In presenza di eteroschedasticità, gli stimatori dei coefficienti, della risposta media e della previsione rimangono ancora corretti. Però questi stimatori perdono di efficienza. Infine le formule trovate per la varianza e l’errore standard degli stimatori non sono valide e il loro uso conduce a intervalli di confidenza errati. Per questo si usano altri stimatori.

INDIPENDENZA Se per un dato istante temporale l’errore è positivo (negativo ) è molto probabile che nell’istante successivo sia ancora positivo (negativo). In questo caso diremo che gli errori sono autocorrelati. Può essere violata l’assunzione secondo cui i residui sono indipendenti:

MODELLO DI REGRESSIONE LINEARE MULTIPLA (CAP. 19)

che esprime il contributo delle variabili esplicative al valore della variabile risposta Y mentre epsilon rappresenta il contributo di tutti gli altri fattori, non osservati, in grado di influenzare la risposta ed è quindi una variabile casuale.

ASSUNZIONI DEL MODELLO DI REGRESSIONE LINEARE MULTIPLA Le assunzioni del modello di regressione lineare multipla si riferiscono al processo che genera le n osservazioni disponibili composte ognuna da k +1 valori.

Di conseguenza: •𝑌

sono variabili casuali indipendenti

IL MODELLO IN FORMA MATRICIALE

Il modello di regressione lineare multipla può essere riformulato utilizzando l’algebra matriciale. L’uso dell’algebra matriciale permette di sintetizzare più facilmente i risultati. Indichi...


Similar Free PDFs