Quando usare i metodi di stima OLS e GLS PDF

Title Quando usare i metodi di stima OLS e GLS
Course Modelli Statistici per il comportamento economico
Institution Università di Bologna
Pages 23
File Size 1.3 MB
File Type PDF
Total Downloads 15
Total Views 145

Summary

Appunti sulle stime OLS e GLS...


Description

1) Cosa succede quando il modello OLS non funziona? OLS e GLS Conosciamo il modello di regressione lineare semplice in questa forma: 𝑦𝑖 = 𝛼 + 𝛽𝑥𝑖 + 𝜀𝑖 , ma per comodità utilizzeremo la forma 𝑦𝑖 = 𝛼 + 𝜀𝑖 , ossia una retta orizzontale; ci sono due osservazioni da fare: a) elimino la variabile indipendente per comodità → 𝛽 = 0; b) 𝛼 che minimizza la somma dei quadrati degli scarti è la media di y → 𝐸[𝑌] = 𝛼. Se risolviamo il problema di ottimizzazione 𝛼 = 𝑚𝑖𝑛 ∑(𝑦𝑖 − 𝛼)2 , derivo per 𝛼 e ottengo che 𝛼 =

∑ 𝑦𝑖 . 𝑛

Questa stima di 𝛼 è “BLUE”,

ossia “Best Unbiased Linear Estimator”, quindi la media è il miglior stimatore non distorto lineare del parametro 𝛼. Questa conclusione deriva dal teorema di Gauss-Markov, secondo cui un modello lineare in cui le componenti di errore 𝜀𝑖 hanno valore atteso nullo e sono incorrelati e omoschedastici, gli stimatori lineari corretti più efficienti sono gli stimatori ottenuti con il metodo dei minimi quadrati. Tuttavia, questo metodo si basa su tali ipotesi “stringenti” che devono valere: 1. Modello lineare (o al massimo linearizzabile); 2. X e Y sono frutto di osservazioni indipendenti; 3. X è di rango pieno [Se r= min(m,n) si dice che la matrice ha rango pieno]; 4. I residui hanno media = 0; 5. I residui sono omoschedastici e incorrelati; 6. X è non-stocastica (quindi è probabilistica) → non affronteremo questa ipotesi. La regressione va rappresentata graficamente in uno spazio tridimensionale, visto che la terza dimensione è data dalla parte stocastica 𝑦𝑖 ha una componente stocastica, perciò ogni 𝑦𝑖 ha una sua distribuzione di probabilità. Perciò ogni residuo ha la sua distribuzione: tutte queste distribuzioni degli 𝜀𝑖 individuali, per ogni i, deve avere la stessa varianza. Tutte queste normali devono avere la stessa varianza e, siccome la media è fissata, devono essere tutte uguali. Omoschedasticità = modo con cui ciascun individuo devia dalla legge deterministica generale è determinata da un processo stocastico (è come se ogni volta estraessi un numerino per ogni individuo). Incorrelazione = l’insieme di quelle normali può essere “affettato” e noi otteniamo sempre la stessa curva, quando le mettiamo insieme queste non possono essere marginalizzate, ossia ogni coppia di variabili è esattamente uguale alle 2 variabili. Dobbiamo immaginare sempre che dietro a ogni 𝑦𝑖 , ognuno ha i propri parametri: esiste il mio sigma, esiste il suo sigma e così via. L’operazione dei MQO vale se il mio sigma è uguale al suo, cioè le nostre distribuzioni sono uguali. Ma sappiamo che questo è impossibile nella realtà.

Andiamo nello specifico. Considero n individui su cui è misurata la variabile Y (acquisto di pane) e vogliamo una misura sintetica che descrive il fenomeno “acquisto di pane”. La misura individuale è data da 𝑦𝑖 = 𝛼 + 𝜀𝑖 , quindi il consumo di pane ha una componente comune a tutti 𝛼 (in media mangiamo tutti la stessa quantità di pane) e 𝜀𝑖 che modifica ogni quantità, perché siamo diversi. Come costruiamo il modello? 1) HP: In assenza di variabilità (stiamo costruendo il modello sulla regolarità in questo momento) tutti acquisteremmo la stessa quantità di pane → noi vogliamo conoscere questa quantità fissa 𝛼; 2) Quando noi utilizziamo questo modello, noi lo inseriamo di dati: osserviamo quanto pane mangia ognuno e osserviamo quantità diverse, ovviamente: ognuno si discosta da quella fissa quantità secondo una qualche “legge”; 3) Capiamo che non è sufficiente osservare il comportamento di UN individuo, ma osservando il comportamento di più individui e costruendo ipotesi sulla parte variabile, stimiamo la quantità fissa 𝜶. Quindi la tendenza comune 𝛼 si manifesta in modo variabile → se vogliamo quantificare la tendenza comune 𝛼 non osservabile dobbiamo immaginare qualcosa sulla sua manifestazione, cioè sulla sua variabilità. Se il modello che immaginiamo per la variabilità è vero, allora abbiamo un modo per arrivare alla quantità comune incognita. [Il modo per tenere sotto controllo gli errori (parte variabile) è aumentare la quantità, quindi più sbaglio e più imparo.] Abbiamo iniziato a separare questo modello in 2 modelli: uno deterministico (che ci interessa meno) e uno stocastico (la parte non spiegata è quella che ci interessa di più). Abbiamo spostato il focus dalla relazione tra le variabili sulla parte non spiegata (quella variabile): se abbiamo ipotesi vere sulla parte non spiegata (sulla variabilità), qualunque essa sia la legge, noi siamo in grado di tornare indietro e rendere corretta la misura della parte deterministica. Il problema è che quando vai a quantificare i parametri di quel modello, cos’è che ti rimane di non spiegato? Se non abbiamo una legge che spiega “il non spiegato” (della parte deterministica) siamo in grado di trovare una stima buona per la parte di relazione deterministica.

Per descrivere ciò, potremmo anche immaginarci la cosa in questo modo con riferimento al meccanismo della tombola (sacchettino con i tombolini) o alle estrazioni del lotto: 1) Ognuno “sa” quanto pane deve acquistare, però data questa quantità 2) Quando deve comprare il pane, Tizio si porta dietro un sacchettino di numeri, 3) Il sacchettino contiene numeri positivi e negativi (anche zero); 4) Al momento dell’acquisto (Tizio sa che deve comprare 100), ognuno estrae un numero dal sacchetto (ES. esce +2 o -3) e somma algebricamente il numero estratto alla quantità fissa, 5) Compra la quantità data dal risultato della somma/sottrazione (ES. 100+2=102 oppure 100-3=97). Allora il modello della variabilità è l’insieme delle ipotesi sulla composizione del sacchetto (=distribuzione stocastica di ogni individuo); poiché si parla di estrazione saranno ipotesi sulla distribuzione stocastica che origina il sacchetto. Nel nostro linguaggio, il tombolino è il “residuo”, cioè la differenza tra la quantità comune fissa 𝛼 e l’acquisto effettivo. Ipotizziamo che: 1. Il parametro di popolazione sia “fisso” e comune”; 2. I residui abbiano media 0 → somma dei tombolini = 0; 3. I residui siano omoschedastici; 4. I residui siano incorrelati. Esempio: cosa succede se violo le ipotesi di omoschedasticità ed incorrelazione? a) Abbiamo 3 soggetti (A; B; C) tutti con lo stesso sacchetto con i seguenti tombolini [-1,0,1] → stiamo ipotizzando i parametri delle distribuzioni individuale (questa terna ha una media e una varianza). Se osserviamo un atto di acquisto, le combinazioni possibili (dei residui) sono e la somma delle deviazioni sarà:

Il valore che appare con più frequenza è lo zero, il quale ha la probabilità maggiore (7/27).

b) Se invece A=B= [-1,0,1] e C= [-5,0,5] cosa succede?

Qui non abbiamo più un valore più probabile, lo zero (valore buono) è a pari merito con altri valori non buoni (-5 e 5). Non è più come prima perché il sacchetto di C ha numeri più grandi e modifica la regolarità degli altri due → problema di eteroschedasticità: non va bene cade una delle condizioni perché non abbiamo più il BLUE: qui C conta molto di più rispetto ad A e B (manca l’effetto di compensazione). L’eteroschedasticità dà un peso diverso alle osservazioni degli individui, in particolare dà un peso maggiore a chi è più variabile. Uno dei modi per affrontare questo problema è dare un peso “reciproco”, rispetto alla variabilità, in modo da riportare la situazione in equilibro. C peserà quindi 5 volte meno (divido per 1/5) e quindi torniamo al caso a). Noi quindi pesiamo i dati in modo inverso rispetto alla loro variabilità individuale. Questo genera un’altra tecnica (non più OLS = Ordinary Least Squared) chiamata GLS = Generalized Least Squared, che è una generalizzazione dell’algoritmo dei MQ. Generalizzazione = assegno dei pesi diversi ai punti del piano a seconda della loro variabilità [i residui dei più “variabili” valgono di meno]. La retta di regressione passa più vicino ai punti meno variabili e più lontano dai punti più variabili. Quindi il modello funziona se la composizione del sacchetto, oltre ad avere media = 0, è anche “simile” cioè ha la stessa varianza (omoschedasticità). c) Per quanto riguarda l’incorrelazione, i tre soggetti dovrebbero estrarre i numeri in modo indipendente, senza farsi influenzare dagli altri. Se ad esempio il Sig. B “copia” A, cioè B non estrae (estrazione di B è totalmente dipendente dalla prova di A), ma usa il tombolino di A succede quanto segue:

Abbiamo molte meno combinazioni perché due delle colonne sono uguali: i valori più probabili non sono quelli buoni e la stima è distorta! In sintesi OLS è un modello piuttosto particolare, spesso non abbiamo alternative ad accettare quelle ipotesi, tuttavia dobbiamo essere coscienti della loro particolarità: se consideriamo la prima “il parametro è fisso e comune” spesso ce la caviamo sostenendo che se così NON è allora la popolazione è eterogenea, cioè non è un collettivo, poiché ci sono degli “infiltrati”. Peraltro, tutti o i test che verificano/falsificano questa ipotesi si basano proprio sull’assunzione che vorremmo verificare. In pratica cerchiamo di attenuare questo problema scegliendo un algoritmo di stima che garantisce che i residui osservati (uno per ogni unità, non quelli di ciascuna unità) abbiano somma pari a 0 → a volte devo accettare le sue ipotesi ma, quando possiamo, dobbiamo verificarle. Per quanto riguarda l’ipotesi di omoschedasticità e incorrelazione, la diagnosi è difficilissima, ma una volta riconosciuto il tipo di malattia, la terapia è facile. Ci occuperemo della terapia in seguito, ma la cosa da tenere a mente è che ci sono molte situazioni in cui sappiamo già da prima che la malattia c’è, cioè che il modo in cui le unità si comportano o si “fanno” osservare implica una diversa variabilità individuale (eteroschedasticità) e/o una correlazione tra le osservazioni (correlazione): in questi casi la malattia non si può ignorare. Esempio Osservo 6 imprese in 4 anni: isolo il valore dei costi e il valore della produzione, perché voglio capire la relazione tra i costi (Y) e il livello di produzione (X). Dalla teoria economica sappiamo che questa è una relazione non lineare: per linearizzarla passiamo ai logaritmi. In ogni riga abbiamo un’unità statistica (l’impresa) e in ogni colonna abbiamo il tempo. I DATI

impresa 1 2 3 4 5 6

t=1 3,5 3,9 19,0 35,2 33,2 73,1

Costi (Y) Produzione (X) t=2 t=3 t=4 t=1 t=2 t=3 4,3 4,6 5,8 214 419 588 5,5 8,1 16,4 696 811 1640 26,0 32,4 44,7 3202 4802 5821 51,1 61,0 77,9 5668 7612 10206 40,0 43,1 57,7 6000 8222 8484 98,8 138,9 191,6 11796 15551 27218

t=4 1025 2506 9275 13702 10004 30958

LOGARITMI:

impresa 1 2 3 4 5 6

Costi (Y) t=1 t=2 t=3 1,25 1,45 1,52 1,35 1,71 2,10 2,95 3,26 3,48 3,56 3,93 4,11 3,50 3,69 3,76 4,29 4,59 4,93

t=4 1,77 2,80 3,80 4,36 4,06 5,26

t=1 5,37 6,55 8,07 8,64 8,70 9,38

Produzione (X) t=2 t=3 t=4 6,04 6,38 6,93 6,70 7,40 7,83 8,48 8,67 9,14 8,94 9,23 9,53 9,01 9,05 9,21 9,65 10,21 10,34

Stiamo stimando un modello che lega i costi alla produzione → retta di regressione OLS:

Abbiamo una prima stima del modello quindi possiamo stimare i residui dell’impresa i al tempo t: 𝑒 𝑖,𝑡 = 𝑦𝑖.𝑡 − 𝛼 − 𝛽𝑥𝑖,𝑡 → Abbiamo 6x4=24 residui: ma questi 24 residui possono essere raggruppati per individuo (ogni impresa ne ha 4) o per anno (ogni anno ne ha 6). Ragioniamo sui residui perché è l’unica parte stocastica che ci è rimasta: ci interessa quel pezzo di 𝑦𝑖.𝑡 che ha una distribuzione di probabilità (cioè il residuo). Dai residui possiamo stimare le varianze individuali e correlazioni → dobbiamo ipotizzare una “forma” per varianze e covarianze. Ipotesi: I) Per le varianze individuali: costanti nel tempo; II) Per le correlazioni: processo AR (1). Sotto queste ipotesi è possibile vedere da cosa è caratterizzata la parte stocastica della relazione. Sotto queste ipotesi la stima è possibile mediando (rispetto al tempo) i quadrati dei residui per ogni individuo → varianza di ogni individuo: T

 2i =

 eˆ

2 it

t= 1

T

.

Calcolando l’autocorrelazione con lag = 1 (l’autocorrelazione sarà riferita a coppie di individui):

 (eˆ T

=



i , t i , t− 1

t =2

)

 (eˆ ) T

2 i, t

t =2

.

DETTO A PAROLE Abbiamo ignorato il fatto che i dati derivino da un’osservazione ripetuta sulle stesse imprese (colori diversi per imprese diverse). A questo punto io ho una stima, per ogni impresa e per ogni anno ho un residuo 𝜀 che deriva dalla stima generale. Visto che abbiamo più osservazioni sullo stesso individuo e più osservazioni sullo stesso tempo di più

individui, possiamo verificare che le distribuzioni di ogni impresa abbiano stessa varianza e siano incorrelate: questo è possibile perché per ogni individuo abbiamo più osservazioni e possiamo stimare una varianza. In più, avendo più osservazioni per ogni anno, possiamo anche stimare la correlazione tra più individui [ad esempio, guardo la correlazione tra un anno e quello precedente → “processo di AR (1)”, di autocorrelazione a ritardo 1, 1 significa ad un intervallo → l’ordine dell’autoregressione è determinata dal numero di anni]. Per stimare varianze e covarianze dobbiamo fare ipotesi diverse dagli OLS, per esempio per le varianze individuali immaginiamo che i dati siano costanti nel tempo → così avremmo 4 osservazioni ripetute dello stesso fenomeno; avendo 6 individui, esiste correlazione temporale “costante” (anche se non va bene) tra gli individui. Abbiamo aggiunto una dimensione, quella temporale, e questo ci permette di distinguere gli effetti individuali (?) e gli effetti temporali (costanti tra gli individui). [Qui abbiamo una matrice cubica (individui, variabili, tempo) → abbiamo più osservazioni su ogni individuo e più osservazioni sullo stesso tempo]. Calcoliamo i residui per ciascuna impresa:

t=1 t=2 t=3 t=4 t=1 t=2 t=3 t=4 t=1 t=2 t=3 t=4 t=1 t=2 t=3 t=4 t=1 t=2 t=3 t=4 t=1 t=2 t=3 t=4

y x 1,25 5,37 1,45 6,04 1,52 6,38 1,77 6,93 1,35 6,55 1,71 6,70 2,10 7,40 2,80 7,83 2,95 8,07 3,26 8,48 3,48 8,67 3,80 9,14 3,56 8,64 3,93 8,94 4,11 9,23 4,36 9,53 3,50 8,70 3,69 9,01 3,76 9,05 4,06 9,21 4,29 9,38 4,59 9,65 4,93 10,21 5,26 10,34

y* 0,65 1,23 1,53 2,02 1,68 1,81 2,43 2,81 3,02 3,38 3,54 3,96 3,52 3,78 4,04 4,30 3,57 3,84 3,88 4,02 4,17 4,41 4,90 5,01

e -0,60 -0,22 0,01 0,25 0,33 0,10 0,33 0,01 0,07 0,12 0,06 0,16 -0,04 -0,15 -0,07 -0,06 0,07 0,15 0,12 -0,04 -0,12 -0,18 -0,03 -0,25

Var

correl

0,13

0,99

0,03

-0,95

0,00

-0,92

0,00

-0,62

0,01

-0,25

0,01

-0,95

Tabella 1 - y*=y stimata, calcolata sul nostro modello

Notiamo che l’impresa 1 ha una varianza piuttosto diversa dalle altre. Scopriamo che le varianze per impresa sono diverse cioè c’è eteroschedasticità (significatività test F per l’uguaglianza delle varianze):

impresa1 impresa2

impresa3 impresa4 impresa5 impresa6 overall

impresa1

1,000

0,225

0,006

0,007

0,039

0,050

0,083

impresa2

0,225

1,000

0,060

0,069

0,307

0,369

0,828

impresa3

0,006

0,060

1,000

0,934

0,317

0,262

0,029

impresa4 impresa5

0,007 0,039

0,069 0,307

0,934 0,317

1,000 0,356

0,356 1,000

0,295 0,894

0,034 0,176

impresa6

0,050

0,369

0,262

0,295

0,894

1,000

0,220

Tabella 2 - Test F overall. In rosso ho i valori di significatività.

E che le autocorrelazioni tra i residui della stessa impresa sono significativamente diverse da zero:

impresa1

0,99

impresa2

-0,95

impresa3

-0,92

impresa4

-0,62

impresa5

-0,25

impresa6

-0,95

*fine esempio*

Ripasso del modello OLS (rappresentazione formale) 𝑦𝑖 = 𝛼 + 𝜀𝑖

Questo modello rappresenta la relazione tra la X e la Y, che è data dalla retta blu. Abbiamo una distribuzione normale che governa il modo con cui ogni individuo si allontana dalla media che sta nella retta blu (ognuno ha la propria variabilità). Consideriamo n individui su cui è misurata una variabile Y. Abbiamo numerose possibilità di descrivere il collettivo, ad esempio la media. La misura individuale è data da 𝑦𝑖 = 𝛼 + 𝜀𝑖

Per trovare un buon valore di alfa (incognita non deterministica) → devo minimizzare la somma delle 𝜀𝑖 al quadrato:



2 2 Min S ( ) =  (i ) = ( yi −  )



cioè



Min S ( ) =  ( yi2 +  2 − 2yi ) =  yi2 + n 2 − 2  yi



derivando  S ( )  = −2  yi + 2 n = 0



ˆ = a =

2  yi 2n

=

y

i

n

Il valore stimato a ha delle proprietà:

yi 



1

  =  ( y − a) =   y −  n  =  y − n n y i

i

i

i

i

=0

  y     +  i    n +   i  E( a) = E  i   = E     = E = n   n    n      1  n  + i  1    + i 1   yi V ( a) =  −   = −   =   −   =   n  n n n   n   n  2

2

2

1    i     i  =   = n  n   n  2

2

Il residuo è la “parte” stocastica della stima e quindi del modello. Ma c’è un altro modo di vedere la stima: la misura individuale è data da una parte costante + parte stocastica. Se ricordiamo OLS, avremmo una esplicativa costante + residui:

yi = xi + i

con xi = 1, i

Per il collettivo (con X, Y,  vettori/matrici):

Y = X + 

 y1    Y =  y2   y3 

1 X = 1 1

X ' = 1 1 1

Cerchiamo una stima a per : sappiamo che in forma matriciale la soluzione che abbiamo trovato prima diventa:

ˆ = a = ( X ' X ) −1 X ' Y 1 1 X ' X = 1 1 11 = 1 + 1 + 1 = 3 ( X ' X ) −1 = 3 1  y1  3 X 'Y = 1 1 1 y2  =  y i   i =1  y3  3

1 3 −1 a = ( X ' X ) X 'Y =  yi = 3 i =1

y

i

i =1

3

Tabella 3-probabilmente i calcoli sono sbagliati

𝛼 = 𝑎 = (𝑋 ′ 𝑋)−1 𝑋′𝑌 → OLS è un caso particolare di una soluzione generale dello stimatore dei

GLS; posto lo stesso vincolo di minimizzazione MIN (’  ), nel caso di eteroschedasticità si ottiene:

𝛼 = 𝑎 = (𝑋′Ω−1 𝑋)−1 𝑋′Ω−1𝑌 con  = matrice di Varianza/Covarianza degli .

GLS si differenzia da OLS perché all’interno dei prodotti tra le variabili indipendenti e tra la variabile indipendente e la variabile dipendente viene inserita l’inversa della matrice :  corrisponde ad una sorta di ponderazione tra i dati. Se abbiamo eteroschedasticità, dobbiamo diminuire il peso di chi è più variabile → la struttura di pesi adeguata consente di correggere le distorsioni che vengono introdotte dall’eteroschedasticità e dalla correlazione dei residui. Concretamente, questa ponderazione (che deve diminuire il peso) è l’inversa della matrice  (inserita al denominatore), in cui misuriamo sia la variabilità che la covariabilità (ammontare eteroschedasticità e correlazione).

Cos’è ? -

È esattamente la rappresentazione dei nostri “tombolini” → rappresenta (misura) tutta la nostra incertezza (v...


Similar Free PDFs