modello di regressione lineare semplice PDF

Title modello di regressione lineare semplice
Author Pavel Leonidovich
Course Econometria
Institution Università Ca' Foscari Venezia
Pages 77
File Size 1.9 MB
File Type PDF
Total Downloads 38
Total Views 147

Summary

Download modello di regressione lineare semplice PDF


Description

Statistica per le ricerche di mercato A.A. 2012/13

Dr. Luca Secondi

10. La regressione lineare semplice



Il termine regressione fu introdotto verso la metà dell‘Ottocento dall’inglese Sir Francis Galton (1822-1911) che, nei suoi studi di eugenetica, voleva verificare se la statura dei figli potesse essere prevista sulla base di quella dei genitori, esprimendo questa corrispondenza in una legge matematica.



Galton osservò che figli alti provenivano da genitori tendenzialmente alti così come figli bassi provenivano da genitore tendenzialmente bassi. Tuttavia, a genitori eccezionalmente alti non corrispondevano figli alti in modo così estremo, e a genitori eccezionalmente bassi non corrispondevano figli altrettanto bassi.



Poiché Galton notò una tendenza delle altezze dei figli a spostarsi nella generazione successiva verso l’altezza media, scrisse che ciò costituiva una “regression towards mediocrity” e la relazione statistica stimata dalle osservazioni fu chiamata regressione. regressione

2

Se la correlazione misura l’intensità e il segno del legame lineare tra due variabili, l’obiettivo delle tecniche di regressione è, invece, quello di individuare il tipo di relazione funzionale che esiste tra una variabile dipendente (o spiegata o endogena) e una o pi ù variabili indipendenti (o esplicative o esogene).

3

Affermare che il fenomeno Y “dipende” dal fenomeno X secondo la relazione matematica Y=f(X) semplifica ovviamente la dinamica reale dove intervengono, con differenti pesi, una miriade di interrelazioni, tra le variabili X e Y ed il resto del mondo dei fenomeni non esplicitati nella formula proposta. E’ possibile allora correggere il modello scrivendo:

Y=f(X)+u Dove u costituisce la componente stocastica del modello ed è rappresentata da una variabile casuale che compendia l’insieme di circostanze che impediscono a tale relazione di essere un legame teorico di tipo matematico.

4

Perché si introduce la componente di errore nel modello? Negli studi empirici la relazione tra due variabili non è mai una relazione funzionale esatta del tipo Y=f(X) I comportamenti economici e sociali non sono descritti adeguatamente da relazioni che fanno corrispondere ad un dato valore di X un unico valore di Y Esempi: Nello studio della relazione di dipendenza del consumo familiare (Y) dal reddito familiare (X), è ragionevole ipotizzare che famiglie con lo stesso reddito abbiano comportamenti di consumo differenti; La dimensione di un punto vendita non può essere la sola variabile esplicativa del fatturato del punto vendita stesso; La decisione di un consumatore di acquistare il prodotto di una determinata azienda non è influenzata esclusivamente dal numero di spot giornalieri trasmetti in televisione. Il termine di errore u tiene conto di ogni altro fattore (non osservato o non osservabile) che, oltre alla variabile esplicativa, può influenzare la risposta Y. Esempio: Il consumo delle famiglie può dipendere, oltre che dal reddito disponibile, anche dal numero di componenti, dalla loro età e dal livello di istruzione 5

Perché si introduce la componente di errore nel modello?

Se la relazione lineare valesse con esattezza - relazione relazione deterministica deterministica oo matematica - il metodo di stima sarebbe semplice: basterebbe conoscere le coordinate di due punti campionari per tracciare la retta che li unisce e produrre la relativa equazione. Tuttavia imbattersi in relazioni funzionali esatte - sulla base dell’osservazione di dati empirici - risulta estremamente improbabile. Al contrario è piuttosto frequente osservare delle discrepanze piùù o meno accentuate tra i valori osservati di Y Y e quelli che emergono da una relazione funzionale esatta con X. Il termine di errore u serve proprio a rappresentare formalmente tali discrepanze e a distinguere una relazione statistica (o stocastica) stocastica da una deterministica.

6

La regressione semplice: se la variabile indipendente è solo una; multipla: se le variabili indipendenti sono due o più; lineare: se la relazione che esprime la variabile dipendente è di tipo lineare; non lineare: se tale relazione non è lineare. 7

Principali caratteristiche delle analisi di regressione

¾ L’obiettivo

principale è quello di investigare su eventuali relazioni empiriche tra variabili allo scopo di analizzare le cause (determinanti) che possono spiegare un determinato fenomeno oggetto di studio.

¾ È caratterizzata dalla semplicit à intrinseca dei modelli utilizzati, basati essenzialmente su funzioni lineari. ¾ Sebbene non tutte le relazioni funzionali siano esprimibili attraverso modelli lineari, una prima analisi fondata su forme funzionali semplici costituisce comunque un buon punto di partenza per passare poi ad eventuali modelli più complessi. 8

Principali fasi di un’analisi di regressione lineare i.

Si ipotizza una relazione funzionale lineare tra una variabile oggetto di studio (variabile dipendente o risposta) e una o più altre variabili (variabili indipendenti o esplicative);

ii.

Si stimano i parametri di tale relazione funzionale sulla base dei dati dati campionari a disposizione;

iii.

L’analisi è completata con appropriati test test statistici statistici sulla sulla significativit significativitàà dei parametri e la valutazione della bont bontàà dell’adattamento del modello ai dati;

iv.

Ulteriori analisi di conferma servono ad assicurarsi che la relazione relazione ipotizzata sia effettivamente lineare lineare e che le assunzioni su cui si basa la stima del modello siano state rispettate

9

Semplice Regressione Lineare Multipla

Consideriamo dapprima il caso più semplice: esaminiamo il legame tra due sole variabili X e Y. 10

Partiamo da un esempio… [rif. Bracalente et al.2009] Per decidere le dimensioni di nuovo punto vendita, una catena di supermercati ha effettuato un’indagine per studiare la relazione tra dimensione del negozio e le vendite settimanali. A tale proposito viene estratto un campione di 10 supermercati:

IPOTESI DI RICERCA: Si ipotizza che a maggiori spazi espositivi tendano a corrispondere valori più elevati delle vendite 11

¾Per mettere in evidenza la relazione lineare esistente tra due caratteri è possibile rappresentare l’insieme delle coppie di punti su un asse cartesiano (in cui sull’asse delle ascisse viene riportata, come di consueto, la variabile X e sull’asse delle ordinate la variabile Y). Il grafico derivante prende il nome di grafico di dispersione (o scatter plot). Dalla forma che assume la nuvola di punti è possibile “stabilire” il tipo di correlazione lineare esistente tra le due variabili.

Se tra X e Y non c’è alcun legame allora X e Y sono indipendenti statisticamente Tra due caratteri esiste indipendenza statistica quando la conoscenza della modalità di uno dei due caratteri non migliora la “previsione” della modalità dell’altro

Correlazione lineare ρ XY = −1 n

Corr(X, Y) = ρ XY

σ = XY = σX σ Y

∑ (x i=1

n

∑ (xi i =1

i

− x )(yi − y )

− x)

2

n

∑ (y i =1

− 1 < ρXY < 0 discordanza

− y)

2

i

perfetta discordanza

ρXY = 0 0 < ρXY < 1 ρXY = 1

assenza di legame lineare concordanza concordanza perfetta 12

Cov(X,Y)>0

Cov(X,Y)=0

Cov(X,Y)100), per il teorema del limite centrale la distribuzione campionaria di a e b è ben approssimata dalla distribuzione normale. 31

La distribuzione campionaria degli stimatori OLS Per derivare la distribuzione in grandi campioni sono necessarie le seguenti assunzioni:

Assunzioni dei minimi quadrati (già introdotte):

E ( ui X i ) = 0

1.

2. (Xi, Yi) i=1,…,n sono indipendentemente e identicamente distribuite (i.i.d.) 3. Gli outlier sono rari Se valgono queste condizioni:

)

σ2

2

σβ =

(

b ∼ N β ,σβ2

n

∑ (x i =1

i

−x

)

2

32

La distribuzione campionaria degli stimatori OLS Per derivare la distribuzione in grandi campioni sono necessarie le seguenti assunzioni: Assunzioni dei minimi quadrati (già introdotte): 1. E (ui X i ) = 0 2. (Xi, Yi) i=1,…,n sono indipendentemente e identicamente distribuite (i.i.d.) 3. Gli outlier sono rari Se valgono queste condizioni:

(

a ∼ N α,σα2 ⎛ ⎜1 σα2 = σ 2 ⋅ ⎜ + ⎜n ⎜ ⎝

)

⎞ ⎟ x ⎟ 2 xi − x ⎟⎟ ⎠ 2

n

∑( i =1

)

La varianza di entrambi gli stimatori dipende dalla devianza di X. Quindi, laddove è possibile scegliere i valori della variabile esplicativa, è opportuno farlo in modo tale che la devianza sia più grande possibile. 33

Proprietà dello stimatore OLS Sotto le assunzioni dei minimi quadrati (1-3) e le ipotesi classiche 1-4, gli stimatore OLS godono delle seguenti proprietà:

Proprietà 1) a e b sono corretti (non distorti unbiased) cioè E(a)= α e E(b)= β Proprietà 2) nella classe degli stimatori corretti che sono funzioni lineari di Yi gli stimatori dei minimi quadrati a e b sono i più efficienti (Teorema Gauss-Markov) ⎛ ⎜1 var(a) = σ 2 ⎜ + ⎜n ⎜ ⎝

⎞ ⎟ x ⎟; n 2 ⎟ (x i − x ) ⎟ ∑ i =1 ⎠ 2

var(b) =

σ2 n

∑ (x i =1

i

− x )2

¾STIMATORE BLUE (Best Linear Unbiased Estimator): in virtù di tale proprietà non è possibile che esista un’altra coppia di stimatori per α e β che siano lineari e non distorti e abbiano varianza minore degli stimatori dei minimi quadrati. 34

Stime e stimatori nella regressione Parametro

Stima

Stimatore Valore atteso

α β

a = Y − βˆ1 X

b = σ xy σ

2 x

a

α

Varianza ⎛ ⎜ 2 1 σ ⎜ + ⎜n ⎜ ⎝

⎞ ⎟ x ⎟ n 2 ⎟ (xi − x) ⎟ ∑ ⎠ i= 1 2

σ u2

b

β

n

∑ (x − x )

2

i

i =1

Il teorema di Gauss- Markov fornisce una giustificazione teorica all’uso degli OLS. Tuttavia, le sue condizioni potrebbero non valere in pratica. Se il termine di errore è eteroschedastico, come spesso accade nelle applicazioni economiche, allora lo stimatore OLS non è più BLUE. 35

Stima della varianza degli errori nel modello di regressione σ2 Per stimare la varianza di a e b occorre conoscere la varianza degli errori σ 2 = V (u i ) . Poiché tale quantità è ignota, in un modello di regressione in aggiunta ad α e β è necessario stimare un ulteriore parametro: la varianza degli errori σ2 Poiché gli errori ui non sono osservabili (dal momento che i parametri α e β non sono noti), occorre fare riferimento ad una stima della varianza degli errori, determinata a partire dai residui eˆ i = y i − yˆ i . Si dimostra che uno stimatore non distorto di σ2 è dato da: n

s

2

=



i=1

ˆ 2i e

n − 2

Questo stimatore presenta una correzione per i gradi di libertà, dato che al denominatore troviamo il numero delle osservazioni meno il numero dei regressori.

s =

s 2 è l’errore standard di regressione, già introdotto, e

misura la dispersione dei punti osservati intorno alla retta di regressione.

36

Considerando lo stimatore s2, la varianza stimata di a e b è quindi espressa da: ⎛ ⎞ 2 2 ⎜1 ⎟ x s 2 (a) = s ⎜ + (b) = ⎟; V V n n 2 ⎟ 2 ⎜n ( ) ( ) x x x x − − ∑ ∑ i i ⎜ ⎟ i =1 i =1 ⎝ ⎠

La radice quadrata viene di solito chiamata standard error (o errore standard) di a e b , indicato con se(a) e se(b) e rappresenta una stima dello scarto quadratico medio dello stimatore OLS e dunque uno strumento per misurarne la precisione. 37

MISURE DI BONTA’ DI ADATTAMENTO • •

R2 varia tra 0 e 1 e misura la frazione della varianza di Yi che è spiegata da Xi L’errore standard della regressione misura la distanza tipica di Yi dal suo valore predetto

SCOMPOSIZIONE DELLA DEVIANZA TOTALE DI Yi

∑ (Y n

i

−Y

i =1

)

2

=

∑( n

Y i − Y

i =1

2

) +∑e n

2 i

i =1

SQT=Somma Quadrati Totale

SQR=Somma Quadrati Regressione (spiegata)

SQE=Somma Quadrati Errore

TSS= Total Sum of Squares

ESS=Exolained Sum of Squares

RSS= Residual Sum of Squares

In modo equivalente la varianza di Y può essere scomposta nella somma delle varianze campionarie delle sue componenti ortogonali: la previsione e il residuo

( )

V (Yi ) = V Y i + V ( ei ) Tale decomposizione sussiste solo se il modello possiede una intercetta. Solo in tal caso

∑ Yi = ∑ Y i

n

e

∑e X i

i =1

i

=0 38

Sotto questa condizione la devianza di Y può essere scomposta in: n

∑ (Y

i

−Y

i=1

=

∑( n

)

2

=

i=1



i=1

2

Y − Y i

n

(

Y − Y i + Y i − Y

) +∑( n

Y i − Y

i=1

)

2

)

2

n

=

(

+ 2 ∑ Y − Y i i=1

) (Y

i

−Y

)

La scomposizione precedente è dimostrata perché, il doppio prodotto è nullo. Infatti:

∑ (Y −Y n

i= 1

i

)(Y − Y ) = ∑ e (Y i

i

i

)

(

)

− Y = b1∑ ei X i − X =

= b1 ⎡⎣∑ ei X i − X ∑ ei ⎤⎦ = b1 [0 − 0 ] = 0

Sostituendo le stime dei parametri in Y i

Ricordando la prima e la seconda delle equazioni normali

39

SCOMPOSIZIONE DELLA DEVIANZA (VARIANZA) IN UNO SCHEMA DI REGRESSIONE LINEARE n

yi ( ∑ i 1

2

− y

=

)

=

n



i=1

2

(

y − y i

)

+

n



e i2

i=1

Y

yi

y ei = y i − 

yi − y

TSS = i

n

∑ (y

(

n



i =1

y − y i y

− y

)

− y

)

i=1

ESS =

y *i

i

RSS =

2

2

y

i

n



e i2

i=1

xi

X

40

Il coefficiente di determinazione R2 Sulla base di tale scomposizione della varianza di Yi può essere computata una misura della bontà di adattamento del modello ai dati denominata coefficiente di determinazione lineare 2

n

R

2

=

∑ (ˆy i= 1

i= 1

R =

( ) =1

V Y i

V (Yi )

− y

)

2

n

∑ (y

2

i

i

− y

=

)

( n − 1) ∑ ( n

i=1 n

SQR SQT

Y i − Y

)

i=1

SQE SQT

2

2

1 ( n − 1) ∑ ( Yi − Y )

= 1 −

n

V ( ei ) R = 1− = 1− V (Yi ) 2

1 ( n − 1) ∑ i=1 n

(

Y − Y i

2

)

2

1 ( n − 1) ∑ ( Yi − Y ) i=1

R2 può assumere valori compresi nell’intervallo [0,1] ma alcune fonti di variazioni sono più difficili da spiegare di altre. Il giudizio sul valore di R2 dipende dai contesti di applicazione 41

L’interpretazione del coefficiente R2 - casi limite R2 = 1

Il modello si adatta perfettamente ai dati

La variabilità di Y è completamente spiegata dal modello di regressione Îtutti i punti corrispondenti alle osservazioni campionarie giacciono esattamente sulla retta Îtutti i residui campionari sono pari a zero e pari a zero è la devianza residua Î SQT =SQR 0

18

y = 2 + 3x 2 R =1

16 14 12

-2

0

1

2

3

4

5

6

-4 -6

10 8

-8

6 4

-10

2

-12

0 0

1

2

3

4

5

6

-14

y = 2 -3x R2 = 1

42

L’interpretazione del coefficiente R2 - casi limite Il modello non si adatta per niente ai dati R2 = 0 Æil modello non riesce a spiegare nessuna parte - seppur minima della variabilità di Y ÆLa devianza spiegata è pari a zero; la retta stimata è parallela all’asse delle ascisse ÆTutta la variabilità di Y è nei residui 12.5

5.5

y = 10.8 R2 = 0

12 11.5

5 4.5

11 10.5

4

10

y = 4.6 2 R =0

3.5

9.5 9

3

0

1

2

3

4

5

6

0

1

2

3

4

5

6

43

…alcuni esempi 25

12

y = 10.6 -0.2x R2 = 0.0026

20

10 8

15 6

10 4

5

y = 8.8 -0.6x R 2 = 0.18

2

0

0

0

30

1

2

3

4

5

6

0

20

2

3

4

5

3

4

5

6

9

y = 12.3+2.3x R2 = 0.7472

25

1

y = 1.6+1.2x 2 R = 0.973

8 7 6

15

5 4

10

3

5

2

0

1

0

1

2

3

4

5

6

0 0

1

2

6

44

L’errore standard della regressione (SER, Standard Error of the Regression) E’ uno stimatore della deviazione standard dell’errore di regressione εi. Le unità di misura ei ed yi sono identiche, così il SER è una misura della dispersione delle osservazioni intorno alla retta di regressione, espressa nell’unità di misura della variabile dipendente.

2

SER = sε

dove

n n 1 1 ⎛ ⎞ ⋅ ∑ ⎜ ei − e ⎟ = ⋅ ∑ ei2 = sε = n − 2 i=1 ⎝ ⎠ n − 2 i=1 2

n

∑e

2 i

Per cui

SER =

i =1

n−2

Attenzione: il denominatore in questo caso è n-2, esso corregge...


Similar Free PDFs