3 - Regressione lineare con un singolo regressore PDF

Title 3 - Regressione lineare con un singolo regressore
Course Economia
Institution Università degli Studi di Bergamo
Pages 23
File Size 958.7 KB
File Type PDF
Total Downloads 33
Total Views 180

Summary

3 - Regressione lineare con un singolo regressore, econometria prof. Origo....


Description

3 - Regressione lineare con un singolo regressore Introduzione In queste lezioni vedremo come determinare i coefficienti di una regressione lineare tra due variabili e definiremo una serie di ipotesi per interpretare tali coefficienti come effetti causali e infine vedremo la distribuzione campionaria di questo stimatore. L’idea di base è quella di stimare, tramite un coefficiente che misura la pendenza della retta di regressione tra la variabile dipendente e quella indipendente, la relazione lineare della popolazione utilizzando un campione di osservazioni estratto dalla popolazione di riferimento. Lo strumento più diffuso per svolgere questo tipo di analisi è il metodo dei minimi quadrati ordinari (OLS) e metteremo in luce le proprietà di questo stimatore. Il nostro caso empirico Nel nostro caso empirico, dal grafico a nuvola abbiamo capito che in termini qualitativi c’è una relazione negativa tra il punteggio nei test e la dimensione della classe infatti più la classe è grande, minore è in media il punteggio nei test. A questo punto ci interessa sapere in termini quantitativi qual è la variazione nel punteggio del test se ad esempio si riduce di uno studente la dimensione della classe, tuttavia questo grafico non è utile a rispondere a tale domanda. Dal punto di vista del policy maker l’informazione richiesta è quella quantitativa, perché in un’analisi costi-benefici, dato che deve sostenere dei costi per creare più classi, vuole sapere quali sono i benefici in termini di migliore apprendimento degli studenti, e quindi non basta sapere che se si riduce la dimensione della classe, gli studenti apprendono meglio. Dunque la domanda che si pone è: “Se riducessimo la dimensione delle classi di uno studente per docente, quale sarà l’effetto sull’apprendimento degli studenti, misurato con il punteggio del test standardizzato?”. Dal punto di vista delle famiglie, esse scelgono la scuola dei propri figli in base a diversi parametri, tra cui la qualità della scuola. Se assumiamo che il punteggio medio del test sia una proxy della qualità della scuola e che il genitore non conosca il punteggio del test ma conosca la dimensione della classe, la domanda che si pone è: “Conoscendo la dimensione media della classe, è possibile prevedere il punteggio medio del test?”. La differenza tra queste due domande è che nella seconda è necessario fare una previsione in quanto non si conosce il punteggio del test, quindi è necessario utilizzare l'informazione che si ha a disposizione sulla variabile della dimensione della classe per cercare di stimare nel modo più preciso possibile qualcosa che non si conosce. Dunque nella seconda domanda, non deve necessariamente esistere una relazione di causa-effetto tra le due variabili, viceversa nella prima domanda è vero che si fanno delle stime, ma si vuole assumere che ci sia una relazione di causa-effetto tra le due variabili.

Retta di regressione lineare Per rispondere ad entrambe le domande possiamo usare l’analisi di regressione, infatti può essere usata sia per fare un’analisi di previsione, cioè predire il valore di Y dato il valore di X ad essa correlato, che di causa-effetto, cioè l’effetto causale su Y di una variazione unitaria in X. La retta di regressione lineare esprime la relazione lineare che esiste in media tra la variabile dipendente (Y) e la variabile indipendente (X) nella popolazione: Yi = β0 + β1Xi + ui i = 1, .., n -

-

β0: Rappresenta l'intercetta della retta di regressione e indica il valore di Y quando sia X che u sono pari a 0. β1: Rappresenta la pendenza della retta di regressione e indica la variazione di Y associata ad una variazione di X di una unità (se ΔX = 1 allora ΔY = β 1*1). Può essere interpretata sia come effetto causale, cioè la variazione in Y causata da una variazione di X di una unità, sia per prevedere, una volta che si conoscono β0, β1 e X, il valore di Y che non osservo. ui: Rappresenta l’errore di regressione e racchiude sia i fattori diversi da X che possono comunque avere un effetto diretto sulla variabile Y sia errori di misurazione di Y. Si calcola facendo la differenza tra il valore effettivamente osservato di Y per una certa osservazione e il valore di Y previsto dalla retta di regressione (ui = Yi - (β0 + β1Xi)).

Retta di regressione lineare nel nostro caso empirico La retta di regressione lineare esprime la relazione lineare che esiste tra il punteggio medio del test in ogni distretto i (Y = TestScorei) e il rapporto studenti-docenti (X = STRi) in ogni distretto i: TestScorei = β0 + β1STRi Siamo interessati a conoscere l’intercetta (β0) e la pendenza (β1) di questa relazione nella popolazione dei distretti scolastici, dunque dobbiamo stimare tali coefficienti utilizzando i dati che abbiamo a disposizione, cioè i 420 distretti della California. Da un punto di vista grafico, il modello di regressione è una retta, dunque per definirla è necessario conoscere la pendenza (β1) e l’intercetta (β0). I punti rappresentano i valori osservati di X e Y per ciascun distretto e in base alla posizione dei punti è possibile individuare l’errore di regressione (ui) ad esempio per l’osservazione 1, il valore effettivo è più alto del valore previsto e la differenza tra i due è pari all’errore di regressione. Inferenza statistica sulla pendenza della retta di regressione Il problema dell’inferenza statistica per la regressione lineare è simile a quello della stima della media campionaria. In particolare, i passaggi da fare sono: 1. Stima: Partendo dal campione, attraverso il metodo dei minimi quadrati ordinari (OLS) stimeremo nel modo più preciso possibile i parametri β0 e β1, con lo scopo di definire la retta di regressione che identifica la migliore relazione lineare tra Y ed X. 2. Verifica di ipotesi: Faremo dei test di ipotesi, come il test t, per testare l’ipotesi nulla che la pendenza (β1) sia pari a 0, cioè che non esiste una relazione tra le due variabili. 3. Intervalli di confidenza: Dato che lavoriamo su un campione, lo stimatore OLS potrebbe avere una distribuzione, quindi andremo a identificare la dispersione dello stimatore tramite la definizione degli intervalli di confidenza.

Lo stimatore OLS Stimatori OLS Come abbiamo visto, la media campionaria (Y ) rappresenta anche la soluzione di un problema di minimizzazione dell’errore quadratico, definito tra il valore effettivo di Y che osserviamo (Y i) e la nostra statistica (m): minmΣni=1(Yi - m)2 → 𝑚 = Y . Per analogia, definiamo b0 e b1 come gli stimatori dei parametri ignoti β0 e β1 nella popolazione, che consentono di minimizzare la somma degli errori al quadrato, cioè la differenza quadratica media tra i valori reali di Yi e i valori previsti dalla retta di regressione, dunque lo stimatore OLS è: minb0,b1Σni=1[Yi - (b0 + b1Xi)]2 Il risultato di questo problema di minimizzazione sono gli stimatori OLS di β0 e β1: -

Lo stimatore OLS dell’intercetta (β0) è dato dalla media di Y (Y ) meno lo stimatore OLS di β1 (β1) moltiplicato per la media di X (X ): β 0 = Y - β 1X

-

Lo stimatore OLS della pendenza (β 1) è dato dalla covarianza tra Y e X (s XY) diviso la varianza di X (s2X): β1 = [Σni=1(Xi - X )*(Yi - Y)]/[Σni=1(Xi - X )2] = sXY/s2X

Derivazione dello stimatore OLS Data la funzione obiettivo (F), vogliamo scegliere b0 e b1 che minimizzano tale funzione obiettivo: F: Σni=1(Yi - b0 - b1Xi)2 → minb0,b1Σni=1(Yi - b0 - b1Xi)2 Determiniamo le condizioni del primo ordine sia per b0 che per b1: ∂F/∂b1 = -2*Σni=1(Yi - b0 - b1Xi)*Xi = 0 ∂F/∂b0 = -2*Σni=1(Yi - b0 - b1Xi) = 0 Dalla prima condizione possiamo ricavare lo stimatore OLS di β0: ΣYi - nb0 - b1*ΣXi = 0 → nb0 = ΣYi - b1*ΣXi → β 0 = ΣYi/n - β 1*ΣXi/n → β 0 = Y - β 1X Dalla seconda condizione possiamo ricavare lo stimatore OLS di β1: ΣYiXi - b0ΣXi - b1ΣX2i = 0 → 1/n*ΣYiXi - (Y - β1X )*ΣXi/n - β 1*ΣXi/n = 0 → 1/n*ΣYiXi - YX + β 1X 2 - β1*ΣX2i/n = 0 → 1/n*ΣYiXi - Y X = β 1*(ΣX2i/n - X 2) → β 1 = (1/n*ΣYiXi - Y X)/(1/n*ΣXi2 - X 2) = sXY/s2X Possiamo dimostrare che il numeratore è uguale alla covarianza tra Y e X (s XY): sXY = Cov(X, Y) = [Σ(Xi - X )(Yi - Y)]/n = [Σ*(XiYi - X Yi - XiY + XY )]/n = 1/n*ΣXiYi - X*ΣYi/n - Y*ΣXi/n + nX Y/n = 1/n*ΣXiYi - X Y - YX + XY = 1/n*ΣXiYi - X Y Possiamo dimostrare che il denominatore è uguale alla varianza di X (s2X): s2X = Var(X) = Σ(Xi2 - X2)/n = 1/n*ΣXi2 - X 2 Funzioni degli stimatori A questo punto, una volta che abbiamo trovato gli stimatori β 0 e β 1 possiamo utilizzarli per: -

Determinare il valore previsto di Y (𝑌 i) del modello OLS: 𝑌 i = β 0 + β 1Xi i = 1, .., n

-

Determinare il termine d’errore, detto residuo (𝑢 i), del modello OLS: 𝑢 i = Yi - 𝑌 i

i = 1, .., n

Applicazione dell’analisi al nostro caso empirico Il grafico mostra ancora la nuvola di punti che mette in evidenza la relazione fra il rapporto studenti-insegnanti (X) e il punteggio nei test (Y). A questo punto però possiamo aggiungere all’analisi la stima dell’intercetta β 0 e la stima della pendenza β 1 e sulla base di queste possiamo determinare la retta di regressione (retta verde). Nel nostro caso specifico: -

Pendenza stimata: β 1 = -2,28

-

Intercetta stimata: β 0 = 698,9 Retta di regressione stimata: TestScore = 698,9 - 2,28*STR

Interpretazione dei valori dell’analisi Interpretazione della pendenza La pendenza stimata (β 1) è pari a -2,28, dunque ciò significa che l’aumento della dimensione media della classe di uno studente (ΔSTR = +1) dovrebbe generare, secondo le stime del modello, una variazione nel punteggio medio del test di -2,28*1 (ΔTestScore = -2,28*ΔSTR). Un modo più formale per dire la stessa cosa è che la variazione del valore atteso (ΔE) del punteggio medio nel test (TestScore) condizionato sulla dimensione media della classe (STR), diviso la variazione della dimensione media della classe è uguale a -2,28: [ΔE(TestScore|STR)]/ΔSTR = -2,28 Generalizzando questo concetto, stiamo affermando che la variazione nel valore atteso (ΔE) di Y condizionato su X diviso la variazione di X è uguale a β1: ΔE(Y|X)/ΔX = β1 Questo perché, visto che E(Y|X) = β 0 + β 1X, allora ΔE(Y|X) è data da: ΔE(Y|X) = β0 + β1X1 - (β0 + β1X2) → ΔE(Y|X) = β1(X1 - X2) → ΔE(Y|X) = β 1(ΔX) → ΔE(Y|X)/ΔX = β1 Noi stiamo usando il modello con una variazione della variabile X pari a 1 (ΔX = 1), cioè l’aumento della dimensione media della classe di uno studente. Nulla vieta di utilizzare il modello per vedere ad esempio di quanto varia il punteggio medio applicando una riduzione della dimensione media della classe di cinque studenti (ΔSTR = -5), e quello che otteniamo è un aumento medio nel punteggio del test di -2,28*-5 = 11,4 punti (ΔTestScore = -2,28*ΔSTR). Interpretazione dell’intercetta L’intercetta stimata β( 0) è pari a 698,9, dunque ciò significa che il punteggio medio nel test che otterrebbero i distretti con zero studenti per insegnante è 698,9 (E(TestScore|STR = 0) = β0).

Tuttavia questa interpretazione non ha un significato economico perché non esiste una classe con zero studenti per insegnante, quindi anche se matematicamente e geometricamente possiamo stimare l’intercetta di una qualsiasi relazione lineare tra Y e X non sempre tale intercetta ha un senso, anche perché andiamo a prendere questo valore al di fuori del nostro intervallo di dati.

Previsioni Tipi di previsioni Il modello di regressione lineare stimato con minimi quadrati ordinari si può usare per fare: - Previsioni interne al campione, dette previsioni in sample, cioè possiamo usare il modello per fare previsioni sul valore di Y dato un valore di X che osservo nel campione. - Previsioni esterne al campione, dunque possiamo usare il modello per fare previsioni sul valore di Y dato un valore di X che non osservo nel campione, anche considerando un valore delle X che non è nell'intervallo coperto dal campione. La rappresentazione grafica della retta di regressione si ferma idealmente nell’intervallo di valori delle X coperti dal campione, senza mostrarci ad esempio l’intercetta sull’asse delle Y poiché non esiste una classe con zero studenti nel campione, ma nonostante ciò possiamo comunque calcolare il punteggio medio nel test per tale dimensione della classe. Esempio di previsione in sample Consideriamo ad esempio il distretto “Antelope” che ha dimensione media della classe (STR) pari a 19,33 e ha punteggio medio nel test (TestScore) pari a 657,8: -

Il valore previsto di Y per il distretto “Antelope” (𝑌 Antelope) è pari a: 𝑌

-

Antelope

=β 0 +β 1XAntelope = 698,9 - 2,28*19,33 = 654,8

Il residuo per il distretto “Antelope” (𝑢 Antelope) è pari a: 𝑢

Antelope

= YAntelope - 𝑌 Antelope = 657,8 - 654,8 = 3,0

Tra il valore osservato YAntelope (657,8) e il valore previsto 𝑌 Antelope (654,8) c’è una differenza di 3 punti, ciò significa che il modello sottostima l’effettivo punteggio del test registrato in questo distretto di 3 punti. Misure di bontà dell’adattamento Le stime possono anche essere utilizzate per definire quanto il modello riesca effettivamente a rappresentare nel modo migliore la relazione esistente tra Y e X. In particolare, esistono due statistiche di regressione che forniscono delle misure complementari della bontà dell’adattamento della regressione ai dati che effettivamente osservo: l’R2 della regressione e l’errore standard della regressione. R2 della regressione Cos’è L’R2 della regressione misura la frazione della varianza di Y, cioè della variabile dipendente, che è spiegata da X, cioè dal modello, ed essendo un rapporto tra due variabili con la stessa unità di misura, tale indice è privo di unità di misura. L’R2 della regressione è compreso tra 0 e 1, dove: - R2 = 0: Il modello non spiega nulla della varianza di Y (nessun adattamento). - R2 = 1: Il modello spiega completamente la varianza di Y (perfetto adattamento).

Dunque più R2 è vicino a 1, più la bontà di adattamento del modello dei dati è alta e quindi il modello riesce a spiegare una quota elevata della varianza della variabile dipendente Y. Formula L’idea è quella di scomporre il valore osservato di Yi = β0 + β1Xi + ui nel il valore stimato OLS di Y, che è 𝑌 i = β 0 + β 1Xi, e nel termine di errore (o residuo) OLS stimato 𝑢i: Yi = 𝑌 i + 𝑢i Questo ci consente di scomporre la somma dei quadrati effettivamente osservata nei dati, detta Total Sum of Squares (TSS), nella somma dei quadrati spiegata dal modello, detta Explained Sum of Squares (ESS) e nella parte residua, detta Residual Sum of Squares (RSS): TSS = ESS + RSS Dunque definiamo l’R2 come la somma dei quadrati spiegata dal modello (ESS) diviso la somma dei quadrati effettivamente osservata nei dati (TSS): R2 = ESS/TSS = Σni=1( 𝑌i - 𝑌i)2/Σni=1(Yi - Y )2 -

R2 = 0 se ESS = 0 R2 = 1 se ESS = TSS

Rilevanza di R2 Quando usiamo il modello OLS per fare previsioni in genere vogliamo R2 il più elevato possibile e quindi ci dobbiamo preoccupare se R2 è basso, perché vogliamo avvicinarci il più possibile ai valori che dovremo osservare per prevedere la Y e quindi vogliamo che il modello spieghi il più possibile la variabilità che abbiamo nella Y. Se invece usiamo il modello OLS per stimare relazioni causali, siamo meno interessati a un R2 elevato perché il nostro scopo è capire se c'è una forte relazione causa effetto tra il regressore e la variabile dipendente, quindi siamo più interessati alla dimensione di β1 per capire l’effetto causale è economicamente rilevante. R2 nella regressione con un solo regressore Nella regressione con un solo regressore X, R2 può essere calcolato come il quadrato del coefficiente di correlazione tra X e Y: R2 = [Corr(X, Y)]2 = (rXY)2 Infatti, partendo dalla formula di R2 = ESS/TSS = Σni=1( 𝑌i - 𝑌i)2/Σni=1(Yi - Y )2, se dividiamo sia il numeratore che il denominatore per n - 1 otteniamo: [Σni=1( 𝑌i - 𝑌i)2/(n - 1)]/[(Σni=1(Yi - Y )2/(n - 1)]. Vediamo subito che il denominatore è pari alla varianza di Y (s2Y), invece per quanto riguarda il numeratore, sappiamo che 𝑌i = β0 + β1Xi e 𝑌i = β0 + β1 𝑋i quindi 𝑌i - 𝑌i = β1(Xi - X ). Dunque possiamo calcolare l’ESS, che è pari a: Σni=1[β1(Xi - X )]2 = β 12*Σni=1(Xi - X )2 = β 12*Σni=1(Xi - X )2/(n - 1) = (sXY/s2X)2*s2X A questo punto, otteniamo che l’R 2 è pari al coefficiente di correlazione tra X e Y al quadrato: R2 = ESS/TSS = [(sXY)2/(s2X)2*s2X ]/s2Y = (sXY)2/(s2X*s2Y) = (sXY/sX*sY)2 = (rXY)2 R2 centrato e non centrato Dato che TSS = ESS + SSR, allora l’R2 può anche essere riscritto come: R2 = ESS/TSS = 1 - RSS/TSS = 1 - [Σni=1( 𝑢i2)/Σni=1(Yi - Y )2]

Quando R2 viene calcolato in questa versione, a volte ci sono dei software (tra cui Stata) che rimpiazzano il termine al denominatore con il termine Σni=1(Yi2) che non “centra” Y rispetto alla sua media, quindi in questo caso viene chiamato R2 non centrato (uncentered R2): R2 non centrato = 1 - (Σni=1(𝑢 i2)/Σni=1(Yi2)] Se il modello ha un’intercetta, allora R2 centrato e R2 non centrato sono identici, viceversa se il modello non ha un’intercetta (o si impone che l’intercetta sia zero) R2 non centrato non tiene conto che la media dei residui non è più zero e quindi differisce da R2 centrato e ci dà una statistica distorta sulla bontà di adattamento del modello ai dati. Errore standard della regressione Cos’è L’errore standard della regressione (SER) misura la dispersione della distribuzione dei termini di errore (u), in particolare misura la dimensione media del residuo OLS (o l'errore medio della retta di regressione OLS) ed ha l’unità di misura di u, che è la stessa unità di misura di Y. Il SER è quasi la deviazione standard campionaria dei residui OLS in quanto la somma dei quadrati dei residui viene divisa per n - 2 e non per n - 1. Inoltre nella formula si calcola la radice quadrata e si elevano gli errori al quadrato per evitare che quando li sommiamo, gli errori con segno negativo e positivo si compensino tra loro. Formula Il SER è dato dalla radice quadrata della sommatoria dei residui al quadrato diviso n - 2: SER = √[1/(n - 2)*Σni=1(𝑢 i - 𝑢 )2] = √[1/(n - 2)*Σni=1𝑢 i2] La seconda uguaglianza vale perché la media dei residui è zero (𝑢 = 1/n*Σni=1𝑢 i = 0), infatti: 𝑢 = 1/n*Σni=1 𝑢i = 1/n*Σni=1(Yi - β0 - β1Xi) = Σni=1Yi/n - Y + β 1X - β1*Σni=1Xi/n = Y - Y + β1X - β1X = 0 RMSE: Root Mean Squared Error Un concetto molto legato al SER è la radice dell’errore quadratico medio (RMSE): RMSE = √[(1/n)*Σni=1𝑢2i] Il RMSE misura la stessa cosa del SER, ma la differenza sta nel fattore 1/n anziché 1/(n - 2). Nell’output di Stata per il modello OLS, ciò che è chiamato “Root MSE” in realtà è il SER. Divisione per n - 2 Nel modello OLS usiamo i dati per stimare due parametri β0 e β1, dunque usiamo due gradi di libertà, perciò il SER viene diviso per n - 2 per correggere il calcolo per questi gradi di libertà (viceversa per la varianza campionaria si divide per n - 1 perché si stima solo il parametro μY). In ogni caso quando n è grande, dividere per n, n - 1 o n - 2 non causa grande differenza nella stima dell’errore medio della regressione. Nel nostro caso empirico Nel nostro caso empirico, R2 = 0,05, quindi la dimensione media della classe spiega circa il 5% della varianza complessiva del punteggio del test per i diversi distretti, e SER = 18,6, quindi l’errore medio è pari a circa 18,6 punti su un test misurato su una scala di 700 punti. Assunzioni dei minimi quadrati per l’inferenza causale Introduzione A questo punto, definiamo quali sono le assunzioni dei minimi quadrati che ci permettono di

interpretare lo stimatore OLS del parametro β1 (β 1) come un effetto causale, cioè come la variazione di Y è determinata direttamente e esclusivamente da una variazione unitaria di X. Il caso ideale in cui siamo sicuri che la variazione di Y è determinata dalla variazione di X è l’esperimento randomizzato controllato, cioè una situazione in cui ex ante estraiamo dalla stessa popolazione due campioni casuali: un gruppo di trattamento e un gruppo di controllo. Ad esempio nel nostro caso empirico estraiamo casualmente n distretti e li dividiamo in due gruppi: ad uno assegniamo una dimensione della classe di 19 studenti e all'altro di 20. Al termine dell’anno scolastico, andia...


Similar Free PDFs