Regressione Analisi dei Dati Barbaranelli PDF

Title Regressione Analisi dei Dati Barbaranelli
Course Analisi dei dati
Institution Sapienza - Università di Roma
Pages 3
File Size 122 KB
File Type PDF
Total Downloads 19
Total Views 128

Summary

Riassunto che riguarda il modulo sulla regressione dell'esame di analisi dei dati del prof. Barbaranelli nella magistrale di Applicata Lavoro in Sapienza...


Description

La regressione lineare L’analisi di regressione esamina la relazione lineare tra una o più variabili indipendenti e una variabile dipendente, e può avere scopo esplicativo o predittivo. - scopo esplicativo si propone di capire e ponderare gli effetti delle VI sulla VD in funzione di un determinato modello teorico - lo scopo predittivo si propone di individuare una combinazione lineare di VI per predire il modo ottimale il valore assunto dalla VD. Il punto di partenza della regressione è una matrice delle correlazioni o delle covarianze tra la VD e le VI. Il punto di arrivo della regressione è un insieme di parametri che riassumono la relazione tra la VD e le VI, una statistica e un valore di probabilità associato alle relazioni trovate, che rendono possibile la verifica delle ipotesi, e infine due valori che assumono la correlazione tra la VD e le VI e l’impatto complessivo delle VI sulla VD in termini di varianza spiegata (R2) e un indice (F) che consente di condurre la verifica delle ipotesi sui coefficienti R e R2. I coefficienti di regressione esprimono l’associazione tra due variabili assumendo l’ipotesi che la VD sia determinata dalle VI, ed esprimono una relazione di natura asimmetrica. La regressione bivariata o semplice (alfa e beta) L’analisi della regressione lineare semplice individua la retta che consente di prevedere i punteggi della VD a partire dalla VI. Individua graficamente quella retta che interpola al meglio la nuvola di punti definita dalla distribuzione congiunta delle due variabili. L’equazione della retta che lega Y a X è Y=alfa+betaX , dove alfa è l’intercetta, cioè il punto in cui la retta incrocia l’asse delle ordinate, e corrisponde al valore di Y quando X=0; il coefficiente beta rappresenta l’inclinazione della retta di regressione di Y su X, ovvero il coefficiente angolare della retta. All’equazione bisogna aggiungere l’errore, perché le relazioni tra le variabili non sono perfette, e spesso sono misurate con errori oppure vengono omessi predittori importanti. Aggiungendo l’errore, l’equazione diventa Y=alta+betaX+e. La “e” rappresenta la distanza tra il punteggio osservato e quello ricostruito tramite la retta di regressione. Per individuare i parametri che rendono minimo l’errore quando si stima Y da X si usa Il metodo dei minimi quadrati. Adeguatezza della equazione di regressione (coefficiente a e b) Per esprimere la relazione tra il coefficiente a, che rappresenta il valore atteso di Y quando X=0, e il coefficiente b, che rappresenta il cambiamento atteso in Y associato ad un cambiamento di una unità in X, è necessario standardizzare il coefficiente di regressione. Nella regressione semplice, il coefficiente di regressione standardizzato è uguale al coefficiente di correlazione semplice. Il coefficiente di correlazione al quadrato r2 viene detto coefficiente di determinazione, ed è uguale al rapporto tra la varianza di Y spiegata dalla regressione con i minimi quadrati e la varianza totale di Y. Il coefficiente r2 è un indice della proporzione della varianza totale di Y che viene spiegata dalla regressione lineare di Y su X. Il coefficiente di alienazione (1-r2) indica invece la proporzione della varianza totale di Y non spiegata dalla VI, e rappresenta la parte di variabilità di Y che rimane una volta che viene rimossa la parte di Y associata a X. La deviazione standard degli errori, oppure errore standard della stima, è un indice della precisione della retta di regressione. Se il coefficiente di correlazione r è uguale a 1, l’errore standard della stima è uguale a 0. La regressione multipla Nella regressione multipla si ha una VD che regredisce su almeno 2 VI. Graficamente, con 2 VI si ha un piano di regressione, con più di due VI si ha un iperpiano. I coefficienti di regressione rappresentano l'inclinazione della retta di regressione della variabile dipendente, ottenuta mantenendo costanti le variabili indipendenti dell'equazione di regressione multipla. Le stime dei coefficienti dell'equazione di regressione vengono fatte con il metodo dei minimi quadrati ordinari, dove si deve individuare un piano o un iperpiano di dimensioni k (k>1) che si adatti meglio ai punti dispersi in uno spazio di dimensioni k+1 (k variabili indipendenti e 1 dipendente). Partizione della varianza Nel caso in cui si ha una VD e due VI, con aree di varianza in condivisione, esistono diversi coefficienti di correlazione: - coefficiente di correlazione semi-parziale: rappresenta la correlazione tra X1 e Y quando X2 viene parzializzata solamente da X1 - coefficiente correlazione parziale: rappresenta la correlazione tra X1 e Y quando X2 viene parzializzata da X1 e da Y

- il coefficiente di regressione rappresenta l’inclinazione della retta di regressione di Y su X1 per valori costanti di X2, cioè il cambiamento atteso in Y dopo un cambiamento di un'unità (nel caso di quello non standardizzato) o di una deviazione standard (nel caso dello standardizzato) in X1 al netto di X2. Le correlazioni parziale e semi-parziale elevate al quadrato, misurano la quantità di varianza spiegata da una variabile indipendente, dopo che è stato tolto il contributo dato dalle altre variabili indipendenti. Adeguatezza dell’equazione di regressione multipla: coefficiente di correlazione multiplo e corretto L'associazione tra una variabile dipendente ed un insieme di variabili indipendenti può essere riassunta tramite coefficiente di correlazione multiplo (R), il cui quadrato viene detto coefficiente di determinazione multiplo (R2) ed indica la proporzione di varianza della variabile dipendente spiegata dalle variabili indipendenti prese nel loro complesso. Ovvero si ottiene con la somma dei prodotti delle correlazioni semplici r e dei coefficienti β^ tra la variabile dipendente e ogni variabile indipendente. Il coefficiente di determinazione multiplo corretto rappresenta una stima del coefficiente multiplo della popolazione, senza errore di approssimazione dovuto al numero di predittori considerati. R è sempre maggiore/uguale a zero, se invece le variabili indipendenti hanno correlazioni basse tra di loro, R tende ad essere molto più elevato del più grande dei coefficienti di correlazione di ordine zero. Verifica delle ipotesi (test di significatività) L'ipotesi nulla equivale all'ipotesi nulla che tutti i coefficienti di regressione nella popolazione siano uguali a zero. Per verificare l'ipotesi si usa la distribuzione F di Snedecor, dove se F supera il livello critico per un certo livello di probabilità α, in funzione dei gradi di libertà prestabiliti, allora si può respingere l'ipotesi nulla che p è uguale a zero nella popolazione. Si può esaminare la significatività statistica sui singoli soggetti β, formulando un'ipotesi del tipo: H0:β=0, dove di solito si considera un'ipotesi alternativa bidirezionale H1 :β!=0. Per esaminare questa ipotesi si usa il t di student. Se la t supera il livello critico per un determinato livello di probabilità α in funzione dei gradi di libertà prestabiliti (vedere apposite tavole), allora si può respingere l'ipotesi nulla che β=0 nella popolazione. Assunzioni di base della regressione lineare Per applicare correttamente l'analisi di regressione lineare ed attuare la verifica delle ipotesi sui parametri, devono essere soddisfatti alcuni requisiti essenziali: 1. Non deve esserci l'errore di specificazione. Le forma della relazione tra i Xi e Y deve essere lineare, non devono essere state omesse variabili indipendenti importanti, non devono essere state incluse variabili indipendenti irrilevanti. 2. Non deve esserci l'errore di misurazione: le variabili devono essere misurate senza errore. Se la variabile dipendente è misurata con errore, l'errore di misurazione viene assorbito nel termine di errore dell'equazione, e gonfia la varianza di errore, così che R2 sarà più basso mentre le stime dei β saranno ancora corrette ma poco efficienti. 3. La variabile indipendente deve essere quantitativa o dicotomica, e quella dipendente deve essere quantitativa. 4. La varianza di ogni variabile indipendente deve essere maggiore di zero 5. Il campionamento deve essere casuale semplice. 6. Se c'è più di una variabile indipendente non deve esserci una perfetta multicollinearità tra di loro, troppa correlazione tra variabili indipendenti deve essere evitata. Per valutare la multicollinearità si possono usare gli indici di tolleranza T e VIF (Variance Inflaction Factor). T viene usato per stimare quanto una VI è linearmente correlata alle altre VI. Una variabile con basso livello di tolleranza condivide molta della sua varianza con le altre variabili indipendenti, quindi probabilmente contribuisce poco a spiegare la VD. VIF=1/T Dato che l'indice di tolleranza è compreso tra 0 e 1, valori bassi di VIF indicano bassa collinearità, e viceversa. Per rimediare alla collinearità si può pensare di aggregare le variabili più correlate, o eliminare una VI molto correlata con altre. 7. Per ogni valore di Xi il valore atteso degli errori: a. deve essere uguale a zero (media uguale a zero) b. la varianza dei residui (errori) deve essere costante in tutti i punteggi (omoschedasticità). L’assenza di omoschedasticità è l’eteroschedasticità, e si ha quando la distribuzione dei residui non è costante, e ciò può verificarsi quando una variabile è asimmetrica mentre le altre non lo sono. Possono risultare sovrastimati gli errori standard della stima per alcuni valori di Y' e sottostimati per altri. c. la distribuzione dei valori di ε per ogni valore di X deve essere di forma normale (normalità)

d. non deve esserci correlazione tra gli errori dei valori associati ad osservazioni diverse (assenza di autocorrelazioni). Se non c'è autocorrelazione gli errori associati a ciascuna osservazione sono tra loro indipendenti. Il test di Durbin-Watson restituisce un valore da 0 a 4, dove se i residui di osservazioni consecutive non sono correlati il valore è intorno a 2, valori inferiori a 2 indicano autocorrelazione positiva, superiori a 2 indicano autocorrelazione negativa, e se il numero di soggetti è almeno di 100 e le VI sono almeno 2, valori tra 1.5 e 2.2 possono essere considerati indicativi di assenza di autocorrelazione. e. le variabili indipendenti non devono essere correlate con i residui. La violazione di queste assunzioni è la principale fonte di inadeguatezza del modello di regressione, i residui dei valori stimati della regressione rappresentano uno degli elementi più utili per esaminare l'adeguatezza del modello e la rappresentazione grafica della distribuzione dei residui rispetto ai valori predetti può suggerire la presenza di fonti di inadeguatezza del modello. Strategie analitiche per la regressione: standard, gerarchica e statistica - Regressione Standard: Tutte le VI sono inserite nello stesso momento, e ad ogni VI corrisponde, nella spiegazione della VD, solo quella parte della variabilità che essa condivide solo con quest'ultima. In questo metodo, se si elevano al quadrato i coefficienti semi-parziali (sr) si ottiene la proporzione della varianza dell'intenzione che è spiegata solo da ognuna delle singole VI. - Regressione gerarchica: le VI vengono inserite nell'equazione secondo un ordine prestabilito dal ricercatore, ed ogni VI è valutata per quanto aggiunge alla spiegazione della VD rispetto a quanto è già stato spiegato dalle VI inserite prima. - Regressione statistica: in questa regressione l'ordine con cui le variabili vengono inserite o eliminate nell'equazione di regressione è determinato solo da criteri statistici. Esistono 3 diverse versioni di questa regressione: o Nella regressione forward si ha l'equazione inizialmente vuota e vengono aggiunte di volta in volta le VI che presentano la correlazione più elevata con la VD, e una volta che una VI entra nell'equazione, vi rimane. o Nella regressione backward l'equazione comprende inizialmente tutte le VI e ad ogni passaggio viene eliminata dall'equazione quella VI che non contribuisce sufficientemente alla spiegazione della VD, e una volta tolta dall'equazione una VI, essa non può tornarci. o Nella regressione stepwise non c'è nessuna VI iniziale nell'equazione, e queste vengono aggiunte man mano (solo quelle che soddisfano il criterio statistico), e ad ogni passaggio possono essere eliminate quelle VI che non contribuiscono più significativamente alla regressione. Confronto tra i differenti metodi (standard, gerarchica e statistica) La regressione standard è la migliore strategia analitica per valutare esplorativamente le relazioni tra un insieme di variabili, la regressione gerarchica permette al ricercatore di esercitare un controllo maggiore sull'analisi ma deve esistere un'ipotesi esplicita a priori sull'ordine di entrata delle variabili nell'equazione, la regressione statistica può essere utile per identificare in uno specifico campione quelle VI che maggiormente contribuiscono a spiegare la VD e per eliminare quelle che non forniscono un contributo soddisfacente. La regressione statistica è sconsigliata da usare quando si hanno pochi soggetti e molte variabili, e va usata con cautela e i suoi risultati vanno sottoposti a validazione su campioni differenti. Considerazioni conclusive sulla regressione Un forte limite della regressione è che non si può considerare simultaneamente più di una variabile dipendente alla volta nello stesso modello, inoltre, per parlare in maniera appropriata di nessi causali è necessario che: La causa di un evento deve essere sempre presente in tutte le situazioni in cui si presenta l'evento, e deve precederlo. - Se la causa non è presente, l'evento non sussiste. - Al variare della causa varia anche il valore dell'evento, inoltre non bisogna trascurare fattori che possono determinare sia causa sia effetto. La semplice covariazione (o correlazione) di 2 elementi non prova mai l'esistenza di una relazione causale, quindi l'interpretazione va sempre effettuata con prudenza, ed è inappropriata quando i dati sono cross-sectional (quando VD e le VI sono rilevate nello stesso momento) o quando non son stati considerati tutti i fattori che possono influenzare la VD. I risultati della regressione lineare multipla possono essere soggetti ad interpretazioni differenti a seconda del metodo di regressione scelto (standard, gerarchica, statistica), ed il ricercatore deve sempre valutare la strategia d'analisi più appropriata allo scopo....


Similar Free PDFs