ANALISI DI REGRESSIONE, INTERPOLAZIONE ESTRAPOLAZIONE PDF

Title ANALISI DI REGRESSIONE, INTERPOLAZIONE ESTRAPOLAZIONE
Author Zhakline Nerjaku
Course Statistica
Institution Università di Pisa
Pages 3
File Size 145.7 KB
File Type PDF
Total Downloads 83
Total Views 149

Summary

interpolazione matematica, interpolazione statistica , metodo minimi quadrati, interpolazione ed estrapolazione , bontà di adattamento, indice determinazione lineare, matrice varianza-covarianza, interpolazione e regressione...


Description

Interpolazione matematica Problema tipico: dati N punti di coordinate (xi , yi ), si vuole trovare l’equazione di una curva che passi esattamente per tutti gli N punti Il metodo più semplici per risolvere il problema esposto `e quello di utilizzare una funzione polinomiale di grado N − 1:

Infatti si ricorda che per N punti passa una e una sola curva polinomiale di grado N − 1 Considerazione: trovare una curva passante per N punti ha senso solo se i punti sono pochi Se N `e grande la funzione interpolante i punti avrà N coefficienti, che essendo cos`ı numerosi fanno p

Interpolazione statistica Problema tipico: dati N punti di coordinate (xi , yi ), si vuole trovare l’equazione di una funzione data che passi “il più vicino possibile” agli N punti L’obiettivo dell’interpolazione statistica `e quello di determinare i parametri di una funzione scelta a priori in modo che tale funzione sia il più vicino possibile ai punti di coordinate (xi , yi )

Steps per una interpolazione statistica: 1. Farsi una prima idea della relazione esistente tra X e Y ; tale idea può scaturire osservando uno scatter plot oppure da conoscenze a priori 2. Individuare una funzione appropriata per tale relazione (es. retta, parabola, iperbole, etc.) 3. Determinare i parametri della funzione in modo che essa sia quanto più possibile prossima alle osservazioni (xi, yi ) 4. Verificare come la funzione si adatta ai dati (quanto `e “vicina” alle osservazioni)

Supporre una relazione tra X e Y Rappresentare le coppie (xi , yi ) come punti in un piano cartesiano (scatter plot) Verificare nella letteratura scientifica se siano già state identificate delle relazioni tra le variabili X e Y oggetto di studio Avvalersi delle opinioni di esperti del settore scientifico oggetto di analisi

Scelta della funzione Deve avere la capacità di descrivere la relazione supposta al punto 1 Deve essere semplice, ovvero avere pochi parametri; l’aggiunta di parametri alla funzione migliora l’adattamento ai dati, ma pregiudica la possibilità di interpretare la relazione tra le variabili La funzione più semplice `e la retta y = a0 + a1x o in alternativa y = a + bx (funzione lineare)

Determinazione dei parametri Esistono in letteratura scientifica moltissimi metodi per determinare i parametri di una funzione che deve interpolare (interpolazione statistica) N dati Uno dei metodi più utilizzati `e il metodo dei minimi quadrati Tale metodo si basa sulla minimizzazione delle distanze al quadrato tra gli N punti e una funzione data Il metodo dei minimi quadrati `e spesso denominato con l’acronimo OLS (dall’inglese Ordinary Least Squares)

Il metodo dei minimi quadrati Siano dati N punti di coordinata (xi , yi ) con i = 1, . . . , N Tali punti rappresentano N unità statistiche su cui sono state rilevate le variabili X e Y Si consideri una funzione f (x) appropriata a descrivere la relazione tra X e Y y = f (x) con parametri a0, a1, . . . , ak Il metodo dei minimi quadrati consiste nel ricavare i parametri della funzione f (x) –a0, . . . , ak– tale che la somma delle distanze al quadrato tra yi (ordinate empiriche) e funzione (f (xi ), ordinate teoriche) sia minima:

Interpolazione lineare: interpretazione dei parametri Equazione della retta interpolante: y = a + bx Interpolazione lineare: f (xi ) = a + bxi = ˆyi a: intercetta, esprime il valore di Y quando X = 0 b: coefficiente angolare, misura la variazione di Y quando X aumenta di una unità  b > 0 ⇒ σxy > 0: relazione lineare positiva → quando la X ↑ di 1 unità ⇒ la Y ↑ in media di b (e viceversa)  b < 0 ⇒ σxy < 0: relazione lineare negativa → quando la X ↑ di 1 unità ⇒ la Y ↓ in media di b (e viceversa)  b = 0 ⇒ σxy = 0: assenza di relazione lineare → al variare della X la Y resta costante I parametri a e b si interpretano nella unità di misura della Y

Interpolazione ed estrapolazione L’equazione della retta ottenuta con il metodo dei minimi quadrati può essere utilizzata anche per prevedere il valore della Y in corrispondenza di un valore fissato della X Interpolazione: quando la previsione della variabile dipendente (Y ) viene fatta per valori della variabile indipendente (X) compresi nell’intervallo dei valori osservati; previsione per x = x0, se x0 ∈ [min(x), max(x)] ⇒ Interpolazione Estrapolazione: quando la previsione della variabile dipendente (Y ) viene fatta per valori della variabile indipendente (X) non compresi nell’intervallo dei valori osservati; previsione per x = x0, se x0 ∈/ [min(x), max(x)] ⇒ Estrapolazione L’estrapolazione `e un’operazione rischiosa! Senza dati non `e possibile avere un’idea di quali relazioni vi siano oltre i confini dell’intervallo dei valori della variabile dipendente X La capacità previsionale di un modello e dei relativi rischi nell’interpretare i risultati ottenuti esula da questo corso (ed `e un campo di ricerca attivo in tantissimi settori)

Bontà di adattamento Riepiloghiamo gli steps per una interpolazione statistica: 1. Individuare la relazione esistente tra X e Y (scatter plot o conoscenze a priori) 2. Individuare una funzione appropriata per tale relazione (es. retta, parabola, iperbole, etc.) 3. Determinare i parametri della funzione in modo che essa sia quanto più possibile prossima alle osservazioni (xi , yi ) 4. Verificare come la funzione si adatta ai dati (quanto `e “vicina” alle osservazioni), cioè verificare la bontà di adattamento Per costruire un indice che misuri la bontà di adattamento si consideri la seguente scomposizione per ogni osservazione di coordinata xi , yi : yi − µy = (ˆyi − µy ) + (yi − yˆi ). Dato yi − µy = (ˆyi − µy ) + (yi − yˆi )  (yi − µy ): `e lo scarto (dalla media) i-esimo  (ˆyi − µy ): parte dello scarto “spiegato” dalla retta  (yi − yˆi ) = ei : parte dello scarto “non spiegato” dalla retta  yˆi = f (xi ) = a + bxi Dalla scomposizione dello scarto `e possibile dimostrare che

Tanto maggiore `e la varianza spiegata rispetto alla varianza residua, tanto migliore sarà l’adattamento della funzione ai punti osservati Esistono due situazioni estreme:  σ^2 y = σ^2 yˆ : il modello spiega tutta la varianza di Y  σ^2 y = σ^2 e : tra i dati non esiste una relazione spiegata dal modello Si desidera costruire un indice normalizzato che vari tra le due situazioni limite

Indice di Determinazione Lineare Definizione: Siano (xi , yi ), i = 1, . . . , N le coppie di valori di una distribuzione doppia e siano µx e µy le medie di X e Y . Sia yˆi = f (xi ) il valore della funzione interpolante f (x) nel punto xi . Una misura della bontà di adattamento della funzione f (x) ai dati osservati (xi , yi ) `e data dall’Indice di Determinazione Lineare:

  

R 2 = 0: assenza di relazione espressa da f (x) R 2 = 1: perfetta dipendenza di Y da X, i punti giacciono sulla funzione f (x) Quanto più R 2 si avvicina a 1 tanto più la funzione f (x) si adatta bene ai dati

Interpretazione     

Si `e visto che R 2 misura la bontà di adattamento della funzione interpolante ai dati Si `e visto che R 2 `e il rapporto tra la varianza della Y spiegata dalla funzione interpolante e la varianza totale della Y Ciò implica che R 2 esprime la frazione di variabilità della Y spiegata dalla funzione interpolante Dunque, R 2 `e la frazione di variabilità di Y spiegata dalla variabilità di X tramite la funzione f (x) Ciò indica un ottimo adattamento della funzione ai dati

Relazione tra R 2 e rxy Solamente nel caso lineare (y = a + bx) vale R^2 = r^2xy Solo nel caso lineare da rxy ricavo R 2 → r^2 xy = R^2 ATTENZIONE: da R 2 non posso ricavare rxy → √ R2 DIVERSO DA rxy

Relazione tra coefficiente angolare, rxy e R^2 Si consideri la retta interpolante y = a + bx Si consideri anche la retta interpolante x = c + dy Dal metodo dei minimi quadrati risulta b = σxy/σ^2x e d = σxy/σ^2y Il coefficiente di correlazione lineare (rxy ) `e pari alla media geometrica dei coefficienti angolari b e d

La matrice varianza-covarianza Quando per un dato collettivo si sono misurate alcune variabili quantitative `e possibile costruire una matrice che riporta varianza e covarianza di tutte le variabili Questa matrice avrà nella posizione ij la covarianza tra la variabile i-esima e la j-esima; sulla diagonale principale, posizione ii, ci sono dunque le varianze (si ricorda che σxx = σ^2 x ) A partire dalla matrice varianza-covarianza `e immediata la costruzione della matrice delle correlazioni lineari Questa matrice avrà nella posizione ij la correlazione lineare tra la variabile i-esima e la j-esima; sulla diagonale principale, posizione ii, avremo il valore 1 (`e facile dimostrare che rxx = 1)

Interpolazione e Regressione Quando lo scopo principale dell’interpolazione `e quello di stimare la variabile dipendente (Y ) per mezzo della variabile indipendente (X) allora questo processo di stima `e denominato regressione. Se si vuole stimare Y mediante X per mezzo di una certa equazione, tale equazione verrà indicata equazione di regressione di Y in X .La corrispondente rappresentazione grafica, assumerà la denominazione di curva (o retta) di regressione di Y in X. Se l’equazione cercata `e un’equazione di primo grado, allora siamo di fronte alla regressione lineare o del primo ordine La relazione tra le variabili Y ed X nella regressione lineare si esprime nel modo seguente yi = a + bxi + ei Nota: la regressione `e uno strumento proprio dell’inferenza statistica....


Similar Free PDFs