Esercizi riepilogativi sul modello di regressione lineare semplice - a.a. 2015/2016 PDF

Title Esercizi riepilogativi sul modello di regressione lineare semplice - a.a. 2015/2016
Course Statistica / Statistics
Institution Università Commerciale Luigi Bocconi
Pages 25
File Size 1.7 MB
File Type PDF
Total Downloads 33
Total Views 150

Summary

Download Esercizi riepilogativi sul modello di regressione lineare semplice - a.a. 2015/2016 PDF


Description

ESERCIZI PER IL CORSO 30001 – STATISTICA Sergio Venturini Mattia Oreste Cozzi Paola Pagani1

MODELLO DI REGRESSIONE LINEARE SEMPLICE2 ESERCIZIO R1 Attraverso il software Excel si è stimato il modello lineare che spiega le vendite (in migliaia di euro) in funzione delle spese pubblicitarie, ottenendosi i seguenti risultati Statistica della regressione R multiplo 0.9974 R al quadrato 0.9949 R al quadrato corretto 0.9946 Errore standard 2.6690 Osservazioni 20 Coefficienti Errore standard -0.9986 0.8529 1.5753 0.02667

Intercetta Variabile X1

a) Scrivere l’espressione generale dello stimatore della varianza dell’errore del modello e calcolarne la stima in base ai risultati ottenuti. b) Scrivere l’espressione della scomposizione della devianza di un modello di regressione. c) Calcolare l’intervallo di confidenza al 95% per il coefficiente angolare del modello lineare β1 .

ESERCIZIO R2 Una catena di supermercati vuole quantificare la relazione fra sconti concessi alla clientela nelle offerte periodiche e volumi venduti. Con riferimento a 5 offerte si considerano le variabili sconto % medio (X) dell’offerta e variazione % dei volumi venduti (Y) durante l’offerta rispetto alla media. Le principali statistiche sono di seguito riportate: 5

∑x i =1

5 i

= 115

∑y

i

= 65

s XY = 121.5

i =1

s 2X = 117

sY2 = 144 .

a) Si stabilisca se ad un livello 0.05 si può affermare che esiste una relazione lineare fra volumi venduti e sconto concesso. b) Nella prossima offerta si intende proporre una percentuale di sconto medio pari al 22%. Si fornisca una previsione della variazione percentuale dei volumi venduti.

ESERCIZIO R3 Si consideri il seguente diagramma di dispersione in cui si riporta la retta di regressione che spiega il compenso totale dell’amministratore delegato nell’anno in corso in funzione del profitto dell’azienda nell’anno precedente, stimata sulla base di un campione casuale di aziende europee.

1

Si ringraziano Alberto Biffi, Emilio Gregori, Alessandro Recla e Emiliano Sironi per la preziosa collaborazione. Per gli esercizi sul modello di regressione lineare multipla si vedano i temi d’esame disponibili sulla pagina elearning del corso. 2

1

Ritenete che il modello stimato sia affidabile per prevedere il compenso di un amministratore delegato sulla base del profitto di un’azienda nell'anno precedente? Giustificare brevemente la risposta.

ESERCIZIO R4 Selezionando un campione casuale di 8 studenti, si è rilevato, all’inizio del 2009, il numero di contatti presenti nella rubrica del cellulare e, per tutto il 2009, i minuti passati al telefono. I risultati sono riportati in tabella. Numero di contatti in rubrica

Somma Somma dei quadrati

327 210 589 333 435 234 604 390 3122 1369736

Minuti al telefono nell'ultimo anno 3787 2922 10892 6902 6897 5645 7234 5678 49957 353157795

Sapendo che la covarianza campionaria tra le due variabili è 282126.3929, calcolare il coefficiente angolare della retta di regressione che spiega i minuti al telefono in funzione del numero di contatti in rubrica. Sotto le ipotesi forti del modello lineare e sapendo che la stima dell’errore standard dello stimatore del coefficiente angolare della retta è 4.1218, effettuare un opportuno test statistico per verificare se tale coefficiente è significativamente diverso da zero, ponendo α pari a 0.05, commentando brevemente i risultati.

ESERCIZIO R5 Un sociologo sospetta che esista un’associazione positiva fra la durata di un matrimonio e il salario mensile del marito. In un’indagine campionaria avente per oggetto 30 coppie sposate, il coefficiente di correlazione campionario è risultato pari a +0.42. a) Si indichino le ipotesi da sottoporre a verifica. b) Si determini il p-value del test. c) Si decida in merito alle ipotesi poste quando α = 0.05.

2

ESERCIZIO R6 Nella teoria economica, si ipotizza che il consumo dipenda linearmente dal reddito. Sono stati raccolti i dati relativi ad un campione casuale di 8 individui: Reddito (€) 1330 1165 1055 4210 3545 810 1170 1345 8

∑ (x

i

Consumo (€) 880 1005 800 2300 1655 795 765 1060

− x )2 = 11609688

i= 1

s b21 = 0.0414

a) Si determinino le stime del coefficiente angolare e dell’intercetta del modello lineare. b) Calcolare la somma dei quadrati della regressione (SSR). c) I dati forniscono sufficiente evidenza empirica per affermare che il reddito influenzi positivamente il consumo? Utilizzare un livello di significatività del 5%.

ESERCIZIO R7 L’esame universitario di chimica consiste in una prova di laboratorio e in un esame orale. Il docente del corso vuole valutare se esiste un’associazione lineare positiva tra i voti ottenuti nelle due prove. A questo scopo considera un campione di 50 studenti ed osserva un valore del coefficiente di correlazione campionario pari a 0.43. a) Indicare le ipotesi da sottoporre a verifica. b) Verificare le ipotesi considerate fissando un livello di significatività del 5%.

ESERCIZIO R8 Attraverso il software Excel si è stimato il modello lineare che spiega il prezzo (in migliaia di Euro) di un appartamento (da ristrutturare) alla periferia di Pavia in funzione della superficie (in m2); si sono ottenuti i seguenti risultati Statistica della regressione R multiplo

0.929642808

R al quadrato

0.864235751

R al quadrato corretto Errore standard Osservazioni

0.84726522 7.695917986 10 Coefficienti

Intercetta Superficie

Errore standard 15.62869 0.302114

20.83063646 2.155956234

3

Stat t 1.332845552 7.136222732

a) Scrivere l’espressione generale dello stimatore della varianza dell’errore del modello e calcolarne la stima in base ai risultati ottenuti. b) Scrivere l’equazione della retta di regressione di prezzo su superficie. c) Si verifichi al livello α = 0.05 l’ipotesi nulla secondo cui la superficie non influenza il prezzo contro l’ipotesi alternativa bilaterale.

ESERCIZIO R9 Sia {(X1,Y1), ..., (Xn,Yn)} un campione casuale semplice di dimensione n = 46 tale che 46

∑ (x

i

46

2

)

− x = 1014.87 ,

∑ (y

i

−y

2

)

46

= 1724.37, e

i =1

i =1

∑ (x − x)(y i

i

)

− y = 1005.13 .

i =1

a) Si calcoli il coefficiente di correlazione lineare campionario r tra X ed Y. b) Si verifichi l’ipotesi nulla H0: ρ = 0 contro l’ipotesi alternativa H1: ρ ≠ 0 sulla base dei dati, utilizzando il livello di significatività α = 0.01.

ESERCIZIO R10 In un campione casuale di 10 fondi di investimento azionari quotati sul mercato italiano si sono rilevati i dati riportati in tabella. Il significato delle variabili è il seguente: FONDO: denominazione del fondo QUOTA: valore della quota, in Euro, alla chiusura del mercato del giorno precedente QUOTA1: valore della quota, in Euro, a un anno dalla data di riferimento PERC: incremento percentuale subito dalla quota nel corso degli ultimi tre mesi SPECIALIZZAZIONE.: mercato prevalente degli investimenti del fondo FONDO QUOTA (xi) QUOTA1 (yi) PERC (wi) A 9.73 10.10 -2.8 B 11.80 11.89 -1.8 C 4.77 5.06 -0.9 D 4.59 4.67 -1.9 E 14.39 13.51 2.8 F 10.83 9.46 4.1 G 14.16 14.34 -5.2 H 11.88 11.57 -1.3 I 6.89 5.33 9.7 L 15.82 11.34 9.5 Somma 104.86 97.27 12.2 10

∑ (y i= 1

2

i

− y ) = 113.166,

10

∑ (w − w ) i

2

= 238.336,

i =1

SPECIALIZZAZIONE Asia/Pac. Europa Asia/Pac. Europa Am. Latina Asia/Pac. Europa Europa Am. Latina Am. Latina

10

∑(y

i

(xi - yi) -0.37 -0.09 -0.29 -0.08 0.88 1.37 -0.18 0.31 1.56 4.48 7.59

− y )(wi − w ) = − 35.3428

i=1

a) Calcolare il coefficiente di correlazione lineare campionario tra QUOTA1 e PERC. b) Dopo aver formulato le assunzioni necessarie, verificare l’ipotesi nulla che, nella popolazione dei fondi quotati sul mercato italiano, ρ sia uguale a 0 contro l’alternativa che sia minore di 0, a livello di significatività α = 0.05. c) Da un punto di vista intuitivo, che legame esiste tra il test bilaterale in cui H0: ρ = 0 e quello bilaterale in cui H0: β1 = 0?

4

ESERCIZIO R11 Un commerciante di dolciumi sospetta che i clienti con maggior peso spendano di più nell’acquisto di dolci. Per verificare questa affermazione, viene analizzato il valore della “Spesa (in euro)” in funzione del “Peso (in g)” per un campione casuale di 62 clienti, ottenendo il seguente output: ANOVA df 1 60 61

SS 606.6440683 3600.898789 4207.542857

Coefficienti 9.457438242 0.036755615

Errore Standard 9.674612257 0.015588531

Regression Residual Total

Intercetta Peso a) b)

Ponendo α = 0.01, l’ipotesi H0: β1 = 0 può essere rifiutata contro un’adeguata ipotesi alternativa? Valutare la bontà del modello mediante un opportuno indice e commentare.

ESERCIZIO R12 Su un campione di 8 uomini appassionati di musica sono state rilevate le variabili X: età (in anni) e Y: spesa (in euro), in prodotti discografici in un periodo di riferimento ottenendo i risultati presentati in tabella. 54 35

X Y

43 19

8

Inoltre, è noto che:

∑ (xi − x )2 = 366, i =1

35 40

40 38

46 45

8

∑ ( yi − y ) 2 = 468 e i =1

39 30

33 28

50 29

8

∑x

i

⋅ yi = 11241. Mostrando i passaggi di

i =1

calcolo, si risponda ai seguenti quesiti: a) Valutare l’associazione lineare tra le due variabili calcolando un opportuno indice. b) Al fine di valutare l’associazione lineare tra le variabili, si proponga inoltre un’adeguata rappresentazione grafica. Le conclusioni cui si perviene con la rappresentazione grafica sono coerenti rispetto ai risultati ottenuti al punto precedente? c) Stimare retta di regressione. d) Si consideri lo stimatore del coefficiente angolare β1 del modello di regressione lineare semplice, scrivere e dimostrare l’espressione della varianza del suddetto stimatore.

ESERCIZIO R13 Il direttore di un supermercato ipotizza che la quantità venduta di un prodotto dipenda dalla lunghezza degli scaffali in cui il prodotto è collocato. A tale scopo dispone il prodotto, per 9 settimane successive, su scaffali di diversa lunghezza (in metri) ed ottiene i seguenti risultati: Lunghezza scaffali

6

2

6

4

2

6

4

2

4

Vendita (N. unità) 126 21 181 130 12 160 110 43 190 Dai dati osservati risulta r = 0.8346. a) Esiste un’associazione lineare positiva tra le due variabili? Decidere impostando un test con livello di significatività pari a 0.01. b) Se la lunghezza degli scaffali fosse espressa in centimetri, la conclusione ottenuta al punto a) cambierebbe? E, in caso affermativo, come cambierebbe il coefficiente di correlazione lineare campionario? Motivare la risposta.

5

ESERCIZIO R14 Su un campione di 11 apprendisti sono stati rilevati il numero di settimane di esperienza e il tempo necessario per assemblare un apparecchio elettronico. L’analisi, con Excel, relativa al modello lineare che spiega il tempo necessario (Y) in funzione del numero di settimane di esperienza (X) ha determinato il seguente output: ANALISI VARIANZA gdl Regressione Residuo Totale

1 9 10

SQ MQ 344.7812269 344.7812269 61.76422764 6.86269196 406.5454545

Coefficienti Errore Standard 35.61585366 1.738778472 -1.388211382 0.19585337

Intercetta Settimane

a) Valutare la bontà del modello calcolando un opportuno indice e commentare il risultato. b) Determinare l’intervallo di confidenza per il coefficiente angolare del modello lineare, β1, con livello di confidenza pari al 99%. c) A livello di significatività dell’1%, si rifiuta o meno l’ipotesi nulla H0: β1 = 0 contro l’alternativa unilaterale opportuna? Motivare la risposta. d) Affinché lo stimatore del coefficiente angolare di un modello lineare sia più efficiente, come dovrebbero essere fissate le osservazioni sulla variabile indipendente?

ESERCIZIO R15 In un aeroporto internazionale, da un’indagine campionaria su 12 passeggeri che hanno effettuato un acquisto prima di imbarcarsi, si sono rilevate le seguenti informazioni: Genere

Tipologia acquisto

F F F M M M F F F F M M

Profumeria Profumeria Libri Tabacchi/Alcolici Tabacchi/Alcolici Profumeria Libri Tabacchi/Alcolici Profumeria Libri Elettronica Libri

12

∑ xi = 604, i =1

12

∑ yi = 72, i =1

Spesa in Euro Durata prevista del volo (in ore) (X) (Y) 75 9 120 2 25 2 45 9 28 9 35 8 20 6 17 2 50 3 34 6 120 8 35 8 12

∑ xi2 = 44654, i =1

12

∑ yi2 = 528, i =1

12

∑x ⋅ y i

i

= 3650)

i =1

Si vuole inoltre valutare se, nella popolazione dei passeggeri, l’ammontare della spesa sia legato positivamente alla durata prevista del volo. Si specifichino le ipotesi di un opportuno test a livello di significatività del 5% e si riportino, motivandole, le conclusioni.

6

ESERCIZIO R16 Sulla base di 250 rilevazioni settimanali si è stimato il seguente modello lineare, per spiegare il rendimento delle azioni della società di telefonia mobile TLCSPA (Y) in funzione del rendimento del mercato di riferimento, rappresentato dall’indice Standard&Poor’s 500 (X).  = 0.0117 + 2.5074 ⋅ X a) Qual è l’interpretazione della stima del coefficiente angolare del modello? Qual è il suo significato in ambito finanziario? 250

b) Sapendo

che,

nel

periodo

considerato,

valgono,

rispettivamente,

∑(x − x) i

2

= 0.7221

e

i =1

250

∑ ( y − y) i

2

= 5.4033, si calcoli il valore di R2 per il modello in esame e si traggano le opportune

i =1

conclusioni. c) Si preveda il rendimento del titolo TLCSPA in una settimana nella quale il rendimento dell’indice S&P500 è pari a 0.025. Si preveda inoltre il rendimento medio del titolo TLCSPA nelle settimane in cui il rendimento dell’indice S&P500 è pari a 0.025.

ESERCIZIO R17 Su un campione di 5 impiegati si sono rilevate le seguenti variabili: X = tempo trascorso alla scrivania in una settimana (ore) Y = spese per materiale di cancelleria in un anno (Euro) xi 38.5 36.4 33.2 37.8 39.6 185.5

Totali

yi 48.5 43.9 46.6 45.7 44.3 229.0

5

∑( x − x )

2

i

= 24.4

i =1 5

∑( y − y ) i

2

= 13.8

i =1 5

∑( x − x )( y i

i

− y ) = − 1.83

i =1

a) Si stimino i parametri del modello di regressione lineare che spiega Y in funzione di X. 5

2

b) Sapendo che SSR = ∑ ( yˆi − y ) = 0.1372, si determini l’intervallo di confidenza al 99% per il coefficiente i =1

angolare del modello β1.

ESERCIZIO R18 Si ritiene che l’acquisto di prodotti venduti in confezioni biodegradabili sia inversamente legato al consumo di energia elettrica. Si estrae un campione di 12 italiani, simili rispetto alle caratteristiche socio-economiche, e si rilevano le due variabili: X = ammontare dell’ultima bolletta energetica (Euro) Y = spesa mensile in prodotti venduti in confezioni biodegradabili (Euro) Elaborando i dati, si ottiene il seguente output: Statistica della regressione R multiplo 0.915886387 R al quadrato 0.838847875 R al quadrato corretto 0.822732662 Errore standard 4.061646032 Osservazioni 12

7

ANALISI VARIANZA gdl Regressione Residuo Totale

Intercetta X

1 10 11

SQ 858.7194817 164.9696849 1023.689167

MQ 858.7194817 16.49696849

Coefficienti Errore standard Stat t 58.26756294 4.850729918 12.0121227 – 0.368055234 0.051014004 – 7.214788186

a) Qual è la stima puntuale di β1, il coefficiente angolare del modello? Quali informazioni fornisce? b) Si calcoli l’intervallo di confidenza al 95% per β1.

ESERCIZIO R19 Il management di una catena di negozi di abbigliamento vuole studiare la relazione lineare tra fatturato e metri quadrati del negozio. Su un campione di 65 negozi scelti casualmente, viene stimato il seguente modello di regressione lineare semplice (fatturato in funzione dei metri quadrati di vendita). Statistica della regressione R multiplo 0.883399552 R al quadrato 0.780394768 R al quadrato corretto 0.776908971 Errore standard 84.61287984 Osservazioni 65 ANALISI VARIANZA

Regressione Residuo Totale Intercetta mq

Significatività gdl SQ MQ F F 1602821.54 1602821.54 223.8784114 2.06192E-22 1 63 451038.3843 7159.339434 64 2053859.924 Coefficienti Errore standard Stat t Valore di significatività 99.88746787 21.02519166 4.75084696 1.21319E-05 1.886951935 0.126111511 14.96256701 2.06192E-22

a) Riportare l’equazione stimata della retta di regressione, il coefficiente di correlazione lineare campionario e la somma dei quadrati del modello. b) Dalla tabella è possibile, senza effettuare ulteriori calcoli, conoscere il risultato di particolari test sui coefficienti del modello? Quali sono le ipotesi soggette a verifica e qual è il risultato dei test? c) Costruire l’intervallo di confidenza al 99% per β1.

8

ESERCIZI PER IL CORSO 30001 – STATISTICA Sergio Venturini Mattia Oreste Cozzi Paola Pagani1

MODELLO DI REGRESSIONE LINEARE SEMPLICE2 ESERCIZIO R1 Attraverso il software Excel si è stimato il modello lineare che spiega le vendite (in migliaia di euro) in funzione delle spese pubblicitarie, ottenendosi i seguenti risultati Statistica della regressione R multiplo 0.9974 R al quadrato 0.9949 R al quadrato corretto 0.9946 Errore standard 2.6690 Osservazioni 20 Coefficienti Errore standard -0.9986 0.8529 1.5753 0.02667

Intercetta Variabile X1

a) Scrivere l’espressione generale dello stimatore della varianza dell’errore del modello e calcolarne la stima in base ai risultati ottenuti. b) Scrivere l’espressione della scomposizione della devianza di un modello di regressione. c) Calcolare l’intervallo di confidenza al 95% per il coefficiente angolare del modello lineare β1 . Soluzione a) Dai dati assegnati si ottiene 

 

      

  



   



b) La devianza totale SST può essere scomposta in una componente spiegata dal modello SSR e in una residua SSE, ovvero SST = SSR + SSE dove n

2

SST = ∑ ( y i − y ) i =1 n

SSE =

n

n

i =1

i =1

2 2 ∑( yi − b0 − b1 x1 ) = ∑( yi − yˆi ) = ∑ei2 i =1 n

2

n

2

SSR = ∑( yˆi − y) = b12 ∑( xi − x) i =1

i =1

1

Si ringraziano Alberto Biffi, Emilio Gregori, Alessandro Recla e Emiliano Sironi per la preziosa collaborazione. Per gli esercizi sul modello di regressione lineare multipla si vedano i temi d’esame ...


Similar Free PDFs