1a PI A ott16 sol elearning PDF

Title	1a PI A ott16 sol elearning
Course	Statistica Sociale
Institution	Università Cattolica del Sacro Cuore
Pages	8
File Size	4.1 MB
File Type	PDF
Total Downloads	30
Total Views	159

Preview

CLICK TO PREVIEW PDF

Summary

esercizio in preparazione agli esami di statistica molto utile...

Description

FIRMA DELLO STUDENTE

PRIMA PROVA INTERMEDIA DI STATISTICA (COD. 30001/6045/5047/4038/371/377) 21 ottobre 2016 Cognome

Nome

Numero di matricola

Corso di Laurea

Cod. corso

COMPITO A Ai fini della valutazione si terrà conto solo ed esclusivamente di quanto riportato negli appositi spazi. Si richiede una traccia dello svolgimento dell’esercizio e dei calcoli effettuati per rispondere alle domande Al termine della prova, è OBBLIGATORIO consegnare il presente foglio ed il foglio di brutta (DI CUI NON SI TERRÀ CONTO AI FINI DELLA VALUTAZIONE).

ESERCIZIO 1 (punti 7) In un’analisi riguardante tutte le 150 aziende di un settore, è emerso il seguente risultato in termini di FATTURATO (in milioni di euro): Densità di FATTURATO Frequenza [0, 20)

0.0100

[20, 50)

0.0200

[50, 100)

0.0020

[100, 200]

0.0010

a) Si stabilisca la tipologia della variabile FATTURATO e la si rappresenti graficamente. b) Si calcoli il numero di aziende comprese in ciascuna classe di fatturato. c) Determinare la classe modale e i valori di media e mediana del FATTURATO. a) FATTURATO è una variabile quantitativa continua raggruppata in classi di intervallo. La rappresentazione più opportuna è l’istogramma. Essendo le classi di diversa ampiezza, è necessario utilizzare la densità di frequenza nel grafico, come segue:

b) Partendo dalla densità di frequenza (ci) e dall’ampiezza di ciascun intervallo (wi), è possibile risalire alla frequenza relativa (pi) e quindi (essendo nota l’ampiezza della popolazione di aziende) alla frequenza assoluta (fi) di ogni classe: FATTURATO

ci

wi

pi = (ci * wi)

fi =( pi * N)

[0, 20) [20, 50)

0.0100

20

0.2

[50, 100)

0.0200 0.0020

30 50

0.6 0.1

30 90

[100, 200]

0.0010

100

0.1

15 15

c) La classe modale è [20, 50) in quanto è l’intervallo con maggiore densità di frequenza. Essendo la variabile raggruppata in classi, è possibile trovare i valori approssimati degli indicatori di tendenza centrale come segue: 2

MEDIA: µ =

1 N

k

∑fm i

i

=

i=1

(300 + 3150 + 1125 + 2250) 6825 = = 45.5 150 150

FATTURATO

fi

mi

fi mi

[0, 20)

30

10

300

[20, 50) [50, 100)

90

35

15

75

3150 1125

[100, 200]

15

150

2250

MEDIANA: La classe mediana è [20, 50), in quanto la frequenza cumulata supera 0.5. In modo approssimato è possibile trovare il valore della mediana come segue:

0.5 = 𝐹!!! + 𝑐! ∙ 𝑀𝑒 − 𝑥! = 0.2 + 0.02 𝑀𝑒 − 20 → 𝑴𝒆 = 20 + 0.3 0.02 = 𝟑𝟓 ESERCIZIO 2 (punti 6) Per le stesse 150 aziende presentate nell’esercizio 1, si sono raccolti ulteriori dati sugli UTILI e sugli Investimenti Pubblicitari (INVPUB), entrambi in milioni di euro. Alcuni calcoli sui dati raccolti sono riportati nella tabella seguente:

Totale

UTILI

INVPUB

UTILI2

INVPUB 2

450

30

2700

61,5

a) Che cosa si può dire del numero di aziende con utili compresi nell’intervallo (-3, 9)? Si giustifichi la risposta evidenziando le ipotesi necessarie per arrivare al risultato proposto. b) Quale dato risulta maggiormente variabile, UTILI o INVPUB? Si giustifichi la risposta utilizzando opportuni indicatori.

a) Non avendo informazioni sulla distribuzione del fatturato, è possibile applicare la disuguaglianza di Chebyshev per fornire un’indicazione sul numero di aziende con utile nell’intervallo (-3,9). Per l’applicazione della regola, non vi è alcuna ipotesi distributiva, tuttavia è necessario conoscere media e deviazione standard della popolazione. Si procede quindi con il calcolo dei due misure per la variabile UTILI: 𝜇!"#$# =

𝜎!"#$# =

!"# ! !!! 𝑥!

150

!"# !!! 𝑥!

150

! = − 𝜇!"#$#

450 =

150

=3

2700 − 3! = 3 150

Notiamo che l’intervallo (-3,9) non è altro che 𝜇!"#$# ± 2 ∙ 𝜎!"#$# ; perciò, applicando la disuguaglianza di Chebyshev, è possibile dire che nell’intervallo considerato si troveranno almeno il 75% delle osservazioni, pari a 112.5 aziende. In conclusione, nell’intervallo di UTILI (-3,9) vi sono almeno 112.5 aziende (approssimabile a 113). b) Per confrontare la variabilità dei due caratteri, essendo il valore medio molto diverso, è opportuno utilizzare il coefficiente di variazione. Tenendo presente quanto già calcolato nel punto a), si procede come segue: 3

!"# !!!

30 𝑦! = = 0.2 150 150

𝜇!"#$%& =

𝜎!"#$%& =

!"# 𝑦! !!! !

150

! = − 𝜇!"#$%&

𝐶𝑉!"#$# =

𝐶𝑉!"#$%& =

61.5 − 0.2! = 0.6083 150

3 𝜎!"#$# = =1 𝜇!"#$# 3

𝜎!"#$%& 0.6083 = = 3.0415 𝜇!"#$%& 0.2

Dal confronto dei due coefficienti di variazione risulta che il carattere INVPUB è più variabile. ESERCIZIO 3 (punti 9) In una ricerca di Customer Satisfaction (CS), si vuole indagare la relazione che esiste tra il Livello di CS e la classe di età (Età) dell’intervistato. Le analisi sui dati raccolti hanno generato la tabella seguente:

Età Livello CS

60

Totale

Basso

100

40

?

?

80

50

110

240

180

90

?

400

Alto Totale

a) Si completi opportunamente la tabella con i dati mancanti (indicati con il punto interrogativo nella tabella) e si calcolino le frequenze relative congiunte. b) Si calcoli la percentuale di intervistati con Età pari a 30 anni e oltre, e la percentuale di intervistati con Livello CS Basso ed Età minore o uguale a 60 anni. c) Esiste una relazione tra i due caratteri? Per rispondere, si costruisca un opportuno grafico e lo si commenti. d) Nel caso di due caratteri quantitativi è possibile calcolare il coefficiente di correlazione "r" per valutare la relazione di dipendenza fra i due caratteri? Definite r e precisate dettagliatamente le informazioni che esso fornisce.

a) Tabella completata: !!!!!!!!!!!!!!!!Età!

60

Basso%

100#

40#

20!

160!

Alto%

80#

50#

110#

240#

Totale%

180#

90#

130!

400#

Livello*CS*

4

Totale

Tabella con frequenze relative congiunte: !!!!!!!!!!!!!!!!Età!

60

Basso% Alto%

0.2500# 0.2000#

0.1000# 0.1250#

0.0500# 0.2750#

0.4000# 0.6000#

Totale%

0.4500#

0.2250#

0.3250#

1.0000#

Livello*CS*

b) 𝐹𝑟 𝐸𝑡à ≥ 30 =

Totale

!"!!"#

= 0.55 → 55% 100 + 40 = 0.35 → 35% 𝐹𝑟 Età ≤ 60; Livello CS = "𝐵𝑎𝑠𝑠𝑜" = 400 !""

c) Per analizzare la relazione tra i due caratteri è necessario calcolare le frequenze relative subordinate. In particolare, risulta interessante studiare come il livello di CS dipende dall’Età, quindi si ricaveranno le subordinate per colonna (Livello CS | Età). Età!

60

Basso%

0.5556#

0.4444#

0.1538#

0.4000#

Alto%

0.4444#

0.5556#

0.8462#

0.6000#

Totale%

1.0000#

1.0000#

1.0000#

1.0000#

Livello*CS*

Totale

Il grafico più opportuno per rappresentare le frequenze subordinate è il diagramma a barre sovrapposte (o in alternativa a barre accostate).

Basso# 100%# 90%# 80%# 70%# 60%# 50%# 40%# 30%# 20%# 10%# 0%#

44.44%%

Alto#

55.56%% 84.62%%

55.56%%

44.44%% 15.38%%

60#

Dall’analisi del grafico risulta evidente la dipendenza tra i due caratteri, in quanto il livello di soddisfazione cambia notevolmente al variare della classe d'età. In particolare si nota che i rispondenti più giovani presentano un livello di soddisfazione più basso rispetto alle altre due classi. Per esempio, nella classe “>60” si rileva una percentuale di soddisfazione alta di circa l’85%, mentre solo il 44.44% dei rispondenti con età inferiore ai 30 anni mostra elevata soddisfazione. d) [Si veda il materiale del corso]. 5

ESERCIZIO 4 (punti 4) In un corso di statistica, il docente ha misurato il tempo medio necessario a un gruppo di 80 studenti per risolvere un tema d’esame. Si supponga che la deviazione standard del tempo di risoluzione nella popolazione sia pari a 20 minuti. a) Qual è la probabilità che la media campionaria superi la media della popolazione per più di 5 minuti? b) Qual è la probabilità che la media campionaria differisca per più di 2 minuti dalla media della popolazione? a) Denominato X=”Tempo di risoluzione”, essendo il campione sufficientemente grande è possibile applicare il teorema centrale del limite, ottenendo che: 𝑋 ≈ 𝑁(𝜇! = 𝜇! ; 𝜎! =

𝜎! 𝑛

)

𝜎!

L’errore standard della media campionaria è pari a 𝜎! =

𝑛

= 20

80

= 2.2361

Ne consegue che:

𝑃 𝑋 − 𝜇! > 5 = 𝑃

5 𝑋 − 𝜇! >𝜎 𝜎! ! 𝑛 𝑛

=𝑃 𝑍>

5 = 2.2361

= 1 − 𝐹! 2.2361 ≅ 0.0125 b) Partendo dalle stesse considerazione fatte per il punto a), risulta che:

𝑃 𝑋 − 𝜇! > 2 = 2 ∙ 𝑃

𝑋 − 𝜇! 2 >𝜎 𝜎! ! 𝑛 𝑛

= 2 ∙ 1 − 𝐹! 0.8944

=2∙𝑃 𝑍>

2 = 2.2361

≅ 0.3734

ESERCIZIO 5 (punti 5) In 11 città americane si sono osservati le concentrazioni di fluoro nell’acqua (FLUORO) e il numero di carie per 100 bambini (CARIE); i dati ottenuti sono riportati nella tabella seguente: OBS

FLUORO (X)

CARIE (Y)

1 2

1.9 2.6

236 246

3 4

1.2 0.9

258 343

5

0.6

412

6 7

0.5 0.4

444 556

8 9

0 0.2

722 733

10 11

0.1 0.1

772 823

6

a) Si osservi il seguente diagramma di dispersione. Risulta coerente con i dati forniti? Quali osservazioni siete in grado di trarre osservando il grafico stesso?

Diagramma#dispersione# 900# 800# 700#

CARIE#

600# 500# 400# 300# 200# 100# 0# 0#

0.5#

1#

1.5#

2#

2.5#

3#

FLUORO#

b) Sapendo che !! !!! 𝑥! =8.5,

!! !!!

!! ! !!! 𝑥! =13.45,

𝑦!=5545,

!! !!!

𝑥! 𝑦! =2704,

si calcoli l’interpolante lineare che mostra la relazione tra CARIE e FLUORO. c) Si preveda il numero di carie per 100 bambini corrispondente a una concentrazione di fluoro pari a 0.7.

a) Il grafico proposto è un diagramma di dispersione a rappresenta correttamente, in modo congiunto, le variabili FLUORO e CARIE. Dal grafico è possibile osservare la presenza di una relazione tra fluoro e carie, in particolare si nota che al crescere della concentrazione di fluoro nell’acqua, il numero di carie diminuisce (anche se la relazione non sembra essere lineare). b) È possibile calcolare i coefficienti del modello lineare come segue: 𝑏! =

𝑠!" 𝑠!!

𝑏! = 𝑦 − 𝑏! ∙ 𝑥

;

In primo luogo si procede al calcolo delle medie campionarie di X e Y: 𝑥=

𝑦=

!! !!! 𝑥!

11

!! !!! 𝑦!

11

=

=

8.5 = 0.7727 11

5545 = 504.0909 11

Quindi è possibile calcolare la covarianza 𝑠!" e la varianza 𝑠!! utilizzando le rispettive formule ridotte: 𝑛 𝑠!" =

𝑛−1

∙

!! !!!

𝑥!∙ 𝑦!

11

−𝑥∙𝑦 =

11 2704 ∙ − 0.7727 ∙ 504.0909 = −158.0621 11 10 7

𝑠!! =

𝑛 ∙ 𝑛−1

!! !!!

𝑥!!

11

− 𝑥! =

11 13.45 ∙ − 0.7727! = 0.6882 11 10

Infine si calcolano i coefficienti del modello come segue: 𝑏! =

𝑠!" −158.0621 = −229.6967 ! = 𝑠! 0.6882

𝑏! = 504.0909 + 229.6967 ∙ 0.7727 = 681.5776 La retta stimata è la seguente: 𝑦 = 681.5776 − 229.6967 ∙ 𝑥 c) Utilizzando la retta di regressione appena stimata, la previsione risulta essere: 𝑦 = 681.5776 − 229.6967 ∙ 0.7 = 520.7899

8...