Title | 1a PI A ott16 sol elearning |
---|---|
Course | Statistica Sociale |
Institution | Università Cattolica del Sacro Cuore |
Pages | 8 |
File Size | 4.1 MB |
File Type | |
Total Downloads | 30 |
Total Views | 159 |
esercizio in preparazione agli esami di statistica molto utile...
FIRMA DELLO STUDENTE
PRIMA PROVA INTERMEDIA DI STATISTICA (COD. 30001/6045/5047/4038/371/377) 21 ottobre 2016 Cognome
Nome
Numero di matricola
Corso di Laurea
Cod. corso
COMPITO A Ai fini della valutazione si terrà conto solo ed esclusivamente di quanto riportato negli appositi spazi. Si richiede una traccia dello svolgimento dell’esercizio e dei calcoli effettuati per rispondere alle domande Al termine della prova, è OBBLIGATORIO consegnare il presente foglio ed il foglio di brutta (DI CUI NON SI TERRÀ CONTO AI FINI DELLA VALUTAZIONE).
ESERCIZIO 1 (punti 7) In un’analisi riguardante tutte le 150 aziende di un settore, è emerso il seguente risultato in termini di FATTURATO (in milioni di euro): Densità di FATTURATO Frequenza [0, 20)
0.0100
[20, 50)
0.0200
[50, 100)
0.0020
[100, 200]
0.0010
a) Si stabilisca la tipologia della variabile FATTURATO e la si rappresenti graficamente. b) Si calcoli il numero di aziende comprese in ciascuna classe di fatturato. c) Determinare la classe modale e i valori di media e mediana del FATTURATO. a) FATTURATO è una variabile quantitativa continua raggruppata in classi di intervallo. La rappresentazione più opportuna è l’istogramma. Essendo le classi di diversa ampiezza, è necessario utilizzare la densità di frequenza nel grafico, come segue:
b) Partendo dalla densità di frequenza (ci) e dall’ampiezza di ciascun intervallo (wi), è possibile risalire alla frequenza relativa (pi) e quindi (essendo nota l’ampiezza della popolazione di aziende) alla frequenza assoluta (fi) di ogni classe: FATTURATO
ci
wi
pi = (ci * wi)
fi =( pi * N)
[0, 20) [20, 50)
0.0100
20
0.2
[50, 100)
0.0200 0.0020
30 50
0.6 0.1
30 90
[100, 200]
0.0010
100
0.1
15 15
c) La classe modale è [20, 50) in quanto è l’intervallo con maggiore densità di frequenza. Essendo la variabile raggruppata in classi, è possibile trovare i valori approssimati degli indicatori di tendenza centrale come segue: 2
MEDIA: µ =
1 N
k
∑fm i
i
=
i=1
(300 + 3150 + 1125 + 2250) 6825 = = 45.5 150 150
FATTURATO
fi
mi
fi mi
[0, 20)
30
10
300
[20, 50) [50, 100)
90
35
15
75
3150 1125
[100, 200]
15
150
2250
MEDIANA: La classe mediana è [20, 50), in quanto la frequenza cumulata supera 0.5. In modo approssimato è possibile trovare il valore della mediana come segue:
0.5 = 𝐹!!! + 𝑐! ∙ 𝑀𝑒 − 𝑥! = 0.2 + 0.02 𝑀𝑒 − 20 → 𝑴𝒆 = 20 + 0.3 0.02 = 𝟑𝟓 ESERCIZIO 2 (punti 6) Per le stesse 150 aziende presentate nell’esercizio 1, si sono raccolti ulteriori dati sugli UTILI e sugli Investimenti Pubblicitari (INVPUB), entrambi in milioni di euro. Alcuni calcoli sui dati raccolti sono riportati nella tabella seguente:
Totale
UTILI
INVPUB
UTILI2
INVPUB 2
450
30
2700
61,5
a) Che cosa si può dire del numero di aziende con utili compresi nell’intervallo (-3, 9)? Si giustifichi la risposta evidenziando le ipotesi necessarie per arrivare al risultato proposto. b) Quale dato risulta maggiormente variabile, UTILI o INVPUB? Si giustifichi la risposta utilizzando opportuni indicatori.
a) Non avendo informazioni sulla distribuzione del fatturato, è possibile applicare la disuguaglianza di Chebyshev per fornire un’indicazione sul numero di aziende con utile nell’intervallo (-3,9). Per l’applicazione della regola, non vi è alcuna ipotesi distributiva, tuttavia è necessario conoscere media e deviazione standard della popolazione. Si procede quindi con il calcolo dei due misure per la variabile UTILI: 𝜇!"#$# =
𝜎!"#$# =
!"# ! !!! 𝑥!
150
!"# !!! 𝑥!
150
! = − 𝜇!"#$#
450 =
150
=3
2700 − 3! = 3 150
Notiamo che l’intervallo (-3,9) non è altro che 𝜇!"#$# ± 2 ∙ 𝜎!"#$# ; perciò, applicando la disuguaglianza di Chebyshev, è possibile dire che nell’intervallo considerato si troveranno almeno il 75% delle osservazioni, pari a 112.5 aziende. In conclusione, nell’intervallo di UTILI (-3,9) vi sono almeno 112.5 aziende (approssimabile a 113). b) Per confrontare la variabilità dei due caratteri, essendo il valore medio molto diverso, è opportuno utilizzare il coefficiente di variazione. Tenendo presente quanto già calcolato nel punto a), si procede come segue: 3
!"# !!!
30 𝑦! = = 0.2 150 150
𝜇!"#$%& =
𝜎!"#$%& =
!"# 𝑦! !!! !
150
! = − 𝜇!"#$%&
𝐶𝑉!"#$# =
𝐶𝑉!"#$%& =
61.5 − 0.2! = 0.6083 150
3 𝜎!"#$# = =1 𝜇!"#$# 3
𝜎!"#$%& 0.6083 = = 3.0415 𝜇!"#$%& 0.2
Dal confronto dei due coefficienti di variazione risulta che il carattere INVPUB è più variabile. ESERCIZIO 3 (punti 9) In una ricerca di Customer Satisfaction (CS), si vuole indagare la relazione che esiste tra il Livello di CS e la classe di età (Età) dell’intervistato. Le analisi sui dati raccolti hanno generato la tabella seguente:
Età Livello CS
60
Totale
Basso
100
40
?
?
80
50
110
240
180
90
?
400
Alto Totale
a) Si completi opportunamente la tabella con i dati mancanti (indicati con il punto interrogativo nella tabella) e si calcolino le frequenze relative congiunte. b) Si calcoli la percentuale di intervistati con Età pari a 30 anni e oltre, e la percentuale di intervistati con Livello CS Basso ed Età minore o uguale a 60 anni. c) Esiste una relazione tra i due caratteri? Per rispondere, si costruisca un opportuno grafico e lo si commenti. d) Nel caso di due caratteri quantitativi è possibile calcolare il coefficiente di correlazione "r" per valutare la relazione di dipendenza fra i due caratteri? Definite r e precisate dettagliatamente le informazioni che esso fornisce.
a) Tabella completata: !!!!!!!!!!!!!!!!Età!
60
Basso%
100#
40#
20!
160!
Alto%
80#
50#
110#
240#
Totale%
180#
90#
130!
400#
Livello*CS*
4
Totale
Tabella con frequenze relative congiunte: !!!!!!!!!!!!!!!!Età!
60
Basso% Alto%
0.2500# 0.2000#
0.1000# 0.1250#
0.0500# 0.2750#
0.4000# 0.6000#
Totale%
0.4500#
0.2250#
0.3250#
1.0000#
Livello*CS*
b) 𝐹𝑟 𝐸𝑡à ≥ 30 =
Totale
!"!!"#
= 0.55 → 55% 100 + 40 = 0.35 → 35% 𝐹𝑟 Età ≤ 60; Livello CS = "𝐵𝑎𝑠𝑠𝑜" = 400 !""
c) Per analizzare la relazione tra i due caratteri è necessario calcolare le frequenze relative subordinate. In particolare, risulta interessante studiare come il livello di CS dipende dall’Età, quindi si ricaveranno le subordinate per colonna (Livello CS | Età). Età!
60
Basso%
0.5556#
0.4444#
0.1538#
0.4000#
Alto%
0.4444#
0.5556#
0.8462#
0.6000#
Totale%
1.0000#
1.0000#
1.0000#
1.0000#
Livello*CS*
Totale
Il grafico più opportuno per rappresentare le frequenze subordinate è il diagramma a barre sovrapposte (o in alternativa a barre accostate).
Basso# 100%# 90%# 80%# 70%# 60%# 50%# 40%# 30%# 20%# 10%# 0%#
44.44%%
Alto#
55.56%% 84.62%%
55.56%%
44.44%% 15.38%%
60#
Dall’analisi del grafico risulta evidente la dipendenza tra i due caratteri, in quanto il livello di soddisfazione cambia notevolmente al variare della classe d'età. In particolare si nota che i rispondenti più giovani presentano un livello di soddisfazione più basso rispetto alle altre due classi. Per esempio, nella classe “>60” si rileva una percentuale di soddisfazione alta di circa l’85%, mentre solo il 44.44% dei rispondenti con età inferiore ai 30 anni mostra elevata soddisfazione. d) [Si veda il materiale del corso]. 5
ESERCIZIO 4 (punti 4) In un corso di statistica, il docente ha misurato il tempo medio necessario a un gruppo di 80 studenti per risolvere un tema d’esame. Si supponga che la deviazione standard del tempo di risoluzione nella popolazione sia pari a 20 minuti. a) Qual è la probabilità che la media campionaria superi la media della popolazione per più di 5 minuti? b) Qual è la probabilità che la media campionaria differisca per più di 2 minuti dalla media della popolazione? a) Denominato X=”Tempo di risoluzione”, essendo il campione sufficientemente grande è possibile applicare il teorema centrale del limite, ottenendo che: 𝑋 ≈ 𝑁(𝜇! = 𝜇! ; 𝜎! =
𝜎! 𝑛
)
𝜎!
L’errore standard della media campionaria è pari a 𝜎! =
𝑛
= 20
80
= 2.2361
Ne consegue che:
𝑃 𝑋 − 𝜇! > 5 = 𝑃
5 𝑋 − 𝜇! >𝜎 𝜎! ! 𝑛 𝑛
=𝑃 𝑍>
5 = 2.2361
= 1 − 𝐹! 2.2361 ≅ 0.0125 b) Partendo dalle stesse considerazione fatte per il punto a), risulta che:
𝑃 𝑋 − 𝜇! > 2 = 2 ∙ 𝑃
𝑋 − 𝜇! 2 >𝜎 𝜎! ! 𝑛 𝑛
= 2 ∙ 1 − 𝐹! 0.8944
=2∙𝑃 𝑍>
2 = 2.2361
≅ 0.3734
ESERCIZIO 5 (punti 5) In 11 città americane si sono osservati le concentrazioni di fluoro nell’acqua (FLUORO) e il numero di carie per 100 bambini (CARIE); i dati ottenuti sono riportati nella tabella seguente: OBS
FLUORO (X)
CARIE (Y)
1 2
1.9 2.6
236 246
3 4
1.2 0.9
258 343
5
0.6
412
6 7
0.5 0.4
444 556
8 9
0 0.2
722 733
10 11
0.1 0.1
772 823
6
a) Si osservi il seguente diagramma di dispersione. Risulta coerente con i dati forniti? Quali osservazioni siete in grado di trarre osservando il grafico stesso?
Diagramma#dispersione# 900# 800# 700#
CARIE#
600# 500# 400# 300# 200# 100# 0# 0#
0.5#
1#
1.5#
2#
2.5#
3#
FLUORO#
b) Sapendo che !! !!! 𝑥! =8.5,
!! !!!
!! ! !!! 𝑥! =13.45,
𝑦!=5545,
!! !!!
𝑥! 𝑦! =2704,
si calcoli l’interpolante lineare che mostra la relazione tra CARIE e FLUORO. c) Si preveda il numero di carie per 100 bambini corrispondente a una concentrazione di fluoro pari a 0.7.
a) Il grafico proposto è un diagramma di dispersione a rappresenta correttamente, in modo congiunto, le variabili FLUORO e CARIE. Dal grafico è possibile osservare la presenza di una relazione tra fluoro e carie, in particolare si nota che al crescere della concentrazione di fluoro nell’acqua, il numero di carie diminuisce (anche se la relazione non sembra essere lineare). b) È possibile calcolare i coefficienti del modello lineare come segue: 𝑏! =
𝑠!" 𝑠!!
𝑏! = 𝑦 − 𝑏! ∙ 𝑥
;
In primo luogo si procede al calcolo delle medie campionarie di X e Y: 𝑥=
𝑦=
!! !!! 𝑥!
11
!! !!! 𝑦!
11
=
=
8.5 = 0.7727 11
5545 = 504.0909 11
Quindi è possibile calcolare la covarianza 𝑠!" e la varianza 𝑠!! utilizzando le rispettive formule ridotte: 𝑛 𝑠!" =
𝑛−1
∙
!! !!!
𝑥!∙ 𝑦!
11
−𝑥∙𝑦 =
11 2704 ∙ − 0.7727 ∙ 504.0909 = −158.0621 11 10 7
𝑠!! =
𝑛 ∙ 𝑛−1
!! !!!
𝑥!!
11
− 𝑥! =
11 13.45 ∙ − 0.7727! = 0.6882 11 10
Infine si calcolano i coefficienti del modello come segue: 𝑏! =
𝑠!" −158.0621 = −229.6967 ! = 𝑠! 0.6882
𝑏! = 504.0909 + 229.6967 ∙ 0.7727 = 681.5776 La retta stimata è la seguente: 𝑦 = 681.5776 − 229.6967 ∙ 𝑥 c) Utilizzando la retta di regressione appena stimata, la previsione risulta essere: 𝑦 = 681.5776 − 229.6967 ∙ 0.7 = 520.7899
8...