Homework obbligatorio di Statistica per prof.Espa, anno 2020-2021 PDF

Title Homework obbligatorio di Statistica per prof.Espa, anno 2020-2021
Course Analisi dei dati e Statistica
Institution Università degli Studi di Trento
Pages 12
File Size 87.7 KB
File Type PDF
Total Downloads 8
Total Views 104

Summary

#Esercizio 1 #Calcolo la distribuzione di frequenza, la media, la mediana, la varianza e lo scarto quadratico medio della variabile v114. Il contenuto della variabile è inserito in "doom". > doom<-wvs$v #calcolo la distribuzione di frequenza con la rispettiva funzione. > frq(doom) doom x n ...


Description

9

ANNO 2020-2021

#Esercizio 1 #Calcolo la distribuzione di frequenza, la media, la mediana, la varianza e lo scarto quadratico medio della variabile v114. Il contenuto della variabile è inserito in "doom". > doom frq(doom) doom x n f +----+-----+------------+ | 1 | 36 | 4.851752 | | 2 | 60 | 8.086253 | | 3 | 78 | 10.512129 | | 4 | 148 | 19.946092 | | 5 | 106 | 14.285714 | | 6 | 116 | 15.633423 | | 7 | 87 | 11.725067 | | 8 | 61 | 8.221024 | | 9 | 26 | 3.504043 | | 10 | 24 | 3.234501 | +----+-----+------------+ 742 100.000000 Osservazioni mancanti: 270 #Calcolo la media > mean(doom,na.rm=TRUE) [1] 5.092992 #distribuzione dati grezzi > sort(doom) [1] 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 [36] 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 [71] 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 [106] 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 [141] 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 4 [176] 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 [211] 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 [246] 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 [281] 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 [316] 4 4 4 4 4 4 4 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 [351] 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5

[386] 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 [421] 5 5 5 5 5 5 5 5 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 [456] 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 [491] 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 [526] 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 [561] 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 [596] 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 [631] 7 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 [666] 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 9 9 9 9 9 9 9 9 [701] 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 [736] 10 10 10 10 10 10 10 #calcolo la mediana > median(doom,na.rm=TRUE) [1] 5 > #calcolo prima la varianza e poi la deviazione standard > variandoom variandoom [1] 4.856388 > sqrt(variandoom) [1] 2.203721 #Costruisco un prospetto riassuntivo dei valori precedentemente calcolati con la funzione summ. La sintesi contiene i 5 numeri EDA, il numero di osservazioni valide e il numero di osservazioni mancanti. > summ(doom) nv media d.s. mediana minimo massimo nov msng x 1 5.092992 2.203721 5 1 10 742 270 #Esercizio 2 #Costruisco l'analisi stratificata della media della variabile v114 sulla base delle modalità della variabile v252; come suggerito uso la funzione by. > classe by(doom,classe,mean,na.rm=TRUE) classe: 1 [1] 5.5 ---------------------------------------------------------------------------------classe: 2 [1] 5.321586 ---------------------------------------------------------------------------------classe: 3

[1] 5.118182 ---------------------------------------------------------------------------------classe: 4 [1] 4.788288 ---------------------------------------------------------------------------------classe: 5 [1] 4.409091 #Esercizio 3 > #Disegna il boxplot per la variabile (cl. 1) v114 all'interno delle modalità della variabile (cl. 2) v252 > #Seguo il suggerimento, uso la funzione boxplot con argomento la tilde. Il boxplot viene posto in orizzontale per rilevare eventuali outlier. > boxplot(doom~classe,horizontal=TRUE) #Esercizio 4 > #Calcolare covarianza e coefficiente di correlazione lineare per variabili v206 e v119. > #Attribuisco le variabili a due vettori nominati "euthanasia" e "competition" > euthanasia competition ABBA euthanasia competition #Calcolo la covarianza > scarti.euthanasia scarti.competition covar covar [1] -0.466774 > #La relazione risulta inversa. > #Calcolo coefficiente di correlazione lineare usando cor. > cor(euthanasia,competition) [1] -0.0708797 > #Esercizio 5 > #Creo un dado da 20 facce e lo lancio 5 volte, registrando il valore più alto ottenuto tramite la funzione max. > dado T T [1] 19 > #Ripeto l'esperimento diecimila volte, memorizzando il risultato e stimando col metodo Monte Carlo la probabilità che il massimo sia 11. > nrep ris for(i in 1:nrep) + { x #Tutti i numeri maggiori o uguali a 11 sono posti nel vettore esc. > tou=11 > esc #Uso m. Monte Carlo (successi su tenteativi) > carlo carlo [1] 1e-04 > #Esercizio 6 > #probabilità di insolvenza: p=0.08 > crediti complessivi: n=245 Errore: unexpected symbol in "crediti complessivi" > #crediti complessivi: n=245 > > #è necessario calcolare il numero di insolvenze attese, la probabilità di superare tale valore e la probabilità di superare le 20 insolvenze. > #costruisco una distribuzione binomiale > cred #calcolo la probabilità di superare il numero di insolvenze attese > pbinom(19.6,245,0.08,lower.tail=FALSE) [1] 0.496151 > #calcolo la probabilità di superare le 20 insolvenze > pbinom(20,245,0.08,lower.tail=FALSE) [1] 0.4038621 > > #Esercizio 7 > #costruisco una distribuzione normale come suggerito > Normale(mu=9.2,sigma=6.2,add=TRUE) > #Data la differenza mu-sigma = 3, calcolo la probabilità di trovare un valore compreso tra la differenza stessa e 20 usando ProbNorm. > ProbNorm(mu=9.2,sigma=6.2,da=3,a=20) La probabilita' di osservare un valore compreso fra 3 e 20

e' uguale a 0.80058487904683 > > #Esercizio 8 > #Genero un campione di 300 oservazioni come indicato dalla consegna > set.seed(219936); x #calcolo la mediana utilizando la distribuzione di frequenze cumulate prima, e poi utilizzando i dati grezzi > distrib distrib x x n f N F +----+-----+------------+-----+-----------+ | -3 | 36 | 12.000000 | 36 | 12.00000 | | -2 | 45 | 15.000000 | 81 | 27.00000 | | -1 | 27 | 9.000000 | 108 | 36.00000 | | 0 | 25 | 8.333333 | 133 | 44.33333 | | 1 | 30 | 10.000000 | 163 | 54.33333 | | 2 | 32 | 10.666667 | 195 | 65.00000 | | 3 | 31 | 10.333333 | 226 | 75.33333 | | 4 | 32 | 10.666667 | 258 | 86.00000 | | 5 | 42 | 14.000000 | 300 | 100.00000 | +----+-----+------------+-----+-----------+ Osservazioni mancanti: 0 > #calcolo via dati grezzi: > sort(x) [1] -3 -3 -3 -3 -3 -3 -3 -3 -3 -3 -3 -3 -3 -3 -3 -3 -3 -3 -3 -3 -3 -3 3 -3 -3 -3 -3 -3 -3 -3 -3 -3 -3 [34] -3 -3 -3 -2 -2 -2 -2 -2 -2 -2 -2 -2 -2 -2 -2 -2 -2 -2 -2 -2 -2 -2 2 -2 -2 -2 -2 -2 -2 -2 -2 -2 -2 [67] -2 -2 -2 -2 -2 -2 -2 -2 -2 -2 -2 -2 -2 -2 -2 -1 -1 -1 -1 -1 -1 -1 1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 [100] -1 -1 -1 -1 -1 -1 -1 -1 -1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 [133] 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 [166] 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 3 3 3 [199] 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4 [232] 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 5 5 5 5 5 5 [265] 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 [298] 5 5 5 > > median(x) [1] 1 > #Verifico che la media degli scarti in valore assoluto (funzione ades di R) della mediana sia minore della media degli scarti in valore assoluto di un qualsiasi altro valore. > #uso i valori "pi greco" ed "e" > #Calcolo la media degli scarti dalla mediana in valore assoluto e la nomino MSM

> MSM #Calcolo la media degli scarti dal pi greco, la nomino MSP > MSP #Calcolo la media degli scarti da "e", la nomino MSE > MSE MSM [1] 0 > MSE [1] 1.718282 > MSP [1] 2.141593 > #MSM è minore di entrambi, come previsto. > > #Esercizio 9 > #9.i Costruire per ambo i sessi l'istogramma di frequenza per la variabile "età del contagio" > #Maschi > x hist(x,breaks=10,col="green",main="Contagi maschili",xlab="classi di età",ylab="frequenza") > axis(2) > axis(1,at=seq(0,100,by=10),label=seq(0,100,by=10)) > #Donne > y hist(y,breaks=10,col="red",main="Contagi femminili",xlab="classi di età",ylab="frequenza") > axis(2) > axis(1,at=seq(0,100,by=10),label=seq(0,100,by=10)) > > #9.ii Calcolare per i due generi mediana, media, e scrto quadratico medio della variabile "età del contagio" > #Scelta motivata di una misura idonea di tendenza centrale > x > #Media contagi maschili per età > x c (sum(x*c))/1624462 [1] 45.87828 > > #Mediana contagi maschili per età > x f frequenze(f,cumul=TRUE) x x n f N F +----------+---------+------------+---------+------------+ | [0,9] | 83018 | 5.110492 | 83018 | 5.110492 | | (9,19] | 158088 | 9.731714 | 241106 | 14.842206 | | (19,29] | 199787 | 12.298656 | 440893 | 27.140863 | | (29,39] | 201489 | 12.403430 | 642382 | 39.544292 | | (39,49] | 252357 | 15.534805 | 894739 | 55.079097 | | (49,59] | 286187 | 17.617340 | 1180926 | 72.696437 | | (59,69] | 194035 | 11.944570 | 1374961 | 84.641007 | | (69,79] | 140732 | 8.663299 | 1515693 | 93.304306 | | (79,89] | 90225 | 5.554147 | 1605918 | 98.858453 | | (89,100] | 18544 | 1.141547 | 1624462 | 100.000000 | +----------+---------+------------+---------+------------+ Osservazioni mancanti: 0 > 1624462/2 [1] 812231 > 40+(812231-642382)/(894739-642382)*10 [1] 46.7305 > > #Scarto quadratico medio contagi maschili per età > x c m sqrt(sum((((c-m)^2)*x)/1624462)) [1] 22.1574 > > #Media contagi femminili per età > y c (sum(y*c))/1711321 [1] 48.10174 > > #Mediana contagi femminili per età > y f frequenze(f,cumul=TRUE) x x n f N F +----------+---------+------------+---------+-----------+ | [0,9] | 76916 | 4.494540 | 76916 | 4.49454 | | (9,19] | 145090 | 8.478246 | 222006 | 12.97279 | | (19,29] | 195321 | 11.413464 | 417327 | 24.38625 | | (29,39] | 211352 | 12.350225 | 628679 | 36.73647 | | (39,49] | 281422 | 16.444723 | 910101 | 53.18120 | | (49,59] | 300735 | 17.573266 | 1210836 | 70.75446 | | (59,69] | 176733 | 10.327285 | 1387569 | 81.08175 |

| (69,79] | 133542 | 7.803445 | 1521111 | 88.88519 | | (79,89] | 130141 | 7.604710 | 1651252 | 96.48990 | | (89,100] | 60069 | 3.510095 | 1711321 | 100.00000 | +----------+---------+------------+---------+-----------+ Osservazioni mancanti: 0 > > 1711321/2 Errore: unexpected '>' in ">" > 1711321/2 [1] 855660.5 > 40+(855661-628679)/(910101-628679)*10 [1] 48.06554 > > #Scarto quadratico medio contagi maschili per età > y c m sqrt(sum((((c-m)^2)*y)/1711321)) [1] 23.13312 > > #La misura di centralità più adatta è la mediana, perchè maggiormente realistica e robusta davanti ad asimmetrie > > #9.3 Ripetere le analisi di cui ai punti precedenti per la totalità dei casi. > x y x+y [1] 159934 303178 395108 412841 533779 586922 370768 274274 220366 78613 > z hist(z,breaks=10,col="blue",main="Contagi totali",xlab="classi dietà",ylab="frequenza") > axis(2) > axis(1,at=seq(0,100,by=10),label=seq(0,100,by=10)) > > #calcolo della media > z mean(z) [1] 47.01896 > > #calcolo della mediana > z f frequenze(f,cumul=TRUE) x x n f N F +----------+---------+------------+---------+------------+ | [0,9] | 159934 | 4.794497 | 159934 | 4.794497 | | (9,19] | 303178 | 9.088661 | 463112 | 13.883157 | | (19,29] | 395108 | 11.844535 | 858220 | 25.727693 | | (29,39] | 412841 | 12.376135 | 1271061 | 38.103827 | | (39,49] | 533779 | 16.001610 | 1804840 | 54.105438 | | (49,59] | 586922 | 17.594730 | 2391762 | 71.700168 | | (59,69] | 370768 | 11.114872 | 2762530 | 82.815039 | | (69,79] | 274274 | 8.222178 | 3036804 | 91.037217 | | (79,89] | 220366 | 6.606125 | 3257170 | 97.643342 | | (89,100] | 78613 | 2.356658 | 3335783 | 100.000000 | +----------+---------+------------+---------+------------+ Osservazioni mancanti: 0 > TOT TOT/2 [1] 1667892 > 40+(1667892-1271061)/(1804840-1271061)*10 [1] 47.43437 > > #calcolo dello scarto quadratico > x y w=x+y > c m sqrt(sum(((c-m)^2)*w)/3335783) [1] 22.69044 > > > #9.4 Perchè l'età mediana al contagio ottenuta nel punto 3 è diversa da quella fornita dall'Istituto Superiore di Sanità? > #Questa differenza è dovuta al fatto che nei nostri calcoli noi operiamo con stime basate sul valore centrale delle classi d'età, dal momento che non disponiamo dei dati grezzi. > #Inoltre noi chiudiamo l'ultima classe a 100 anni, quando in realtà vi sono persone che sono più anziane. > > #9.5 Ripetere le analisi dei punti precedenti, riferendosi alla variabile età del decesso. > > #Media età decessi maschili > a mean(a)

[1] 78.94157 > > #mediana età decessi maschili > a f frequenze(f,cumul=TRUE) x x n f N F +----------+-------+--------------+-------+--------------+ | [0,9] | 4 | 0.00691838 | 4 | 0.00691838 | | (9,19] | 8 | 0.01383676 | 12 | 0.02075514 | | (19,29] | 30 | 0.05188785 | 42 | 0.07264299 | | (29,39] | 120 | 0.20755141 | 162 | 0.28019441 | | (39,49] | 607 | 1.04986423 | 769 | 1.33005863 | | (49,59] | 2450 | 4.23750800 | 3219 | 5.56756663 | | (59,69] | 7196 | 12.44616635 | 10415 | 18.01373299 | | (69,79] | 17083 | 29.54667312 | 27498 | 47.56040611 | | (79,89] | 23226 | 40.17157583 | 50724 | 87.73198194 | | (89,100] | 7093 | 12.26801806 | 57817 | 100.00000000 | +----------+-------+--------------+-------+--------------+ Osservazioni mancanti: 0 > 57817/2 [1] 28908.5 > 80+(2890.5-27498)/(50724-27498)*10 [1] 69.40519 > > #scarto quadratico medio età decessi maschili > e c m sqrt(sum(((c-m)^2)*e)/57817) [1] 10.86314 > > #istogramma età decessi maschili > a hist(a,breaks=7,col="grey",main="Decessi maschili",xlab="classi di età",ylab="frequenza") > > #istogramma età decessi femminili > #media età decessi femminili > b mean(b) [1] 84.19675 > > #mediana età decessi femminili

> b f frequenze(f,cumul=TRUE) x x n f N F +----------+-------+--------------+-------+--------------+ | [0,9] | 6 | 0.01324767 | 6 | 0.01324767 | | (9,19] | 6 | 0.01324767 | 12 | 0.02649533 | | (19,29 ] | 21 | 0.04636683 | 33 | 0.07286216 | | (29,39] | 74 | 0.16338787 | 107 | 0.23625003 | | (39,49] | 260 | 0.57406549 | 367 | 0.81031552 | | (49,59] | 924 | 2.04014043 | 1291 | 2.85045594 | | (59,69] | 2564 | 5.66116889 | 3855 | 8.51162483 | | (69,79] | 7991 | 17.64368197 | 11846 | 26.15530679 | | (79,89] | 19566 | 43.20063589 | 31412 | 69.35594268 | | (89,100] | 13879 | 30.64405732 | 45291 | 100.00000000 | +----------+------- +--------------+-------+--------------+ Osservazioni mancanti: 0 > 45291/2 [1] 22645.5 > 80+(22645.5-11846)/(31412-11846)*10 [1] 85.51952 > > #istogramma età decessi femminili > b hist(b,breaks=7,col="brown",xlim=c(30,100),main="Decessifemminili",xlab=" classi di età",ylab="frequenza") > > #totalità decessi > > #media totalità decessi > e g t=e+g > t [1] 10 14 51 194 867 3374 9760 25074 42792 20972 > p mean(p) [1] 81.24995 > > #mediana totalità decessi > p f frequenze(f,cumul=TRUE)

x x n f N F +----------+--------+--------------+--------+--------------+ | [0,9] | 10 | 9.698568e-03 | 10 | 9.698568e-03 | | (9,19] | 14 | 1.357800e-02 | 24 | 2.327656e-02 | | (19,29] | 51 | 4.946270e-02 | 75 | 7.273926e-02 | | (29,39] | 194 | 1.881522e-01 | 269 | 2.608915e-01 | | (39,49] | 867 | 8.408659e-01 | 1136 | 1.101757e+00 | | (49,59] | 3374 | 3.272297e+00 | 4510 | 4.374054e+00 | | (59,69] | 9760 | 9.465803e+00 | 14270 | 1.383986e+01 | | (69,79] | 25074 | 2.431819e+01 | 39344 | 3.815805e+01 | | (79,89] | 42792 | 4.150211e+01 | 82136 | 7.966016e+01 | | (89,100] | 20972 | 2.033984e+01 | 103108 | 1.000000e+02 | +----------+--------+--------------+--------+--------------+ Osservazioni mancanti: 0 > 57817+45291)/2 > (57817+45291)/2 [1] 51554 > 80+(51554-39344)/(82136-39344)*10 [1] 82.85334 > > #scarto quadratico medio totalità decessi > t c m sqrt(sum(((c-m)^2)*t)/103108) [1] 10460.89 > ># istogramma totalità decessi >phist(p,breaks=7,col="yellow",main="Decessi totali,xlab="Classi di età",ylab=frequenza") >...


Similar Free PDFs