R - Statistica, compito obbligatorio per la convalida dell\'esame PDF

Title R - Statistica, compito obbligatorio per la convalida dell\'esame
Course Analisi dei dati e Statistica
Institution Università degli Studi di Trento
Pages 15
File Size 580.1 KB
File Type PDF
Total Downloads 174
Total Views 364

Summary

library (rmf) > load("C:\Users\lucre\OneDrive\Desktop\WorldValueSurvey")Esercizio 1> library (rmf) > load("C:\Users\lucre\OneDrive\Desktop\WorldValueSurvey") > table(wvs$v221)1 2 3 4 5 6 7 8 9 10 36 28 49 47 159 171 160 163 71 84 > frequenze(wvs$v221) x x n f +----+-----+------------+...


Description

library (rmf) > load("C:\\Users\\lucre\\OneDrive\\Desktop\\WorldValueSurvey.rdata")

Esercizio 1 > library (rmf) > load("C:\\Users\\lucre\\OneDrive\\Desktop\\WorldValueSurvey.rdata") > table(wvs$v221) 1 2 3 4 5 6 7 8 9 10 36 28 49 47 159 171 160 163 71 84 > frequenze(wvs$v221) x x n f +----+-----+------------+ | 1 | 36 | 3.719008 | | 2 | 28 | 2.892562 | | 3 | 49 | 5.061983 | | 4 | 47 | 4.855372 | | 5 | 159 | 16.425620 | | 6 | 171 | 17.665289 | | 7 | 160 | 16.528926 | | 8 | 163 | 16.838843 | | 9 | 71 | 7.334711 | | 10 | 84 | 8.677686 | +----+-----+------------+ 968 100.000000 Osservazioni mancanti: 44 > mean (wvs$v221, na.rm = TRUE) [1] 6.354339 > median(wvs$v221, na.rm = TRUE) [1] 6 > var(wvs$v221, na.rm = TRUE) [1] 4.97359 > sd(wvs$v221, na.rm = TRUE) [1] 2.230155 Commento: Osserviamo che la media (μ) e la mediana (me) quasi coincidono: potremmo quindi pensare ad una distribuzione simmetrica. Tuttavia, una più attenta osservazione, e la differenza tra μ e me, ci permette di notare una leggera asimmetria negativa. La maggior concentrazione di risposte si colloca tra il 5 e l’8, mostrando una tendenza del campione verso la posizione “la diversità etnica arricchisce la vita”.

Esercizio 2 > tapply(wvs$v221,wvs$v255,mean,na.rm=TRUE) 1 2 3 4 5 6 7 8 6.106061 6.319444 6.259843 6.325444 5.876033 6.725000 6.421053 6.714286 Commento: La funzione tapply suddivide i valori di una variabile quantitativa (numero di abitanti per comune) per i livelli di una variabile qualitativa (posizione rispetto alla diversità etnica). Notiamo che al crescere del numero di abitanti per comune, cresce il “favore” verso la diversità etnica. Tuttavia, per comuni tra i 20.000 e i 50.000, il consenso diminuisce. Sarebbe necessario effettuare ulteriori accertamenti, magari calcolando l’indice di correlazione tra le due variabili.

Esercizio 3 > boxplot(wvs$v221~wvs$v255, horizontal = TRUE)

Commento: All’aumentare del numero di abitanti per comune, la mediana si sposta verso valori più alti, così come già osservato per la media. In questo modo, per comuni più popolosi si creano delle lievi asimmetrie negative. Il box-plot funziona da diagnostico per outlier. Per comuni più popolosi, la distribuzione è simmetrica, di conseguenza, si notano subito 2 outlier che sostengono che “la diversità etnica sgretoli l’unità di un

Paese”.

Esercizio 4 > cov(wvs$v204, wvs$v68, use = "complete.obs") [1] -0.4040993 > cor (wvs$v204, wvs$v68, use = "complete.obs") [1] -0.08594586

Commento: La covarianza negativa indica una relazione inversa tra le due variabili, non indicandone però la forza. Vi è una correlazione quasi nulla tra la situazione finanziaria delle famiglie e quanto l’aborto venga giustificato.

Esercizio 5 dado nrep ris for(i in 1:nrep) + {lucrezia n=236 > p=0.09 > n*p

[1] 21.24 > Binomiale(n, p, da=22, a=236) ----------------------------------------------------------------------Distribuzione Binomiale ----------------------------------------------------------------------Numero delle prove: 236 Probabilita' di successo: 0.09 Valore atteso (media): 21.24 Varianza: 19.3284 Somma delle probabilita': 0.4640553 Binomiale(n, p, da=26, a=236) ----------------------------------------------------------------------Distribuzione Binomiale ----------------------------------------------------------------------Numero delle prove: 236 Probabilita' di successo: 0.09 Valore atteso (media): 21.24 Varianza: 19.3284 Somma delle probabilita': 0.1654989 Commento: Il numero di insolvenze attese è 21,24, mentre la probabilità di superare tale valore è 0,4640553. La probabilità di registrare un numero di insolvenze superiore a 26 è 0,1654989.

Esercizio 7 > ProbNorm (mu=7.2, sigma=2.5, da=4.7, a=8) La probabilità' di osservare un valore compreso fra 4.7 e 8 e' uguale a 0.466860580791863

Esercizio 8 > set.seed(218238); x distribuzione freqcumu > somma for(i in 1:length(distribuzione)) { + somma for(i in 1:length(distribuzione)) { + if (mediaclassi < as.integer(freqcumu)[i]) { + valoreattesoclasse = i + break + } +} > > median1 median2 median1 [1] 1 Levels: -3 -2 -1 0 1 2 3 4 5 > median2 [1] 1 Commento: Come c’era da aspettarsi, la mediana calcolata utilizzando la distribuzione di frequenza e quella calcolata utilizzando i dati grezzi, sono uguali. > print(mean(abs(x-median(x)))) [1] 2.156667 > for(i in -4:4) { + print(mean(abs(x-i))) +} [1] 4.776667 [1] 3.776667 [1] 2.996667 [1] 2.456667 [1] 2.196667 [1] 2.156667 [1] 2.396667 [1] 2.81 [1] 3.423333 Commento: La media degli scarti in valore assoluto dalla mediana è minore della media degli scarti in valore assoluto da un qualsiasi altro valore (in questo caso da -4 a 4).

Esercizio 9 i)

> deceduti_f casi_f letalita_f deceduti_m casi_m letalita_m eta classi tabella_f tabella_f classi casi_f deceduti_f letalita_f [1,] "0-9"

"76916" "6"

"0.01"

[2,] "10-19" "145090" "6"

"0"

[3,] "20-29" "195321" "21"

"0.01"

[4,] "30-39" "211352" "74"

"0.04"

[5,] "40-49" "281422" "260"

"0.09"

[6,] "50-59" "300735" "924"

"0.31"

[7,] "60-69" "176733" "2564"

"1.45"

[8,] "70-79" "133542" "7991"

"5.98"

[9,] "80-89" "130141" "19566"

"15.03"

[10,] "90-100" "60069" "13879"

"23.11"

> tabella_m tabella_m classi casi_m deceduti_m letalita_m [1,] "0-9"

"83018" "4"

"0"

[2,] "10-19" "158088" "8"

"0.01"

[3,] "20-29" "199787" "30"

"0.02"

[4,] "30-39" "201489" "120"

"0.06"

[5,] "40-49" "252357" "607"

"0.24"

[6,] "50-59" "286187" "2450"

"0.86"

[7,] "60-69" "194035" "7196"

"3.71"

[8,] "70-79" "140732" "17083"

"12.14"

[9,] "80-89" "90225" "23226"

"25.74"

[10,] "90-100" "18544" "7093"

"38.25"

>istogramma_m class(istogramma_m) plot(istogramma_m, ylim=c(0,max(casi_m)),xlim=c(0,100)) > istogramma_f class(istogramma_f) plot(istogramma_f, ylim=c(0,max(casi_f)),xlim=c(0,100))

Istogramma “età al contagio” per i maschi

ii) Mediana maschile: > casi_mtot= 1624462 > cumsum(casi_m/casi_mtot)

Istogramma “età al contagio” per le femmine

0.05110492

0.14842206

0.84641007

0.93304306

0.27140863

0.39544292

0.55079097

0.98858453

1.00000000

0.72696437

> Im = 40 > Fm0= 0.3944 > Fm1=0.5507 > Ampiezzaclassemediana=10 > mediana_maschile mediana_maschile [1] 46.75624 Mediana Femminile: > casif_tot=1711321 > cumsum(casi_f/casif_tot) 0.0449454

0.1297279

0.2438625

0.8888519

0.9648990

1.0000000

0.3673647

> Fm0f=0.3673 > Fm1f=0.5318 > Im +((0.5-Fm0f)/(Fm1f-Fm0f))*Ampiezzaclassemediana [1] 48.06687 Media Maschile: > valori_centrali sum(casi_m*valori_centrali)/casi_mtot [1] 45.87828 Media Femminile: > sum(casi_f*valori_centrali)/casif_tot [1] 48.10174 Varianza Maschile: > mum=45.87828 > sum(((valori_centrali-mum)^2)*casi_m)/casi_mtot [1] 490.9503 Deviazione Standard Maschile: > sqrt (sum(((valori_centrali-mum)^2)*casi_m)/casi_mtot)

0.5318120

0.7075446 0.8108175

[1] 22.1574 Varianza Femminile > muf=48.10174 > sum(((valori_centrali-muf)^2)*casi_f)/casif_tot [1] 535.1413 Deviazione standard Femminile: > sqrt (sum(((valori_centrali-muf)^2)*casi_f)/casif_tot) [1] 23.13312 Commento: Io considero la media più idonea come misura di tendenza centrale in quanto i casi sono molto concentrati nelle fasce d’età tra i 20 e i 70 per entrambe le situazioni senza la presenza di outlier. Per questo la media (molto vicina alla mediana) si dimostra più idonea. iii) > casitot casitot [1] 159934 303178 395108 412841 533779 586922 370768 274274 220366 78613 > sum(casitot) [1] 3335783 > tabella_tot tabella_tot classi casitot [1,] "0-9" "159934" [2,] "10-19" "303178" [3,] "20-29" "395108" [4,] "30-39" "412841" [5,] "40-49" "533779" [6,] "50-59" "586922" [7,] "60-69" "370768" [8,] "70-79" "274274" [9,] "80-89" "220366" [10,] "90-100" "78613"

> istogramma_tot class(istogramma_tot) plot(istogramma_tot, ylim=c(0,max(casitot)*1.1),xlim=c(0,100))

Mediana Totale: > cumsum(casitot/sum(casitot)) 0.04794497 0.82815039

0.13883157 0.91037217

0.25727693

0.38103827

0.97643342

1.00000000

0.54105438

> Im=40 > Fm0tot=0.381038 > Fm1tot=0.541054 > mediana_tot mediana_tot [1] 47.43438

Media Totale: > sum((casitot*valori_centrali)/sum(casitot)) [1] 47.01896 Varianza Totale: > mutot= 47.01896

0.71700168

> sum(((valori_centrali-mutot)^2)*casitot)/sum(casitot) [1] 514.8562 Deviazione Standard Totale: > sqrt(sum(((valori_centrali-mutot)^2)*casitot)/sum(casitot)) [1] 22.69044 iv) La mediana risulta diversa da quella fornita dall’Istituto Superiore di Sanità perché quest’ultima l’ha calcolata a partire dai dati grezzi, mentre al punto iii l’abbiamo ottenuta a partire da una distribuzione di frequenza divisa per classi. ottiene la mediana attraverso i dati grezzi. Ne consegue che la nostra mediana è un’approssimazione, mentre risulta precisa quella dell’ISS. v) Deceduti Maschi > istogramma_decm class(istogramma_decm) plot(istogramma_decm, ylim=c(0,max(deceduti_m)),xlim=c(0,100))

Deceduti Femmina: > istogramma_decf class(istogramma_decf) plot(istogramma_decf, ylim=c(0,max(deceduti_f)),xlim=c(0,100))

Deceduti Totali: > decedutitot tabella_dectot tabella_dectot classi decedutitot [1,] "0-9"

"10"

[2,] "10-19" "14" [3,] "20-29" "51" [4,] "30-39" "194" [5,] "40-49" "867" [6,] "50-59" "3374" [7,] "60-69" "9760" [8,] "70-79" "25074" [9,] "80-89" "42792" [10,] "90-100" "20972" > istogramma_dectot class(istogrammatot) plot(istogramma_dectot, ylim=c(0,max(decedutitot)),xlim=c(0,100))

Mediana Deceduti Maschi: > cumsum(deceduti_m/sum(deceduti_m)) 0.0000691838 0.0556756663

0.0002075514 0.1801373299

0.0007264299 0.4756040611

0.0028019441 0.8773198194

0.0133005863 1.0000000000

> Im=80 > Fm0Decm=0.4756040611 > Fm1Decm=0.8773198194 > mediana_decm mediana_decm [1] 80.60729 Mediana Deceduti Femmina: > cumsum(deceduti_f/sum(deceduti_f)) 0.0001324767 0.0285045594

0.0002649533 0.0851162483

0.0007286216 0.2615530679

0.0023625003 0.6935594268

0.0081031552 1.0000000000

> Im=80 > Fm0Decf=0.2615530679 > Fm1Decf=0.6935594268 > mediana_decf mediana_decf

[1] 85.51952 Mediana deceduti totali: > cumsum(decedutitot/sum(decedutitot)) [1] 9.698568e-05 2.327656e-04 7.273926e-04 2.608915e-03 1.101757e-02 4.374054e-02 [7] 1.383986e-01 3.815805e-01 7.966016e-01 1.000000e+00 > Im=80 > Fm0Dectot=3.815805e-01 > Fm1Dectot=7.966016e-01 > mediana_dectot mediana_dectot [1] 82.85334 Media deceduti Maschi: > sum((deceduti_m*valori_centrali)/sum(deceduti_m)) [1] 78.94157 Media deceduti Femmina: > sum((deceduti_f*valori_centrali)/sum(deceduti_f)) [1] 84.19675 Media deceduti Totali: > sum((decedutitot*valori_centrali)/sum(decedutitot)) [1] 81.24995 Varianza deceduti Maschi: > mudecm=78.94157 > sum(((valori_centrali-mudecm)^2)*deceduti_m)/sum(deceduti_m) [1] 118.0078 Varianza deceduti Femmine: > mudecf= 84.19675 > sum(((valori_centrali-mudecf)^2)*deceduti_f)/sum(deceduti_f) [1] 105.0844 Varianza deceduti Totale: > mudectot=81.24995 > sum(((valori_centrali-mudectot)^2)*decedutitot)/sum(decedutitot) [1] 119.1334

Deviazione standard Maschi: > sqrt(sum(((valori_centrali-mudecm)^2)*deceduti_m)/sum(deceduti_m)) [1] 10.86314 Deviazione standard Femmine: > sqrt(sum(((valori_centrali-mudecf)^2)*deceduti_f)/sum(deceduti_f)) [1] 10.25107 Deviazione standard Totale: > sqrt(sum(((valori_centrali-mudectot)^2)*decedutitot)/sum(decedutitot)) [1] 10.91482 Commento: Osservando i risultati ottenuti si nota che mediamente le donne sono decedute in età più avanzata rispetto agli uomini (84 anni contro i 78 degli uomini). Inoltre, le mediane e gli istogrammi mostrano che il 50% dei deceduti (uomini+donne) aveva più di 82 anni. L’asimmetria negativa, presente nell'istogramma dei deceduti totali rispetto all’età, sottolinea questo dato....


Similar Free PDFs