Comandos Análisis de Datos (R-Studio y Stata) PDF

Title	Comandos Análisis de Datos (R-Studio y Stata)
Course	Analisi de Dades
Institution	Universitat Pompeu Fabra
Pages	11
File Size	367.2 KB
File Type	PDF
Total Downloads	99
Total Views	136

Preview

CLICK TO PREVIEW PDF

Summary

Todos los comandos necesarios de análisis de datos hasta las variables categóricas....

Description

COMANDOS RSTUDIO: (lo de dentro del paréntesis es la variabe) Swirl: > library(swirl) > uninstall_all_courses() > install_course_github("wagafo","Analisi_Dades_Catala",multi=TRUE) Ara, inicieu el swirl: > swirl() Mitjana: mean(variable) Mediana: median(variable) Moda: table(variable) para poner la tabla y ver cuál es el número que está más veces repe. Rang: range(variable) Variància: var(data)--> por ejemplo var(variable) Desviació estàndard: sd(data)--> sd(variable) Todos los datos a la vez: summary(variable) nos da el max, min, cuartils, mediana, mitjana a la vez. Per veure si heu llegit les dades correctament: > head(variable) Conjunt de resums més complet: > install.packages("psych") > library("psych"): >describe(variable): Podem veure la mitjana (mean), la desviació estàndard (sd), la mediana (median), el mínim (min), el màxim (max), el rang (range), el coeficient d'asimetria (skew) i la curtosis (kurtosis), entre d'altres estadístics que no fem servir a aquest curs. CON PAQUETE “ACTUAR”: Ver dades agrupades: > gdental Suma de variable al objeto de dades agrupades: sum(gdental$nj) Mitjana: mean(gdental) 5 números resumen: > quantile(variable) Diagrama de cajas con 5 números resumen: > boxplot(quantile(variable),range=0) Desviación estándar: > sqrt(emm(gdental,order=2) - mean(gdental)^2) Tabla de frecuencias: > frequency_table Límits dels intervals: > cj nj nj x hist(x) TRANSFORMACIÓ DE DADES: Veure dades: head(viatge) Resums númerics: describe(viatge$euros) →necesita el paquete psych Nueva variable con la transformación de datos: lliures viatge_nou Redondear la variable a 2 decimales: viatge_nou$lliures prop.table(table(variable)) Eixample Gracia Raval Sants 0.20

0.35

0.25

0.20

Si es vol en percentatges: > 100*prop.table(table(variable)) Eixample Gracia Raval Sants 20

35

25

20

Diagrama de pastís: > variable.freq pie(variable.freq) Diagrama de barres:

> variable.freq barplot(variable.freq) Diagrama de barras con frecuencias relativas: > variable.freq barplot(variable.freq) Histograma: > variable.freq hist(variable.freq) Diagrama de cajas: > boxplot(variable) Espais de treball i fitxers: - Determineu quin directory està usant la vostra sessió d'R com a directori de treball usant getwd(). - Feu una llista de tots els objectes al vostre espai de treball localusant ls(). - Feu una llista de tots els fitxers al vostre directori de treball usant list.files() o dir(). - Mireu la pàgina d'ajuda per a list.files amb l'ordre ?list.files. - Useu la funció args(list.files) per determinar els arguments de list.files(). - Entreu old.dir m & punts < m + s) / length(punts) freqüència relativa observada de l'interval (m - 2*s, m - s) : sum(punts > m-2*s & punts < m s) / length(punts) taula completa de freqüències relatives esperades i observades: taula_dist per obtenir el percentatge de casos que cauen a la dreta de z = 2, on z és un valor estandaritzat, usem l'ordre: pnorm(2,lower.tail= FALSE) Per comprovar un valor a l'esquerra de z=2: pnorm(0,lower.tail=TRUE) per obtenir el percentatge de casos a sobre de x=7 a una distribució normal amb mitjana igual a 6 i desviació estàndard igual a 1.5, l'ordre és: pnorm(7,mean=6,sd=1.5,lower.tail=FALSE) valor que deixa un 25% de la freqüència relativa a l'esquerra de la distribució normal amb mitjana igual a 3 i desviació estàndard igual a 2: qnorm(0.25,mean=3,sd=2,lower.tail=TRUE) proporció de freqüències a la dreta de 6 en una distribució normal amb mitjana igual a 5 i desviació estàndard igual a 1.5: pnorm(6,mean=5,sd=1.5,lower.tail=FALSE) valor a aquesta mateixa distribució normal (mitjana = 5, desviació estàndard = 1.5) que deixa 35% de la freqüència a l'esquerra: qnorm(0.35,mean=5,sd=1.5,lower.tail=TRUE) Dues variables numèriques Primero asignar variables: Estranger EUA Anymy_na my_na per veure que heu obtingut → Tot arreu que veieu un TRUE, sabeu que l'element corresponent de my_data és NA. D'igual manera, a tot arreu que veieu un FALSE, sabeu que l'element corresponent de my_data és un dels vostres valors aleatoris estrets de la distribució normal estàndard. Operador «==» com un mètode per verificar la igualtat entre dos objectes. Així, podeu pensar que l'expressió mydata == NA dóna els mateixos resultats que is.na(): my_data == NA Funció sum() sobre my_na per comptar el nombre total de TRUS al meu my_na, i en conseqüència el nombre total de NA a my_data: sum(my_na) Finalment, mirem a les dades per convèncer-nos que tot «concorda». Imprimiu my_data a la pantalla: my_data Si volem crear un vector anomenat y que conté tots els valors no-NA de x, podem usar: y 0] valors de x que són tant no absents COM TAMBÉ mes grans que zero: x[!is.na(x) & x > 0] subconjunt del 3er, 5è i 7è elements de x: x[c(3, 5, 7)] Mentre que x[c(2, 10)] ens dóna SOLS el segon i el desè elements de x, x[c(-2, -10)] ens dóna tots els elements de x EXCEPTE el segon i el desè. Useu x[-c(2, 10)] per simplificar una mica les coses. Això pot estalviar molt de temps si s'han d'especificar mots índexs negatius. Creeu un vector numèric amb tres elements anomenats usant: vect vect2 A continuació podem afegir l'atribut «names» a vect2 amb names(vect2) freq

Taula a partir de les freqüències que hem desat a l'ordre anterior, mitjançant la funció matrix(). Li hem de dir que hi ha tres columnes (ncol=3), i que les dades les hem entrades per files (byrow=TRUE), a més li hem de dir que el tipus és «table». Tot junt queda as.table(matrix(freq, ncol=3, byrow=TRUE)). Creeu ara aquesta taula i assigneu-la a l'objecte «lamevataula»: lamevataula...