Title | Comandos Análisis de Datos (R-Studio y Stata) |
---|---|
Course | Analisi de Dades |
Institution | Universitat Pompeu Fabra |
Pages | 11 |
File Size | 367.2 KB |
File Type | |
Total Downloads | 99 |
Total Views | 136 |
Todos los comandos necesarios de análisis de datos hasta las variables categóricas....
COMANDOS RSTUDIO: (lo de dentro del paréntesis es la variabe) Swirl: > library(swirl) > uninstall_all_courses() > install_course_github("wagafo","Analisi_Dades_Catala",multi=TRUE) Ara, inicieu el swirl: > swirl() Mitjana: mean(variable) Mediana: median(variable) Moda: table(variable) para poner la tabla y ver cuál es el número que está más veces repe. Rang: range(variable) Variància: var(data)--> por ejemplo var(variable) Desviació estàndard: sd(data)--> sd(variable) Todos los datos a la vez: summary(variable) nos da el max, min, cuartils, mediana, mitjana a la vez. Per veure si heu llegit les dades correctament: > head(variable) Conjunt de resums més complet: > install.packages("psych") > library("psych"): >describe(variable): Podem veure la mitjana (mean), la desviació estàndard (sd), la mediana (median), el mínim (min), el màxim (max), el rang (range), el coeficient d'asimetria (skew) i la curtosis (kurtosis), entre d'altres estadístics que no fem servir a aquest curs. CON PAQUETE “ACTUAR”: Ver dades agrupades: > gdental Suma de variable al objeto de dades agrupades: sum(gdental$nj) Mitjana: mean(gdental) 5 números resumen: > quantile(variable) Diagrama de cajas con 5 números resumen: > boxplot(quantile(variable),range=0) Desviación estándar: > sqrt(emm(gdental,order=2) - mean(gdental)^2) Tabla de frecuencias: > frequency_table Límits dels intervals: > cj nj nj x hist(x) TRANSFORMACIÓ DE DADES: Veure dades: head(viatge) Resums númerics: describe(viatge$euros) →necesita el paquete psych Nueva variable con la transformación de datos: lliures viatge_nou Redondear la variable a 2 decimales: viatge_nou$lliures prop.table(table(variable)) Eixample Gracia Raval Sants 0.20
0.35
0.25
0.20
Si es vol en percentatges: > 100*prop.table(table(variable)) Eixample Gracia Raval Sants 20
35
25
20
Diagrama de pastís: > variable.freq pie(variable.freq) Diagrama de barres:
> variable.freq barplot(variable.freq) Diagrama de barras con frecuencias relativas: > variable.freq barplot(variable.freq) Histograma: > variable.freq hist(variable.freq) Diagrama de cajas: > boxplot(variable) Espais de treball i fitxers: - Determineu quin directory està usant la vostra sessió d'R com a directori de treball usant getwd(). - Feu una llista de tots els objectes al vostre espai de treball localusant ls(). - Feu una llista de tots els fitxers al vostre directori de treball usant list.files() o dir(). - Mireu la pàgina d'ajuda per a list.files amb l'ordre ?list.files. - Useu la funció args(list.files) per determinar els arguments de list.files(). - Entreu old.dir m & punts < m + s) / length(punts) freqüència relativa observada de l'interval (m - 2*s, m - s) : sum(punts > m-2*s & punts < m s) / length(punts) taula completa de freqüències relatives esperades i observades: taula_dist per obtenir el percentatge de casos que cauen a la dreta de z = 2, on z és un valor estandaritzat, usem l'ordre: pnorm(2,lower.tail= FALSE) Per comprovar un valor a l'esquerra de z=2: pnorm(0,lower.tail=TRUE) per obtenir el percentatge de casos a sobre de x=7 a una distribució normal amb mitjana igual a 6 i desviació estàndard igual a 1.5, l'ordre és: pnorm(7,mean=6,sd=1.5,lower.tail=FALSE) valor que deixa un 25% de la freqüència relativa a l'esquerra de la distribució normal amb mitjana igual a 3 i desviació estàndard igual a 2: qnorm(0.25,mean=3,sd=2,lower.tail=TRUE) proporció de freqüències a la dreta de 6 en una distribució normal amb mitjana igual a 5 i desviació estàndard igual a 1.5: pnorm(6,mean=5,sd=1.5,lower.tail=FALSE) valor a aquesta mateixa distribució normal (mitjana = 5, desviació estàndard = 1.5) que deixa 35% de la freqüència a l'esquerra: qnorm(0.35,mean=5,sd=1.5,lower.tail=TRUE) Dues variables numèriques Primero asignar variables: Estranger EUA Anymy_na my_na per veure que heu obtingut → Tot arreu que veieu un TRUE, sabeu que l'element corresponent de my_data és NA. D'igual manera, a tot arreu que veieu un FALSE, sabeu que l'element corresponent de my_data és un dels vostres valors aleatoris estrets de la distribució normal estàndard. Operador «==» com un mètode per verificar la igualtat entre dos objectes. Així, podeu pensar que l'expressió mydata == NA dóna els mateixos resultats que is.na(): my_data == NA Funció sum() sobre my_na per comptar el nombre total de TRUS al meu my_na, i en conseqüència el nombre total de NA a my_data: sum(my_na) Finalment, mirem a les dades per convèncer-nos que tot «concorda». Imprimiu my_data a la pantalla: my_data Si volem crear un vector anomenat y que conté tots els valors no-NA de x, podem usar: y 0] valors de x que són tant no absents COM TAMBÉ mes grans que zero: x[!is.na(x) & x > 0] subconjunt del 3er, 5è i 7è elements de x: x[c(3, 5, 7)] Mentre que x[c(2, 10)] ens dóna SOLS el segon i el desè elements de x, x[c(-2, -10)] ens dóna tots els elements de x EXCEPTE el segon i el desè. Useu x[-c(2, 10)] per simplificar una mica les coses. Això pot estalviar molt de temps si s'han d'especificar mots índexs negatius. Creeu un vector numèric amb tres elements anomenats usant: vect vect2 A continuació podem afegir l'atribut «names» a vect2 amb names(vect2) freq
Taula a partir de les freqüències que hem desat a l'ordre anterior, mitjançant la funció matrix(). Li hem de dir que hi ha tres columnes (ncol=3), i que les dades les hem entrades per files (byrow=TRUE), a més li hem de dir que el tipus és «table». Tot junt queda as.table(matrix(freq, ncol=3, byrow=TRUE)). Creeu ara aquesta taula i assigneu-la a l'objecte «lamevataula»: lamevataula...