Laboratorio 2: Inferencia Estadistica PDF

Title Laboratorio 2: Inferencia Estadistica
Author Igal Daniels
Course Inferencia Estadística
Institution Pontificia Universidad Católica de Chile
Pages 22
File Size 758.2 KB
File Type PDF
Total Downloads 10
Total Views 142

Summary

Laboratorio 2: Inferencia Estadística...


Description

Laboratorio 2 Inferencia Estadística

Igal Daniels Agustín Weason

Pregunta 1: Importamos los datos con el comando read.table para luego aplicar los comandos conocidos en R y separar por columnas. Luego con el comando summary analizamos descriptivamente los datos, con el comando table ordenamos los datos en forma de tabla para un mejor manejo (se ejemplifica solo con las comunas) y finalmente con los comandos barplot, boxplot e hist graficamos los datos.

En el gráfico de barras de las comunas (junto con la tabla) podemos notar que la comuna 3 es en la que más personas se encuestaron llegando a 849. Luego le sigue la comuna 2, 5, 6, 4 y finalmente la 1 con 591 personas encuestadas. En el boxplot y summary de comunas podemos notar que la mediana esta sobre la media (3,6) y es exactamente 4 y que el 50% de los encuestados vive en la comuna 2, 3 o 5. No se ven valores atípicos ya que no hay puntos en los extremos del boxplot.

En el gráfico de barras de edad podemos notar que las personas con edad cercana a 22 y 49 años fueron las que más se encuestaron. Además, según el resumen de los datos, podemos determinar que la media es 43 años (aprox). En el boxplot de edad podemos notar que la mediana esta levemente sobre los 40 años, siendo exactamente 43 años y que el 50% de los datos se ubica entre 28 y 56 años. Se observan 2 datos atípicos, cercanos a los 100 años.

En el grafico y en la tabla de baras del estado civil podemos observar que 1716 (la mayoria) personas son casadas (no se muestra precisamente la palabra “casados” en la grafica ni solteras, probablemente por el tamaño cuando se ejecutó el gráfico) y 1577 personas son solteras. La menor cantidad de personas tienen carácter anulado en el estado civil (11 personas). En el grafico de barras de la dispersion de ingresos podemos notar que la mayor cantidad de personas posee un ingreso muy bajo y que a mayor cantidad de ingreso menor es la cantida de personas que posee dicho ingreso (aprox). El minimo es 1.532, el maximo es 2.326.357 y la media 449.963. En el boxplot de ingresos podemos notar que la mediana es 284.446 y que el 50% de los encuestados tiene ingresos entre 157.843 y 582.497, siendo estos bajos comparado con el 25% de encuestados con ingresos mas altos (por eso la forma del boxplot). Se notan muchos valores

atipicos mucho mas grandes que el resto de los datos. Como opinión personal, esto último refleja la desigualdad presente en la muestra.

Pregunta 2: Primero instalamos la libreria MASS, ya que queremos calcular mediante el comando fitdistr(), los estimadores maximos verosimiles de las distribuciones a proponer. Se proponen 3 distribuiciones (a elección nuestra, que afortunadamente acertamos), exponencial(verde), normal(morada) y log normal(amarilla), para luego obtener sus estimadores maximos verosimiles, sigma, lambda y theta respectivamente. Asi, se puede verificar que la distribución que mejor se ajusta a los datos es la exponencial (en color verde).

Obtenemos una muestra aleaoria de tamaño 100 y calculamos su media. Nos da 452.524,8. Luego graficamos el QQplot junto con la distribución normal, notandose asi que esta distribución se asemeja mucho a la distribución de los datos obtenido en el grafico, pudiendo probar que la media posee una distribución normal.

Pregunta 3: Instalamos la librería TeachingDemos para calcular los intervalos de confianza. Para calcular los interavalos de confianza al 95% para la media del ingreso de cada estado civil aplicamos el comando z.test, ya que son muestras grandes y conocemos su desviacion estandar mediante el comando sd. Nos dan los siguientes resultados:

Elegimos los casados y anulados ya que según los intervalos de confianza anteriores tienen una media similar cercana a 550.000(aprox). Igual corroboramos esto con el comando mean. Luego analizamos el intervalo de convianza para el cuociente de varianzas mediante el comando var.test.

Como este intervalo de confianza contiene al 1, podemos suponer con un 95% de confianza que las varianzas son iguales. A raiz de esto aplicamos el intervalo de confianza para diferencia de medias con varianzas iguales usando el comando t.test.

Como este intervalo contiene al cero, podemos determinar con un 95% de confianza que las medias de los ingresos del estado civil casado y anulado son iguales.

Pregunta 4: [RUT de Igal, por eso I (30), G (100) y A (500)]: Obtenemos tres muestras aleatorias ocupando como semilla el RUT de Igal(19.323.354-6). La media de la muestra de tamaño 30 es I =453.486,4, la media de la muestra de tamaño 100 es G=560.650,4 y la muestra de tamaño 500 es A=453.004.

Sabemos que la media de ingresos para la muestra completa es 449.962, por lo tanto podemos señalar que la media de cada muestra( 30,100 y 500) difieren de la original levemente. La que mas se le acerca es la media de la muestra de tamaño 500, lo que tiene sentido ya que 500 es el tamaño mas cercano al tamaño original de la muestra. Ahora ocupamos el comando var.test para determinar los intervalos de confianza del cuociente de las varianzas:

Asi, podemos determinar que el tamaño del intervalo de la muestra de tamaño 30 es 0,91, el de la muestra de tamaño 100 es 0,41 y el de la muestra de tamaño 500 es 0,31. A raiz de esto se puede inferir que a mayor es el tamaño de la muestra, menor es el tamaño del intervalo.

Pregunta 5: Ahora ocupamos test de hipotesis (para variar un poco), para determinar el alpha necesario para que la media de edad sea inferior a 43 años. Ocupamos el comando z.test ya que tenemos la varianza con el comando sd(edad), ademas de n grande:

Asi, podemos determinar que es necesario un intervalo de confianza al 95% y por ende alpha=5% (porque es unilateral).

Pregunta 6: Sabemos que la media de edad de la comuna 5 es 46,86 años y su desviacion estandar 19,985. Asi, podemos calcular el test de hipotesis “two.sided”, señalando en la hipotesis alternativa que la media no es igual a cero y ocupando el comando z.test.

Como el intervalo de confianza al 95% va de 48,49 a 51,22 y por ende contiene al 51, podemos afirmar que la media de la edad de la comuna 5 puede ser de 51 años con un 10% de significancia.

Pregunta 7: Primero determinamos mediante el comando var.test si las varianzas son iguales. Si son iguales el intervalo de confianza al 90% del cuociente de las varianzas deberia contener el 1.

Como no contiene el 1 podemos determinar que las varianzas no son iguales. A raiz de esto, podemos aplicar el comando t.test para determinar el test de hipotesis a un 10 % de significancia para la diferencia de medias. La hipotesis a plantear es que la media de los hombres debe ser mayor que la de las mujeres, y por ende, su diferencia debe ser mayor que cero. En otras palabras: h0: h m, con 10% de significancia.

A raiz de los resultados del test de hipotesis al 10% de significancia anterior, podemos determinar que las medias de los hombres son mayores a la de las mujeres. Ahora lo confirmamos con el IC para diferencia de medias con variables distintas.

Como el intervalo es mayor que cero(para todos sus posibles valores) se confirma que la media de los hombre es mayor a la de las mujeres.

Pregunta 8: En esta pregunta partimos analizando las medias de ingreso de las distintas comunas nombrándolas con una letra inicial (I: de ingreso) seguida por un número (del 1 al 6) que son las comunas según la base de datos.

En esta primera etapa nos percatamos que la comuna 5 posee una media de ingreso mayor que las otras por lo que nosotros le recomendaríamos hacer publicidad a ese sector del producto caro, debido a que éste en promedio es más adinerado que el resto. Luego para plantear la menor unidad posible debemos ir analizando las categorías uno por uno (zona, sexo, ecivil y edad). Analizando las zonas, defino como “I5r” al (ingreso de la comuna 5, zona rural) y a “I5u” al (ingreso de la comuna 5, zona urbana)

Identifico claramente que los de la comuna 5 de zona urbana tiene mayor media de ingreso que los otros. Seguimos con los sexos, definiendo como “I5uh” al (ingreso de la comuna 5, zona urbana, hombre) y “I5um” al (ingreso de la comuna 5, zona urbana, mujer), resultando:

Con lo que obtenemos que los de la comuna 5 de zona urbana hombres tienen mayor media de ingreso que las mujeres de la comuna 5 zona urbana. Luego de los sexos, vemos los estados civiles de los de la comuna 5, zona urbana, hombres; obteniendo sus medias para obtener conclusiones. Definimos: “I5uhs” al (ingreso de la comuna 5, zona urbana, hombre, soltero) “I5uhd” al (ingreso de la comuna 5, zona urbana, hombre, divorciado) “I5uhc” al (ingreso de la comuna 5, zona urbana, hombre, casado) “I5uhco” al (ingreso de la comuna 5, zona urbana, hombre, conviviente) “I5uhv” al (ingreso de la comuna 5, zona urbana, hombre, viudo) “I5uhse” al (ingreso de la comuna 5, zona urbana, hombre, separado)

Acá producto de la falta de separadores de miles, es algo difícil de identificar quien tiene la mayor media. Mirando detalladamente se aprecia que la mayor media pertenece a los “I5uhd”. Finalmente llegamos a analizar la edad de ésta última unidad, pero los comandos nos limitaron y tuvimos que recurrir a ayuda de los ayudantes del lab. Por eso utilizamos un comando distinto a los que veníamos ocupando.

De estos datos que nos arroja el comando creemos que es acertado precisar que los de la comuna 5, zona urbana, hombres, divorciados y del rango de edad [26-56] son el público óptimo para el producto que se quiere ofrecer. Aclara que se elige ese rango de edad porque posee mayor ingreso y mayor cantidad.

Script: casen=read.table("clipboard", header=TRUE, dec=",") attach(casen) head(casen) casen

##PREGUNTA1: ANALISIS summary(casen) comuna table(comuna) table(edad) table(zona) table(sexo) table(ecivil) barplot(table(comuna),main="Comunas",xlab="Comuna",ylab="Personas",col="red") barplot(table(edad),main="Edad",xlab="Edad",ylab="Personas",col="red") barplot(table(ecivil),main="Ecivil",xlab="Ecivil",ylab="Personas",col="red") boxplot(comuna,main="Dispersión comunas",ylab="Comunas",col="red") boxplot(edad,main="Dispersión edad",ylab="Años",col="red") boxplot(ingreso,main="Dispersión ingreso",ylab="Ingreso",col="red") hist(ingreso,main="Dispersión ingreso",ylab="Ingreso",prob=TRUE,col="red")

##PREGUNTA2: DISTRIBUCIÓN aux=seq(0,2326000,0.5) aux library(MASS) lambda=fitdistr(ingreso,"exponential")$estimate theta=fitdistr(ingreso,"normal")$estimate sigma=fitdistr(ingreso,"lognormal")$estimate sigma lambda

theta lines(aux,dexp(aux,lambda),col="green") lines(aux,dnorm(aux,theta[1],theta[2]),col="purple") lines(aux,dlnorm(aux,sigma[1],sigma[2]),col="yellow") Est1=c() for(j in 1:100){ M=sample(ingreso,100) Est1[j]=mean(M) } hist(Est1) qqnorm(Est1) qqline(Est1,col="red")

##PREGUNTA3: INTERVALOS DE CONFIANZA install.packages("TeachingDemos") library(TeachingDemos)

var(ingreso) t.test(ingreso,conf.level=0.95)$conf.int sigma.test(ingreso,conf.level=0.95)$conf.int

sd(ingreso[ecivil=="soltero"]) z.test(ingreso[ecivil=="anulado"],mean(ingreso[ecivil=="anulado"]),sd(ingreso[ecivil=="anulado"]),conf.lev el=0.95)$conf.int z.test(ingreso[ecivil=="casado"],mean(ingreso[ecivil=="casado"]),sd(ingreso[ecivil=="casado"]),conf.level =0.95)$conf.int z.test(ingreso[ecivil=="conviviente"],mean(ingreso[ecivil=="conviviente"]),sd(ingreso[ecivil=="conviviente" ]),conf.level=0.95)$conf.int z.test(ingreso[ecivil=="divorciado"],mean(ingreso[ecivil=="divorciado"]),sd(ingreso[ecivil=="divorciado"]),c onf.level=0.95)$conf.int z.test(ingreso[ecivil=="separado"],mean(ingreso[ecivil=="separado"]),sd(ingreso[ecivil=="separado"]),con f.level=0.95)$conf.int z.test(ingreso[ecivil=="soltero"],mean(ingreso[ecivil=="soltero"]),sd(ingreso[ecivil=="soltero"]),conf.level= 0.95)$conf.int

z.test(ingreso[ecivil=="viudo"],mean(ingreso[ecivil=="viudo"]),sd(ingreso[ecivil=="viudo"]),conf.level=0.95) $conf.int

mean(ingreso[ecivil=="anulado"]) mean(ingreso[ecivil=="casado"]) mean(ingreso[ecivil=="conviviente"]) mean(ingreso[ecivil=="divorciado"]) mean(ingreso[ecivil=="separado"]) mean(ingreso[ecivil=="soltero"]) mean(ingreso[ecivil=="viudo"])

*elegimos los casados y anulados, y vemos su diferencia de varianza para analizar si pueden ser iguales

var.test(ingreso[ecivil=="casado"],ingreso[ecivil=="anulado"],conf.level=0.95)$conf.int

*como va desde el 0.65 al 4.17, es decir pasa por el 1, con un 95% de confianza se puede decir que las varianzas son iguales *ahora sabiendo que las varianzas son iguales

t.test(ingreso[ecivil=="casado"],ingreso[ecivil=="anulado"],conf.level=0.95,var.equal=TRUE)$conf.int

*con un 95% de confianza podemos decir que las medias de estos 2 estados civiles son iguales porque el intervalo incluye al 0

##PREGUNTA4:RUT I=c() for(i in 1){ set.seed=(193233546) J=sample(ingreso,30) I[i]=mean(J) } I

G=c() for(i in 1){ set.seed=(193233546) F=sample(ingreso,100) G[i]=mean(F) } G A=c() for(i in 1){ set.seed=(193233546) Z=sample(ingreso,500) A[i]=mean(Z) } A

mean(ingreso) *Si comparamos la muestra de 30 con la original

var.test(ingreso,J,conf.level=0.975)$conf.int

*Si comparamos la muestra de 100 con la original

var.test(ingreso,F,conf.level=0.975)$conf.int

*Si comparamos la muestra de 500 con la original

var.test(ingreso,Z,conf.level=0.975)$conf.int

*por test el hipótesis comparando la muestra original con la muestra de 30

t.test(J,I=433111.8,alternative="two.sided",conf.level=0.95)

*por test el hipótesis comparando la muestra original con la muestra de 100

t.test(F,G=415702,alternative="two.sided",conf.level=0.95)

*por test el hipótesis comparando la muestra original con la muestra de 500

t.test(Z,A=467828.5,alternative="two.sided",conf.level=0.95)

##PREGUNTA5: ALFA

mu=mean(edad) z.test(edad,mu=43,sd(edad),alternative="less")

##PREGUNTA6 :MEDIA EDAD 5

mu=(edad[comuna=="5"]) edad[comuna=="5"] mean(edad[comuna=="5"]) sd((edad[comuna=="5"])) z.test(edad[comuna=="5"],sd=19.98595,alternative="two.sided",conf.level=0.95) *si puede ser la media de la edad de la comuna 5 igual a 51, porque pertenece al intervalo

## PREGUNTA7: INGRESO HOMBRES MUJERES

ingreso[sexo=="hombre"] ingreso[sexo=="mujer"] h=mean(ingreso[sexo=="hombre"]) m=mean(ingreso[sexo=="mujer"]) sd(ingreso[sexo=="hombre"]) sd(ingreso[sexo=="mujer"]) x=(ingreso[sexo=="hombre"]) y=(ingreso[sexo=="hombre"])

var.test(ingreso[sexo=="hombre"],ingreso[sexo=="mujer"],conf.level=0.90)$conf.int *Var diferentes t.test(ingreso[sexo=="hombre"], ingreso[sexo=="mujer"],h=m ,alternative="greater",var.equal=FALSE, paired=FALSE, conf.level=0.9) *test de hipotesis t.test(ingreso[sexo=="hombre"], ingreso[sexo=="mujer"], var.equal=FALSE, paired=FALSE, conf.level=0.9)$conf.intç *Confirmamos con intervalo de confianza ##PREGUNTA8: ALTOCOSTO I1=ingreso[comuna=="1"] I2=ingreso[comuna=="2"] I3=ingreso[comuna=="3"] I4=ingreso[comuna=="4"] I5=ingreso[comuna=="5"] I6=ingreso[comuna=="6"] mean(I1) mean(I2) mean(I3) mean(I4) mean(I5) mean(I6) *se ve que la comuna 5 tiene mayor media en ingreso, por ahí va la cosa! I5r=ingreso[zona=="rural"] I5u=ingreso[zona=="urbana"] mean(I5r) mean(I5u) * me doy cuenta que urbana tiene mucha mayor media de ingreso que rural (epa!) I5uh=ingreso[comuna=="5"&zona=="urbana"&sexo=="hombre"] I5um=ingreso[comuna=="5"&zona=="urbana"&sexo=="mujer"] mean(I5uh) mean(I5um) * oppaa!! los de la comuna 5 urbana de sexo masculino tienen mayor media de ingreso que las mujeres I5uhs=ingreso[comuna=="5"&zona=="urbana"&sexo=="hombre"&ecivil=="soltero"] I5uhd=ingreso[comuna=="5"&zona=="urbana"&sexo=="hombre"&ecivil=="divorciado"]

I5uhc=ingreso[comuna=="5"&zona=="urbana"&sexo=="hombre"&ecivil=="casado"] I5uhco=ingreso[comuna=="5"&zona=="urbana"&sexo=="hombre"&ecivil=="conviviente"] I5uhv=ingreso[comuna=="5"&zona=="urbana"&sexo=="hombre"&ecivil=="viudo"] I5uhse=ingreso[comuna=="5"&zona=="urbana"&sexo=="hombre"&ecivil=="separado"] mean(I5uhs) mean(I5uhd) mean(I5uhc) mean(I5uhco) mean(I5uhv) mean(I5uhse) * eppa!! los de la comuna 5, urbanos,hombres y divorciados tienen mayor media que el resto de los estadoscivil casen.8=subset(casen,comuna=="5"&ecivil=="divorciado"&sexo=="hombre",select=c(zona,edad,ingreso )) attach(casen.8) casen.8...


Similar Free PDFs