Ejemplos de estadística básica R PDF

Title Ejemplos de estadística básica R
Course Estadistica
Institution Escuela Superior Politécnica del Litoral
Pages 41
File Size 1.8 MB
File Type PDF
Total Downloads 88
Total Views 132

Summary

Download Ejemplos de estadística básica R PDF


Description

Ejemplos de estadística básica con R

Fabio Germán Molina Focazzio Alfonso Javier Peñuela Peña

Ejemplos de estadística básica con R Este trabajo permite, a partir de ejemplos sencillos, abordar la forma de resolver problemas básicos de la estadística por medio del programa R y su complemento Rstudio. Durante la lectura de este escrito el estudiante o el profesional podrá revisar de manera ejemplificada la gran mayoría de conceptos que se tratan en los cursos de estadística descriptiva e inferencial, haciendo uso del programa ya mencionado y mostrando las grandes ventajas que presenta el programa en términos de eficiencia, amabilidad y gratuidad. Se busca, por medio de cada problema, clarificar la forma de resolverlo al observar las instrucciones y después los resultados arrojados por el programa, consiguiendo así, una familiaridad con el programa y sus diferentes características. Este material puede ayudar, a las personas que les interese el tema, a encontrar una guía consultiva donde puedan encontrar los comandos computacionales necesarios para resolver su problema estadístico específico. Programa de Matemáticas

UNIVERSIDAD SERGIO ARBOLEDA

Carrera 15 No. 74-40. Tels: (571) 325 7500 ext. 2131 - 322 0538. Bogotá, D.C. Calle 18 No. 14A-18. Tels: (575) 420 3838 - 420 2651. Santa Marta Calle 58 No. 68-91. Tel.: (575) 368 9417. Barranquilla www.usergioarboleda.edu.co

EJEMPLO DE ESTADÍSTICA BáSICA CON

R

FABIO GErMáN MOLINA FOCAzzIO

Docente medio tiempo

ALFONSO JAVIEr PEÑUELA PEÑA

Docente tiempo completo

Molina Focazzio, Fabio Germán

Ejemplos de estadística básica con

R / Fabio Molina, Javier Peñuela – Bogotá: Universidad

Sergio Arboleda, 2019 39 p.

ISBN: 978-958-5511-60-6

1. ESTADÍSTICA

-

PrOGrAMAS

PArA

COMPUTADOr

2. ESTADÍSTICA

-

PrOBLEMAS, EJErCICIOS, ETC. 3. r (SISTEMA PArA ANáLISIS ESTADÍSTICOS Y GráFICOS) I. Peñuela Peña, Alfonso Javier 519.50285 ed. 22

Ejemplo de estadística básica con

R

© Fabio Germán Molina Focazzio (Docente medio tiempo) © Alfonso Javier Peñuela Peña (Docente tiempo completo)

ISBN: 978-958-5511-60-6

Primera edición: 2019. Prohibida la reproducción o cita impresa o electrónica total o parcial de esta obra, sin autorización expresa y por escrito de la Universidad Sergio Arboleda. Las opiniones expresadas en esta obra son responsabilidad de los autores.

Diseño y diagr amación: Fabio molina, Javier Peñuela Co rrección de estilo: Ludwwing Cepeda A : Fondo de Publicaciones Univer sidad S ergio Arboleda Direc tor del Fondo de Publicaciones: Jaime Ar turo Bar ahona Caicedo jaime.bar ahona@us a.edu.co Calle 74 No. 14-14. Teléfono: (571) 325 7500 ext. 2158. Bogotá, D.C. www.usergioar boleda.edu.co Bogotá, D.C.

Introducci´ on El manejo de las herramientas y conceptos estad´ısticos ayudan al profesional de cualquier ´area a tener un panorama menos subjetivo y mas acorde con la realidad de su entorno a partir del buen manejo de los datos de inter´es, pensando en una buena toma de decisiones. El programa R y su complemento RStudio aparecen como una ayuda amable y gratuita para el trabajo estad´ıstico. Teniendo en cuenta estas ideas se pens´o en hacer este trabajo que permite a partir de ejemplos sencillos abordar la forma de resolver problemas b´asicos de la estad´ıstica por medio del programa ya mencionado. El presente trabajo trata de manera ejemplificada los conceptos que van desde lo m´as elemental de la estad´ıstica descriptiva hasta la parte de estad´ıstica inferencial pasando por temas de probabilidad y las distribuciones discretas y continuas. Estos temas mencionados anteriormente son los temas cl´asicos que se abordan en los cursos universitarios de estad´ıstica, la idea es que por medio de este material los estudiantes encuentren como resolver de manera eficaz los problemas que se presentan en dicha asignatura con ayuda del programa. Este trabajo creemos que toma importancia como soporte y consulta en la medida que los programa R y RStudio son bastante completos pero tienen demasiados comandos que ser´ıa pr´acticamente imposible memorizarlos, entonces el objetivo es que dependiendo del problema la persona busque c´omo hacerlo por medio del programa y lo pueda ver mediante ejemplos y as´ı lo adec´ ue a sus necesidades para darle soluci´on a su problema. Por u ´ltimo, este trabajo refleja parte de la actividad docente e investigativa de los autores quienes han impartido en varias ocasiones los cursos de estad´ıstica universitaria, llegando al acuerdo com´un de la gran potencialidad que tiene el programa y de alguna manera sensibilizar a estudiantes, docentes y lectores en general a tenerlo como apoyo. Esperamos que sea del agrado de los lectores y lo puedan utilizar de la mejor manera posible.

3

´Indice Cap´ıtulos

P´ agina

1. Organizaci´ on de informaci´ on 5 1.1. Tabla de frecuencias, diagramas circulares y barras, variable cualitativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 1.2. Tabla de frecuencias, histogramas, variable cuantitativa . . . . . 7 2. Medidas de tendencia central, variabilidad y posici´ on 9 2.1. Media aritmetica, desviaci´on est´andar, m´aximo y m´ınimo . . . . 9 2.2. Promedio ponderado . . . . . . . . . . . . . . . . . . . . . . . . . 10 2.3. Percentiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 3. Probabilidad, distribuciones discretas y continuas 3.1. Distribuci´on binomial . . . . . . . . . . . . . . . . . . . . . . . . 3.2. Distribuci´on hipergeom´etrica . . . . . . . . . . . . . . . . . . . . 3.3. Distribuci´on Poisson . . . . . . . . . . . . . . . . . . . . . . . . . 3.4. Distribuci´on geom´etrica . . . . . . . . . . . . . . . . . . . . . . . 3.5. Distribuciones continuas . . . . . . . . . . . . . . . . . . . . . . . 3.6. Distribuci´on uniforme . . . . . . . . . . . . . . . . . . . . . . . . 3.7. Distribuci´on exponencial . . . . . . . . . . . . . . . . . . . . . . . 3.8. Distribuci´on normal . . . . . . . . . . . . . . . . . . . . . . . . . 3.9. Teorema Central del L´ımite . . . . . . . . . . . . . . . . . . . . .

13 13 15 16 18 20 20 21 22 25

4. Estimaci´ on 26 4.1. Intervalos de confianza y pruebas de hip´otesis para la media . . . 27 4.2. Intervalos de confianza y pruebas de hip´otesis para una proporci´on 28 4.3. Intervalos de confianza y pruebas de hip´otesis para diferencia de medias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 4.4. Intervalos de confianza y pruebas de hip´otesis para la diferencia de proporciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 4.5. Intervalos de confianza y pruebas de hip´otesis para el cociente de varianzas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 5. Regresi´ on 5.1. Regresi´on simple . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2. Regresi´on m´ultiple . . . . . . . . . . . . . . . . . . . . . . . . . .

4

34 34 37

´ ´ EJEMPLOS DE ESTADISTICA BASICA CON R

1. 1.1.

Organizaci´ on de informaci´ on Tabla de frecuencias, diagramas circulares y barras, variable cualitativa

Ejemplo 1 Suponga que en cierta escuela las calificaciones de sus estudiantes se clasifican en Insuficiente, Bajo, Regular, Medio y Alto. Cada una de ellas es representada por sus iniciales, as´ı: Insuficiente: “I” Bueno: “B” Regular: “R” Medio: “M” Alto: “A” En cierto curso de noveno los resultados de la prueba de matem´aticas fueron los siguientes: A B R R M

A B R M M

M R R M M

M I R M M

M I R M M

M I R M M

M R R M A

I R R M A

a. Introducir los datos en R. b. Construya una tabla de frecuencias absolutas. c. Construya una tabla de frecuencias relativas. d. Realice un diagrama circular. e. Realice un diagrama de barras. Soluci´ on a. A los datos les ponemos el nombre de results, as´ı la instrucci´on en R ser´a: results=c(”A”,”A”, ”B”, ”B”, ”B”, ”B”, ”B”,”I”,”I”,”I”,”R”,”I”,”I”,”I”,”R”,”R”, ”R”,”R”,”R”,”R”,”R”,”R”,”R”,”R”,”R”, ”M”, ”M”, ”M”, ”M”, ”M”, ”M”, ”M”, ”M”, ”M”, ”M”, ”M”, ”M”, ”M”,”A”,”A”) b. Para construir la tabla de frecuencias absolutas basta con usar el comando ”table ” y aplicarlo a los datos de la siguiente forma: X=table(results)

5

c. Para construir la tabla de frecuencias relativas basta dividir los resultados anteriores entre la totalidad, es decir: X/40

d. Para construir el diagrama circular basta con seguir las instrucciones: slices=c(4,5,13,12,6) lbls=c(”Alto”, ”Bueno”,”Medio”.”Regular”, ”Insuficiente”) pie(slices, labels = lbls, main=”Diagrama Circular Calificaciones”)

e. Para hacer el diagrama de barras que represente cada calificaci´on y sus frecuencias se pueden seguir las siguientes instrucciones: x=c(4,5,13,12,6) y=c(”Alto”, ”Bueno”,”Medio”,”Regular”,”Insuf”) barplot(x,names.arg=y,main=”Diagrama de Barras Calificaciones”)

6

1.2.

Tabla de frecuencias, histogramas, variable cuantitativa

Ejemplo 2 Considere los siguientes datos de edades de 42 estudiantes: 20 18 19 21 26 21 26

17 22 20 24 24 23 23

18 21 30 24 23 24 24

25 22 25 21 21 16 18

23 23 24 23 21 17 21

15 23 25 22 18 19 33

a. Introducir los datos en R. b. Ordenar los datos de menor a mayor. c. Construir una tabla de frecuencias absolutas, relativas y acumuladas. Usar seis clases. d. Graficar un histograma. Soluci´ on a. Para introducir los datos que llamaremos ”edades”, basta con dar la siguiente instrucci´on: edades=c(20,17,18,25,23,15,18,22,21,22,23,23,19,20,30,25,24,25,21,24,24,21,23,22, 26,24,23,21,21,18,21,23,24,16,17,19,26,23,24,18,21,33)

7

b. Para ordenar los datos se usa el comando ”sort”. As´ı, las instrucciones son: sort(edades) Obteniendo lo siguiente: 15 16 17 17 18 18 18 18 19 19 20 20 21 21 21 21 21 21 21 22 22 22 23 23 23 23 23 23 23 24 24 24 24 24 24 25 25 25 26 26 30 33

c. Lo primero es construir las seis clases por medio de la siguiente instrucci´on: frecuencias=as.data.frame(table(Clases=factor(cut(edades,breaks=6)))) Obteniendo lo siguiente:

Teniendo las clases incluimos las frecuencias absolutas, frecuencias relativas, y acumuladas. Para esto seguimos la siguiente instrucci´on: tablatotal=transform(frecuencias,FrecAc=cumsum(Freq),FrecRel=Freq/42,RelAcum=cumsum(Freq/42)) Obteniendo lo siguiente:

d. Para realizar el histograma, se usa la funci´on ”hist”, en este caso se le aplica a nuestros datos ”edades” as´ı: hist(x)

8

2. 2.1.

Medidas de tendencia central, variabilidad y posici´ on Media aritmetica, desviaci´ on est´ andar, m´ aximo y m´ınimo

Ejemplo 3 Un estudio realizado por la Federaci´on Colombiana de Gesti´on Humana en el a˜ no 2016, muestra que los salarios m´ınimos para algunos pa´ıses de latinoamerica en d´olares son los siguientes: Argentina 432,21 Ecuador 366

Bolivia 239,48 P araguay 331,11

Brasil 249,94 P er´ u 258,86

Chile 373,22 U ruguay 349,20

Colombia 233,86 V enezuela 31,60

a. Encontrar el salario promedio de estos pa´ıses. b. Encontrar la desviaci´on est´andar de la muestra. c. Encuentre los salarios m´ınimos m´as altos y m´as bajos de la muestra. Soluci´ on a. Primero debemos introducir los datos as´ı: salarios=c(432.21,239.48,249.94,373.22,233.86,366,331.11,258.86,349.20,31.60)

9

Para encontrar el promedio se usa la funci´on ”mean” y se le aplica a los datos: mean(salarios) 286.548 b. Para encontrar la desviaci´on est´andar se usa la funci´on ”sd” y se aplica a los datos as´ı: sd(salarios) 112.0763 c. Para encontrar los salarios m´as altos y m´as bajos de la muestra se usan las funciones ”max” y ”min” y se aplican los datos, as´ı: max(salarios) 432.21 min(salarios) 31.6

Ejemplo 4 Suponga que las edades de los ni˜nos de un sal´on completo de primero de primaria son: 7, 6, 5, 8, 7, 7, 7, 5, 6, 8. Calcular la desviaci´on est´andar de dicha poblaci´on. Soluci´ on El comando ”sd” calcula la desviaci´on est´andar muestral o cuasi-desviaci´on. As´ı que para calcular la desviaci´on est´andar poblacional es necesario multipli]1/2 , donde n es el tama˜ no de la poblaci´on en nuestro caso car por el factor [ n−1 n 10. Entendido esto la instrucci´on ser´a: x=c(7,6,5,8,7,7,7,5,6,8) sd(x)*(9/10)0,5 1.019804

2.2.

Promedio ponderado

Ejemplo 5 En ’Am´erica Econom´ıa’ se eval´uan 52 ciudades latinoamericanas en ocho aspectos para determinar cu´ales son las mejores para hacer negocios: marco social y pol´ıtico (15 %), marco y dinamismo econ´omico (25 %), servicios a empresas (10 %), servicios a ejecutivos (10 %), infraestructura y conectividad f´ısica (10 %), 10

capital humano (10 %), sustentabilidad medioambiental (5 %) y poder de la marca (15 %). Sus calificaciones van de 0 a 100 puntos.1 Por ejemplo los ´ındices de tres ciudades se muestran a a continuaci´on:

Sao Paulo Bogot´a Buenos Aires

M.S.P 69,6 68,4 67,0

M.D.E 76,7 72,9 59,2

S.E S.Ej 69,5 70,5 66,2 74,1 90,3 67,4

I.C.F 63,1 61,9 40,5

C.H S.A P.M 97,3 90,4 96,1 87,1 87,1 94,0 97,1 91.5 97,2

Encuentre el promedio ponderado por cada uno de los aspectos indicados para cada una de estas ciudades. Soluci´ on Lo primero que se hace es definir una matriz de ponderaciones a la que llamaremos X, as´ı: X=matrix(c(0.15,0.25,0.10,0.10,0.10,0.10,0.05,0.15),nrow=8,ncol=1) Luego definimos las calificaciones de cada ciudad en cada aspecto as´ı: SP=matrix(c(69.6,76.7,69.5,70.5,63.1,97.3,90.4,96.1),nrow=1,ncol=8) BOG=matrix(c(68.4,72.9,66.2,74.1,61.9,87.1,87.1,94),nrow=1,ncol=8) BA=matrix(c(67.0,59.2,90.3,67.4,40.5,97.1,91.5,97.2),nrow=1,ncol=8) As´ı las cosas para encontrar cada promedio ponderado se har´a la multiplicaci´on matricial entre las ponderaciones y las calificaciones de cada ciudad. Para Sao Paulo la instrucci´on es: SP %* %X 78.59 Para Bogot´a la instrucci´on es: BOG %* %X 73.535 Para Buenos Aires la instrucci´on es: BA %* %X 73.535 1 En el siguiente enlace se puede encontrar ci´ on:http://rankings.americaeconomia.com/mejores-ciudades-2016/

11

dicha

informa-

2.3.

Percentiles

Ejemplo 6 Considere los datos sobre edades propuestos en el ejemplo 3 sobre edades de ciertos estudiantes. Hallar los percentiles 0, 25, 50, 75 y 100. Soluci´ on La funci´on ”quantile” nos permite hallar dichos percentiles con una sola instrucci´on, recordemos que dichos datos se les llam´o ”edades” luego la instrucci´on ser´a: quantile(edades) El resultado es:

Ejemplo 7 Suponga que los pesos de 12 estudiantes en kilogramos son: 67, 68, 70, 72, 65, 66, 67, 71, 72, 70, 71, 100. Realizar dos diagramas de cajas y bigotes donde en una de ellas se tengan en cuenta todos los datos y en la otra no se tenga en cuenta el dato mayor. Realizar los gr´aficos en una misma ventana. Soluci´ on Se deben ingresar ambos conjuntos de datos: uno donde se encuentren todos y otro donde no se encuentre el mayor, y luego hacer el diagrama. Para hacer el diagrama se usa el comando ”boxplot”. Las instrucciones son las siguientes y en la tercera l´ınea muestra c´omo obtener los gr´aficos en la misma ventana. x=c(67,68,70,72,65,66,67,71,72,70,71,100) y=c(67,68,70,72,65,66,67,71,72,70,71) par(mfrow=c(1,2)) boxplot(x) boxplot(y)

12

3. 3.1.

Probabilidad, distribuciones discretas y continuas Distribuci´ on binomial

Ejemplo 8 En cada uno de los 10 cajones de una peque˜ na biblioteca se encuentran 5 libros, de cada uno de estos 5 libros uno de ellos es sobre emprendimiento. Si el bibliotecario elige un libro al azar de cada uno de los cajones: a. ¿Cu´al es la probabilidad de que elija 3 libros sobre emprendimiento? b. ¿Cu´al es la probabilidad de que elija m´aximo 2 libros sobre emprendimiento? c. ¿Cu´al es la probabilidad de que elija m´as de 3 libros sobre emprendimiento? Soluci´ on a. Se necesita calcular la probabilidad de obtener 3 ´exitos en 10 intentos con una probabilidad de ´exito en cada intento de 0.2, lo cual corresponde a una distribuci´on binomial introduciendo los par´ametros requeridos. Para esto usamos la funci´on ”dbinom(x,n,p)”, donde: x: ”N´umero de ´exitos en la muestra” n: ”N´ umero de intentos” p: ”Probabilidad de ´exito en un intento”

13

Para nuestro caso particular es: dbinom(3,10,0.2) El resultado es: 0.2013266 b. La probabilidad de obtener m´aximo 2 libros es equivalente a la probabilidad de elegir 0,1 o 2 libros de emprendimiento. Luego se puede hacer calculando cada una de ellas y sumando dichas probabilidades. La instrucci´on es: dbinom(0,10,0.2)+dbinom(1,10,0.2)+dbinom(2,10,0.2) El resultado es: 0.6777995 El resultado anterior tambi´en se puede obtener con la siguiente instrucci´on: pbinom(2,10,0.2) c. La probabilidad de que elija m´as de 3 libros se puede calcular usando el complemento, as´ı: 1-(dbinom(0,10,0.2)+dbinom(1,10,0.2)+dbinom(2,10,0.2)+dbinom(3,10,0.2)) 0.1208739 Otra forma de hacer dicho c´alculo es sumando los resultados desde 4 hasta 10, as´ı: sum(dbinom(c(4,5,6,7,8,9,10),10,0.2)) El resultado es de nuevo: 0.1208739 El resultado tambi´en se puede obtener con la instrucci´on: 1-pbinom(3,10,0.2) Ejemplo 9 Representar los diagramas de barras de una distribuci´on binomial con 10 intentos y con probabilidades, p=0.2, 0.5, 0.7, 0.9. Soluci´ on Las instrucciones vienen dadas en los siguientes renglones:

14

As´ı obtenemos:

3.2.

Distribuci´ on hipergeom´ etrica

Ejemplo 10 Se sabe que en una bolsa hay 15 manzanas de las cuales 4 tienen cierta bacteria. Se toma una muestra de 8 manzanas de dicha bolsa y se revisa cuantas tienen dicha bacteria. Si dos o m´as manzanas tienen dicha bacteria en la muestra la bolsa completa es rechazada. a. Hallar la probabilidad de que la bolsa se rechace. 15

b. Si hay 8 manzanas con dicha bacteria y la condici´on no cambia, encuentre la probabilidad de que la bolsa sea rechazada. Soluci´ on a. Debemos calcular la probabilidad de obtener dos o m´as manzanas con dicha bacteria en la muestra de ocho. Debido a que solo hay cuatro manzanas con cierta bacteria, las probabilidades que debemos calcular son las de obtener 2, 3 o 4, manzanas con dicha bacteria. Para esto usamos la distribuci´on hipergeom´etrica sumando las tres probabilidades, para esto se utiliza la funci´on: ”dhyper(x,N,N-n,k)”, donde: x: ”N´umero de ´exitos en la muestra” N: ”Tama˜ no de la poblaci´on” n: ”Tama˜ no de la muestra” k: ”N´umero de ´exitos en la poblaci´on” Para nuestro caso particular es: dhyper(2,8,15-8,4)+dhyper(3,8,15-8,4)+dhyper(4,8,15-8,4) 0.7692308 Otra forma de hacer dicho c´alculo es sumando los resultados desde 2 hasta 4, as´ı: sum(dhyper(c(2,3,4),8,15-8,4)) El resultado es de nuevo: 0.7692308 Tambi´en se puede puede realizar usando la instrucci´on: 1-phyper(1,8,15-8,4) b. Para calcular dicha probabilidad es necesario sumar todas las probabilidades desde 2 hasta 8, teniendo en cuenta que ha cambiado el n´ umero de ´exitos en la muestra, as´ı: sum(dhyper(c(2,3,4,5,6,7,8),8,15-8,8)) 0.9987568 Tambi´en se puede usar la instrucci´on: 1-phyper(1,8,15-8,8)

3.3.

Distribuci´ on Poisson

Ejemplo 11 El n´ umero de canchas de squash alquiladas en un gran club sigue una dis16

tribuci´on de Poisson con un promedio de 10 canchas alquiladas por d´ıa. a. ¿Cu´al es la probabilidad de que en un d´ıa cualquiera se alquilen m´ınimo 7 y m´aximo 11 canchas de squash? b. ¿Cu´al es la probabilidad de que en tres d´ıas seguidos se alquilen 36 canchas de squash? Soluci´ on En este caso usamos la funci´on ”dpois(x,λ)”, donde: x:”N´ u...


Similar Free PDFs