TEORÍA CENTRAL DEL LIMITE: RESUMEN Y EJERCICIOS PDF

Title TEORÍA CENTRAL DEL LIMITE: RESUMEN Y EJERCICIOS
Author Ramiro Hergenreder
Course Herramientas Matemáticas V Estadística II
Institution Universidad Siglo 21
Pages 39
File Size 2.3 MB
File Type PDF
Total Downloads 50
Total Views 117

Summary

ESTE "LIBRO" ES UN RESUMEN HECHO POR UNA ALUMNA, MUY COMPLETO Y ORGANIZADO, APROBADO TAMBIÉN POR EL PROFESOR DE LA CÁTEDRA, HECHO PARA ENTENDER EL TCL AL PIE DE LA LETRA...


Description

Estadística Inferencial …y la magia teorema central límite

del del

"Excelente, imperdible, no dejes que te lo cuenten." Pablo Sarasa , Ámbito Poético 25/06/2019

"Un atrapante compendio de consejos para abordar el práctico de Estadística II donde contrastan y a la vez pueden convivir sin problemas el rigor matemático con expresiones que parecen traídas de un asado entre amigos después de la 5ta ronda de fernet" Carl Gauss, Untersuchungen über höhere Arithmetik 12/06/1828

"¿Y para qué hacés eso? ¿Por qué no te ponés a estudiar? ¡Te estás sobrecargando al vicio!” Mi Mamá, por teléfono. Siempre.

Córdoba, junio de 2019 Letra chica: El Apuntito se distribuye de forma gratuita a todo ñoño que así lo solicite, no obstante, se aceptan donaciones voluntarias de yerba CBSé en su variante “Hierbas Serranas” que se utilizarán como combustible para la creación de futuros apuntitos. Campa no se responsabiliza por daños físicos ni mentales que sufran sus compañeros tras posibles ataques de Síndrome de NLPC (no lo podés creer) derivados de la lectura del apuntito. Campa tampoco garantiza que vayas a aprobar la materia, ni siquiera garantiza que vayas a aprender algo leyendo El Apuntito. Los críticos mencionados nunca opinaron sobre El Apuntito. Ni siquiera saben qué es El Apuntito. Mi mamá tampoco opinó sobre El Apuntito, pero su reacción de mamá preocupada es real. El Apuntito está dedicado al profe Pablo Godino, autor del término “NLPC” entre ot ros usados en el presente material y principal motor de mis motivaciones matemáticas. Y a mi mamá que se la re-banca.

Hecho el depósito que marca la ley (ponele), etcétera.

Campa, Junio 2019

Contenido ¿A quién va dirigido este apunte? ....................................................................................................................................................... 2 ¿Cómo contactarme? ................................................................................................................................................................................ 2 Antes de arrancar: ....................................................................................................................................................................................... 3 Módulo 1: Ejercicios resueltos: .............................................................................................................................................................. 5 Seminario 1: Distribución normal de una variable; Distribución de muestreo. ............................................................. 5 Antes de continuar con los ejercicios que siguen .......................................................................................................................12 Aspectos del Teorema Central del Límite para tener en cuenta: ...................................................................................... 13 Ejercicios resueltos: ..................................................................................................................................................................................14 Seminario 2: Estimación de intervalos de confianza para la media y la proporción .................................................17 Módulo 2: Ejercicios resueltos: ............................................................................................................................................................21 Seminario 3: Prueba de Hipótesis de la Media ........................................................................................................................ 21 Seminario 4: Potencia de una prueba y Cálculo del valor p ...............................................................................................22 Módulo 3: Ejercicios resueltos: ............................................................................................................................................................25 Seminario 7: Pruebas para variables categóricas .................................................................................................................... 25 Seminario 8: ANOVA........................................................................................................................................................................... 31 Módulo 4: Ejercicios resueltos: ............................................................................................................................................................36 Seminario 10: Regresión lineal y correlación ............................................................................................................................ 36

1

Campa, Junio 2019

¿A quién va dirigido este apunte? Este apunte es un texto práctico dirigido a todos aquellos que quieren aprender Estadística Inferencial y necesiten una guía para encarar los ejercicios prácticos. Está pensada para personas que cursan a distancia o no tienen quién les explique cómo resolver ejercicios prácticos de inicio a fin. Por tal motivo, puede resultar tedioso para estadistas experimentados. No pretende reemplazar los desarrollos teóricos contenidos en la bibliografía obligatoria de la materia sino simplemente desarrollar paso a paso ejercicios típicos y aportar consejos prácticos para abordarlos. Hay muchas formas de resolver un mismo ejercicio, en este material simplemente comparto las estrategias de resolución que a mí me funcionan.

¿Cómo contactarme? Soy una simple estudiante de la carrera de Ingeniería en Software y si bien me tomé el trabajo de revisar que los resultados finales obtenidos en cada ejercicio coincidan con los publicados en la bibliografía no puedo garantizarte que este apunte esté completamente libre de errores. Si encontrás algún error en este material o tenés algún comentario o pedido, podés escribirme a [email protected]. Cualquier sugerencia será bienvenida. Tanto las sugerencias como las notificaciones sobre posibles errores en los contenidos serán tenidas en cuenta en la medida de lo posible en futuras versiones.

2

Campa, Junio 2019

Antes de arrancar: •







¿Qué es la distribución normal estándar? Es la distribución de probabilidades de una variable z que sigue una distribución normal con media µ=0 y desviación estándar σ =1 ¿Para qué sirve? Para calcular probabilidades acumuladas habría que integrar la función de densidad de la variable en cuestión. Alguien se tomó el trabajo de integrar la función de densidad de la variable z para muchos valores de z y tabuló los resultados. Entonces, en lugar de calcular integrales engorrosas para cada función de densidad, lo que se hace es “estandarizar” cualquier variable x y usar la tabla estándar para encontrar cualquier probabilidad. ¿Cómo estandarizo mi variable x? Aplicando esta fórmula:

𝑧=

𝑥 −𝜇 𝜎

Hay un montón de versiones de la tabla de distribución normal estandarizada. Las más comunes son: ¿Qué tabla tengo? (éstas son las más comunes, hay otras) La que acumula desde la media hasta un valor La que acumula desde -∞ hasta un valor dado de dado de z: z:

Ninguna tabla es mejor que otra. Con cualquier versión de la tabla podés resolver todos los ejercicios. Según lo que te pida el enunciado puede que te resulte más cómodo usar una u otra. Los ejercicios más comunes hacen referencia a uno de estos escenarios: ¿Qué área bajo la curva (=probabilidad) me pide el enunciado? Entre dos z determinados (uno de los cuales es Desde un z negativo en adelante: negativo) •

Entre dos z positivos determinados

Desde -∞ hasta un v alor positivo de z:

3

Campa, Junio 2019

Entre la media y z

Desde -∞ hasta un valor negativo de z:

Desde un valor positivo de z en adelante

• •

Es importante que sepas usar bien la tabla y que adquieras suficiente práctica en la resolución de todos los escenarios posibles con la versión que hayas elegido usar. Hay algunas propiedades acerca de la distribución normal que es conveniente recordar: o Es simétrica. Por lo tanto, a modo de ejemplo, el área bajo la curva contenida entre -∞ y -z será igual al área bajo la curva contenida entre z y +∞. Por ejemplo: La probabilidad de que z sea mayor o igual a 2 es igual a la probabilidad de que z sea menor o igual a -2. Observando los gráficos podés ver que el tamaño del área sombreada es igual en ambos casos.

P(z ≥ 2) = P(z ≤ -2) = 0.228 P(z ≥ 2)

=

P(z ≤ -2)

o

En el centro de la curva se encuentran la media, la mediana y la moda. Estos tres valores coinciden y dividen a la curva en dos mitades. Por lo tanto, el área bajo la curva contenida entre -∞ y la media será igual a 0.5 al igual que el área bajo la curva contenida entre la media e ∞. Gráficamente:

o

El área total bajo la curva representa el 100% de los casos.

4

Campa, Junio 2019

o

Esto no es específico de la distribución normal, sino de todas las distribuciones de probabilidad de variables continuas. La probabilidad en un punto es siempre igual a cero. Dicho de otro modo, la probabilidad de que una variable x tome exactamente un valor “a” es cero P(x=a) = 0. Para que la probabilidad pueda tomar valores mayores que cero en una variable continua, tenemos que trabajar con desigualdades o intervalos (≤; ≥)

Módulo 1: Ejercicios resueltos: Seminario 1: Distribución normal de una variable; Distribución de muestreo. Ejercicio 1: El departamento de marketing de una empresa de teléfonos celulares conoce que los montos de las facturas mensuales de sus clientes no corporativos siguen una distribución normal con media de $80 y desviación estándar de $12. Para planificar mejor sus estrategias comerciales para los próximos meses desean conocer: a) ¿Qué porcentaje de los clientes tienen un consumo entre $80 y $93? Paso 1: identifico los datos e incógnitas: • La variable x tiene una distribución normal • µ = 80 • σ=12 Es conveniente graficar la función para identificar correctamente el área de interés ¿Qué tengo? Tengo esta tabla de z, (µ =0; σ=1) que acumula probabilidades desde -∞ hasta un valor dado de z:

¿Qué quiero? La probabilidad de que x esté entre 80 y 93, o sea: P(80≤x≤93) dado que µ =80; σ=12

Paso 2: estandarizo mi variable Aplicando esta fórmula:

𝑧=

𝑥−𝜇 𝜎

80 − 80 12 𝑧 = 0 → como la media es de 80, podríamos obviar este paso z=

93 − 80 12 𝑧 = 1.083

𝑧=

5

Campa, Junio 2019

Paso 3: busco en la tabla la probabilidad acumulada con z=1.083

Paso 4: comparo lo que obtuve en la tabla con lo que me pide el enunciado y hago los ajustes necesarios: ¿Qué tengo? P(-∞≤z≤1.08) =0.8599

¿Qué quiero? La probabilidad de que x esté entre la media y 93, o sea: P(80≤x≤93)

Comparando los gráficos vemos claramente que la probabilidad obtenida por tabla incluye el área correspondiente a todos los valores inferiores a la media, que no nos interesan. Es decir, hay exactamente un 50% de más. Por lo tanto: P(80≤x≤93) = P(-∞≤z≤1.08) - 0.5 P(80≤x≤93) = 0.8599 – 0.5 P(80≤x≤93) = 0.3599 Respuesta: un 35.99% de los clientes tienen un consumo de entre $80 y $93 b) ¿Qué porcentaje de los clientes tienen un consumo entre $90 y $105? Paso 1: identifico los datos e incógnitas: • • •

La variable x tiene una distribución normal µ = 80 σ=12 6

Campa, Junio 2019

Es conveniente graficar la función para identificar correctamente el área de interés: ¿Qué tengo? ¿Qué quiero? Tengo esta tabla de z, (µ =0; σ=1) que acumula La probabilidad de que x esté entre 90 y 105, o sea: probabilidades desde -∞ hasta un valor dado de z : P(90≤x≤105) dado que µ =80; σ=12

Paso 2: estandarizo mi variable Aplicando esta fórmula:

𝑧= z=

𝑥−𝜇 𝜎

90 − 80 12

𝑧 = 0.83 →Límite inferior del área sombreada que necesito 𝑧=

105 − 80

12 𝑧 = 2.083 →Límite superior del área sombreada que necesito Paso 3: busco en la tabla la probabilidad acumulada con z=0.83 y la probabilidad acumulada con z=2.08 z= 0.83

7

Campa, Junio 2019

z= 2.08

Paso 4: comparo lo que obtuve en la tabla con lo que me pide el enunciado y hago los ajustes necesarios: ¿Qué tengo? P(-∞≤z≤2.08) =0.9812

¿Qué quiero? La probabilidad de que x esté entre 90 y 105, o sea: P(90≤x≤105) dado que µ =80; σ=12

y P(-∞≤z≤0.83) =0.7967

Comparando los gráficos (lo que tengo vs lo que quiero) vemos que la diferencia entre las probabilidades obtenidas por tabla es igual al área buscada Por lo tanto: P(90≤x≤105) = P(-∞≤z≤2.08) - P(-∞≤z≤0.83) P(90≤x≤105) = 0.9812 – 0.7967 P(90≤x≤105) = 0.1845

8

Campa, Junio 2019 Respuesta: un 18.45% de los clientes tienen un consumo entre $90 y $105 c) ¿Qué porcentaje de los clientes tienen un consumo inferior a $68? Paso 1: identifico los datos e incógnitas: • La variable x tiene una distribución normal • µ = 80 • σ=12 Es conveniente graficar la función para identificar correctamente el área de interés ¿Qué tengo? Tengo esta tabla de z, (µ =0; σ=1) que acumula probabilidades desde -∞ hasta un valor dado de z:

¿Qué quiero? La probabilidad de que x esté entre -∞ y 68, o sea: P(x≤68) dado que µ =80; σ=12

Paso 2: estandarizo mi variable Aplicando esta fórmula:

𝑧= z=

𝑥−𝜇 𝜎

68 − 80 12

𝑧 = −1

Paso 3: busco en la tabla la probabilidad acumulada con z=-1 Acá se pone interesante la cosa. Si bien hay tablas que incluyen los valores de z negativos, la mayoría no los incluye. Para esos casos apelamos a la propiedad de simetría que enunciamos anteriormente, entendiendo que:

P(z ≤ -1)

=

9

P(z ≥ 1)

Campa, Junio 2019

Conociendo esta propiedad, busco en la tabla la probabilidad acumulada hasta z =1:

Paso 4: comparo lo que obtuve en la tabla con lo que me pide el enunciado y hago los ajustes necesarios: ¿Qué tengo? P(-∞≤z≤1) =0.8413

¿Qué quiero? La probabilidad de que x esté entre -∞ y 68, o sea: P(x≤68) dado que µ =80; σ=12

que a su vez es igual a la siguiente área por simetría:

Comparando los gráficos (lo que tengo vs lo que quiero) vemos que el dato que me arrojó la tabla corresponde exactamente al área opuesta a la que necesito. Sabemos además que el área total bajo la curva representa el 100% de los casos (Probabilidad igual a 1). Por lo tanto: P(x≤68) = 1 - P(-∞≤z≤1) P(x≤68) = 1- 0.8413

10

Campa, Junio 2019

P(x≤68) = 0.1587 Respuesta: Un 15.87% de los clientes tienen un consumo inferior a $68 d) ¿Qué porcentaje de los clientes tienen un consumo entre $70 y $90? Paso 1: identifico los datos e incógnitas: • La variable x tiene una distribución normal • µ = 80 • σ=12 Es conveniente graficar la función para identificar correctamente el área de interés ¿Qué tengo? Tengo esta tabla de z, (µ =0; σ=1) que acumula probabilidades desde -∞ hasta un valor dado de z:

¿Qué quiero? La probabilidad de que x esté entre 70 y 90, o sea: P(70≤x≤90) dado que µ =80; σ=12

Paso 2: estandarizo mi variable Aplicando esta fórmula:

𝑧= z=

𝑥−𝜇 𝜎

70 − 80 12

𝑧 = −0.83 →Límite inferior del área sombreada que necesito 90 − 80 12 𝑧 = 0.83 →Límite superior del área sombreada que necesito 𝑧=

Paso 3: busco en la tabla la probabilidad acumulada con z=-0.83 y la probabilidad acumulada con z=0.83 Acá nuevamente nos encontramos con el caso de un z negativo. Si bien hay tablas que incluyen los valores de z negativos, la mayoría no los incluye por lo que apelamos a la propiedad de simetría que enunciamos anteriormente, entendiendo que P(z ≤ -0.83) = P(z ≥ 0.83) Como justo el límite superior del área a calcular coincide con z =0.83, no necesito buscar más valores en la tabla:

11

Campa, Junio 2019

Paso 4: comparo lo que obtuve en la tabla con lo que me pide el enunciado y hago los ajustes necesarios: ¿Qué tengo? P(-∞≤z≤0.83) =0.7967

¿Qué quiero? La probabilidad de que x esté entre 70 y 90, o sea: P(70≤x≤90) dado que µ =80; σ=12

Comparando los gráficos (lo que tengo vs lo que quiero) vemos que el área que necesito calcular es igual al área que me da la tabla menos la cola que va desde -∞ hasta -0.83. Puedo calcular esa cola acudiendo a la propiedad de simetría. Por lo tanto: P(70≤x≤90) = P(-∞≤z≤0.83) – [1 - P(-∞≤z≤0.83)] P(70≤x≤90) = 0.7967 – (1-0.7967) P(70≤x≤90) = 0.7967 – 0.2033 P(70≤x≤90) =0.5934 Respuesta: un 59.34% de los clientes tienen un consumo entre $ 70 y $90

Antes de continuar con los ejercicios que siguen Es conveniente revisar en detalle el Teorema Central del Límite (TCL) antes de resolver los ejercicios que siguen. Como el propósito de esta mini-guía es compartir estrategias para encarar los prácticos, no voy a ahondar demasiado en el desarrollo teórico y únicamente mencionaré aspectos del teorema que son útiles para abordar los 12

Campa, Junio 2019

ejercicios. No obstante, recomiendo fuertemente estudiar en detalle el teórico del TCL antes de encarar este “crossfit estadístico” 😊.

Aspectos del Teorema Central del Límite para tener en cuenta: • •



El TCL parte de la idea de que tengo una población de tamaño N, con media µ y desviación estándar σ. De esa población, saco todas las muestras posibles de tamaño n. Ojo, no saco “n muestras” sino todas las combinaciones posibles de los N elementos de la población, agrupados en muestras de n elementos. Por ejemplo, si tengo una población de 10 elementos y quiero tomar muestras de 4 elementos. ¿Cuántas muestras tomo? 𝐶10 4 = 210 Si calculo la media de cada una de las muestras y luego calculo el promedio entre todas las medias de las muestras, ésta media coincide exactamente con la media de la población:

μx = μp

el promedio de todas las medias  de todas las muestras muestrales x posibles de n elementos •

la media poblacional

La dispersión de las medias muestrales es menor que la dispersión de la población. A mayor muestra, menor dispersión (si querés entender por qué buscá algún ejemplo en el teórico). A los efectos del práctico, esta es la relación que necesitás conocer:

σx =

se lo conoce como: • error estándar de la media muestral • desviación estándar de las medias muestrales •

𝜎

√𝑛

la desviación estánda r poblacional dividido entre la raíz del tamaño de la muestra

Si el tamaño de la muestra es relativamente grande con respecto al tamaño de la población debo usar el factor de corrección para poblaciones finitas (se considera que una muestra es grande cuando 𝑛 > 0.05) Esta es la fórmula del factor de corrección:

𝑁

𝑓𝑐𝑝𝑓 = √

𝑁−𝑛 𝑁−1

Y así quedaría mi error estándar de la media muestral corregido:

σx =

𝜎

√𝑛 13

× √

𝑁−𝑛

𝑁−1

Campa, Junio 2019





La distribución de las medias muestrales tiende a seguir una distribución normal a medida que crece el tamaño de la muestra independientemente de la distribución que tenga la población original. A los fines prácticos se considera que si 𝒏 ≥ 30 la distribución de las medias muestrales sigue una distribución normal. Si la distribución de la población es normal da distribución de las medias muestrales será normal para cualquier tamaño de muestra

Todo esto nos va a servir para hacer: o Estimaciones puntuales o Estimaciones intervalares (intervalos de confianza) o Prueba de hipótesis


Similar Free PDFs