Libro guía Estadística II PDF

Title Libro guía Estadística II
Author Karen Ballesreros
Course Estadística II
Institution Universidad Tecnológica de Pereira
Pages 104
File Size 3 MB
File Type PDF
Total Downloads 70
Total Views 128

Summary

guia estadistica 2...


Description

Texto guía – Estadística I (Inferencia Estadística)

1

CAPITULO I MUESTREO: ESTADÍSTICOS Y SUS DISTRIBUCIONES 1.1. Definiciones 1.1.1. Población En estadística 1 , el conjunto de resultados posibles de un fenómeno, o experimento, también el conjunto de elementos con una o más características comunes, recibe el nombre de población (universo o colectivo que en la práctica es finito). Elemento es cada uno de los componentes de la población. El tamaño de la población se denota por N. Toda población se caracteriza probabilísticamente por variables aleatorias y éstas por su campo de variación y distribuciones de probabilidad. Ejemplo: Caracterizar el estudiante típico de la Facultad de Ingeniería Industrial de la Universidad Tecnológica de Pereira, suponiendo que el estudio se realiza en 2004, la población será los estudiantes matriculados a los programas de la facultad en ese año (700), ¿pregunta incluye postgrado y pregrado?, si es solo pregrado restamos postgrado (150) y se tiene entonces xx elementos en nuestra población de interés Ahora que variables interesa medir a cada elemento de la población: Edad, género, estatura, peso, No de calzado, plata en el bolsillo, veces que practica ejercicio en la semana, mecanismo de transporte que usa para llegar a la universidad, tiempo en minutos que tarda en viajar entre su casa y la U, entre otras. 1.1.2. Muestra Es un subconjunto de una población que conserva sus mismas características, su tamaño se denota por n. Si tomamos todas las muestras posibles que se pueden generar (ver ecuación 1), ellas constituyen el espacio muestral que llamamos . El número de muestras posibles de tamaño n que pueden ser obtenidas de una población de tamaño N es: NCn, es decir:

1

La Estadística es un método general, un lenguaje común, referido a conjuntos y sus relaciones, sirve para obtener conclusiones probables de poblaciones imperfectamente conocidas. M.G. Kendall

Texto guía – Estadística I (Inferencia Estadística)

NCn 

N! ( N  n)! n!

2

Ecuación 1

Una muestra puede ser vista como un espacio n dimensional con las coordenadas x1, x2,...,xn

x  x 1 , x 2 , x 3 ,..., x n x   La relación que existe entre población y muestra en estadística, es que esta última puede ser representativa de la primera (y de hecho la muestra es un subconjunto de la población) siempre que conserve sus mismas características. La muestra es representativa de la población cuando ha sido elegida de manera objetiva, es decir, aleatoriamente. Si la muestra es aleatoria, significa que el azar2 está presente y el azar suprime la voluntad o inteligencia del hombre. La aleatoriedad se relaciona con la probabilidad conocida de antemano que tiene un elemento de ser elegido en la muestra. En el muestreo aleatorio simple existe equiprobabilidad para los diferentes elementos. Cuando comienza el cálculo de probabilidades, por ejemplo en el Liber de Ludo Aleae de Cardano, se relaciona la aleatoriedad con la equiprobabilidad de los diferentes resultados, es decir, un fenómeno sería aleatorio si todos los resultados son igualmente probables. Esta definición se aceptó con facilidad, por que los primeros desarrollos del cálculo de probabilidades estuvieron muy ligados a los juegos de azar, en donde el número de posibilidades es finito y el principio de indiferencia de las diferentes posibilidades puede considerarse razonable. Hacia finales del siglo XVIII y principios del XIX se amplía el número de situaciones consideradas aleatorias, incluyendo no solo los juegos de azar, sino muchos fenómenos naturales. Paralelamente, se produce un cambio en el concepto de aleatoriedad, que se hace progresivamente más formalizado, introduciendo la idea de “independencia”, que se considera imprescindible para asegurar la aleatoriedad de un suceso en experimentos repetidos (Batanero, Carmen. Didáctica de la estadística, 2001) .

Ejemplo: Se tiene una población de 100 bolas: 90 de color azul y 10 de color rojo, para que una muestra sea representativa de esta población, deberá contener bolas con colores en la misma proporción. Si se extraen 10 bolas de dicha población y se obtiene 8 bolas azules y 2 rojas. Esta desviación de la muestra es debido al proceso de selección, desviación que no invalida los resultados para hacer inferencias con respecto a la población siempre y cuando estas diferencias no sean sistemáticas.

Azar: Del árabe zahr, flor en una cara del dado balanceado que se usaba en los juegos de mesa o hechar suertes.

2

Texto guía – Estadística I (Inferencia Estadística)

3

1.2. Tipos de muestreo Las muestras pueden ser aleatorias, situación que las convierte en probabilísticas. Para garantizar la representatividad muestral ésta debe ser elegida aleatoriamente (es decir, objetivamente), esto permitirá cuantificar la probabilidad de error que se puede cometer al estimar un parámetro con los resultados de una muestra.

Con reemplazo Probabilístico (Aleatorio) Sin reemplazo

Muestreo No probabilística (A conveniencia) 1.2.1. Muestreo con reemplazo

Conduce a que los elementos de la muestra sean probabilísticamente independientes. El elemento elegido de la muestra es observado en sus características de interés y regresa nuevamente a la población antes de elegir el siguiente elemento, conservando así, intacto el número de componentes de la población y la probabilidad en la elección. 1.2.2. Muestreo sin reemplazo Los elementos de la muestra no son independientes, es decir, a medida que extraigo un elemento para la muestra, queda excluido de la población para la siguiente extracción, afectando el espacio muestral. Cuando no todos los elementos de la población tienen igual oportunidad de ser seleccionados. La materia de inferencia estadística se basa en el muestreo con reemplazo. El concepto de muestra nos introduce en la inferencia estadística estableciendo otro puente entre estadística y probabilidad. Esta idea es muy importante porque todo nuestro conocimiento y juicios sobre el mundo o las personas se basan en el muestreo. El conocimiento científico se adquiere a partir de las experiencias empíricas y estas son siempre limitadas. La idea de muestreo tiene en sí dos características contradictorias: representatividad y variabilidad: La representatividad indica que la muestra se parece a la población. La variabilidad indica que una muestra puede ser diferente de otra. (Batanero, 2000)

Ejemplo: Si en el ejemplo anterior tomamos una muestra de tamaño 2 y el muestreo se efectúa con reemplazo la probabilidad de tomar una bola azul es de (90/100) y la segunda bola extraída tendrá una probabilidad de (90/100); si el muestreo se hace sin reemplazo. Las probabilidades serían las siguientes:

Texto guía – Estadística I (Inferencia Estadística)

4

a) Primera extracción (90/100) b) Segunda Extracción (89/99) Distribución de probabilidad: de una variable aleatoria X es una descripción de las probabilidades asociadas con los valores posibles que toma X. Para una variable aleatoria discreta, se específica comúnmente la distribución con una lista de los valores posibles y al frente de cada uno la probabilidad correspondiente. En algunos casos resulta conveniente expresar la probabilidad en términos de una fórmula. (Montgomery, 2002) Ejemplo: Si tenemos 100 bolas de las mismas características, numeradas 1, 2, 3, con la siguiente frecuencia: 20 con el número 1, 30 con el 2 y 50 con el 3. Hallar el espacio muestral y la distribución de probabilidad en el muestreo, si se realiza la extracción de dos bolas con reemplazo y luego sin reemplazo. 1.2.3. Con reemplazo. El número de puntos del espacio muestral está dado por: N n, es decir, N: número de elementos distintos en la población, elevado a la n, tamaño de la muestra. Ω = {(1,1), (1,2), (1,3), (2,1), (2,2), (2,3), (3,1), (3,2), (3,3)} Punto muestral 1,1 1,2 1,3 2,1 2,2 2,3 3,1 3,2 3,3

Probabilidad asociada p (1,1) = p (1) * p (1) = (20/100)*(20/100) = 0.04 p (1,2) = p (1) * p (2) = (20/100)*(30/100) = 0.06 p (1,3) = p (1) * p (3) = (20/100)*(50/100) = 0.10 p (2,1) = p (2) * p (1) = (30/100)*(20/100) = 0.06 p (2,2) = p (2) * p (2) = (30/100)*(30/100) = 0.09 p (2,3) = p (2) * p (3) = (30/100)*(50/100) = 0.15 p (3,1) = p (3) * p (1) = (50/100)*(20/100) = 0.10 p (3,2) = p (3) * p (2) = (50/100)*(30/100) = 0.15 p (3,3) = p (3) * p (3) = (30/100)*(30/100) = 0.25

Nota: p(A‫ח‬B)=p(A)*p(B), cuando los eventos A y B son independientes

1.2.4. Sin reemplazo o sin sustitución Ω = {(1,1), (1,2), (1,3), (2,1), (2,2), (2,3), (3,1), (3,2), (3,3)} Punto muestral 1,1 1,2 1,3

Probabilidad asociada P (1,1) = p (1) * p (1) / p (1) = (20/100) * (19/99) = 0.0384 P (1,2) = p (1) * p (2) / p (1) = (20/100) * (30/99) = 0.0606 P (1,3) = p (1) * p (3) / p (1) = (20/100) * (50/99) = 0.1010

Texto guía – Estadística I (Inferencia Estadística)

2,1 2,2 2,3 3,1 3,2 3,3

P (2,1) = p (2) * p P (2,2) = p (2) * p P (2,3) = p (2) * p P (3,1) = p (3) * p P (3,2) = p (3) * p P (3,3) = p (3) * p

5

(1) / p (2) = (30/100) * (20/99) = 0.0606 (2) / p (2) = (30/100) * (29/99) = 0.0878 (3) / p (2) = (30/100) * (50/99) = 0.1515 (1) / p (3) = (50/100) * (20/99) = 0.1010 (2) / p (3) = (50/100) * (30/99) = 0.1515 (3) / p (3) = (50/100) * (49/99) = 0.2475

Nota: p(A‫ח‬B)=p(A)*p(B/A), cuando los eventos A y B son dependientes

En el ejercicio anterior puede observarse que al comparar los dos muestreos las probabilidades se diferencian en una pequeña proporción. 1.2.5. Variable Aleatoria Variable aleatoria es una magnitud que puede tomar varios valores, cotidianamente tenemos experiencias con variables aleatorias, ejemplo: el tiempo que me demoro esperando el bus para ir a la universidad, el tiempo que me demoro en el recorrido entre la casa y la universidad. Las variables aleatorias pueden ser discretas y continuas, las primeras son aquellas cuyo conjunto de resultados es contable, por su parte las continuas toman su conjunto de valores en una escala continua. Ejercicio: clasifique las siguientes variables aleatorias como discretas o continuas: variable aleatoria Número de Km. que puede recorrer un vehículo con 5 galones de gasolina

tipo

El tiempo invertido para hacer 4 jugadas en un tablero de ajedrez El número de accidentes que se presentan en un cruce La cantidad de leche que produce al año una vaca específica El número de huevos que pone una gallina cada mes El número de licencias de conducción que se asignan cada mes en Pereira

Cuando en un experimento no interesan los detalles del espacio muestral, sino la descripción numérica del resultado, por ejemplo: al lanzar la moneda tres veces no me interesa los 8 puntos del espacio muestral, sino el número de caras que pueden darse en esos 8 resultados Ω = {(c,c,c), (c,c,s), (c,s,c), (s,c,c), (c,s,s), (s,c,s), (s,s,c), (s,s,s)} En este caso la variable aleatoria, X, número de caras puede tomar los valores 0,1, 2 y 3

Texto guía – Estadística I (Inferencia Estadística)

6

En el modelo de variable aleatoria hay tres conceptos básicos: su distribución, media y varianza. Media, valor esperado o esperanza matemática es la media aritmética de los valores que toma la variable aleatoria si el experimento se repite en condiciones similares. Varianza se relaciona con la variabilidad o desviación de los datos con respecto a la media Distribución se refiere a la forma como se organizan los distintos valores que toma la variable aleatoria de acuerdo con la frecuencia de ocurrencia 1.2.5. Distribución de probabilidad discreta La variable aleatoria toma cada uno de sus valores con cierta probabilidad, en el caso de la moneda lanzada 3 veces: xi P(X=xi)

0 1/8

1 3/8

2 3/8

3 1/8

Al conjunto de pares ordenados x, f(x)= P(X=x i), se le conoce como función de probabilidad o distribución de probabilidad de la variable aleatoria X discreta si para cada posible resultado x: 1. f(x) ≥ 0 2. Σf(x) = 1 3. P(X=xi)= f(x)

(La probabilidad de ocurrencia del valor es como mínimo 0) (la suma de las probabilidades de todos los valores de X es 1) (f(x) es la probabilidad asociada cada valor de X)

Diagrama de barras

Texto guía – Estadística I (Inferencia Estadística)

7

1.2.5. Distribución de probabilidad continúa La variable aleatoria continua tiene probabilidad cero de tomar exactamente cualquiera de sus valores. Casos como estatura de las personas, peso, edad, ingreso, carga que soporta una viga, milímetros cúbicos de lluvia, etc. Estas variables toman valores en intervalos. Usando la notación funcional, f(x) es la función de densidad de probabilidad de la variable aleatoria X y se construye de tal manera que el área bajo la curva limitada por el eje de las x sea igual a 1 en el rango de X para el que se ha definido f(x). Esta función está definida en el conjunto de los números reales y cumple que 1. f(x) ≥ 0 2. ∫f(x)dx=1 3. p(a=30 (finita o infinita) con media  y varianza 2/n el estadístico X se distribuye normal con media μ y varianza σ2 si el tamaño de la muestra es grande n→∞. De la definición anterior se tiene que Z = (X -μ)/ (σ / n ) tiene una distribución normal estándar. Analizando que tan grande debe ser n para tener una buena aproximación a la normal de X se dará el siguiente ejemplo: en el lanzamiento de un dado su distribución es discreta y uniforme. 1 P X1 

6

Texto guía – Estadística I (Inferencia Estadística) 20

Para tamaños de muestras menores se logra una buena aproximación a la normal si la distribución de la población es continua, unimodal y simétrica. Si la distribución de la población no cumple estas condiciones bastará con muestras mayores a 30 para obtener una buena aproximación a la normal por parte de X Ejemplo 1: Una compañía electrónica fabrica resistores que tienen una resistencia promedio de 100 y una desviación estándar de 10 . La distribución de la resistencia es normal. Encuentre la probabilidad de que al tomar una muestra n =25 resistores, la resistencia promedio de ésta será menor que 95 .

Z

σ = 10 Ω



X



σ

  2 .5

n P (X  95 )  P ( Z   2 .5 )  0 . 0062 95 100 Z    2 .5 2

µ=100Ω

 X 

 n



10 25

2

 X =10 Ejemplo 2: En cierto municipio los salarios diarios por hora están distribuidos normal con media =1650 y desviación estándar de 950. Si se toma una muestra de tamaño 30 hallar las siguientes probabilidades: P ( X ≤2000) P ( X ≥1800) P (1500 ≤ X ≤1700) NOTA: A la desviación estándar de un estimador se le llama error estándar. Ejemplo 3: σ2 X = σ2/n; σx= σ/ n error estándar de estimador X . Como puede notarse si se aumenta el tamaño de muestra, el error estándar disminuye.

Texto guía – Estadística I (Inferencia Estadística) 21

2.1.4. Distribución muestral de diferencia de medias Supongamos que se tienen dos poblaciones normales con medias de 1, 2, y desviación estándar 1, 2, y que se sacan muestras de tamaño n1, n2. Utilizando el hecho de que combinaciones lineales de variables aleatorias normales independientes también es normal.

 X  X   X  X  1  2 1



2

2 X 1 X 2

1



2 X1

2



2 X2



 12 n1



 22 n2

Combinaciones lineales de variables aleatorias normales independientes también son normales. Población 1

Muestra

Población 2

Muestra

X 12 X 11 X 22 µ1 X 21 µ2 . . σ σ2 . . X n2 X n1 n2 X N ,2 X N1n1, 1 El número de restas posibles es (N1n1 ). (N2n2 ) número bastante grande si N y ni son grandes.

Si se tiene dos poblaciones independientes con medias 1, 2, y varianza σ12, σ 22, y si X 1 y X 2 son las medias de dos muestras aleatorias independientes de tamaño n 1 y n2 de estas poblaciones, entonces la distribución de muestreo de:

Z E ( X 1- X 2) = µ1-µ2 2 V ( X 1- X 2) =1 

n

Z 

1

 22 n

2

X 1  X 2  (1   2)

 1 2 / n 1  2 2 / n 2

X 1  X 2  ( 1  2 ) 2 2  1 / n1   2 / n 2

Texto guía – Estadística I (Inferencia Estadística) 22

Es aproximadamente normal estándar si los tamaños de muestras son mayores a 30. Si las poblaciones son normales, el estadístico se distribuye normal aunque las muestras sean pequeñas (0

La distribución chi cuadrado con k grados de libertad X2 La media y la varianza de dicha distribución de probabilidad están dadas en función de los grados de libertad. =k 2=2k Para el cálculo de probabilidades con la chi cuadrado, debe resolverse la siguiente integral: 

P(x >  )  2 k

 f (u )du  

2

k

Estas probabilidades dan el porcentaje de la cola superior y aparecen en la tabla de la 2, así:

P(x>=20.05,10)=P(x>18.31)=0.05 18.31

X2 10

Texto guía – Estadística I (Inferencia Estadística) 26

P(x>=20.1,20)=P(x>28.41)=0.1 X220

28.41

2.1.6.1. Función de densidad de probabilidad para varios grados de libertad Teorema: Sea y1, y 2,..., yp variables aleatorias chi cuadrado independientes con k 1, k2,..., kp grados de libertad respectivamente. Entonces la cantidad y= y 1+y2+...+yp sigue una distribución chi cuadrado con k grados de libertad donde: p

k   ki i 1

Sea x1, x2,..., xn una muestra aleatoria tomada de una población normal, con media  y ( n 1 ) s2 esta distribuido como 2n-1. varianza 2. La función de la varianza muestral 2 Demostración: ( n - 1) s2

2 Si reemplazamos

por



( x

1

 x )2

2

 (x  en la ecuación anterior:

función es 2n debido a que

i

( xi  ) 2

2



 )

2

2

, la distribución de esta

es normal estándar e independiente.

Texto guía – Estadística I (Inferencia Estadística) 27

n

n

 (x   ) [(x  x) (x  )] 2

2

0

i

i

i 1

i1

n

n

n

n

(x  ) (x  x) (x )  2(x  x)(x  ) 2

2

i

i

i

i1

i1

n

 (x i 1

i 1

i

i1

  ) 2   ( xi  x ) 2  n ( x   ) 2 i 1

 (x  )

n

2

i

i1



2 n

i

 )



( xi - x)2

i n

2



n( x -  )2

2

n

2



i 1

2



(x

( x i  x )2

i 1

2

n

i



(x   ) 2  2 n

 )2

i 1

Como

i

n

n

 (x

2

2

 x ; 2 n

 x   )2



2

 x 12

n

(x - x)2 Por ser la Chi cuadrado aditiva entonces:

Es una Chi cuadrado con n-1 grados de libertad



2

 x 2n1

Texto guía – Estadística I (In...


Similar Free PDFs