Prueba DE Hipotesis CON 2 Muestras Y Varias Muestras DE Datos Numericos PDF

Title Prueba DE Hipotesis CON 2 Muestras Y Varias Muestras DE Datos Numericos
Author Michelle Ramirez
Course algebra lineal
Institution Instituto Tecnológico de Nuevo Laredo
Pages 36
File Size 1.4 MB
File Type PDF
Total Downloads 492
Total Views 1,012

Summary

PROCESO DE INVESTIGACION EN ESTADISTICA INFERENCIAL IIINSTITUTO TECNOLOGICO DE NUEVO LAREDOPresenta:ERANDI MICHELLE RAMIREZ RIVERA18100589Catedrático:MES. PABLO DANIEL LUGO AMADORDocumento a presentar:Investigación, unidad IVPrueba de hipótesis con dos muestras y varias muestras con datos categórico...


Description

1

PROCESO DE INVESTIGACION EN ESTADISTICA INFERENCIAL II

INSTITUTO TECNOLOGICO DE NUEVO LAREDO

Presenta: ERANDI MICHELLE RAMIREZ RIVERA 18100589

Catedrático: MES. PABLO DANIEL LUGO AMADOR

Documento a presentar:

Investigación, unidad IV

Prueba de hipótesis con dos muestras y varias muestras con datos categóricos.

Nuevo Laredo, Tamaulipas.

Viernes 05 de mayo del 2020.

2

Introducción. En esta investigación se estudió la metodología básica necesaria al realizar pruebas de hipótesis para las medias correspondientes a 2 poblaciones y se revisaron las pruebas para la diferencia entre 2 medias en diversas circunstancias: Con muestras grandes e independientes, cuando se conocen y cuando no se conocen las varianzas correspondientes a las 2 poblaciones. Además, se explican 2 casos para esta última circunstancia, cuando no se conocen las varianzas; podemos asumir que son iguales, y no puede asumirse que lo sean. Las pruebas para 2 poblaciones con muestras pequeñas e independientes, variables distribuidas normalmente, cuando no se conocen las varianzas de las correspondientes poblaciones pueden asumirse que sean iguales, y no puede asegurarse que lo sean. Por cada tipo de prueba de hipótesis se puede calcular una prueba estadística apropiada. Esta prueba estadística mide el acercamiento del calor de la muestra (como un promedio) a la hipótesis nula. La prueba estadística, sigue una distribución estadística bien conocida (normal, etc.) O se puede desarrollar una distribución para la prueba estadística particular. La distribución apropiada de la prueba estadística se divide en dos regiones: una región de rechazo y una de no rechazo. Si la prueba estadística cae en esta última región no se puede rechazar la hipótesis nula y se llega a la conclusión de que el proceso funciona correctamente. Al tomar la decisión con respecto a la hipótesis nula, se debe determinar el valor critico en la distribución estadística que divide la región del rechazo (en la cual la hipótesis nula no se puede rechazar) de la región de rechazo. Ahora bien, el valor critico depende del tamaño de la región de rechazo.

3

Contenido Propiedades de las distribuciones t:........................................................................................6 Cuando se conocen las varianzas de 2 poblaciones................................................................8 Cuando no se conocen las varianzas, pero se asume que son iguales.....................................9 Cuando no se conocen las varianzas, pero se asume que son iguales.....................................9 Pruebas para muestras pareadas cuando no se conocen las varianzas pero no se necesita asumir que sean iguales.............................................................................................................12 4.2 DISTRIBUCION NORMAL Y T STUDENT................................................................17 Ejemplo 1:.........................................................................................................................17 Ejemplo 2:.........................................................................................................................17 Ejemplo 3:.........................................................................................................................18 4.4 COMPARACION DE DOS MUESTRAS INDEPENDIENTES: PRUEBAS T PARA LAS DIFERENCIAS ENTRE DOS MEDIAS..........................................................................18 1. Un gerente de producción desea................................................................................18 2. Un departamento de control.....................................................................................19 3. En 2 ciudades en las que existen...............................................................................20 4. Para la fabricación de una pieza...............................................................................20 5. En una facultad se imparten dos licenciaturas,........................................................21 6. Para probar la velocidad de combustión..................................................................21 4.5 PRUEBA DE FISHER PARA VARIANZAS Y DE IGUALDAD DE LAS VARIANZAS DE DOS POBLACIONES NORMALES..........................................................22

4

1. Se desea el grado de aprendizaje...............................................................................22 2. Un fabricante de automóviles pone a prueba...............................................................23 3. Una compañía fabrica propulsores para........................................................................23 4.6 COMPARACION DE DOS MUESTRAS PAREADAS................................................24 1. Un fabricante de automóviles recolecta datos...............................................................24 2. El director de la capacitación de una compañía.......................................................24 4.7 MODELO TOTALMENTE ALEATORIO: ANALISIS DE VARIANZA DE UN FACTOR....................................................................................................................................26 1. Los miembros de un equipo ciclista..............................................................................26 2. Una lista de palabras sin sentido...................................................................................28 3. Una lista de palabras sin sentido se presenta................................................................29 4. En un experimento se compararon tres métodos..........................................................31 5. Un exceso de ozono es una señal de contaminación.....................................................32 4.8 SELECCIÓN DEL TAMANO DE MUESTRA PARA ESTIMAR LA DIFERENCIA DE DOS MEDIAS.....................................................................................................................34 1. De una población de 1,176 adolescentes......................................................................34

5

4.2 DISTRIBUCION NORMAL Y T STUDENT.

En estadística y probabilidad se llama distribución normal, distribución de Gauss o distribución gaussiana, a una de las distribuciones de probabilidad de variable continua que con más frecuencia aparece en fenómenos reales. La gráfica de su función de densidad tiene una forma acampanada y es simétrica respecto de un determinado parámetro. Esta curva se conoce como campana de Gauss. La importancia de esta distribución radica en que permite modelar numerosos fenómenos naturales, sociales y psicológicos. Mientras que los mecanismos que subyacen a gran parte de este tipo de fenómenos son desconocidos, por la enorme cantidad de variables incontrolables que en ellos intervienen, el uso del modelo normal puede justificarse asumiendo que cada observación se obtiene como la suma de unas pocas causas independientes. De hecho, la estadística es un modelo matemático que sólo permite describir un fenómeno, sin explicación alguna. Para la explicación causal es preciso el diseño experimental, de ahí que al uso de la estadística en psicología y sociología sea conocido como método correlacional. La distribución normal también es importante por su relación con la estimación por mínimos cuadrados, uno de los métodos de estimación más simples y antiguos. La distribución normal también aparece en muchas áreas de la propia estadística. Por ejemplo, la distribución muestral de las medias muéstrales es aproximadamente normal, cuando la distribución de la población de la cual se extrae la muestra no es normal. Además, la distribución normal maximiza la entropía entre todas las distribuciones con media y varianza conocidas, lo cual la convierte en la elección natural de la distribución subyacente a una lista de

6

datos resumidos en términos de media muestral y varianza. La distribución normal es la más extendida en estadística y muchos test estadísticos están basados en una supuesta "normalidad". En probabilidad y estadística, la distribución t (de Student) es una distribución de probabilidad que surge del problema de estimar la media de una población normalmente distribuida cuando el tamaño de la muestra es pequeño. Aparece de manera natural al realizar la prueba t de Student para la determinación de las diferencias entre dos medias muestrales y para la construcción del intervalo de confianza para la diferencia entre las medias de dos poblaciones cuando se desconoce la desviación típica de una población y ésta debe ser estimada a partir de los datos de una muestra. Propiedades de las distribuciones t: 1. Cada curva t tiene forma de campana con centro en 0. 2. Cada curva t, está más dispersa que la curva normal estándar z. 3. A medida que

aumenta, la dispersión de la curva t correspondiente disminuye.

4. A medida que , la secuencia de curvas t se aproxima a la curva normal estándar, por lo que la curva z recibe a veces el nombre de curva t con gl = La distribución de la variable aleatoria t está dada por:

Esta se conoce como la distribución t con

grados de libertad.

Sean X1, X2, . . . , Xn variables aleatorias independientes que son todas normales con media y desviación estándar .

Entonces la variable aleatoria libertad.

tiene una distribución t con

= n-1 grados de

7

La distribución de probabilidad de t se publicó por primera vez en 1908 en un artículo de W. S. Gosset. En esa época, Gosset era empleado de una cervecería irlandesa que desaprobaba la publicación de investigaciones de sus empleados. Para evadir esta prohibición, publicó su trabajo en secreto bajo el nombre de "Student". En consecuencia, la distribución t normalmente se llama distribución t de Student, o simplemente distribución t. Para derivar la ecuación de esta distribución, Gosset supone que las muestras se seleccionan de una población normal. Aunque esto parecería una suposición muy restrictiva, se puede mostrar que las poblaciones no normales que poseen distribuciones en forma casi de campana aún proporcionan valores de t que se aproximan muy de cerca a la distribución t. La distribución t difiere de la de Z en que la varianza de t depende del tamaño de la muestra y siempre es mayor a uno. Unicamente cuando el tamaño de la muestra tiende a infinito las dos distribuciones serán las mismas.

Se acostumbra representar con el valor t por arriba del cual se encuentra un área igual a . Como la distribución t es simétrica alrededor de una media de cero, tenemos ; es decir, el valor t que deja un área de a la derecha y por tanto un área de a la izquierda, es igual al valor t negativo que deja un área de en la cola derecha de la distribución. Esto es, t0.95 = -t0.05, t0.99=-t0.01, etc. Para encontrar los valores de t se utilizará la tabla de valores críticos de la distribución t del libro Probabilidad y Estadística para Ingenieros de los autores Walpole, Myers y Myers. Ejemplo: El valor t con = 14 grados de libertad que deja un área de 0.025 a la izquierda, y por tanto un área de 0.975 a la derecha, es

Si se observa la tabla, el área sombreada de la curva es de la cola derecha, es por esto que se tiene que hacer la resta de . La manera de encontrar el valor de t es buscar el valor de en el primer renglón de la tabla y luego buscar los grados de libertad en la primera columna y donde se intercepten

y

se obtendrá el valor de t.

8

4.3 PRUEBAS DE SIGNIFICANCIA.

Las pruebas de significancia estadística son un procedimiento que brinda un criterio objetivo para calificar las diferencias que presentan al comparar los resultados de dos muestras, con el objetivo de explicar si dichas diferencias se mantienen dentro de los limites previstos por el diseño estadístico (un error y una confianza esperados) o si, por el contrario, la diferencia entre ellas resulta lo suficiente grande como para inferir que ha ocurrido un cambio real en el indicador.

4.4 COMPARACIÓN DE DOS MUESTRAS INDEPENDIENTES PARA LAS DIFERENCIAS ENTRE DOS MEDIAS.

Cuando se conocen las varianzas de 2 poblaciones. si se trata de muestras grandes e independientes y si se conocen las verdaderas varianzas de las poblaciones correspondientes, el estadístico de prueba es la ya conocida z estandarizada de la distribución normal que para 2 poblaciones se calcula como:

Pero como la hipótesis nula plantea que:

La expresión se convierte en:

9

Sin embargo, el caso más común es que no se conozcan las varianzas, entonces se utilizan la de las muestras para estimarlas, y el procedimiento es exactamente igual. Como se menciona en el párrafo anterior, la única diferencia entre las fórmulas para calcular el estadístico de prueba y el error estándar de la diferencia entre 2 medias, cuando se utilizan datos muestrales es que se sustituye S cuadrada por O cuadrada y S sub X 1 menos sub S 2 por O sub x 1 menos sub x 2 de la siguiente manera:

Cuando no se conocen las varianzas, pero se asume que son iguales. En estas condiciones, el estadístico de prueba sigue siendo Z de la distribución normal estándar:

Pero ahora, como se supone que las varianzas de las 2 poblaciones son iguales, se combinan las varianzas muestrales de la siguiente manera:

Nótese que esta forma de combinar las varianzas muestrales es una forma de ponderación, en donde los pesos son los respectivos tamaños de muestra. Una vez realizada la combinación de varianzas, se calcula el error estándar de la diferencia de medias de la misma manera que se hizo antes pero ahora utilizando la varianza combinada S c2

10

Cuando no se conocen las varianzas, pero se asume que son iguales.

En estos casos estas circunstancias, el estadístico de prueba apropiado es la t Student: t=

( X´ 1 − X´ 2) −( μ1−μ 2) Sx − x 1

2

Pero, de nuevo, como la hipótesis nula plantea que: Ho: μ1−μ 2=0

La expresión se convierte en: ´ 2) (X´ − X t= 1 S x −x Con n1 + n2−2 grados de libertad 1

2

Al igual que antes, cuando es asumido que las dos varianzas poblacionales son iguales, estas se combinan, como en la formula anterior:

El error estándar de la diferencia entre dos medias, que es la fórmula anterior:



Sc 2 S c 2 + Sx −x = n1 n 2 1

2

4.5 PRUEBA DE FISHER PARA VARIANZAS Y DE IGUALDAD DE LAS VARIANZAS DE DOS POBLACIONES NORMALES. Para probar si existe o no la diferencia entre las varianzas de dos poblaciones puede utilizarse como estadístico de prueba de F de la distribución de F de Fisher, llamada así en honor del destacado estadístico Ronald Aylmer Fisher, que se calcula como el cociente de las varianzas de dos poblaciones: F=

σ21 σ2 2

11

Que sería la expresión teoría de F. Y el valor calculado de F a partir de las varianzas muestrales: F

cal =

S 12 2

S2

La prueba se lleva a cabo sobre la diferencia hipotética entre dos varianzas poblacionales: Ho=σ 12 −σ 2 2=0 ; para realizarla se obtienen las varianzas de dos muestras tomadas de dos poblaciones diferentes. En otras palabras, esta prueba se realiza para las poblaciones independientes, las que suele identificarse como 1 y 2. Las dos varianzas muestrales son las que se utilizan como base para hacer inferencias sobre sus correspondientes parámetros. 2

2 Si puede asumirse que las dos varianzas poblacionales son iguales, σ 1=σ 2 , entonces se utiliza como estadístico de prueba, la distribución F con n1−1 grados de libertad para el numerador y n1−1 grados de libertad para el denominador; ya que el estadístico de prueba se calcula con los datos muestrales se construye un cociente.

La distribución F no es una distribución simétrica; esta sesgada a la derecha y su forma específica depende de los grados de libertad tanto del numerador como del denominador. A su vez cada tabla tiene como encabezados las columnas los grados de libertad del numerador y en los renglones los grados de libertad del denominador. Así, para un área de 0.05 en el extremo derecho de esta distribución con 10 grados de libertad en el numerador y 20 en el denominador, el valor de F es igual a 2.35. Este valor quiere decir que, dados esos grados de libertad, la probabilidad de que la F sea igual o mayor de 2.35 es de 0.05 o de 5%. Esto mismo en símbolos: P ( F ≥2.35|gl1=10, gl 2=20 ) =0.05

Tal como puede apreciarse, al tratarse de una distribución asimétrica, la tabla de distribución F no muestra valores de probabilidad para el lado izquierdo y estos se requieren cuando la prueba que se está realizando es de dos extremos ( ≠ ¿ extremo y la región de rechazo está en el lado izquierdo.

o cuando es de un

En estos casos para determinar los valores no mostrados, lo que se hace es utilizar el inverso del valor correspondiente de las talas, invirtiendo el orden de los grados de libertad en símbolos: F

1−a , gl 2, gl 1 =

1 F 1− a,gl

2,

gl1

12

4.6 COMPARACION DE DOS MIESTRAS PAREADAS.

Pruebas para muestras pareadas cuando no se conocen las varianzas pero no se necesita asumir que sean iguales

Se analizó el caso de una prueba para la diferencia entre 2 medias provenientes de poblaciones independientes. Aquí se analizará el caso de la diferencia entre 2 medias provenientes de poblaciones pareadas o relacionadas. Es importante tener presentes las circunstancias de estos casos: • Se trata de muestras pareadas. • Los tamaños de muestras son pequeños. • La variable se distribuye de forma normal en la población. En este caso, la prueba se convierte en una prueba sobre la diferencia entre las observaciones, ya que se calculan las diferencias entre: 1. Dos individuos de la misma especie sometidos a tratamientos diferentes (pareamiento de individuos según una característica de interés). 2. Dos mediciones hechas a los mismos individuos.

La media de la diferencia es: Σ Di ´ D= n Con el teorema del límite central, el promedio de las diferencias sigue una distribución normal cuando se conoce la varianza de las diferencias y n es grande. Pero generalmente no se conoce la varianza de las diferencias, entonces se estima:

S=



n

´ 2 ∑ (Di − D) i=1

n−1

El error estándar de las diferencias pareadas es: D´ SD= √n

13

Con muestras pequeñas, el estadístico de prueba es: ´ D t n−1 = SD Con n-1 grados de libertad. Nótese que aquí cambian los grados de libertad, al tratarse de muestras pareadas.

4.7 MODELO TOTALMENTE ALEATORIO: ANALISIS DE VARIANZA DE UN FACTOR.

n2 , Se extraen dos muestras aleatorias independientes de tamaño n1 y 2 respectivamente, de dos poblaciones con medias μ1 y μ2 , y varianzas σ 1 y 2 σ 2 . Sabemos que la variable aleatoria tiene una distribución normal estándar.

z=

( X´ 1− X´ 2 )−( μ1−μ2 )



2

2

σ1 σ2 + n 1 n2

Suponemos que n1 y n2 son suficientemente grandes, por lo que se aplica el teorema del limite central. Por supuesto, si las dos poblaciones son normales, el n2 estadístico anterior tiene una distribución normal estándar aun para n1 y pequeñas. Evidentemente, si podemos suponer que σ 1=σ 2=σ , el estadístico anterior se reduce a z=

( X´ 1− X´ 2 )−( μ1−μ2 ) σ



1 1 + n1 n 2

Los dos estadísticos anteriores sirven como base para el desarrollo de los procedimientos de prueba que incluyen dos medias. La equivalencia con el intervalo de confianza y facilidad de la transición del caso de pruebas sobre una sola media hacen que esto sea sencillo. La hipótesis bilateral sobre dos medias se escribe con bastante genera...


Similar Free PDFs