Clase 03- Estadistica 3 - DCA PDF

Title Clase 03- Estadistica 3 - DCA
Author Rodrigo Armando Pujada Pacora
Course Estadística Y Probabilidades
Institution Universidad Nacional de Ingeniería
Pages 11
File Size 446.1 KB
File Type PDF
Total Downloads 24
Total Views 133

Summary

Download Clase 03- Estadistica 3 - DCA PDF


Description

ANÁLISIS DE VARIANZA Conceptos de Análisis de Varianza Experimento:

Es un cambio en las condiciones de operación de un proceso que se realiza con la finalidad de medir el efecto del cambio en una o más propiedades del producto o resultado.

Unidad de Análisis:

Pieza (s) o muestra (s) que se emplea para generar un valor que sea representativo del resultado de la prueba.

Factor:

Variable del proceso o característica de los materiales experimentales.

Nivel:

Son los diferentes valores que se asignan a cada factor.

Tratamientos:

Son una combinación de niveles de todos los factores en estudio. Ejemplo: Si en un experimento se estudia la influencia de la velocidad y la temperatura y se decide probar cada una en dos niveles, entonces cada combinación

Variable Respuesta:

A través de estas variables se conoce el efecto o los resultados de cada prueba experimental. Se denotan generalmente con 𝑌𝑖𝑗 y son la salida de un proceso.

En el estudio experimental de un fenómeno se plantea una hipotesis para cuya prueba se diseña un procedimiento de ejecución llamado Diseño de Experimentos. Diseño de Experimento (Design of Experiments - DOE) su metodología tiene como fin comparar los efectos de las diferentes variables experimentales independientes (factores) sobre una variable independiente (variable respuesta). Los resultados de DOE se resumen en cuadros de: Análisis de Varianza Tabla de comparación de medias

Análisis de Varianza

Es la técnica central en el diseño de experimentos, tiene la capacidad de comparar la igualdad de 𝐾 medias (𝜇1 , 𝜇2 , … , 𝜇𝑘 ) utilizando un solo estadístico de prueba.

Consiste en separar la variación o variabilidad total observada en las partes con las que contribuye cada fuente de variación en el experimento.

ANÁLISIS DE VARIANZA CON UN SOLO FACTOR

Dentro del diseño de experimentos, el diseño más elemental es el Diseño Completamente Aleatorio (DCA) que se utiliza para comparar 2 o más tratamientos, dado que solo se consideran dos fuentes de variabilidad la de los tratamientos y la de los errores.

Sean "𝑘" tratamientos o niveles (En un DCA tratamientos = niveles) diferentes de un solo factor que se desean compara. La respuesta observada cada uno de los k tratamientos es una variable aleatoria. En la siguiente tabla 𝑌𝑖𝑗 representa la observación j-ésimo tomada bajo el i-ésimo tratamiento del factor. Datos típicos para un experimento unifactorial Tratamiento (Nivel) 1

Observaciones

Tamaño

𝑌11 𝑌12 … 𝑌1𝑛

𝑛1

Promedios

𝑌1.

𝑌1.





𝑌21 𝑌22 … 𝑌2𝑛

𝑖

𝑌𝑖1 𝑌𝑖2 … 𝑌𝑖𝑛

𝑛𝑖

𝑌𝑖.

𝑌𝑖.

𝑘

𝑌𝑘1 𝑌𝑘2 … 𝑌𝑘𝑛

𝑛𝑘

𝑌𝑘.

𝑌𝑘.







Donde:

∑ 𝑘𝑖=1 𝑛𝑖 = 𝑁

𝑌2.

𝑌2.

2 ⋮

𝑛2

Totales



𝑌..



𝑌..

𝑌𝑖. : Suma de las observaciones del tratamiento 𝑖

𝑖. : Media de las observaciones del i-ésimo tratamiento 𝑌

𝑌.. : Suma total de observaciones

.. : Media Global de todas las observaciones 𝑌

Como el caso es balanceado entonces: 𝑛1 = 𝑛2 = ⋯ = 𝑛𝑘 = 𝑛 Número total de observaciones:

𝑁 = 𝑘∗𝑛

Ejemplo: Se realizo un estudio de ingeniería de transito sobre los retrasos en las intersecciones en las calles de una ciudad. Se usaron 3 tipos de semáforos: (1) Programado, (2) Semiactivado y (3) Activado. Se usaron 5 intersecciones para cada tipo de semáforo. La medida de retraso utilizada fue el promedio de tiempo de cada vehículo permanece detenido en cada intersección (s/v). Los datos son los siguientes: Objetivo:

Medir el retraso en las intersecciones en las calles.

Unidad Experimental:

Semáforo

Factor:

Tipos de semáforo

Tratamiento o nivel: Numero de replicas:

𝑘 =3{

𝑛=5

𝑝𝑟𝑜𝑔𝑟𝑎𝑚𝑎𝑑𝑜 𝑠𝑒𝑚𝑖𝑎𝑐𝑡𝑖𝑣𝑎𝑑𝑜 𝑎𝑐𝑡𝑖𝑣𝑎𝑑𝑜 Modelo de Análisis de Varianza de un Factor

La siguiente expresión representa el modelo de las medias

𝑌𝑖𝑗 : es la (ij)-ésimo observación

𝑌𝑖𝑗 = 𝜇𝑖 + 𝜀𝑖𝑗

𝑖 = 1,2, … , 𝑘 { 𝑗 = 1,2, … , 𝑛

𝜇𝑖 : es la media del nivel del factor o tratamiento i-ésimo

𝜀𝑖𝑗 : es la componente aleatoria del error

𝑘 = 𝑁ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑡𝑟𝑎𝑡𝑎𝑚𝑖𝑒𝑛𝑡𝑜𝑠 𝑜 𝑛𝑖𝑣𝑒𝑙𝑒𝑠 𝑑𝑖𝑓𝑒𝑟𝑒𝑛𝑡𝑒𝑠 𝑑𝑒 𝑢𝑛 𝑠𝑜𝑙𝑜 𝑓𝑎𝑐𝑡𝑜𝑟 𝑛 = 𝑁ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑐𝑖𝑜𝑛𝑒𝑠 𝑝𝑜𝑟 𝑡𝑟𝑎𝑡𝑎𝑚𝑖𝑒𝑛𝑡𝑜

Por otro lado, una forma alternativa de escribir un modelo de los datos es definiendo: 𝜇𝑖 = 𝜇 + 𝜏𝑖 ,

𝑖 = 1,2, … , 𝑘

La ecuación anterior se convierte en el modelo estadístico lineal para la clasificación de tratamientos de un factor, es decir DCA. 𝑖 = 1,2, … , 𝑘 𝑌𝑖𝑗 = 𝜇 + 𝜏𝑖 + 𝜀𝑖𝑗 = { 𝑗 = 1,2, … , 𝑛

𝜇: es un parámetro común a todos los tratamientos denominado media global

𝜏𝑖 : es un parámetro único para el i-ésimo tratamiento llamada efecto del tratamiento i-ésimo.

Factor Fijo o Aleatorio

El último modelo describe dos situaciones: a) Que los k tratamientos pudieron ser elegidos expresamente por el experimentador. En esta situación quieren probarse hipótesis acerca de las medias de los tratamientos y las conclusiones se aplicarán únicamente a los niveles del factor considerados en el análisis; es decir las conclusiones no pueden extenderse a tratamientos similares que no fueron considerados explícitamente. También se podría querer estimar los parámetros del modelo como 𝜇, 𝜏𝑖 , 𝜎 2 . A este modelo se llama Modelo de efectos fijos. b) Si los k tratamientos podrían ser una muestra aleatoria de una población más grande de tratamientos. En esta situación sería deseable poder extender las conclusiones a la totalidad de los tratamientos de la población. Aquí las 𝜏𝑖 son variables aleatorias y el conocimiento de las 𝜏𝑖 particulares que se investigaron es relativamente inútil. Más bien se prueba la hipótesis acerca de la variabilidad de las 𝜏𝑖 y se intenta estimar su variabilidad. A este modelo se le llama Modelo de efectos aleatorios o modelo de los componentes de varianza

El Diseño Completamente al Azar (DCA) y el ANOVA El DCA es el diseño mas simple de todos los diseños que se utilizan para comparar dos o mas tratamientos, dado que solo se consideran dos fuentes de variabilidad: Los tratamientos y los errores. El DCA se llama así porque todas las corridas experimentales se realizan en orden aleatorio completo. Se realiza el experimento DCA para comparar las poblaciones a través de la hipotesis de igualdad de medias El objetivo del análisis de varianza en el diseño completamente al azar (DCA) es probar la hipotesis de igualdad de los tratamientos con respecto a la media de la correspondiente variable respuesta. Supuestos del modelo Para probar las hipótesis se supone:

Que 𝜀𝑖𝑗 son independientes y están normalmente distribuidos 𝑁(0, 𝜎 2 ) donde 𝜎 2 es constante.

𝑌𝑖𝑗 son independientes 𝑁(𝜇 + 𝜏𝑖 , 𝜎 2 )

𝜏𝑖 ~𝑁𝐼𝐷(0, 𝜎𝜏2 ) donde 𝜎𝜏2 es constante

;

El interés se encuentra en probar la igualdad de las 𝑘 medias de los tratamientos; es decir, 𝐸(𝑌𝑖𝑗 ) = 𝜇 + 𝜏𝑖 = 𝜇𝑖 donde 𝑖 = 1,2, … , 𝑘 Las hipotesis apropiadas son: 𝐻0 : 𝜇1 = 𝜇2 = ⋯ = 𝜇𝑘 = 𝜇

vs.

𝐻1 : 𝜇𝑖 ≠ 𝜇𝑗 para al menos un par (𝑖, 𝑗)

vs.

𝐻1 : 𝜏𝑖 ≠ 0 para al menos un 𝑖

o equivalente a,

𝐻0 : 𝜏1 = 𝜏2 = ⋯ = 𝜏𝑘 = 0

Descomposición de Variabilidad Total Para probar las hipótesis dadas mediante la técnica de ANOVA, Análisis de Varianza, se debe descomponer la variabilidad total de los datos en sus dos componentes: La variabilidad de debida a los tratamientos y la que corresponde al error aleatorio En caso que los tratamientos tengan efecto, las observaciones 𝑌𝑖𝑗 de la tabla anterior se podrán describir con el siguiente modelo lineal 𝑌𝑖𝑗 = 𝜇𝑖 + 𝜀𝑖𝑗

(I)

Según la figura se tiene:

𝜏1 = 𝜇1 − 𝜇

𝜏2 = 𝜇2 − 𝜇



𝑌𝑖𝑗 = 𝜇 + 𝜏𝑖 + 𝜀𝑖𝑗

(III)

𝑌𝑖𝑗 − 𝜇 = 𝜏𝑖 + 𝜀𝑖𝑗

De ecuación (II) reemplazo 𝜏𝑖

𝜏𝑖 = 𝜇𝑖 − 𝜇

(II)

𝑌𝑖𝑗 − 𝜇 = (𝜇𝑖 − 𝜇) + 𝜀𝑖𝑗

De ecuación (I) reemplazo 𝜀𝑖𝑗 = 𝑌𝑖𝑗 − 𝜇𝑖

(𝑌𝑖𝑗 − 𝜇) = (𝜇𝑖 − 𝜇) + (𝑌𝑖𝑗 − 𝜇𝑖 )

Entonces:

𝑖. − 𝑌.. ) + (𝑌𝑖𝑗 − 𝑌𝑖. )] [(𝑌𝑖𝑗 − 𝑌.. )] = [(𝑌 2

.. es el promedio total y 𝑌𝑖. Es el promedio de cada tratamiento Donde: 𝑌 𝑘

2

2 𝑖. − 𝑌.. )2 + (𝑌𝑖𝑗 − 𝑌𝑖. )2 + 2(𝑌𝑖. − 𝑌.. )(𝑌𝑖𝑗 − 𝑌𝑖. ) [𝑌𝑖𝑗 − 𝑌.. ] = (𝑌

𝑛

2 2 ∑ ∑(𝑌𝑖𝑗 − 𝑌 .. ) = ∑ ∑(𝑌 𝑖. − 𝑌.. )2 + ∑ ∑(𝑌𝑖𝑗 − 𝑌 𝑖. ) + 2 ∑ ∑(𝑌 𝑖. − 𝑌.. )(𝑌𝑖𝑗 − 𝑌𝑖. )

𝑖=1 𝑗=1

De:

Luego

𝑘 = # 𝑑𝑒 𝑡𝑟𝑎𝑡𝑎𝑚𝑖𝑒𝑛𝑡𝑜𝑠

2 ∑ ∑(𝑌𝑖. − 𝑌.. )(𝑌𝑖𝑗 − 𝑌𝑖. ) 𝑛

𝑛

𝑗=1

𝑗=1

∑(𝑌𝑖𝑗 − 𝑌 𝑖. ) = ∑ 𝑌𝑖𝑗

2 ∑𝑘𝑖=1(𝑌𝑖. − 𝑌.. ) ∑𝑛𝑗=1 (𝑌𝑖𝑗 − 𝑌𝑖. )

= 𝑛

𝑛

𝑗=1

𝑗=1

− ∑ 𝑌 𝑖. = ∑ 𝑌𝑖𝑗

(𝑌𝑖1 + 𝑌𝑖2 + 𝑌𝑖3 + ⋯ 𝑌𝑖𝑛 ) - 𝑌𝑖. = 0 𝑌𝑖. - 𝑌𝑖. =0

𝑛

−∑

𝑌𝑖.

𝑗=1

𝑛

𝑛

= ∑ 𝑌𝑖𝑗 − 𝑗=1

𝑛 𝑌 𝑛 𝑖.

Por lo tanto:

Suma de cuadrados

=

Suma de cuadrados

Totales 𝑘

+ Suma de cuadrados

de los tratamientos

𝑛

𝑘

𝑘

𝑛

de error

𝑛

2 2 ∑ ∑(𝑌𝑖𝑗 − 𝑌 .. ) = ∑ ∑(𝑌 𝑖. − 𝑌.. )2 + ∑ ∑(𝑌𝑖𝑗 − 𝑌 𝑖. ) 𝑖=1 𝑗=1

𝑖=1 𝑗=1

𝑆𝐶𝐸 = 𝑆𝐶𝑇 − 𝑆𝐶𝑇𝑟𝑎𝑡

En general:

𝑖=1 𝑗=1

𝑆𝐶𝑇𝑜𝑡𝑎𝑙 = 𝑆𝐶𝑇𝑟𝑎𝑡 + 𝑆𝐶𝐸𝑟𝑟𝑜𝑟 Tabla de ANOVA para el DCA

Fuente de Variación Tratamientos (entre) Error (dentro de los tratamientos) Total

Suma de Cuadrados 𝑘 2 𝑌𝑖.

𝑆𝐶𝑇𝑟𝑎𝑡 = ∑

𝑖=1

𝑛𝑖



𝑌..2 𝑁



𝑌..2 𝑁

Grado de libertad 𝑘−1

𝑆𝐶𝐸 = 𝑆𝐶𝑇 − 𝑆𝐶𝑇𝑟𝑎𝑡 𝑘

𝑛𝑖

𝑆𝐶𝑇 = ∑ ∑ 𝑌𝑖𝑗

𝑖=1 𝑗=1

2

𝑁−𝑘

𝑁−1

Cuadrado medio 𝑆𝐶𝑇𝑟𝑎𝑡 𝐶𝑀𝑇𝑟𝑎𝑡 = 𝑘−1 𝐶𝑀𝐸 =

𝑆𝐶𝐸 𝑁−𝑘

𝐹0

𝐶𝑀𝑇𝑟𝑎𝑡 𝐶𝑀𝐸

Valor-p 𝑃(𝐹 > 𝐹0 )

Si 𝑛𝑖 = 𝑛 para todos los tratamientos entonces el diseño es balanceado (DCA)

En las ecuaciones anteriores se puede ver que las sumas de cuadrados son los numeradores de las varianzas respectivas, que el ANOVA las llama cuadrados medios. A partir de las dos sumatorias de cuadrados es posible obtener dos estimadores insesgados de la varianza poblacional, se puede demostrar que las medias de las muestras son iguales (𝐻0 : 𝑣𝑒𝑟𝑑𝑎𝑑𝑒𝑟𝑜) tanto como 𝑆𝐶𝑡𝑟𝑎𝑡 y la 𝑆𝐶𝐸𝑟𝑟𝑜𝑟 divididas entre sus respectivos grados de libertad proporcionan estimadores insesgados e independientes del chi-cuadrado. Dentro de los tratamientos se tiene que 2 𝑛 (𝑌𝑖𝑗 − 𝑌 𝑖. ) ∑∑ 𝑛−1 𝑘

𝑖=1 𝑗=1

Proporciona un estimador insesgado de varianza de su grupo y bajo el supuesto de que las varianzas todas son iguales se pueden ponderar las varianzas de los k-tratamientos para obtener. 2 ∑ 𝑘𝑖=1∑ 𝑛𝑗=1(𝑌𝑖𝑗 − 𝑌𝑖. )

∑𝑘𝑖=1 𝑛 − 1

=

∑ ∑(𝑌𝑖𝑗 − 𝑌𝑖. ) 𝑁−𝑘

2

2 = 𝐶𝑀𝐸𝑟𝑟𝑜𝑟 = 𝑆𝐸𝑟𝑟𝑜𝑟

Que es la varianza dentro de los tratamientos o varianza del error o cuadrados medios del error.

El segundo estimador 𝜎 2 , se obtiene de la varianza de medias conocida (teorema del limite central), se expresa como: 𝜎𝑋2 =

𝜎2 𝑛

𝜎 2 = 𝑛𝜎𝑋2

Pero un estimador insesgado del 𝜎𝑋2 calculado a partir de k muestras es: 𝑆𝑋2

𝑘

=∑

(𝑌 𝑖 − 𝑌.. )2 𝑘−1

𝑖=1

Donde: 𝑛𝑆𝑋2

(𝑌 𝑖 − 𝑌.. )2 𝑘−1

𝑘

= 𝑛∑

𝑖=1

Se puede ver que el numerador es la suma de cuadrados entre tratamientos. Esta suma de cuadrados entre los correspondientes grados de libertad es la llamada Varianza entre Tratamientos o Cuadrados Medios entre Tratamientos. Si la 𝐻0 es cierta se espera que estos dos estimadores del 𝜎 2 sean aproximadamente iguales y que el cociente, 2 𝐶𝑀𝑇𝑟𝑎𝑡 𝑆𝑇𝑟𝑎𝑡 = 2 𝑆𝐸𝑟𝑟𝑜𝑟 𝐶𝑀𝐸𝑟𝑟𝑜𝑟

Que es una variable de F y será la unidad o casi la unidad.

Por lo contrario, si 𝐻0 : falsa es decir si los efectos de los tratamientos no son nulos esto afectara significativamente menor que la unidad. Se rechaza 𝐶𝑀

𝐻0 : si 𝐶𝑀 𝑇𝑟𝑎𝑡 > 𝐹𝑡𝑎𝑏𝑙𝑎 𝐸𝑟𝑟𝑜𝑟

La estadística para probar la hipotesis de igualdad de medias de los tratamientos es: 𝐹0 =

𝑀𝑆𝑇𝑟𝑎𝑡𝑎𝑚𝑖𝑒𝑛𝑡𝑜𝑠 𝑆𝑆𝑇𝑟𝑎𝑡𝑎𝑚𝑖𝑒𝑛𝑡𝑜𝑠 /(𝑘 − 1) = 𝑆𝑆𝐸 /(𝑁 − 𝑎) 𝑀𝑆𝐸

Se rechaza 𝐻0 si 𝐹0 > 𝐹1−𝛼 (𝑘 − 1, 𝑁 − 𝑘)

Donde:

Número total de observaciones: Suma de cuadrados del total es:

𝑁= 𝑘∗𝑛

𝑛 𝑆𝑆𝑇 = ∑ 𝑘𝑖=1 ∑ 𝑗=1 𝑌𝑖𝑗2 −

Suma de cuadrados del tratamiento es: 𝑆𝑆𝑇𝑟𝑎𝑡𝑎𝑚𝑖𝑒𝑛𝑡𝑜𝑠 = ∑ Suma de cuadrados del error:

𝑌..2 2

𝑁

𝑘 𝑌𝑖. 𝑖=1 𝑛



𝑆𝑆𝐸 = 𝑆𝑆𝑇 − 𝑆𝑆𝑇𝑟𝑎𝑡𝑎𝑚𝑖𝑒𝑛𝑡𝑜𝑠

𝑌..2

𝑁

Modelo Balanceado, es cuando el número de observaciones que se hacen bajo cada tratamiento son iguales. Modelo Desbalanceado, es cuando el número de observaciones que se hacen bajo cada tratamiento son diferentes. Modelo Aditivo, es aquel donde sus factores no experimentan intersección.

Ventajas y Desventajas de un DCA Ventajas 1. Permite gran flexibilidad, es decir puede usarse cualquier número de tratamientos y repeticiones además se puede aplicar modelos desbalanceados. 2. El análisis estadístico es sencillo aun si el modelo es desbalanceado. 3. El análisis estadístico es fácil aun cuando los datos de algunas unidades experimentales o algunos tratamientos completos se hayan perdido o se rechacen por alguna causa. 4. Es el diseño que se basa en más grados de libertad para la estimación de cuadrados medios. Desventajas 1. Para usar este diseño se necesita unidades experimentales muy homogéneas, pues de no ser así la variación entre ellas pasa a formar parte del error experimental.

Estimación de los parámetros del modelo Lo siguiente es ver los estimadores de los parámetros del modelo con un solo factor 𝑦𝑖𝑗 = 𝜇 + 𝜏𝑖 + 𝜀𝑖𝑗

Y los intervalos de confianza para las medias de los tratamientos. Estimador razonable de la media global está dado por

𝜇 = 𝑦..

Estimador de los efectos de los tratamientos está dado por 𝜏 𝑖 = 𝑦𝑖. − 𝑦.. ,

𝑖 = 1,2, … , 𝑘

Estos estimadores son muy intuitivos; observe que la media global se estima con el gran promedio de las observaciones y que el efecto de cualquier tratamiento no es sino la diferencia entre el promedio del tratamiento y el gran promedio. Por otro lado, es posible determinar con facilidad una estimación del intervalo de confianza de la media del tratamiento i-ésimo. La media del tratamiento i-ésimo es 𝜇𝑖 = 𝜇 + 𝜏𝑖

Un estimador puntual de 𝜇𝑖 seria 𝜇 𝑖 = 𝜇 + 𝜏 𝑖 = 𝑦𝑖. . Ahora bien si se supone que los errores siguen una distribución normal, cada 𝑦𝑖. es una 𝑁𝐼𝐷(𝜇𝑖 , 𝜎 2 /𝑛). Por lo tanto, si 𝜎 2 fuera conocida, podría usarse la distribución normal para definir el intervalo de confianza. Al utilizar 𝐶𝑀𝐸 como estimador de 𝜎 2 , el intervalo de confianza se basaría en la distribución 𝑡. Por lo tanto, un intervalo de confianza de 100(1 − 𝛼) por ciento para la media 𝜇𝑖 del tratamiento i-ésimo es 𝑦𝑖. − 𝑡𝛼 ,𝑁−𝑘 √ 2

𝐶𝑀𝐸 𝐶𝑀𝐸 ≤ 𝜇𝑖 ≤ 𝑦𝑖. + 𝑡𝛼/2,𝑁−𝑘 √ 𝑛 𝑛

Un intervalo de confianza de 100(1 − 𝛼) por ciento para la diferencia en las medias de dos tratamientos cualesquiera, por ejemplo 𝜇𝑖 − 𝜇𝑗 , sería 𝑦𝑖. − 𝑦𝑗. − 𝑡𝛼 ,𝑁−𝑘 √ 2

2𝐶𝑀𝐸 2𝐶𝑀𝐸 ≤ 𝜇𝑖 − 𝜇𝑗 ≤ 𝑦𝑖. − 𝑦𝑗. + 𝑡𝛼 ,𝑁−𝑘 √ 𝑛 𝑛 2

Mg. Macedo D. Antonieta...


Similar Free PDFs