Proyecto Final - Nota: 10 PDF

Title Proyecto Final - Nota: 10
Author Jorge Del Monte
Course Probabilidad
Institution Instituto Tecnológico de Tijuana
Pages 16
File Size 995.9 KB
File Type PDF
Total Downloads 20
Total Views 132

Summary

ensayo final...


Description

INSTITUTO TECNOLOGICO DE TIJUANA

CARRERA: INGENIERIA EN NANOTECNOLOGIA

PROBABILIDAD Y ESTADISTICA

PERIODO: ENERO – JUNIO

DISEÑO DE EXPERIMENTOS

PROFESORA: DRA. MARICELA CASTILLO LOPEZ

ALUMNO: GONZALEZ PEREZ MARTIN ADRIAN # CONTROL: 16210626

TIJUANA B.C 31 DE JUNIO DE 2016

Análisis de varianza de una sola dirección. Disponemos de r poblaciones, generalmente correspondientes a r tratamientos experimentales. Cada uno de los tratamientos Ti, (i=1, …, r) se supone que tiene distribución normal con media µi y varianza σ2, común a todos ellos, es decir se trata de poblaciones normales y homoscedásticas. De cada una de las poblaciones (o tratamientos), tomamos una muestra de tamaño ni. Las observaciones obtenidas se pueden recoger en una tabla de la forma

es decir xij es la observación j del grupo experimental i. Llamaos x 1,…, x r a las medias muestrales de los grupos y x a la media de todas las observaciones. Cuando se trata de un experimento diseñado, es decir, cuando se trata de la aplicación de r tratamientos a un conjunto de unidades experimentales, estas deben seleccionarse para que sean homogéneas, de forma que no se introduzcan factores de variación distintos del que se desea controlar. La asignación de los tratamientos a cada una de las unidades debe hacerse al azar. Es lo que se conoce como diseño “completamente al azar”. El modelo matemático subyacente a este tipo de diseño es

donde µi = µ +ɑi es la cantidad que depende del tratamiento usado (descompuesta en una media global y un efecto del tratamiento) y εij es la cantidad que depende solamente de la unidad experimental y que se identifica con el error experimental. La hipótesis de que los distintos tratamientos no producen ningún efecto (o la de que las medias de todas las poblaciones son iguales) se contrasta mediante el análisis de la varianza de una vía, comparando la variabilidad entre grupos con la variabilidad dentro de los grupos.

El análisis de la varianza se basa en la descomposición de la variabilidad total en dos partes, una parte debida a la variabilidad entre las distintas poblaciones o tratamientos (variabilidad entre grupos o variabilidad explicada por el diseño) y otra parte que puede considerarse como la variabilidad intrínseca de las observaciones (variabilidad dentro de los grupos o residual).

La variabilidad entre grupos

mide la discrepancia entre los grupos y la media global, de forma que si no hay diferencias entre ellos (la hipótesis nula es cierta) obtendremos variabilidades pequeñas. Si, por el contrario, la -4- hipótesis nula es falsa, cabe esperar que la variabilidad entre grupos sea grande. La variabilidad dentro de los grupos

mide la variabilidad intrínseca de las observaciones, es decir, si el experimento está bien diseñado y no se incluyen factores de variación distintos al estudiado, debe ser error puramente aleatorio producido como resultado de la variabilidad biológica del material experimental. El contraste del Análisis de la varianza se basa en la comparación de la variabilidad entre y la variabilidad dentro, rechazaremos la hipótesis nula siempre que la variabilidad “entre” sea grande, pero utilizando como patrón de comparación la variabilidad “dentro”. Es decir, aceptaremos un efecto de los tratamientos siempre que estos produzcan mayores diferencias en las unidades experimentales que las que habría sin la aplicación de los mismos. Antes de proceder a la comparación hemos de dividir las sumas de cuadrados por sus correspondientes grados de libertad, relacionados con el número de observaciones con las que se realiza el cálculo. De esta forma obtenemos los cuadrados medios o

estimadores de las variabilidades. La información completa se resume en la tabla siguiente. Es la que se conoce como tabla de ANOVA y resume toda la información necesaria para realizar el correspondiente contraste.

El cociente entre la variabilidad “entre” y la variabilidad “dentro”, una vez que se han hecho comparables, sigue una distribución F de Snedecor con r-1 y n-r grados de libertad. La distribución nos sirve para buscar el valor a partir del cual el cociente es lo suficientemente grande como para declarar las diferencias entre grupos estadísticamente significativas. Los estimadores de los efectos de los tratamientos se estiman a partir de

y la parte propia de cada observación (o residual)

Los residuales pueden servirnos para la validación de las hipótesis básicas. Recuérdese que, en realidad, un análisis de la varianza de una vía es equivalente a un modelo de regresión en el que solo aparece una regresora cualitativa con r categorías (mediante las correspondientes variables ficticias). La validación de las hipótesis básicas puede -6- hacerse entonces de la misma manera que en un modelo re regresión, utilizando gráficos de residuales. EJEMPLOS: Los miembros de un equipo ciclista se dividen al azar en tres grupos que entrenan con métodos diferentes. El primer grupo realiza largos recorridos a ritmo pausado, el segundo grupo realiza series cortas de alta intensidad y el tercero trabaja en el gimnasio con pesas y se ejercita en el pedaleo de alta frecuencia. Después de un mes de entrenamiento se realiza

un test de rendimiento consistente en un recorrido cronometrado de 9 Km. Los tiempos empleados fueron los siguientes:

A un nivel de confianza del 95% ¿Puede considerarse que los tres métodos producen resultados equivalentes? O por el contrario ¿Hay algún método superior a los demás? Comenzamos calculando los totales y los cuadrados de los totales divididos por el número de observaciones:

A continuación, calculamos los cuadrados de las observaciones y su total:

A partir de estas cantidades básicas calculamos las Sumas de Cuadrados: SC(total) = 2984 2940 = 44 SC(intra) = 2984 – 2966,8 = 17,2 SC(entre) = 2966,8 – 2940 = 26,8 Los cuadrados medios serán: CM(entre) = 26,8/2 = 13,4 CM(intra) = 17,2/12 = 1,43 Por consiguiente el estadístico de contraste vale: F = 13,4/ 1,43 = 9,37 El valor de la F teórica con 2 y 12 grados de libertad, a un nivel de confianza del 95% es 3,89. Por consiguiente se rechaza la hipótesis nula y se concluye que los tres métodos de entrenamiento producen diferencias significativas.

Diseño de bloques. En cualquier experimento, la variabilidad proveniente de un factor de ruido puede afectar los resultados. Un factor de ruido es un factor que probablemente tiene un efecto en la

respuesta pero que no nos interesa estudiar. Si el factor de ruido es desconocido y no controlable, la solución es la aleatorización, que tiende a distribuir los niveles y efectos de este factor entre todas las u.e. Si el factor de ruido es conocido y no controlable, pero por lo menos podemos medir su valor en cada corrida del experimento, entonces podemos compensarlo usando análisis de con varianza. Si el factor de ruido es conocido y controlable, se utilizan bloques para eliminar su efecto en la comparación estadística de los tratamientos. Bloques al azar Nuestro objetivo es tener comparaciones precisas entre los tratamientos bajo estudio. Utilizar bloques es una forma de reducir y controlar la varianza del error experimental para tener mayor precisión. En el diseño completamente al azar se supone que las u.e. son relativamente homogéneas con respecto a factores que afectan la variable de respuesta. Sin embargo, algunas veces no tenemos disponibles suficiente número de u.e. homogéneas. Cualquier factor que afecte la variable de respuesta y que varíe entre u.e. aumentará la varianza del error experimental y disminuirá la precisión de las comparaciones. Factores como la edad y el peso de los animales, diferentes lotes de material, sexo de las personas y parcelas alejadas son ejemplos de variables externas a los tratamientos que pueden incrementar la variación entre las observaciones de la variable de respuesta. Usar bloques estratifica a las u.e. en grupos homogéneos. Una buena elección del criterio de bloqueo resulta en menor variación entre las u.e. dentro de los bloques comparada con la variación entre u.e. de diferentes bloques. Generalmente los criterios de bloqueo son: ■ proximidad (parcelas vecinas) ■ características físicas (edad, peso, sexo) ■ tiempo ■ manejo de las u.e. en el experimento Suponga que se tienen t tratamientos que se quieren comparar en b bloques.

El diseño de bloques (completos) al azar implica que en cada bloque hay una sola observación de cada tratamiento. El orden en que se “corren” los tratamientos dentro de cada bloque es aleatorio (restricción en la aleatorización). El modelo estadístico para este diseño es:

yij = µ + τi + βj + ǫij i = 1, . . ., t j = 1, . . ., b µ media general τi efecto del i-ésimo tratamiento βj efecto del j-ésimo bloque ǫij error experimental en la unidad j del tratamiento i ǫij ∼ NID(0, σ2). Se supone que los efectos de tratamientos y bloques son aditivos. La aditividad significa que no hay interacción entre tratamientos y bloques. Es decir, la relación entre los tratamientos es la misma en cada uno de los bloques.

El Análisis de Varianza para este diseño se basa en una descomposición de la variabilidad de las observaciones.

Suponiendo normalidad en los errores, se puede demostrar que

son v.a. independientes con distribución χ2 con sus correspondientes grados de libertad. EJEMPLO:

Se realizó un experimento para estudiar el funcionamiento de cuatro diferentes detergentes quita manchas. Las lecturas de “blancura” (valor mayor=más limpio) se obtuvieron usando un aparato especial en tres diferentes tipos de manchas comunes. ¿Hay diferencia significativa entre los detergentes?

Cuadrados latinos. Los diseños en cuadrados latinos son apropiados cuando es necesario controlar dos fuentes de variabilidad. En dichos diseños el número de niveles del factor principal tiene que coincidir con el número de niveles de las dos variables de bloque o factores secundarios y además hay que suponer que no existe interacción entre ninguna pareja de factores. Supongamos que el número de niveles de cada uno de los factores es K. El diseño en cuadrado latino utiliza K2 bloques, cada uno de estos bloques corresponde a una de las posibles combinaciones de niveles de los dos factores de control. En cada bloque se aplica un solo tratamiento de manera que cada tratamiento debe aparecer con cada uno de los niveles de los dos factores de control. Si consideramos una tabla de doble entrada donde las filas y las columnas representan cada uno de los dos factores de bloque y las celdillas los niveles del factor principal o tratamientos, el requerimiento anterior supone que cada tratamiento debe aparecer una vez y sólo una en cada fila y en cada columna. Recibe el nombre de cuadrado latino de orden K a una disposición en filas y columnas de K letras latinas, de tal forma que cada letra aparece una sola vez en cada fila y en cada columna. A continuación, vamos a dar una forma simple de construcción de cuadrados latinos. Se parte de una primera fila con las letras latinas ordenadas alfabéticamente

Las sucesivas filas se obtienen moviendo la primera letra de la fila anterior a la última posición (construcción por permutación cíclica), el cuadrado así obtenido es un cuadrado latino estándar. Un cuadrado latino se denomina estándar cuando las letras de la primera fila y la primera columna están ordenadas alfabéticamente. A parte de los cuadrados latinos así obtenidos existen otros cuadrados latinos diferentes, estándares y no estándares. En el Apéndice B se muestran algunos cuadrados latinos estándares para los órdenes 3, 4, 5, 6, 7, 8 y 9.

El procedimiento para construir un diseño en cuadrado latino es el siguiente: 1) Se elige aleatoriamente un cuadrado latino de los disponibles. 2) Se asigna aleatoriamente el orden de las filas y columnas. 3) Se asignan aleatoriamente los tres factores a las filas, columnas y letras, respectivamente. Ilustremos este procedimiento con el ejemplo del rendimiento de la semilla de trigo. Al plantear este experimento se pensó que podría conseguirse mayor precisión si se controlaba la variabilidad introducida por los tipos de abono e insecticida. El instituto de experimentación agrícola está interesado en estudiar 4 tipos de semilla de trigo, (s1, s2, s3, s4) y decide realizar el experimento utilizando un diseño en cuadrado latino. Para ello selecciona 4 niveles para cada una de las variables de bloque: abono, (a1, a2, a3, a4), e insecticida, (i1, i2, i3, i4). La selección de uno de los cuadrados se hace al azar. Supongamos que el cuadrado latino elegido es el siguiente

A continuación, se asigna también al azar, el orden de las filas y las columnas. Supongamos que el orden seleccionado para las filas sea (2, 3, 1, 4), entonces el cuadrado latino anterior se convierte en

Se vuelven a generar otros 4 números aleatorios que se identifican con el orden de las columnas de este último cuadrado. Supongamos que los números obtenidos son (4, 3, 1, 2), obteniéndose el siguiente cuadrado latino

Por último, se asignan al azar las filas, las columnas y las letras latinas a los tres factores. Por ejemplo, supongamos que las filas, las columnas y las letras se asignan, respectivamente, a los tipos de insecticidas, semillas y abonos, de tal forma que el diseño resultante es

Por convenio, se suele situar el factor principal, en este caso el tipo de semilla, en las celdillas. Reordenando el diseño anterior se obtiene la siguiente tabla:

En resumen, podemos decir que un diseño en cuadrado latino tiene las siguientes características: 1 o) Se controlan tres fuentes de variabilidad, un factor principal y dos factores de bloque. 2 o) Cada uno de los factores tiene el mismo número de niveles, K. 3 o) Cada nivel del factor principal aparece una vez en cada fila y una vez en cada columna. 4 o) No hay interacción entre los factores. EJEMPLO:

A fin de ilustrar el análisis de la varianza de los diseños en cuadrado latino, consideremos la situación de referencia, en la que se ha realizado el experimento con la aleatorización correspondiente y hemos designado por las letras (A, B, C, D) a los tratamientos. Así, el cuadrado latino resultante junto con las observaciones obtenidas, dan lugar al Ejemplo 5-1, que se muestra en la siguiente tabla, a la que se han añadido las filas y columnas necesarias para su resolución.

Las sumas de cuadrados necesarias para el análisis de la varianza se calculan como sigue:

Y la suma de los cuadrados medio del error se obtiene por diferencia. SCR = SCT – SCF – SCC – SCL = 13875.

Si realizamos el contraste al 5 % y comparamos los valores de las Fexp con el valor de la F teórica (F0,05;3,6 = 4,7571), se concluye que son significativos los efectos de los abonos y semillas, pero no lo son los efectos de los insecticidas. Observamos, en la columna correspondiente al % explicado, que el coeficiente de determinación del modelo es R2 = 0,9674, siendo el efecto más importante el referente al tipo de abono que explica un 77.49 % de la variabilidad presente en el experimento.

Introducción a diseños factoriales. En primer lugar, vamos a estudiar los diseños más simples, es decir aquellos en los que intervienen sólo dos factores. Supongamos que hay a niveles para el factor A y b niveles del factor B, cada réplica del experimento contiene todas las posibles combinaciones de tratamientos, es decir contiene los ab tratamientos posibles. El modelo estadístico para este diseño es: yij = µ + τi + βj + (τβ) ij + uij i = 1, 2, · · · , a ; j = 1, 2, · · · , b , donde yij : Representa la observación correspondiente al nivel (i) del factor A y al nivel (j) del factor B. µ: Efecto constante denominado media global. τi : Efecto producido por el nivel i-ésimo del factor A, ( i τi = 0). βj : Efecto producido por el nivel j-ésimo del factor B, j βj = 0 . (τ β) ij : Efecto producido por la interacción entre A×B, i (τβ) ij = j (τβ) ij = 0 . uij son vv aa. independientes con distribución N(0, σ). 1 Supondremos que se toma una observación por cada combinación de factores, por tanto, hay un total de N = ab observaciones. Parámetros a estimar: A pesar de las restricciones impuestas al modelo el número de parámetros (ab + 1) supera al número de observaciones (ab). Por lo tanto, algún parámetro no será estimable.

Los estimadores máximos verosímiles de los parámetros del modelo son. µ = y.. , τi = yi. − y.. , β j = y.j − y.. y (τβ) ij = yij − yi. − y.j + y.. Los residuos de este modelo son: eij = yij − yj = yij − µ − τi − β j – (τβ) ij = 0 .

Por lo tanto, al ser los residuos nulos no es posible estimar la varianza del modelo y no se pueden contrastar la significatividad de los efectos de los factores. Dichos contrates sólo pueden realizarse si: a) Suponemos que la interacción entre A×B es cero. Entonces eij = yij −yi. −y.j + y.. . b) Replicamos el experimento (Tomamos varias observaciones por cada combinación de factores). El modelo estadístico para este diseño es: yijk = µ + τi + βj + (τβ) ij + uijk ; i = 1, 2, · · · , a ; j = 1, 2, · · · , b ; k = 1, 2, · · · , r donde r es el número de replicaciones y n = abr es el número de observaciones. El número de parámetros de este modelo es, como en el modelo de dos factores sin replicación, ab + 1 pero en este caso el número de observaciones es abr. Los estimadores máximos verosímiles de los parámetros del modelo son µ = y... , τi = yi.. − y... , β j = y.j. − y... y τβ ij = yij. − yi.. − y.j. + y... donde ∗) yij. es la media de las r observaciones en la celdilla ij: yij. = ( k yijk) /r ∗) yi.. es la media de las observaciones del nivel i del factor A : yi.. = j,k yijk /(br) ; i = 1, · · · , a ∗) ¯y.j. es la media de las observaciones del nivel j del factor B : y.j. = i,k yijk /(ar) ; j = 1, · · · ,b ∗) ¯y... es la media total de las observaciones : y... = i,j,k yijk /r . Los residuos de este modelo son: eijk = yijk − yijk = yij − µ − τi − β j − τβ ij = yijk − yij. . Se verifica que todos los residuos de una celdilla deben sumar cero es decir, en cada celdilla hay r − 1 residuos independientes. Por lo tanto, en total habrá ab(r − 1) residuos independientes. Se verifican las mismas propiedades para los estimadores máximoverosímiles que en los modelos anteriores. La varianza residual tiene la siguiente expresión

EJEMPLO: En unos laboratorios se está estudiando los factores que influyen en la resistencia de un tipo particular de fibra. Se eligen al azar cuatro máquinas y tres operarios y se realiza un experimento factorial usando fibras de un mismo lote de producción. Los resultados obtenidos se muestran en la tabla adjunta. Analizar los resultados y obtener las conclusiones apropiadas.

Para realizar el análisis organizamos los datos en forma tabular de la manera siguiente:

Las Sumas de Cuadrados y la Tabla ANOVA se muestran a continuación

Realizando los contrastes al nivel de significación del 5 %, se concluye que es significativo el efecto principal del “operario” (factor B) (F0,05,2,12 = 3,49), pero no son significativos el efecto principal del tipo de máquina (factor A) (F0,05,3,12 = 3,89) y la interacción entre el tipo de máquina y operario (factor A × B) (F0,05,6,12 = 3,00).

Bibliografías: ∗ García Leal, J. & Lara Porras, A.M. (1998). “Diseño Estadístico de Experimentos. Análisis de la Varianza.” Grupo Editorial Universitario. ∗ Lara Porras, A.M. (2000). “Diseño Estadístico de Experimentos, Análisis de la Varianza y Temas Relacionados: Tratamiento Informático mediante SPSS” Proyecto Sur de Ediciones. ∗ Lara Porras, A.M. (2000). “Diseño Estadístico de Experimentos, Análisis de la Varianza y Temas Relacionados: Tratamiento Informático mediante SPSS.” Proyecto Sur de Ediciones....


Similar Free PDFs