LECTURA DE REGRESION LINEAL MULTIPLE PDF

Title LECTURA DE REGRESION LINEAL MULTIPLE
Author eri mtz
Course Diseño De Experimentos
Institution Universidad Autónoma de Nuevo León
Pages 64
File Size 1.8 MB
File Type PDF
Total Downloads 17
Total Views 156

Summary

EN ESTA LECTURA ENCONTRARAS EL CONTENIDO DEL TEMA DE REGRESION LINEAL MULTIPLE COMO APOYO. DE LA MATERIA DE DISEÑO DE EXPERIMETNOS...


Description

Capítulo 12

Regresión lineal múltiple y ciertos modelos de regresión no lineal 12.1 Introducción En la mayoría de los problemas de investigación en los que se aplica el análisis de regresión se necesita más de una variable independiente para el modelo de regresión. La complejidad de la mayoría de mecanismos científicos es tal que, con el fin de predecir una respuesta importante, se requiere un modelo de regresión múltiple. Cuando un modelo es lineal en los coeficientes se denomina modelo de regresión lineal múltiple. Para el caso de k variables independientes, el modelo que da x1, x2,..., xk, la media de Y |x1, x2,..., xk es el modelo de regresión lineal múltiple µY |x 1 , x 2 ,..., x k = β 0 + β1 x 1 + · · · + βk x k , y la respuesta estimada se obtiene a partir de la ecuación de regresión muestral yˆ = b0 + b1 x1 + · · · + bk x k , donde cada coeficiente de regresión βi se estima por medio de bi, a partir de los datos muestrales, usando el método de los mínimos cuadrados. Como ocurre en el caso de una sola variable independiente, a menudo el modelo de regresión lineal múltiple es una representación adecuada de una estructura más complicada dentro de ciertos rangos de las variables independientes. También se pueden aplicar técnicas similares de mínimos cuadrados para estimar los coeficientes cuando el modelo lineal incluye, por ejemplo, potencias y productos de las variables independientes. Un ejemplo de esto se presentaría cuando k = 1, en cuyo caso el experimentador podría pensar que las medias µY|x no caen sobre una línea recta, sino que se describen de manera más adecuada mediante el modelo de regresión polinomial µY |x = β0 + β1 x + β2 x 2 + · · · + βr x r , y la respuesta estimada se obtiene de la ecuación de regresión polinomial

yˆ = b 0 + b1 x + b 2 x 2 + · · · + br x r.

443

444

Capítulo 12 Regresión lineal múltiple y ciertos modelos de regresión no lineal

En ocasiones se genera confusión al decir que un modelo polinomial es un modelo lineal. Sin embargo, los estadísticos normalmente se refieren a un modelo lineal como aquel en el que los parámetros ocurren en forma lineal, independientemente de cómo las variables independientes entran en el modelo. Un ejemplo de modelo no lineal es la relación exponencial µY |x = αβx , que se estima mediante la ecuación de regresión yˆ = abx . En ciencias e ingeniería hay muchos fenómenos cuya naturaleza no es inherentemente lineal y, cuando se conoce su verdadera estructura, no hay duda de que habría que intentar ajustar el modelo real. Existe mucha literatura acerca de la estimación de modelos no lineales por medio de mínimos cuadrados. Los modelos no lineales que se analizan en este capítulo se relacionan con condiciones no ideales, en las cuales el analista está seguro de que la respuesta y, por lo tanto, el error de respuesta del modelo no se distribuyen normalmente sino que, más bien, tienen una distribución binomial o de Poisson. Estas situaciones ocurren a menudo en la práctica. El estudiante que busque profundizar en la explicación de la regresión no lineal debe consultar la obra de Myers Classical and Modern Regression with Applications (1990; véase la bibliografía).

12.2 Estimación de los coeficientes En esta sección se calculan los estimadores de mínimos cuadrados de los parámetros β0, β1,..., βk mediante el ajuste del modelo de regresión lineal múltiple µY |x 1 ,x 2 ,...,x k = β0 + β1 x 1 + · · · + βk x k a los puntos de los datos {(x 1i , x 2i , . . . , x ki , y i );

i = 1, 2, . . . , n y n > k},

donde y i es la respuesta observada a los valores x1i, x2i,..., xki de las k variables independientes x1, x2,..., xk. Se supone que cada observación (x1i, x2i,..., xki, y i) satisface la siguiente ecuación: Modelo de y i = β0 + β1 x 1i + β2 x 2i + · · · + βk x ki + i regresión lineal o bien, y i = yˆi + ei = b0 + b1 x 1i + b2 x 2i + · · · + bk x ki + ei , múltiple donde i y ei son el error aleatorio y el residual, respectivamente, asociados con la respuesta y i y con el valor ajustado yˆi. Como en el caso de la regresión lineal simple, se supone que los i son independientes y están distribuidos en forma idéntica con media cero y varianza común σ 2. Si usamos el concepto de mínimos cuadrados para obtener los estimados b0, b1,..., bk, minimizamos la expresión n

n

e2i =

SCE = i =1

( y i − b0 − b1 x 1i − b2 x 2i − · · · − bk x ki ) 2 . i =1

Si, a su vez, diferenciamos la SCE respecto a b0, b1,..., bk e igualamos el resultado a cero, generamos el conjunto de k + 1 ecuaciones normales para la regresión lineal múltiple.

12.2 Estimación de los coeficientes

Ecuaciones normales de estimación para la regresión lineal múltiple

445

x 1i

n

x 2i

x 1i y i i =1

.. .

n

n

x ki2

x ki x 2i + · · · + bk

=

i =1

i =1

i =1

i =1

x 1i x ki = ...

n

x ki x 1i + b2

x ki + b1

yi i =1 n

i =1

...

n

n

=

i =1 n

i =1

.. .

.. .

x ki

x 1i x 2i + · · · + bk

+ b2

i =1

n

+ · · · + bk

i =1 n 2 x 1i

x 1i + b1 i =1

b0

+ b2

i =1 n

b0

n

n

n

nb0 + b1

x ki y i i =1

Estas ecuaciones se pueden resolver para b0, b1, b2,..., bk utilizando cualquier método apropiado que permita resolver sistemas de ecuaciones lineales. Casi todos los programas estadísticos de cómputo se pueden utilizar para obtener soluciones numéricas de las ecuaciones anteriores. Ejemplo 12.1: Se sometió a prueba un grupo de camiones ligeros con motores que utilizan diesel como combustible para saber si la humedad, la temperatura del aire y la presión barométrica influyen en la cantidad de óxido nitroso que emiten (en ppm). Las emisiones se midieron en distintos momentos y en diversas condiciones experimentales. Los datos se presentan en la tabla 12.1. El modelo es µY |x1 ,x 2 ,x3 = β 0 + β1 x 1 + β2x 2 + β3x 3 , o, en forma equivalente, y i = β0 + β1 x 1i + β2 x 2i + β3 x 3i + i ,

i = 1, 2, . . . , 20.

Ajuste este modelo de regresión lineal múltiple a los datos con los que cuenta y luego estime la cantidad de óxido nitroso que emiten los camiones en las siguientes condiciones: 50% de humedad, temperatura de 76˚F y una presión barométrica de 29.30. Tabla 12.1: Datos para el ejemplo 12.1 Óxido nitroso, y 0.90 0.91 0.96 0.89 1.00 1.10 1.15 1.03 0.77 1.07

Humedad, x1 72.4 41.6 34.3 35.1 10.7 12.9 8.3 20.1 72.2 24.0

Temp., x2 76.3 70.3 77.1 68.0 79.0 67.4 66.8 76.9 77.7 67.7

Presión, x3 29.18 29.35 29.24 29.27 29.78 29.39 29.69 29.48 29.09 29.60

Óxido nitroso, y 1.07 0.94 1.10 1.10 1.10 0.91 0.87 0.78 0.82 0.95

Humedad, Temp., x1 x2 76.8 23.2 86.6 47.4 76.9 31.5 86.3 10.6 86.0 11.2 76.3 73.3 77.9 75.4 78.7 96.6 86.8 107.4 70.9 54.9

Presión, x3 29.38 29.35 29.63 29.56 29.48 29.40 29.28 29.29 29.03 29.37

Fuente: Charles T. Hare, “Light-Duty Diesel Emission Correction Factors for Ambient Conditions”, EPA-600/2-77-116. U. S. Environmental Protection Agency.

Solución: La solución del conjunto de las ecuaciones de estimación produce los estimadores únicos b0 = −3.507778, b1 = −0.002625, b2 = 0.000799, b3 = 0.154155.

446

Capítulo 12 Regresión lineal múltiple y ciertos modelos de regresión no lineal

Por lo tanto, la ecuación de regresión es yˆ = −3.507778 − 0.002625x1 + 0 .000799x2 + 0.154155x3. Para 50% de humedad, una temperatura de 76˚F y una presión barométrica de 29.30, la cantidad estimada de óxido nitroso emitido es yˆ =−3.507778 − 0.002625(50.0) + 0 .000799(76.0) + 0 .1541553(29.30) = 0.9384 ppm.

Regresión polinomial Ahora suponga que se desea ajustar la ecuación polinomial µY |x = β0 + β1 x + β2 x 2 + · · · + βr x r a los n pares de observaciones {(xi, y i); i = 1, 2,..., n}. Cada observación, y i, satisface la ecuación y i = β0 + β1 x i + β2 x 2i + · · · + βr x ir + o bien,

i

y i = yˆi + ei = b0 + b1 x i + b2 x i2 + · · · + br x ri + ei ,

donde r es el grado del polinomio y i y ei son, de nuevo, el error aleatorio y el residual asociados con la respuesta y i y con el valor ajustado yˆi, respectivamente. Aquí el número de pares, n, debe ser al menos r + 1, que es el número de parámetros por estimar. Observe que el modelo polinomial se puede considerar un caso especial del modelo de regresión lineal múltiple más general, donde establecemos x1 = x, x2 = x2,..., xr = xr. Las ecuaciones normales adoptan la misma forma que las que aparecen en la página 445. Luego se resuelven para b0, b1, b2,..., br. Ejemplo 12.2: Dados los datos x y

0 9.1

1 7.3

2 3.2

3 4.6

4 4.8

5 2.9

6 5.7

7 7.1

8 8.8

9 10.2

ajuste una curva de regresión de la forma μY | x = β0 + β1x + β2x2, luego, estime μY | 2. Solución: A partir de los datos se encuentra que 10b0 +

45b1 +

285 b2 = 63.7,

45b0 + 285b1 + 2025 b2 = 307.3, 285b0 + 2025 b1 + 15,333b2 = 2153.3. Al resolver las ecuaciones normales se obtiene b0 = 8.698, b1 = −2.341, b 2 = 0.288. Por lo tanto,

yˆ = 8.698 − 2.341x + 0.288x 2.

12.3 Modelo de regresión lineal en el que se utilizan matrices

447

Cuando x = 2 el estimado de μY | 2 es yˆ = 8.698 − (2.341)(2) + (0.288)(2 2 ) = 5.168. Ejemplo 12.3: Los datos de la tabla 12.2 representan el porcentaje de impurezas que resultaron de diversas temperaturas y del tiempo de esterilización durante una reacción asociada con la fabricación de cierta bebida. Estime los coeficientes de regresión en el modelo polinomial 2 y i = β0 + β1 x 1i + β2 x 2i + β11 x 21i + β22 x 2i + β12 x 1 i x 2 i + i ,

para i = 1, 2,...,18. Tabla 12.2: Datos para el ejemplo 12.3 Tiempo de Temperatura, x 1 ( ◦ C) esterilización, x2 (min) 75 100 125 7.55 15 14.05 10.55 6.59 9.48 14.93 9.23 16.56 13.63 20 8.78 15.85 11.75 15.93 22.41 18.55 25 16.44 21.66 17.98 Solución: Si usamos las ecuaciones normales, obtenemos b0 = 56.4411, b11 = 0.00081,

b1 = −0.36190, b 22 = 0.08173,

b 2 = −2.75299, b12 = 0.00314,

y nuestra ecuación de regresión estimada es yˆ = 56.4411 − 0.36190x 1 − 2.75299x 2 + 0.00081x 21 + 0.08173x 22 + 0.00314x 1 x 2 . Muchos de los principios y procedimientos asociados con la estimación de funciones de regresión polinomiales caen en la categoría de metodología de respuesta superficial, que es un conjunto de técnicas que los científicos e ingenieros de muchos campos han utilizado con bastante éxito. Las x2i se denominan términos cuadráticos puros y las xixj (i ≠ j) se conocen como términos de interacción. Dichas técnicas a menudo se aplican a problemas tales como seleccionar un diseño experimental adecuado, en particular en casos en los que un número muy grande de variables entra en el modelo; y elegir condiciones óptimas de operación para x1, x2,..., xk. Para profundizar en este tema se recomienda al lector consultar la obra de Myers, Montgomery y Anderson-Cook, Response Surface Methodology: Process and Product Optimization Using Designed Experiments (2009; véase la bibliografía).

12.3 Modelo de regresión lineal en el que se utilizan matrices Al ajustar un modelo de regresión lineal múltiple, en particular cuando contiene más de dos variables, tener conocimientos sobre la teoría de matrices facilita considerablemente el manejo de las matemáticas. Suponga que el experimentador tiene k variables

448

Capítulo 12 Regresión lineal múltiple y ciertos modelos de regresión no lineal

independientes x1, x2,..., xk y n observaciones y 1, y 2,..., y n, cada una de las cuales se puede expresar con la ecuación y i = β0 + β1 x 1 i + β2 x 2 i + · · · + βk x ki + i . Este modelo representa en esencia a n ecuaciones que describen cómo se generan los valores de la respuesta durante el proceso científico. Si usamos la notación de matrices, podemos escribir la ecuación siguiente y = Xβ + ,

Modelo lineal general donde y=

y1 y2 .. , . yn

1 x 11 1 x 12 X = . .. .. . 1 x 1n

··· ···

x 21 x 22 ... x 2n

xk1 xk2 .. , . x kn

···

β=

β0 β1 .. , .

1

=

βk

2

.. . . n

Después, el método de mínimos cuadrados para la estimación de β, que se estudió en la sección 12.2, implica calcular b, para lo cual SCE = (y − Xb ) (y − Xb ) se minimiza. Este proceso de minimización implica resolver para b en la ecuación ∂ (SCE ) = 0. ∂b Aquí no presentaremos los detalles respecto a cómo se resuelven las ecuaciones anteriores. El resultado se reduce a la solución de b en (X X )b = X y . Observe la naturaleza de la matriz X. Además del elemento inicial, el i-ésimo renglón representa los valores de x que dan lugar a la respuesta y i. Si escribimos n

n

n i =1 n

n

A =X X =

x 1i i =1

i =1

2 x 1i

...

.. .

n

···

x ki

i =1 n

i =1 n

x 1i x 2i i =1

n

x ki i =1

n

x 2i

x 1i

···

x 1i x ki i =1

.. .

n

n

x ki x 2i

x ki x 1i i =1

·· ·

i =1

i =1

y n

yi

g0 = i =1 n

g =X y =

g1 =

x 1i y i i =1 n

.. .

gk = i =1

x ki y i

nos permite escribir las ecuaciones normales en la forma de matriz Ab = g.

.. .

x ki2

12.3 Modelo de regresión lineal en el que se utilizan matrices

449

Si la matriz A es no singular, la solución para los coeficientes de regresión se escribe como b = A −1 g = (X X )

−1

X y.

De esta manera, obtenemos la ecuación de predicción o regresión resolviendo un conjunto de k + 1 ecuaciones con un número igual de incógnitas. Esto implica el invertir la matriz X′ X de orden k + 1 por k + 1. En la mayoría de libros que tratan sobre determinantes y matrices elementales se explican las técnicas para invertir matrices. Por supuesto, existen muchos paquetes de cómputo veloces para resolver problemas de regresión múltiple, los cuales no sólo proporcionan estimados de los coeficientes de regresión, sino que también ofrecen otra clase de información relevante para hacer inferencias acerca de la ecuación de regresión. Ejemplo 12.4: Se midió el porcentaje de supervivencia de los espermatozoides de cierto tipo de semen animal, después de almacenarlo con distintas combinaciones de concentraciones de tres materiales que se emplean para incrementar la supervivencia. En la tabla 12.3 se presentan los datos. Obtenga el modelo de regresión lineal múltiple para los datos. Tabla 12.3: Datos para el ejemplo 12.4 y (% de supervivencia) 25.5 31.2 25.9 38.4 18.4 26.7 26.4 25.9 32.0 25.2 39.7 35.7 26.5

x 1 (peso %) 1.74 6.32 6.22 10.52 1.19 1.22 4.10 6.32 4.08 4.15 10.15 1.72 1.70

x 2 (peso %) 5.30 5.42 8.41 4.63 11.60 5.85 6.62 8.72 4.42 7.60 4.83 3.12 5.30

x 3 (peso %) 10.80 9.40 7.20 8.50 9.40 9.90 8.00 9.10 8.70 9.20 9.40 7.60 8.20

Solución: Las ecuaciones de estimación por mínimos cuadrados, (X′ X)b = X′y, son 13.0 59.43 81.82 115.40 59.43 394.7255 360.6621 522.0780 81.82 360.6621 576.7264 728.3100 115.40 522.0780 728.3100 1035.9600

b0 b1 b2 b3

=

377.5 1877.567 2246.661 3337.780

.

A partir de una salida de computadora se obtienen los elementos de la matriz inversa (X X )

−1

=

8.0648 −0.0826 −0.0942 −0.7905 −0.0826 0.0085 0.0017 0.0037 , −0.0942 0.0017 0.0166 −0.0021 −0.7905 0.0037 −0.0021 0.0886

y, luego, utilizando la relación b = (X′ X)-1X′y, se obtienen los siguientes coeficientes de regresión estimados

450

Capítulo 12 Regresión lineal múltiple y ciertos modelos de regresión no lineal

b0 = 39.1574, b1 = 1.0161, b2 = −1.8616, b3 = −0.3433. Entonces, la ecuación de regresión estimada es yˆ = 39.1574 + 1.0161x 1 − 1.8616x 2 − 0.3433x 3 .

Ejercicios 12.1 Se llevó a cabo un conjunto de ensayos experiCalificación Calificación en Clases mentales con un horno para determinar una forma de Estudiante en química, y el examen, x1 perdidas, x 2 predecir el tiempo de cocción, y, a diferentes niveles 1 65 85 1 de ancho del horno, x1, y a diferentes temperaturas, x2. 7 2 50 74 Se registraron los siguientes datos: 5 55 76 3 2 65 90 4 y x1 x2 6 55 85 5 6.40 1.15 1.32 3 70 87 6 15.05 3.40 2.69 2 65 94 7 4.10 18.75 3.56 5 70 98 8 8.75 30.25 4.41 4 55 81 9 14.82 5.35 44.85 3 70 91 10 15.15 6.20 48.94 1 50 76 11 15.32 7.12 51.55 12 4 55 74 18.18 8.87 61.50 a) Ajuste una ecuación de regresión lineal múltiple 35.19 9.80 100.44 de la forma yˆi = b0 + b1x1 + b2x2. 40.40 10.65 111.42 b) Estime la calificación de química para un estudiante que en la prueba de inteligencia obtuvo 60 Estime la ecuación de regresión lineal múltiple de calificación y perdió 4 clases. µY |x 1 ,x 2 = β 0 + β1 x 1 + β 2 x 2 . 12.4 Se realizó un experimento para determinar si era 12.2 En Applied Spectroscopy se estudiaron las pro- posible predecir el peso de un animal después de un piedades de reflectancia infrarroja de un líquido vis- periodo determinado con base en su peso inicial y la coso que se utiliza como lubricante en la industria cantidad de alimento que consumía. Se registraron los electrónica. El experimento que se diseñó consistió en siguientes datos, en kilogramos: medir el efecto de frecuencia de banda, x1, y el espesor Peso del Peso Peso de película, x2, sobre la densidad óptica, y, usando un final, y inicial, x1 alimento, x 2 espectrómetro infrarrojo Perkin-Elmer Modelo 621. 272 95 42 (Fuente: Pacansky, J., England, C. D. y Wattman, R., 226 77 33 1986). y x1 x2 259 80 33 292 100 45 1.10 740 0.231 311 39 97 0.62 740 0.107 183 36 70 0.31 740 0.053 173 32 50 1.10 805 0.129 236 41 80 0.62 805 0.069 230 40 92 0.31 805 0.030 235 38 84 1.10 980 1.005 0.62 980 0.559 a) Ajuste una ecuación de regresión múltiple de la 0.31 980 0.321 forma µY |x 1, x 2 = β 0 + β1 x 1 + β2 x 2 . 1.10 1235 2.948 0.62 1235 1.633 b) Prediga cuánto pesará un animal que comienza 0.31 1235 0.934 pesando 35 kilogramos después de consumir 250 kilogramos de alimento. Estime la ecuación de regresión lineal múltiple 12.5 Se cree que la energía eléctrica que una planta yˆ = b 0 + b 1x 1 + b 2 x 2. química consume cada mes se relaciona con la tempe12.3 En el ejercicio de repaso 11.53 de la página 437 ratura ambiental promedio, x1, el número de días del suponga que también se proporciona el número de pe- mes, x2, la pureza promedio del producto, x3, y las toneriodos de clase perdidos por los 12 estudiantes que to- ladas fabricadas del producto, x4. Se dispone de datos man el curso de química. A continuación se presentan históricos del año anterior, los cuales se presentan en la los datos completos. siguiente tabla.

Ejercicios

y x1 x2 x3 x4 240 25 24 91 100 236 31 21 90 95 290 45 24 88 110 274 60 25 87 88 301 65 25 91 94 316 72 26 94 99 300 80 25 87 97 296 84 25 86 96 267 75 24 88 110 276 60 25 91 105 288 50 25 90 100 261 38 23 89 98 a) Ajuste un modelo de regresión lineal múltiple usando el conjunto de datos anterior. b) Prediga el consumo de energía para un ...


Similar Free PDFs