ESTADISTICA INFERENCIAL II LIBRO PDF

Title ESTADISTICA INFERENCIAL II LIBRO
Author Angel Hernandez
Pages 177
File Size 3.1 MB
File Type PDF
Total Downloads 144
Total Views 267

Summary

Estadística Inferencial II Raúl Jiménez González Ventas 6,0 6,5 7,0 7,5 8,0 8,5 9,0 9,5 1975 1980 1985 A ños 1990 1995 2000 Instituto Tecnológico de Ensenada Estadística Inferencial II Instituto Tecnológico de Ensenada Raúl Jiménez González Agosto de 2012 A mi esposa Leticia Flores Flores 2 CAPÍTULO...


Description

Estadística Inferencial II Raúl Jiménez González

Ventas 9,5

9,0

8,5

8,0

7,5

7,0

6,5

6,0 1975 1980 1985 A ños 1990 1995 2000

Instituto Tecnológico de Ensenada

Estadística Inferencial II Instituto Tecnológico de Ensenada

Raúl Jiménez González

Agosto de 2012

A mi esposa Leticia Flores Flores

2

CAPÍTULO 1

Regresión lineal simple y múltiple

Contenido CAPÍTULO 1. Regresión lineal simple y múltiple………………………………. 4 1.1. Regresión Lineal simple………………………………………………………. 4 1.1.1. Prueba de hipótesis en la regresión lineal simple…………...……………. 12 1.1.2. Calidad del ajuste en regresión lineal simple……………...……………. .. 19 1.1.3. Estimación y predicción por intervalo en regresión lineal simple……….... 23 1.1.4. Uso de software estadístico………………………………………....……... 25 1.2. Regresión lineal múltiple……………………………………………………… 30 1.2.1. Pruebas de hipótesis en regresión lineal múltiple…………………………. 34 1.2.2. Intervalos de confianza y predicción en regresión múltiple……………...... 37 1.2.3. Uso de un software estadístico………………………………………....….. 40 1.3. Regresión no lineal……………………………………………………………. 43 CAPÍTULO 2. Diseño de experimentos de un factor……………………….…. 45 2.1. Familia de diseños para comparar tratamientos………………………………. 49 2.2. El modelo de efectos fijos……………………………….……………………. 50 2.3. Diseño completamente aleatorio y ANOVA…………………………………. 50 2.4. Comparaciones o pruebas de rangos múltiples……………………………….. 62 2.5. Verificación de los supuestos del Modelo……………………………………. 71 2.6. Uso de un software estadístico………………………………………….…….. 80 CAPÍTULO 3. Diseño de bloques………………………………………………. 84 3.1. Diseños en bloques completos al azar………………………………………… 85 3.2. Diseño en cuadrado latino…………………………………………………….. 95 3.3. Diseño en cuadrado grecolatino…………………………………..………..... 104 3.4. Uso de un software estadístico………………………………………………. 108 CAPÍTULO 4. Conceptos básicos en diseños factoriales………………….…. 112 4.1. Diseños factoriales con dos factores…………………………………………. 114 4.2. Diseños factoriales con tres factores…………………………………………. 123 4.3. Diseño factorial general……………………………………………………… 128 4.4. Modelos de efectos aleatorios………………………………………….…….. 130 4.5. Uso de un software estadístico ………………………………………….…… 134 CAPÍTULO 5. Series de tiempo………………………………………….…….. 138 5.1. Modelo clásico de series de tiempo……………………………………....…... 141 5.2. Análisis de fluctuaciones……………………………………………………... 143 5.3. Análisis de tendencia…………………………………………………………. 146 5.4. Análisis de variaciones cíclicas…………………………………… ……......147 5.5. Medición de variaciones estacionales e irregulares………………………….. 148 5.6. Aplicación de ajustes estacionales………………………………………......... 148 5.7. Pronósticos basados en factores de tendencia y estacionales……………........150 Apéndice. Tablas Estadísticas……………………………………………………..166 Bibliografía……………………………………………………………………....…174

Instituto Tecnológico de Ensenada

Biol. Raúl Jiménez González

CAPÍTULO 1 Regresión lineal simple y múltiple 1.1. Regresión Lineal simple 1.1.1. Prueba de hipótesis en la regresión lineal simple 1.1.2. Calidad del ajuste en regresión lineal simple 1.1.3. Estimación y predicción por intervalo en regresión lineal simple 1.1.4. Uso de software estadístico

4

CAPÍTULO 1

Regresión lineal simple y múltiple

1.1. Regresión Lineal simple El análisis de regresión se usa con el propósito de predicción. La meta del análisis de regresión es desarrollar un modelo estadístico que se pueda usar para predecir los valores de una variable dependiente o de respuesta basados en los valores de al menos una variable independiente o explicativa. Este capítulo se centra en un modelo de regresión lineal simple, que usa una variable numérica independiente para predecir la variable numérica dependiente . Para establecer una relación cuantitativa entre y es necesario disponer de cierta información muestral. Esta información consiste de un conjunto de pares de observaciones de y , donde cada uno de estos pares pertenece a una unidad elemental particular de la muestra. Por ejemplo, suponga que el rendimiento de un proceso químico está relacionado con la temperatura de operación, o la experiencia profesional de los trabajadores y sus respectivos sueldos, las estaturas y pesos de personas, la producción agraria y la cantidad de fertilizantes utilizados, etc. Si mediante un modelo matemático es posible describir tal relación, entonces este modelo puede ser usado para propósitos de predicción, optimización o control Para ilustrar el concepto, considérense los datos de la tabla 1.1. En esta tabla, se relaciona la cantidad de fibra (madera) en la pulpa con la resistencia del producto (papel). Tabla 1.1 Datos de resistencia de pulpa Porcentaje de fibra Resistencia 4 6 8 10 12 14 16 18 20 22 24 26 28 30

134 145 142 149 144 160 156 157 168 166 167 171 174 183

Es claro que la variable de respuesta o variable dependiente es la resistencia, por eso se denota con . Para tener una idea de la relación que existe entre y , los 14 pares de datos son graficados en un diagrama de dispersión de la figura 1.1. De la inspección de este diagrama de dispersión se ve que los puntos cercanos siguen una línea recta, lo que indica que la suposición de linealidad entre las dos variables parece ser razonable El diagrama de dispersión es una grafica en la que cada punto trazado representa un par de valores observados por las variables independiente y dependiente. El valor de la variable independiente X, se traza en relación con el eje horizontal y el valor de la variable dependiente Y, en relación con el eje vertical. La naturaleza de la relación entre dos variables puede tomar muchas formas, que van desde algunas funciones Instituto Tecnológico de Ensenada

Biol. Raúl Jiménez González

Regresión lineal simple

5

matemáticas sencillas a otras en extremo complicadas. La relación más elemental consiste en una línea recta o relación lineal. Gráfica de dispersión de Resistencia vs. Porcentaje de fibra 190

180

Resistencia

170 160

150 140

130 5

10

15 20 Porcentaje de fibra

25

30

Figura 1.1 Diagrama de dispersión para los datos de resistencia de la pulpa

La relación del modelo matemático adecuado tiene influencia de la distribución de los valores y en el diagrama de dispersión. Es sencillo ver esto si se examinan las siguientes graficas (figura 1.2)

Plan A Relación lineal positiva

Plan D Relación curvilínea positiva

Plan B Relación lineal negativa

Plan E Relación curvilínea en forma de U

Plan C No hay relación entre X y Y

Plan F Relación curvilínea negativa

Figura 1.2 Relación entre dos variables

En la grafica A se observa que los valores de Y, en general, aumentan en forma lineal cuando se incrementa . En la grafica B es un ejemplo de una relación lineal negativa. Cuando crece, se observa que los valores de Y decrecen. Un ejemplo de este tipo de relación puede ser el precio de un producto específico y la cantidad de ventas.

Instituto Tecnológico de Ensenada

Biol. Raúl Jiménez González

6

CAPÍTULO 1

Regresión lineal simple y múltiple

En la grafica C se muestra un conjunto de datos en el que existe muy poca o ninguna relación entre y Y. Para cada valor de aparecen valores altos y bajos de Y. En la grafica D muestran una relación curvilínea entre y Y. Los valores de Y aumentan cuando crece, pero el incremento disminuye para valores altos de . un ejemplo de esta relación curvilínea puede ser la edad y el costo de mantenimiento de una maquina. Cuando la máquina tiene muchos años, el costo de mantenimiento se eleva con rapidez al principio, pero después de cierto número de años se nivela. En la grafica E muestra una relación parabólica o en forma de U entre y Y. Conforme aumenta, al principio Y disminuye; pero si aumenta más, Y no sólo deja de disminuir sino que aumenta después de su valor mínimo. Un ejemplo tipo de relación puede ser el número de errores por hora en una tarea y número de horas trabajadas. Por ultimo en la grafica F indica una relación exponencial o curvilínea negativa entre y Y. en este caso, Y disminuye con rapidez al principio del incremento de pero después, cuando aumenta más, la velocidad de disminución es mucho menor. Un ejemplo de esta relación exponencial puede ser el valor de reventa de un tipo dado de automóvil y los años que tiene. El primer año el valor baja en forma drástica respeto a su precio original; sin embargo, la disminución es mucho más lenta en los años subsecuentes.

El análisis de regresión lineal simple se refiere a encontrar la línea recta que mejor se ajuste a los datos. El mejor ajuste puede definirse de varias maneras. Quizá la más sencilla sea encontrar la línea recta para la cual las diferencias entre los valores reales y los valores pronosticados a partir de la recta ajustada de regresión sean tan pequeñas como sea posible. Sin embargo, como estas diferencias son positivas para algunas observaciones y negativas para otras, en términos matemáticos se minimiza la suma de los cuadrados de las diferencias. Gráfica de línea ajustada Resistencia = 130,7 + 1,624 Porcentaje de fibra 190

S R-cuad. R-cuad.(ajustado)

180

3,87648 93,0% 92,4%

Resistencia

170 160 150 140 130 5

10

15 20 Porcentaje de fibra

25

30

Figura 1.3 Línea recta que mejor se ajusta a los datos, donde la distancia a los puntos es la más pequeña posible

Suponga que las variables y Y están relacionadas linealmente y que para cada valor de , la variable dependiente, Y, es una variable aleatoria. Es decir, que cada observación de Y puede ser descrita por el modelo:

(1.1)

Instituto Tecnológico de Ensenada

Biol. Raúl Jiménez González

Regresión lineal simple

7

donde es un error aleatorio con media cero y varianza . También suponga que los errores aleatorios no están correlacionados. La ecuación (1.1) es conocida como el modelo de regresión lineal simple. Bajo el supuesto de que este modelo es adecuado y como el valor esperado del error es cero, , se puede ver que el valor esperado de la variable Y, para cada valor de , está dado por línea recta

(1.2)

En donde son los parámetros del modelo y son constantes desconocidas. Por lo tanto, para tener bien especificada la ecuación que relaciona las dos variables será necesario estimar los dos parámetros, que tienen los siguientes significados: - Es el punto en el cual la línea recta intercepta o cruza el eje y. - Es la pendiente de la línea, es decir, es la cantidad en que se incrementa o disminuye la variable por cada unidad que se incrementa Un procedimiento para ajustar la mejor recta y, por lo tanto, para estimar es mediante el método de mínimos cuadrados, el cual consiste en lo siguiente: si de la ecuación (1.1) despejamos los errores, los elevamos al cuadrado y los sumamos, obtendremos lo siguiente:

(1.3)

De esta forma, se quieren encontrar los valores de que minimizan la suma de los errores cuadrados. Es decir, se busca ajustar la recta de manera que la suma de las distancias en forma vertical de los puntos a la recta se minimice, como se ilustra en la figura 1.3. El procedimiento matemático para minimizar los errores de la ecuación (1.3) y así encontrar los estimadores de mínimos cuadrados de , consiste en derivar a y derivar también a con respecto a , se obtiene: con respecto a ,

Al igualar a cero las dos ecuaciones y resolverlas en forma simultánea con respecto a las dos incógnitas ( ), se obtiene la solución única: (1.4) (1.5)

donde Instituto Tecnológico de Ensenada

Biol. Raúl Jiménez González

8

CAPÍTULO 1

Regresión lineal simple y múltiple

(1.6)

(1.7)

son las medias muéstrales de las dos variables, es decir,

De esta forma, para obtener la recta ajustada es necesario aplicar las fórmulas anteriores, lo cual es muy sencillo, como se muestra en la tabla 1.2 para los datos de la resistencia de la pulpa. Tabla 1.2 Procedimiento para realizar los cálculos para la regresión simple para los datos de la resistencia de la pulpa.

4 6 8 10 12 14 16 18 20 22 24 26 28 30 Ʃ

134 145 142 149 144 160 156 157 168 166 167 171 174 183 Ʃ

16 36 64 100 144 196 256 324 400 484 576 676 784 900 Ʃ

=4 956

17 956 21 025 20 164 22 201 20 736 25 600 24 336 24 649 28 224 27 556 27 889 27 241 30 276 33 489 Ʃ

= 353 342

Instituto Tecnológico de Ensenada

536 870 1 136 1 490 1 728 2 240 2 496 2 826 3 360 3 652 4 008 4 446 4 872 5 490 Ʃ

= 39 150

137,2 140,4 143,7 146,9 150,2 153,4 156,7 159,9 163,2 166,4 169,7 172,9 176,2 179,4

-3,2 4,6 -1,7 2,1 -6,2 6,6 -0,7 -2,9 4,8 -0,4 -2,7 -1,9 -2,2 3,6

10,24 21,16 2,89 4,41 38,44 43,56 0,49 8,41 23,04 0,16 7,29 3.61 4,84 12,96

Ʃ 2216.6

Biol. Raúl Jiménez González

Regresión lineal simple

9

Por lo tanto, la línea recta que mejor explica la relación entre porcentaje de fibra y resistencia del papel, está dada por

En la figura 1.3 se muestra el ajuste de esta línea. De esta manera, por cada punto porcentual de incremento en el porcentaje de fibra, se espera un incremento de resistencia de 1,6242 en promedio. La ecuación (1.8) sirve para estimar la resistencia promedio esperada para cualquier porcentaje de fibra utilizada.

Nota: La calculadora científica, trae la función de Regresión Lineal, una vez activada esta función, se procede a capturar por parejas (X, Y) correspondientes sin olvidar separarlas por una coma entre ambos datos, se manda cada par a memoria, al finalizar la captura se obtienen los coeficientes correspondientes presionando la inversa correspondiente de acuerdo al modelo de esta. Utilizando un paquete computacional el resultado arrojado sería el siguiente: Resumen de Excel Estadísticas de la regresión Coeficiente de correlación múltiple 0,964432318 Coeficiente de determinación R^2 0,930129695 R^2 ajustado 0,92430717 Error típico 3,876481166 Observaciones 14 ANÁLISIS DE VARIANZA Regresión Residuos Total

Intercepción Porcentaje de fibra

Grados de libertad 1 12 13

Suma de cuadrados 2400,531868 180,3252747 2580,857143

Promedio de los cuadrados 2400,531868 15,02710623

F 159,7467824

Valor crítico de F 2,70702E-08

Coeficientes 130,6747253 1,624175824

Error típico 2,417790201 0,128504099

Estadístico t 54,047173 12,63909737

Probabilidad 1,05975E-15 2,70702E-08

Inferior 95% 125,406813 1,344189444

Pronóstico Resistencia 137,1714286 140,4197802 143,6681319 146,9164835 150,1648352 153,4131868 156,6615385 159,9098901 163,1582418 166,4065934 169,6549451 172,9032967 176,1516484 179,4

Residuos -3,171428571 4,58021978 -1,668131868 2,083516484 -6,164835165 6,586813187 -0,661538462 -2,90989011 4,841758242 -0,406593407 -2,654945055 -1,903296703 -2,151648352 3,6

Análisis de los residuales Observación 1 2 3 4 5 6 7 8 9 10 11 12 13 14

Resumen de Minitab Análisis de regresión: Resistencia vs. Porcentaje de fibra La ecuación de regresión es Resistencia = 131 + 1,62 Porcentaje de fibra

Predictor Constante Porcentaje de fibra

Coef 130,675 1,6242

Instituto Tecnológico de Ensenada

Coef. de EE 2,418 0,1285

T 54,05 12,64

P 0,000 0,000

Biol. Raúl Jiménez González

10

CAPÍTULO 1

Regresión lineal simple y múltiple

Análisis de varianza

Fuente Regresión Error residual Total

Obs 1 2 3 4 5 6 7 8 9 10 11 12 13 14

GL 1 12 13

SC 2400,5 180,3 2580,9

MC 2400,5 15,0

Porcentaje de fibra Resistencia 4,0 134,00 6,0 145,00 8,0 142,00 10,0 149,00 12,0 144,00 14,0 160,00 16,0 156,00 18,0 157,00 20,0 168,00 22,0 166,00 24,0 167,00 26,0 171,00 28,0 174,00 30,0 183,00

Ajuste 137,17 140,42 143,67 146,92 150,16 153,41 156,66 159,91 163,16 166,41 169,65 172,90 176,15 179,40

F 159,75

P 0,000

Ajuste SE Residuo 1,97 -3,17 1,75 4,58 1,55 -1,67 1,37 2,08 1,22 -6,16 1,11 6,59 1,04 -0,66 1,04 -2,91 1,11 4,84 1,22 -0,41 1,37 -2,65 1,55 -1,90 1,75 -2,15 1,97 3,60

Residuo estándar -0,95 1,32 -0,47 0,57 -1,68 1,77 -0,18 -0,78 1,30 -0,11 -0,73 -0,54 -0,62 1,08

Tabla 1.4. Formulas básicas para el Análisis de regresión para el modelo

Es el punto en el cual la línea recta intercepta o cruza el eje Y Es la pendiente de la línea, es decir, es la cantidad en que se incrementa o disminuye la variable por cada unidad que se incrementa Ecuación de la regresión lineal estimada Sumatoria de XY Sumatoria de XX Variabilidad total Media de X Media de Y Sumatoria de los cuadrados del error Suma de cuadrados de la regresión Estimador insesgado de la varianza Cuadrado medio del error Cuadrado medio total

Instituto Tecnológico de Ensenada

Biol. Raúl Jiménez González

Regresión lineal simple

11

Error estándar de estimación

=

Coeficiente de determinación en regresión lineal simple Estadístico

para prueba de hipótesis en regresión lineal simple

Estimación por intervalos para

, en

regresión lineal simple

Estimación por intervalos para la pendiente en regresión lineal simple Estimación para la ordenada al origen en regresión lineal simple

Ejemplo Suponga que el gerente de una cadena de servicios de entrega de paquetería desea desarrollar un modelo para predecir las ventas semanales (en miles de dólares) para las tiendas individuales basado en el número de clientes que realizan compras. Se seleccionó una muestra aleatoria entre todas las tiendas de la cadena con los siguientes resultados. Tienda 1 2 3 4 5 6 7 8 9 10

Clientes 907 926 506 741 789 889 874 510 529 420

Ventas ($000) 11,20 11,05 6,48 9,21 9,42 10,08 9,45 6,73 7,24 6,12

Tienda 11 12 13 14 15 16 17 18 19 20

Clientes 679 872 924 607 452 729 794 844 1010 621

Ventas ($000) 7,63 9,43 9,46 7,64 6,92 8,95 9,33 10,23 11,77 7,41

(a) Grafique el diagrama de dispersión. (b) Suponga una relación lineal y utilice el método de mínimos cuadrados para encontrar los coeficientes de regresión y (c) Interprete el significado de la pendiente. (d) Pronostique las ventas semanales (en miles de dólares) para las tiendas que tienen 600 clientes. (e) ¿Qué otros factores además del número de clientes pueden afectar las ventas?

Instituto Tecnológico de Ensenada

Biol. Raúl Jiménez González

12

CAPÍTULO 1

Regresión lineal simple y múltiple

Respuestas a) Gráfica de dispersión de Ventas vs. Clientes 12 11

Ventas

10 9 8 7 6 400

500

600

700 Clientes

800

900

1000

b) Los coeficientes son = 2,3086 y = 0,0088 c) Por cada cliente más, se espera un incremento en las ventas de 0,0088612 de miles de dólares en promedio. d) e) Factores tan variados como, atención al cliente, lejanía, falta de estacionamiento etc., etc. Resumen de Excel Coeficientes

Error típico

Estadístico t

Probabilidad

Int...


Similar Free PDFs