Tema 9. Regresión lineal simple PDF

Title Tema 9. Regresión lineal simple
Author Valme López
Course Estadística
Institution Universidad de Sevilla
Pages 11
File Size 707.8 KB
File Type PDF
Total Downloads 37
Total Views 133

Summary

Apuntes del Tema 9. Regresión lineal simple. Profesora: Elena Olmedo...


Description

Tema 9. Regresión lineal simple Concepto de regresión Dada una variable bidimensional (X, Y), la posible relación que pueda existir entre sus dos componentes X e Y se puede clasificar así esquemáticamente: a) Independencia: No hay relación entre las dos variables. Ejemplo: X=: estatura de los ciudadanos españoles, Y=: día del mes de su nacimiento. b) Dependencia funcional: Cuando conocido el valor que toma una variable se puede determinar con exactitud el valor que toma la otra. Ejemplo: X=: temperatura de cierta masa de gas contenida en determinado recipiente; Y=: presión que ejerce el gas sobre el recipiente a la temperatura X. c) Dependencia estadística: Cuando existe cierta relación entre las dos variables que sin embargo no es posible expresarla matemáticamente de forma precisa. A su vez esta dependencia puede ser fuerte o débil. Ejemplos: a. X=: estatura de los individuos; Y=: peso de los individuos (dependencia fuerte) 2 b. X=: ingresos mensuales de los individuos; Y=: gasto mensual en acudir al cine (dependencia débil, pues el gasto en cine depende de las preferencias individuales y de los gustos que de la renta en sí misma) La correlación, estudiada en el tema anterior, trata en general sobre el grado y el tipo de dependencia que existe entre las variables. La regresión, cuyo estudio se va ahora a iniciar, trata el problema de encontrar una fórmula o modelo que sea adecuada para expresar una variable en función de la otra.

Curva de regresión Se dispone de información simultánea de dos variables estadísticas medidas en los individuos de la población (X, Y) • •

Analizar la información de cada variable individualmente considerada Analizar y cuantificar la relación existente entre las variables: o Análisis de correlación: variables mide el grado de relación o Análisis de regresión: busca una relación funcional entre ambas variables

REGRESIÓN DE Y SOBRE X: El objetivo es explicar la variable Y utilizando para ello la variable X, es decir, aproximar el conjunto de valores que toma la variable Y mediante una función de la variable X

La distribución de frecuencias de Y condicionada a X proporciona, para cada valor de X, el conjunto de posibles valores que toma la variable Y, cada uno con su frecuencia Todos estos valores posibles de Y, condicionados a un valor determinado de X, se pueden resumir en la media de Y condicionada a ese valor de X Por tanto, a cada valor de X se le hace corresponder la media de los valores de Y condicionados este valor de X. Esa es la curva de regresión

Curva de regresión empírica Propiedad: La curva de regresión empírica es la función que mejor aproxima el comportamiento de una de las variables en función de la otra, en el sentido de minimizar la suma (o media) de los cuadrados de los errores cometidos. Se pretende explicar Y como función de X, de manera que, para un determinado valor de X, sustituyendo este valor en la función utilizada, se obtiene un valor estimado de Y, en general diferente del valor real de Y. El error cometido es la diferencia entre el valor real y el valor estimado de Y. Y

g (X)

Y* = g (X) Sea el vector (X, Y), con pares de valores (Xi, Yj)

Para cada valor de X = Xi se comete un error, que es la diferencia entre el valor real de Y y el valor estimado de Y, ej = Yj – Yj* La función que minimiza la media de los cuadrados de los errores cometidos es la curva de regresión empírica

La media de la curva de regresión coincide con la media de la variable:

Los errores cometidos tienen media nula:

Ajuste de la recta de regresión a la nube de puntos Se va a buscar la recta que mejor ajusta la nube de puntos. ¿Mejor en qué sentido?: que minimiza el error cuadrático medio.

Se obtienen dos ecuaciones, denominadas ecuaciones normales. Primera Ecuación Normal: 𝑦 = 𝑎 + 𝑏 ⋅ 𝑥 Segunda Ecuación Normal:  𝑥 ⋅ 𝑦 = 𝑎 ⋅ 𝑥 + 𝑏 ⋅  𝑥2

Se trata de un sistema lineal de dos ecuaciones con dos incógnitas, que hay que resolver. Se multiplica la primera ecuación por la media de X, y se resta de la segunda ecuación:

La recta de regresión es una recta que: •Pasa por la coordenada dada por las medias de las variables •Su ordenada en el origen es el coeficiente a. Está medido en las mismas unidades que la variable Y. •Su pendiente es el coeficiente b. Está medido en uds.Y/uds.X Significado de los coeficientes Y* = a + b ⋅ X Si X = 0

Y* = a + b ⋅ 0 = a

El coeficiente a es la ordenada en el origen: el valor que toma Y, según la recta, cuando la X toma el valor 0

Recta de regresión. Observaciones El coeficiente b es la pendiente de la recta, es decir, la tangente del ángulo que forma la recta con el eje horizontal.

𝛥𝑦 ∗ b = tg (𝛼 ) = 𝛥𝑥 Por tanto, proporciona la relación entre las variaciones absolutas de Y* frente a X. En concreto, es el cociente entre la variación de Y, según la recta, y la variación de X. En concreto, cuando la variable X aumenta en una unidad, el coeficiente b proporciona la variación de Y, según la recta.

Si ∆x = 1 ⇒ ∆y* = b El signo del coeficiente b proporciona la monotonía de la recta: un signo positivo implica una recta creciente y un signo negativo una recta decreciente. El signo del coeficiente b coincide con el signo de la covarianza, y por tanto con el del coeficiente de correlación lineal. Así, si la relación lineal es directa, las variaciones de ambas variables tienen el mismo signo. La recta de regresión ajustada tiene pendiente positiva

Si la relación lineal es inversa, las variaciones de ambas variables tienen signo contrario. La recta de regresión ajustada tiene pendiente positiva

Si el coeficiente b proporciona la relación entre las variaciones absolutas de Y* frente a X, la elasticidad proporciona la misma relación, pero entre las variaciones relativas (en proporción o porcentaje)

Propiedades de los errores o residuos cometidos

Los errores tienen media nula Los errores son incorrelados con respecto a la variable X El ECM mínimo se obtiene sustituyendo en la expresión los coeficientes de la recta obtenida

Relación entre la varianza de los errores, la varianza de la variable y el coeficiente de correlación lineal Al tener los residuos media nula, el ECM mínimo coincide con la varianza de los errores o Varianza Residual

𝑌 − 𝑦)2 ⇒ mide la variabilidad de la variable con respecto a su 𝑆𝑌2 = ( media

𝑆𝑒2 = ( 𝑌 − 𝑌 ∗ )2 ⇒ mide la variabilidad de la variable con respecto a la recta

2 ⇒ 𝑆𝑒2 = 𝑆𝑌2 ⇒la varianza de los errores es lo más grande que puede ser, 𝑟𝑋𝑌 igualando a la varianza de la variable 2 ⇒ 𝑆𝑒2 = 0 ⇒la varianza de los errores es lo más pequeña que puede ser, 𝑟𝑋𝑌 de manera que, al ser una suma de cuadrados, todos los errores son nulos: los puntos de la nube de puntos están alineados

•Si la relación lineal entre las variables es perfecta, los errores del ajuste lineal serán nulos y la varianza de los mismos también. •Si la relación lineal es inexistente, los errores serán lo mayor posible, de manera que su varianza igualará a la varianza de la variable.

¿Qué ocurre cuando intentamos ajustar una recta de Y como función de X, siendo nula relación lineal entre las variables? En este caso, la covarianza será nula SXY = 0 La pendiente de la recta será nula b = 0 La recta es paralela al eje de abscisas y coincide con la media de Y Y* = a + b ⋅ X

Fórmula de descomposición de la varianza Se trata de descomponer la varianza total de la variable en dos sumandos: la parte de la varianza explicada por la recta y la parte no explicada por la recta (o varianza residual). Esta descomposición se deriva, a su vez, de descomponer el error de cada valor con respecto a su media en dos partes: el error entre cada valor y el valor proporcionado por la recta, y el error entre el valor proporcionado por la recta y su propia media VT = VNE + VE

Bondad de ajuste: Coeficiente de Determinación

Definición del Coeficiente de Determinación

o Propiedades y Significado del Coeficiente de Determinación ✓ Coincide con el cuadrado del coeficiente de correlación lineal de Pearson

de manera que, a mayor valor del coeficiente de correlación lineal (mayor es la relación lineal existente entre las variables), mayor es el coeficiente de determinación y mejor será el ajuste conseguido. ✓ Al ser una proporción, está acotado entre 0 y 1. ▪ Si no hay relación lineal, la varianza de los errores cometidos con la recta es lo más grande posible, igualando a la varianza de la variable



Si la relación lineal es perfecta (directa o inversa), los puntos están alineados y los errores cometidos por la recta son nulos. La varianza de los errores es cero y la varianza explicada es lo más grande que puede ser, igualando a la varianza de la variable

Relación entre las dos rectas de regresión Para una nube de puntos se puede ajustar la recta de Y en función de X, o la de X en función de Y. Las expresiones de ambas son:

Observaciones: •Las dos rectas, en general, no coinciden, de manera que no puede despejarse una a partir de la otra •Ambas pasan por el punto dado por las medias, de forma que ese punto es punto de corte entre las dos •El coeficiente de determinación es el mismo para las dos rectas: la bondad de ajuste, y las proporciones de varianza explicada y no explicada coinciden (no así las varianzas explicada y no explicada) •El coeficiente de determinación coincide con el producto de las pendientes de ambas rectas

•Si la relación lineal es perfecta, ambas rectas coinciden, y una puede despejarse a partir de la otra •Si la relación lineal no existe, ambas rectas son perpendiculares entre sí y paralelas a los ejes, al coincidir cada una con la propia media de la variable.

....


Similar Free PDFs