TEMA 2 - JRL PDF

Title TEMA 2 - JRL
Author Marta Sánchez Vega
Course Bioestadística
Institution Universidad de Sevilla
Pages 9
File Size 550 KB
File Type PDF
Total Downloads 23
Total Views 116

Summary

JRL...


Description

Marta Sánchez Vega

UNI UNIDAD DAD 2: REGRE REGRESIÓN SIÓN Y CORR CORRELACIÓN. ELACIÓN. ----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------1.- Introducción: en la unidad anterior vimos cómo resumir la información estadística acerca de un carácter medido en los individuos de una muestra. Aunque vimos algunos ejemplos en los que se estudiaban varias características, la presentaci presentación ón de la distribuc distribución ión se daba de forma ais aislada lada e independiente. Esta forma de estudiar la realidad es muy simple, aunque necesaria. Sin embargo, cualquier científico se plantea preguntas más complejas, por ejemplo, qué ocurrirá si aumenta o disminuye la dosis de una sustancia sobre el organismo humano, si es más frecuente una enfermedad en personas que mantienen un cierto hábito que en las que no lo tienen, etc. Estas preguntas no se pueden contestar usando los métodos que estudiamos en la unidad uno, por lo que en esta unidad nos vamos a centrar en los procedimientos que nos permitan estudiar la relación estadística de las propiedades que medimos en cada uno de los individuos. Es importante destacar que las propiedad propiedades es que queramos relacionar han de med medirse irse simultáneamen simultáneamente te en cada individuo, es decir, no podemos medir en unos individuos la característica A y en otros la característica B, sino que ambas tienen que medirse en el mismo individuo y a la vez. 2.- Relaciones bivariantes: durante el estudio de dos variables podemos encontrarnos diferentes combinaciones atendiendo al tipo de las mismas (cualitativas o cuantitativas). En este tipo de métodos se establecen dos tipos de variable, pudiendo ser las mismas de índole cualitativa o cuantitativa indistintamente: a.- Variable pre predictora: dictora: predice el comportamiento de la variable explicada. b.- Var Variable iable expl explicada: icada: se ve sometida a la variable predictora.

VARIABLE PREDICTORA VARIABLE EXPLICADA

C

Q

C (cualitat (cualitativa) iva)

CC

QC

Q (cuantitat (cuantitativa) iva)

CQ

QQ

El sentido de la flecha indica qué variable explica la otra; el grupo de estudio que más nos interesa es el de la variable cuantitativa que es explicada por otra cuantitativa. 3.- Diagrama de dispersión: el diagrama de dispersión o nube de puntos es la representación gráfica apropiada para simbolizar los valores de dos variables cuantitativas medidas en el mis mismo mo individuo individuo. En general se utilizan para valorar la relación entre las dos variables de modo que; en un eje se sitúan los valores de una variable, mientras que en el otro los correspondientes a la segunda; se toman los valores de ambas variables y se proyectan a modo de línea recta, ya sea horizontal (en el eje y) o verticalmente (en el eje x), el punto de cruce de ambas líneas es el valor que se toma para el diagrama de dispersión. Si una de las variables es predictora se suele colocar en el eje de abscisas abscisas. Las variables predictoras también se conocen como exp explicativas licativas e independ independientes ientes ientes.

1

Marta Sánchez Vega

El diagrama de dispersión nos dará información acerca de si existe o no relación entre las variables; la relación establecida puede ser: a.- Positiva: se da cuando valores elevados de una variable están acompañados de valores altos de la segunda. Negativa: se da cuando los valores elevados de una variable están acompañados por b.- Negativa: valores bajos de la segunda.

Puede darse que no exista relación entre las dos variables. Mediante el diagrama de dispersión debemos intentar conocer la forma de relación relación, que puede ser lineal, exponencial parabólica, etc. Para luego intentar realizar el mejor ajuste ajuste. Finalmente, también podemos aproximarnos a la intensida intensidad d de esta relación observando si la nube de puntos de adapta mucho a esta línea imaginaria que pensamos que podría explicar la relación.

Si trabajamos con Rcommander podemos obtener el diagrama de dispersión con la siguiente orden plot(antrop plot(antropomedi$PE omedi$PE omedi$PESO,antrop SO,antrop SO,antropomed omed i$ESTATURA i$ESTATURA,xlab="P ,xlab="P ,xlab="Peso eso en Kg",ylab="Es Kg",ylab="Estatura tatura e en n cm",co cm",col="red") l="red") l="red"). Siendo antr antropome opome opomedi di el conjunto de datos sobre el que obtenemos los valores de las variables, PESO y ESTATU ESTATURA RA las variables estudiadas (la que se coloca primero irá en el eje x, y la segunda en el eje y). Con xlab e ylab podemos renombrar los ejes sobre los que se dibuja la nube de puntos, y con col podemos obtener nuestro diagrama en diferentes colores.

2

Marta Sánchez Vega

4.- Cuarteto de Anscombe: el diagrama de dispersión nos puede proporcionar información que se escapa a los procedimientos cuantitativos, un ejemplo de esto son las gráficas del cuarteto de Anscombe, en las que se presentan di dist st stintas intas rela relaciones ciones con las mism mismas as medidas de asoc asociación iación iación. De esta forma, el cuarteto de Anscombe comprende cu cuat at atro ro conjuntos de datos que tienen las mismas propiedades estadísti estadísticas cas pero que son distintas al inspeccionar sus gráficos respectivos. Cada conjunto consiste en once puntos (x, y) cuyas propiedades son: PROPIEDAD Media de cada una de las variables x Varianza de cada una de las variables x Media de cada una de las variables y Varianza de cada una de las variables y Correlaci Correlación ón entre cada una de las variables x e y Recta de reg regresión resión

VALOR 9.0 11.0 7.5 4.12 0.816 y = 3 + 0.5x

5.- Asociación entre variables: al estudiar simultáneamente dos variables queremos conocer si sus valores tienen algún tipo de relación. Dos variables están relacionadas cuando los valores de una nos permiten predecir el comportamiento de la otra. Para medir esta relación vamos a definir varias medidas que nos ayudarán a cuantificar y a expresar numéricamente dicha relación. Estas medidas se conocen como medidas de asociac asociación ión ión. 5.1.- Covar Covarianza ianza (σ σ):: la covarianza nos indica el grado de variación con conjunta junta junta. Se dice que dos variables están variando conjuntamente y en el mismo se sentido ntido cuando, al crecer los valores de una de ellas van aumentando también los de la otra. En cambio, se dice que dos variables están variando conjuntamente, pero en sent sentido ido contrari contrario o cuando, al crecer los valores de una disminuyen los de la otra. Partiendo de la fórmula de la varianza, podemos establecer la de la covarianza teniendo en cuenta las dos variables, por lo que uno de los productos (𝒙𝒊 − 𝒙 ) va a ser sustituido por ). (𝒚𝒊 − 𝒙

𝑺𝟐 =

) ∑ (𝒙 𝒊 −  𝒙) · (𝒙𝒊 − 𝒙 𝑵

Debemos tener en cuenta que las medias a las que hacen referencia los factores anteriormente establecidos no son las mismas, la med media ia depende de ca cada da variable en cuestión.

3

Marta Sánchez Vega

De esta forma obtenemos la siguiente fórmula para la covarianza. La covarianza presenta una serie de propiedades; la más importante es que puede presentar valores ne negativos gativos gativos, a diferencia de la varianza. También se representa como Sxy .

𝝈=∑

(𝒙𝒊 − ) ) 𝒙 ⋅ (𝒚𝒊 − 𝒚 𝑵

La covarianza establece el producto de dos diferencias con respecto a sus medias para cada una de las variables. De esta forma, cuando una de las diferencias es negativa, el resultado también lo es. a.- La covarianza toma valores positivos cuando la relación entre las variables tiene sentido directo directo. Esto se explica porque, a valores pequeños, tanto la variable x como la variable y presentarán valores por debajo de la media (negativos), cuyo producto es positivo. Lo mismo pasa con valores elevados, ambas variables presentarán valores por encima de la media (positivos) cuyo producto será positivo. b.- La covarianza toma valores negativos cuando la relación entre las variables tiene sentido inverso inverso. Esto se explica dado que, para valores bajos de x (negativos) que se encuentren por debajo de la media, y va a presentar unos valores por encima de la misma (positivos) y a la inversa. Dando ambos productos un signo negativo como resultado. c.- La covarianza toma el valor 0 cuando la relación entre las variables no existe existe. Además, cuanto mayor sea la relación entre las variables, mayor será el valor de la covarianza en términos a absolutos bsolutos bsolutos. Sin embargo, la covarianza también depende de la uni unidad dad de medida medida, de modo que, si una variable está medida en centímetros, las diferencias serán mucho mayores que si la misma variable se hubiera medido en kilómetros. La covarianza no depende solo del grado de relación de las variables, sino también de las unidades de medida y, por ende, de la varianza de las dos variables en estudio. Para entender mejor el cálculo de la covarianza vamos a usar un eje de coordenadas: Como ejemplo vamos a establecer la media de la variable x en 5,5 y la media de la variable y en 5. De esta forma, con la proyección lineal de ambas medias obtenemos una división del plano de puntos en 4 cuadra cuadrantes ntes ntes; A, B, C, D. En el cuadrante A las distancias de los valores con respecto a la media de x son positivas y las distancias de los valores con respecto a la media de y son positivas ositivas. El producto de ambos factores dará como resultado un valor positivo positivo.

𝑩

𝑨

 𝒚

𝑪

𝑫

 𝒙

En el cuadrante B las distancias de los valores con respecto a la media de x son negativas negativas, mientras que las distancias de los valores con respecto a la media de y son positivas positivas. El producto resultante de ambos factores será negat negativo ivo ivo.

4

Marta Sánchez Vega En el cuadrante C las distancias de los valores con respecto a la media de x son negativas y las distancias de los valores con respecto a la media de y también son negativas. De esta forma, el producto de ambos factores será positivo positivo. Por último, en el cuadrante D D, las distancias de los valores con respecto a la media de x son positivas positivas, mientras que las distancias de los valores con respecto la media de y son ne negativas gativas gativas. El producto de ambos factores dará un resultado negativo negativo. De estas forma, las variables que tengan una rel relaci aci ación ón directa (covarianza positiva) poseerán sus puntos mayoritariamente en los cuadrantes C y A, mientras que las variables que tengan una relación invers inversa a (covarianza negativa) predominarán sus valores en los cuadrantes B y D.

En Rcommander podemos calcular la covarianza ejecutando la orden cov(antro cov(antropomedi$EST pomedi$EST pomedi$ESTATURA,antr ATURA,antr ATURA,antropom opom opomedi$PESO) edi$PESO) 5.2.- Coeficie Coeficiente nte de correla correlación ción lineal de Pearso Pearson n (rr ):: para evitar la dependencia de la covaria covarianza nza según las unidades de medida que se den, se usa el coeficiente d de e correla correlación ción ción. El coeficiente de correlación es una forma de medir la intensidad de la relación que existe entre dos variables de tipo cuantitativo continuo, a diferencia de la covarianza que mide el sentido de la variación, este coeficiente también mide la fuerza de unión. La varianza y la covarianza varían dependiendo de las unidades que se utilicen en las medidas de las muestras, la primera lo hace con valores al cuadrado y la segunda de forma proporcional. Si se desea ajustar, la covarianza debe dividirse por las raíces cuadradas de la varianza de las dos variables, es decir por las desviaci desviaciones ones tí típi pi picas cas cas.

𝒓=

𝒔𝒙𝒚 𝒔𝒙 ⋅ 𝒔𝒚

Es una medida abstracta, no tiene unidades. El campo de variación de esta medida se halla entre [-1, 1]. Si su valor es igual a -1, la correlación es perfecta inversa nversa; cuando está cerca o es igual a 0 no existe correla correlación ción lineal lineal, aunque pueda haberla de otro tipo y si es igual a 1, la correlación es perfecta di directa. recta. De esta forma, las características del coeficiente de correlación son: a.- Solo es aplicable en relacion relaciones es lineales lineales. b.- No tiene unidad unidades es es. c.- Oscila entre -1 y 1. Como el denominador es siempre positivo dado que la desviación típica siempre lo es, el signo del coefici coeficiente ente de correlac correlación ión lo proporciona la covar covarianza ianza ianza, es decir, que, si la covarianza es negativa, el coeficiente de correlación también lo será. Para calcular este coeficiente con Rcommander podemos ejecutar directamente la orden cor(antropome cor(antropomedi$EST di$EST di$ESTATURA ATURA ATURA,antropome ,antropome ,antropomedi$PES di$PES di$PESO) O) o bien elegir en el menú Esta Estadísticos dísticos  Resúmenes  Test de correlac correlación ión y elegir las dos variables a estudiar, seleccionando posteriormente Coeficiente de Pearso Pearson. n.

5

Marta Sánchez Vega

5.3.- Coeficie Coeficiente nte de correla correlación ción ordina ordinall de Spearma Spearman n (rrs ):: para averiguar si existe relación entre dos variables medidas en escala ordinal que se puntúa en función del grado de intensidad con que posee la característica observada, o siendo las dos cuantitativas no cumplen la condición de seguir una distribución normal, se utilizará el coeficiente propuesto por Spearman, a partir de la propia expresión del coeficiente de correlación lineal de Pearson. Ante todo, es necesario asignar rangos a cada uno de los valores de cada una de las variables. Una relación di directa recta implicará rangos similar similares es en las dos variables, mientras que si la relación es inversa un rango eleva elevado do en una de las variables se corresponderá con un rango baj bajo o en la otra, siendo los rangos op opuestos uestos uestos. Para el cálculo del coeficiente se calculan las diferencias (d di ) para cada par de valores de los rangos asignados a cada variable. El rango es el número de orden que se le asigna a una variable, siendo la más pequeña de rango 1, independientemente de su valor, y la mayor de rango N, correspondiente con el número total de muestras. Si hay valores intermedios que están empatados su rango será igual a la semisuma del rango correspondiente y el siguiente. x

y

R

R'

d

1,3

14,3

2

2

0

1,7

14,7

4

3

1

0,8

18,0

1

4

-3

1,4

12,1

3

1

2

Dados estos valores, R se corresponde con los rangos de la variable x, es importante que los ordenemos por orden y no por ap aparición arición arición; mientras que R’ se corresponde con los rangos de la variable y. La última columna es la difer diferencia encia entre ambos rangos; d = R – R’. De esta forma, si la relación es dir directa ecta ecta, la diferencia de las variables debe ser 0, mientras que, si la relación es invers inversa a, la diferencia de las variables será muy grande. Sin embargo, las interpretaciones del coeficiente son iguales a las que vimos con el de Pearson, la fórmula para calcular el coeficiente de Spearman es la siguiente, aunque no nos vamos a detener en ella. Cuando el coeficiente se acerca a 1, la relación es directa, cuando se acerca a -1 inversa y cuando se acerca a 0 son variables independientes.

6

𝟔𝜮 ⅆ𝟐𝒊 𝒓𝒔 = 𝟏 − 𝒏(𝒏𝟐 − 𝟏)

Marta Sánchez Vega

6.- Regresión: en la correlación vimos que ambas variables desempeñaban un papel perfectamente simétrico; el interés radicaba en averiguar si las dos fluctuaban de forma conjunta. Esta simetría puede desaparecer en dos tipos principales de situaciones. Cuando se trata de averiguar si una variable cambia sus valo valores res en función de los tomados por la otra variable, o bien de predecir una variable en función de la otra. En resumen, la correlación mide la asociación entre dos variables, pero no cómo depende una de la otra, de lo que se encarga la regresión regresión. La regresión nos permite establecer la dependencia o no de una variable sobre otra, así como la relación que existe entre ambas. Para ello, una de las variables tiene que hacer el papel de variable dependiente y la otra, de variable indepen independiente diente diente. La variable independiente permite predecir los valores de la primera; cuando hablamos de predicción no se debe interpretar como un acierto exacto exacto, ya que siempre existe un rango de variabilidad inherente. La relación entre dos variables puede tener muchas formas matemáticas, aunque la más usada es la recta recta, aunque también podrían establecerse parábolas, relaciones exponenciales, logarítmicas, etc. 6.1.- Cálculo de la rec recta ta de re regresión: gresión: para ajustar una recta a los valores observados es necesario estimarlos valores de a (valor constante donde se sitúa la recta para x=0) y b (pendiente de la recta, se refiere al incremento de y por cada valor de x). De esta forma buscamos una recta del tipo: y = a + bx que se adapte lo mejor posible a nuestras observaciones, por lo que añadimos el término de er error ror (e ei) a la ecuación, que será diferente para cada indivi individuo duo duo. El término error puede interpretarse como la parte de la variable y no explicada por x. Puede venir dado por un condicionante o por varios. Si consideramos yi como los valores observados de la variable dep dependie endie endiente nte e yi* como los valores calculados mediante la recta de regresión, podemos calcular la diferencia entre estos dos valores, lo que nos permite conocer la di discrepan screpan screpancia cia para cada individuo entre el valor observado y el calculado, que se corresponde con el err error or para cada sujeto sujeto.

y = a + bx + ei

ei = yi - y i*

6.2.- Método de mín mínimos imos cua cuadrados: drados: la recta de regresión por mínimos cuadrados se calcula con estimaciones de a y b, pero para ello es necesario conocer las medias de las dos variables, las desviaciones típicas y la covarian covarianza za entre ellas. Este método consiste en trazar una recta de tal forma que la distancia de cada punto con respecto de la recta propuesta sea lo más pequeña posible. Cada segmento es lo que se considera un residuo o residual que expresa la distancia entre el valor observado y el valor que predice la recta (error error error); se proyecta sobre el eje yy.. El método de mínimos cuadrados tiene dos condiciones: a.- La recta tiene que pasar por el punto m medio edio de los valores de x y de los valores de y; es ).. , 𝒚 decir por el punto de corte de la proyección de la media de x y la de y; (𝒙 b.- La suma de los residuos elevados al cua cuadrado drado tienen que ser míni mínimo mo mo. Los residuos se elevan al cuadrado porque de no ser así los errores positivos y los negativos se compensarían y la suma siempre nos daría 0, independientemente de que la recta sea la que mejor se ajuste. Por lo tanto, para suprimir los signos negativos se elevan al cuadrado. También se podría usar el valor absoluto, pero técnicamente es más incómodo trabajar con esa función. La recta de regresión por mínimos ) ) ⋅ (𝒚𝒊 − 𝒚 𝒔𝒙𝒚 ∑( 𝒙 𝒊 − 𝒙 𝒂=𝒚 = − 𝟐 ⋅𝒙 𝒚−  𝒙⋅ cuadrados es aquella en la que la 𝟐 ∑(𝒙𝒊 − 𝒙) 𝒔𝒙 pendiente y la ordenada en el origen se calculan mediante las siguientes fórmulas; una vez calculados, a y b se mantienen 𝒔𝒙𝒚 ∑(𝒙𝒊 − 𝒙 ) ⋅ (𝒚𝒊 − 𝒚) 𝒃= 𝟐 = constantes para la recta en cuestión. 𝟐


Similar Free PDFs