Estadistica Correlacional Covarianza y Correlacion de Pearson PDF

Title Estadistica Correlacional Covarianza y Correlacion de Pearson
Author Andrea Gracia Rodríguez
Course Pedagogía Social
Institution Universidad de Oviedo
Pages 6
File Size 260.5 KB
File Type PDF
Total Downloads 7
Total Views 153

Summary

Apuntes Medición...


Description

7.- ESTUDIO CONJUNTO DE DOS VARIABLES. COVARIANZA Y CORRELACIÓN La covariabilidad puede verse como una propiedad conjunta de dos o más variables, donde se intenta averiguar si las propiedades medidas se relacionan entre sí. Por ejemplo cuando nosotros intentamos averiguar si las personas más viejas sufren más o menos depresión que las personas más jóvenes, o cuando nosotros deseamos saber si las personas más inteligentes tienen mejor rendimiento académico. En su formulación clásica, y de forma general, el estudio de la covariación o correlación entre dos variables exige que ambas variables se expresen en el mismo tipo de escala de medida. Cumplido esto, los datos pueden describirse en forma de matriz rectangular: Sujeto S1 S2 S3 S4 .

Edad 15 16 21 22 .

Inteligencia 140 93 105 109 .

En este ejemplo, puede observarse como tendencia general que la inteligencia aumenta con la edad (caso cierto si comparamos los sujetos 2,3 y 4). No obstante, existe un sujeto (el primero) que rompe esta regla general (es el más joven y el que tiene más inteligencia). Las preguntas básicas que nos debemos hacer son las siguientes: ¿existe relación?, ¿es lineal o curvilínea?, ¿directa o inversa?, ¿es fuerte o más bien débil? Normalmente el proceso de estudio de la covariación consta de dos pasos: 1. Obtención de una gráfica con la relación que presentan las dos variables (diagrama de una nube de puntos). 2. Obtención de un estadístico resumen de la covariación.

7.1.- Diagrama de dispersión La representación gráfica se realiza mediante un dibujo realizado en un sistema bidimensional de coordenadas cartesianas. La producción de este tipo de diagramas es el paso más importante a la hora de estudiar la correlación entre dos variables. Con frecuencia se descuida a veces este paso, o incluso es despreciado en los análisis de datos pasando directamente los autores a utilizar estadísticos más complejos. La inspección del diagrama es esencial para detectar problemas como son las puntuaciones "outliers", que pueden deberse desde una mala introducción de la información a la mezcla de datos correspondientes a distribuciones distintas. Es también útil para determinar si los estadísticos de correlación que dependen de relaciones lineales son apropiados, o bien es necesario sustituirlos por otros más pertinentes En el siguiente cuadro se muestran seis diagramas de dispersión en los que se pueden observar distintas relaciones entre variables tanto en intensidad como en sentido,

7.2.- Covarianza La covarianza entre dos variables es un estadístico resumen indicador de si las puntuaciones están relacionadas entre sí. Este estadístico puede calcularse si las dos variables están medidas, al menos, en una escala de intervalo. Puede considerarse para el cálculo la que se considera fórmula de definición (mostrando una gran relación con la fórmula de la varianza, dado que se trata de una medida de dispersión que se fundamenta en los mismos aspectos: media de las distancias respecto de las medias, dado que considera dos variables) n

s xy 

 (X

i

 X )(Yi  Y )

i 1

n

O puede procederse a su operativización mediante la fórmula de cálculo, más sencilla en el procedimiento de trabajo y que se deriva de la anterior. n

X Y

i i

s xy 

i 1

n

 XY

Este estadístico refleja la relación lineal que existe entre dos variables. El resultado numérico varía entre los rangos de +infinito a –infinito, por lo que no puede determinarse el grado de relación lineal que existe entre las dos variables, solo es posible ver la tendencia.

1. Una covarianza positiva significa que existe una relación lineal positiva entre las dos variables. Es decir, las puntuaciones bajas de la primera variable (X) se asocian con las puntuaciones bajas de la segunda variable (Y), mientras las puntuaciones altas de X se asocian con los valores altos de la variable Y. 2. Una covarianza de negativa significa que existe una relación lineal inversa perfecta (negativa) entre las dos variables. Lo que significa que las puntuaciones bajas en X se asocian con los valores altos en Y, mientras las puntuaciones altas en X se asocian con los valores bajos en Y. 3. Una covarianza 0 se interpreta como la no existencia de una relación lineal entre las dos variables estudiadas.

7.3.- Correlación de Pearson La correlación de Pearson entre dos variables refleja la intensidad y el sentido en que las puntuaciones están asociadas. La formulación clásica, conocida como correlación producto momento de Pearson, se simboliza por la letra griega rho (xy) cuando ha sido calculada en la población. Si se obtiene sobre una muestra, se designa por la letra "rxy". Al igual que la Covarianza, este estadístico puede calcularse si las dos variables están medidas, al menos, en una escala de intervalo. Se muestran las fórmulas de cálculo por medidas de dispersión, así como por sumatorios. n

rxy 

rxy 

sxy sx s y

Z Z x



y

i 1

n

n

n

n

i1

i 1

i 1

n  x i y i   xi  y i  n 2  n 2  n 2  n 2  n xi   xi   n y i   yi    i 1    i 1  i 1    i1

El resultado numérico oscila entre los valores de +1 a –1. 1. Una correlación de +1 significa que existe una relación lineal directa perfecta (positiva) entre las dos variables. Es decir, las puntuaciones bajas de la primera variable (X) se asocian con las puntuaciones bajas de la segunda variable (Y), mientras las puntuaciones altas de X se asocian con los valores altos de la variable Y. 2. Una correlación de -1 significa que existe una relación lineal inversa perfecta (negativa) entre las dos variables. Lo que significa que las puntuaciones bajas en X se asocian con los valores altos en Y, mientras las puntuaciones altas en X se asocian con los valores bajos en Y. 3. Una correlación de 0 se interpreta como la no existencia de una relación lineal entre las dos variables estudiadas.

7.3.1.- Factores que pueden afectar al valor del coeficiente de correlación de Pearson: Variables contaminantes En ciertas ocasiones la nube de puntos aportan suficiente información sobre las variables que pueden estar distorsionando los resultados. Por ejemplo, veamos el siguiente caso:

A nivel visual está claro que existe un diferente comportamiento de los sujetos dependiendo del sexo, y que la relación en los subgrupos parece ser menor que si tomamos todos los casos a la vez. Por precaución, cuando nos encontremos con gráficas de este tipo convendría analizar los grupos por separado. En este ejemplo en concreto los valores son: - Si tomamos todos los casos el valor de r = 0.81, - En los varones el valor de r es 0.66 - En las mujeres este valor es 0.72 Como vemos, hemos comprobado estadísticamente, que la relación lineal de las variables es mucho menor en los grupos por separado que si la analizamos con todos los sujetos a la vez. Es decir, la variable sexo en este caso aumenta de forma ficticia el grado de relación lineal entre las dos variables. El tipo de errores que producen este tipo de variables, sino son controladas por el investigador, son de signo impredecible. En ciertos casos aumenta el valor de la relación, pero también existen casos donde producen una disminución del estadístico de asociación. Normalmente a los estadísticos producidos por estas variables se les conoce como correlaciones "espureas" (relaciones lineales aparentes), independientemente de si aumentan o disminuyen el valor de la relación. Outliers Una puntuación "outlier" es una o varias puntuaciones extremas dentro de una variable (por ejemplo si en un variable los sujetos puntúan normalmente entre 20 y 35 puntos, el valor 80 debería ser considerado como "sospechoso" en principio).

Este tipo de valores afecta gravemente a la correlación, sobre todo si trabajamos con muestras pequeñas. La distorsión producida normalmente es aumentar de forma "espurea" el grado de relación lineal. La inspección del diagrama es esencial para detectar este problema, que puede deberse desde una mala introducción de la información a la mezcla de datos correspondientes a distribuciones distintas.



10,00

1y = 0,34 + 0,94 * x R-cuadrado = 0,87

y

8,00

6,00





4,00





4,00

6,00

8,00

10,00

x

10,00

1y = 4,00 + 0,00 * x R-cuadrado = 0,00

y

8,00

6,00



4,00







4,00

6,00

8,00

10,00

x

Linealidad Otro aspecto a tener en cuenta a la hora de utilizar el coeficiente de correlación de Pearson es la linealidad de la relación. Este coeficiente asume que la relación entre las dos variables se ajusta a un modelo lineal por lo que, si la relación se aleja de este modelo lineal, estaremos obteniendo estimaciones erróneas del grado de relación entre las variables. En el siguiente cuadro se muestran dos diagramas de dispersión en los que claramente se aprecian las diferencias entre las relaciones entre variables.

Independent:

X

Dependent Mth

Rsq

d.f.

F

Sigf

b0

b1

Y

LIN

,268

8

2,93

,126 42,5000

1,2188

Y

QUA

,394

7

2,28

,173 27,3754

6,2052

Y

CUB

,412

6

1,40

,331

58 56 54 52 50 48

Lineal X

46

Cuadrático

44

X

42

Cúbico X

40

X

4

6

8

10

12

14

b3

-,3279

7,0701 16,9007 -1,9759

Y

2

b2

,0750...


Similar Free PDFs