Title | TEMA 8 Correlaci n nominales y ordinales |
---|---|
Course | Estadística |
Institution | Universidad Complutense de Madrid |
Pages | 26 |
File Size | 792.8 KB |
File Type | |
Total Downloads | 40 |
Total Views | 136 |
mmmmmmmm...
Tema 8. Correlación entre variables cualitativas y cuasi-cuantitativas 1.
Concepto de correlación
2.
Correlación entre variables cualitativas: 2 y coeficiente C de contingencia
3.
Correlación entre variables cuasi-cuantitativas: coeficiente de correlación de Spearman rs
1
1. Concepto de correlación La correlación hace referencia a la variación conjunta de dos o más variables, analizando las características de la posible relación entre ellas: • Existe correlación entre variables si cierta o ciertas modalidades de una variable están ligadas o se dan de forma conjunta con cierta o ciertas modalidades de otra variable u otras variables • Se analiza: intensidad sentido • En función del tipo de variables implicadas se utilizaran diferentes índices de correlación 2
2. Correlación entre variables cualitativas 2 y C d de e contingencia
3
Correlación entre variables cualitativas Número de sujetos con la modalidad 1 de la variable X con modalidad 1 en la variable Y
Número de sujetos con la modalidad 1 de la variable X con modalidad 2 en la variable Y Número de sujetos con la modalidad 2 de la variable X con modalidad 1 en la variable Y
Y1
Y2
…
Yj
…
Yc
X1
n11
n12
…
n 1j
…
n1c
X2
n21
n22
…
n 2j
…
n2c
n1 n 2
…
…
…
…
…
Xi
ni1
ni2
nic
n i
…
…
…
…
…
Xf
nf1
nf2
n1
n2
Número de sujetos con la modalidad 1 de la variable Y con cualquier modalidad en la variable X
… …
nij
…
… …
n fj
…
nfc
nf
…
n j
…
nc
N
Número de sujetos con la modalidad j de la variable Y y con cualquier modalidad en la variable X
Número de sujetos con la modalidad 1 de la variable X y con cualquier modalidad en la variable Y
Número de sujetos con la modalidad i de la variable X y con cualquier modalidad en la variable Y
Número de sujetos con la modalidad de la variable i de la variable X y con la 4 modalidad j de la variable Y
Correlación entre variables cualitativas
Concepto
X: Fumar (sí, no) Y: Sexo (mujer, varón)
Fumar
Sexo Varón (B1)
Mujer (B2)
Sí (A1)
42 (A1B1)
28 (A1B2)
70 (A1)
No (A2)
18 (A2B1)
12 (A2B2)
30 (A2)
60 (B1)
40 (B2)
100 (N) 5
Correlación entre variables cualitativas •
No existirá correlación entre las variables cuando: 1. La proporción de fumadores entre los varones sea igual a la proporción de fumadores entre las mujeres y sea igual a la proporción de fumadores de la muestra
PA1 B1
A1B1 42 0,7 60 B1
PA1 B 2
A1B2 28 0,7 40 B2
PA1
A1 70 0,7 N 100
2. La proporción de no fumadores entre los varones sea igual a la proporción de no fumadores entre las mujeres y sea igual a la proporción de no fumadores de la muestra PA 2 B1
A2B1 18 0,3 60 B1
PA 2 B 2
A2 B2 12 0,3 40 B2
PA 2
A2 30 0,3 N 100
• Existirá correlación entre las variables cuando: Alguna de estas proporciones no sean iguales 6
Índice de correlación 2
Cálculo
2
( fe ft ) 2 ft
Frecuencia empírica u observada: la frecuencia obtenida en la muestra para cada casilla
Frecuencia teórica: la frecuencia que se esperaría obtener si las variables no tuviesen relación
n in j f t(ij ) N
7
Índice de correlación 2
Ejemplo ft(11)
ft(12)
70 60 42 100
Fumar
ft(21)
70 40 28 100
Sexo Varón
Mujer
Sí
42 (42)
28 (28)
70
No
18 (18)
12 (12)
30
60
40
100
30 60 18 100 ft(22)
30 40 12 100
8
Índice de correlación 2
Propiedades
1. Las variables pueden tener cualquier número de modalidades 2 2. 0
2 0 No existe relación entre las variables: para todas
2
las casillas, la fe = ft 0 Existe relación entre las variables
3. Si multiplicamos por k todas las frecuencias de una tabla, 2, queda multiplicado por k el valor de 2 2
(kfe kft ) 2 kft
k 2 ( fe kft ) 2 k kft
( fe ft ) 2 k 2 ft 9
Índice de correlación: χ2
Inconvenientes
1. No tiene límite máximo la relación
no podemos saber la intensidad de
2. Al multiplicar por k el valor de 2 aumenta sin que lo haga la relación entre las variables
Se utiliza como índice de la intensidad de la relación el COEFICIENTE C DE CONTINGENCIA 10
Coeficiente C de Contingencia
Cálculo
C
2 n 2 número total de casos
Propiedades 1. 0 C 1 2. C es función del nº de filas y de columnas para comparar valores obtenidos con las mismas variables en distintas muestras es necesario que el número de filas y de columnas sea el mismo
11
Coeficiente C de Contingencia
Propiedades (cont.)
3. Para tablas cuadradas (mismo número de filas y columnas: k) existe un valor máximo posible
C max
(k 1) k
2x2 C max
(2 1) 0,707 2
3x3 C max
(3 1) 0,816 3
4. Puede calcularse para cualquier tipo de variable siempre que sea categórica o esté categorizada 5. No es comparable directamente con otros índices de correlación 12
Coeficiente C de Contingencia
Interpretación
1. Existencia de relación C0 No existe relación entre las variables Existe relación entre las variables C0 2. Intensidad de la relación • Se compara el valor del coeficiente C con: Cmax si la tabla de contingencia es cuadrada 1 si la tabla de contingencia no es cuadrada cuanto más próximo a 0, menor intensidad cuanto más próximo al valor máximo (Cmax ó 1), mayor intensidad • Siempre conviene comparar con los valores obtenidos en otras investigaciones (con las mismas variables y el mismo número de categorías en cada una de ellas)
13
Coeficiente C de Contingencia
Interpretación (cont.)
3. Sentido de la relación ¿Qué modalidades de una variable se relacionan con qué modalidades de la otra? Se comparan las frecuencias empíricas con las frecuencias teóricas de cada casilla Se relacionan aquellas modalidades correspondientes a las casillas cuya frecuencia empírica es distinta de la teórica •
En estadística inferencial: se interpretan los residuos tipificados 14 mayores que +2 o menores que -2
Correlación entre variables cualitativas
Ejemplo
X: Sexo (mujer, varón) Y: Trastorno de la alimentación (sí, no)
Sexo
Mujer
Recuento (fe) Frecuencia esperada (ft)
Varón
Recuento (fe) Frecuencia esperada (ft)
50 60 100
50 40 100
Trastorno de la alimentación Si
No
42
8
(30)
(20)
18
32
(30)
(20)
60
40
50 60 100
50
50
50 40 100
15
Correlación entre variables cualitativas
Ejemplo (Cont.) 2
( f e f t )2 (42 30) 2 (8 20) 2 (18 30) 2 (32 20) 2 24 30 20 30 20 ft C
2 2 N
24 0,43 24 100
1. Ver si existe correlación:
2 24 C 0,43 2. Intensidad: 2x2 C max
Existe relación entre el género y tener trastorno de la alimentación
(2 1) 0,707 2
Intensidad media
Hay comparar con los valores obtenidos en otras investigaciones realizadas con las mismas variables y el mismo número de categorías 16 en cada una de ellas
Correlación entre variables cualitativas Ejemplo (Cont.)
Sexo
Mujer
Recuento (fe) Frecuencia esperada (ft)
Varón
Recuento (fe) Frecuencia esperada (ft)
Trastorno de la alimentación Sí
No
42
8
(30)
(20)
50
[fe > ft] [fe < ft] + 18 (30)
32 (20)
[fe < ft] -
[fe > ft] +
60
40
50
100
Existe una tendencia mayor entre las mujeres a tener trastorno de la alimentación y entre los varones a no tenerlo
17
3. Correlación entre variables cuasi-cuantitativas: coeficiente de correlación de Spearman rs
18
Coeficiente de correlación de Spearman (rs)
Concepto
• Existe correlación positiva si los sujetos que ocupan las primeras posiciones en X tienden a ocupar las primeras posiciones en Y y los sujetos que ocupan las últimas posiciones en X tienden a ocupar las últimas posiciones en la Y y los sujetos con posiciones intermedias en X tienden a ocupar posiciones intermedias en Y • Existe correlación negativa si los sujetos que ocupan las primeras posiciones en X tienden a ocupar las últimas posiciones en Y y los sujetos que ocupan las últimas posiciones en X tienden a ocupar las primeras posiciones en la Y y los sujetos con posiciones intermedias en X tienden a ocupar posiciones intermedias en Y • No existe correlación si algunos sujetos que ocupan las primeras posiciones en en ocupan las primeras posiciones en Y, otros las últimas posiciones en Y y otros posiciones intermedias en Y 19
Coeficiente de correlación de Spearman (rs)
Cálculo
n
6 di2 rs 1
i1 2
nn 1
di la diferencia en el orden que ocupa el sujeto “i” en las dos variables
Ejemplo Notas en matemáticas (órdenes)
Notas en literatura (órdenes)
Sujeto 1
2º
2º
8
Sujeto 2
5º
1º
5
4
Sujeto 3
3º
5º
Sujeto 4
4
6
Sujeto 4
4º
3º
Sujeto 5
9
5
Sujeto 5
1º
4º
Notas en matemáticas
Notas en literatura
Sujeto 1
8
7
Sujeto 2
3
Sujeto 3
Coeficiente de correlación de Spearman (rs) Notas en matemáticas (órdenes)
Notas en literatura (órdenes)
di
di2
Sujeto 1
2º
2º
0
0
Sujeto 2
5º
1º
4
16
Sujeto 3
3º
5º
-2
4
Sujeto 4
4º
3º
1
1
Sujeto 5
1º
4º
-3
9
n
6 di2 rs 1
i1 2
nn 1
1
6(0 16 4 1 9) 180 0,5 1 2 120 5(5 1) 21
Coeficiente de correlación de Spearman (rs) • La ordenación debe seguir el mismo criterio en las dos variables (de menor a mayor o de mayor a menor) • En caso de empate se da a todos los que empatan el orden medio X
Y
Sujeto 1
6º
5º
1
Sujeto 2
1,5º
6º
8
3
Sujeto 3
1,5º
3,5º
Sujeto 4
5
3
Sujeto 4
4º
3,5º
Sujeto 5
5
6
Sujeto 5
4º
2º
Sujeto 6
5
7
Sujeto 6
4º
1º
X
Y
Sujeto 1
3
2
Sujeto 2
8
Sujeto 3
1º 2º 1,5º 2
3º 4º 5º 4º 3
3º 4º 3,5º 2
22
Coeficiente de correlación de Spearman (rs)
Propiedades
1 rs 1 rs 0 No existe relación entre los órdenes que ocupan los sujetos en las dos variables
rs 0 Existe relación entre los órdenes que ocupan los sujetos en las dos variables
rs 1 rs 1
Existe una relación perfecta entre los órdenes que ocupan los sujetos en las dos variables. rs = 1: ordenación idéntica en ambas variables; rs = −1: ordenación idéntica pero en orden inverso 23
Coeficiente de correlación de Spearman (rs)
Interpretación
1. Existencia de relación
rs 0 Existe relación entre los órdenes que ocupan los sujetos en las dos variables
2. Sentido de la relación
rs 0 Los sujetos que ocupan las primeras posiciones en X
tienden a ocupar las primeras posiciones en Y y los sujetos que ocupan las últimas posiciones en X tienden a ocupar las últimas posiciones en la Y
rs 0 Los sujetos que ocupan las primeras posiciones en la X tienden a ocupar las últimas posiciones en la Y y los sujetos que ocupan las últimas posiciones en la X tienden a ocupar las primeras posiciones en la Y
24
Coeficiente de correlación de Spearman (rs)
Interpretación (cont.)
3. Intensidad de la relación cuanto más próximo esté rs a 0, menor será la intensidad cuanto más próximo esté |rs|a 1, mayor será la intensidad • Siempre conviene comparar con los valores obtenidos en otras investigaciones realizadas con las mismas variables
25
Coeficiente de correlación de Spearman (rs)
Ejemplo (cont.)
rs 0,5 • Existe relación entre la posición que ocupan los sujetos en función de su nota en Matemáticas y de su nota en Lengua • Relación de intensidad media • Los sujetos que ocupan las primeras posiciones en función de la nota de matemáticas tienden a ocupar las últimas posiciones en función de las notas de literatura y los que ocupan las últimas posiciones en función de la nota de matemáticas tienden a ocupar las primeras posiciones en función de las notas de lengua 26...