Tema 5 - Analisis Conjunto de Variables PDF

Title Tema 5 - Analisis Conjunto de Variables
Course Introducción a la Estadística
Institution Universidad de Oviedo
Pages 5
File Size 199.8 KB
File Type PDF
Total Downloads 12
Total Views 131

Summary

Download Tema 5 - Analisis Conjunto de Variables PDF


Description

Tema 5 – Analisis conjunto de variables Una variable bidimensional (xi,yj) es un par ordenado de variables estadísticas que aparece cuando en un colectivo dos características que estudiamos conjuntamente y donde cada característica lleva asociada o está representada por una variable estadística. Cada valor de la variable bidimensional va a ser un par ordenado de valores (xi,yj). Generalmente, la distribución de frecuencias de una variable bidimensional viene dada por una tabla de doble entrada o tabla de contingencia en la que, en sentido horizontal aparecen los valores de la variable x ordenados en sentido creciente, y en vertical los valores de la variable y también ordenados en sentido creciente. Dentro de la tabla aparece el número de veces que se repite cada valor de la variable bidimensional o cada par ordenado de valores, a lo que llamamos frecuencias conjuntas (nij). La suma de todas las frecuencias conjuntas es igual al número de observaciones o tamaño de la distribución:

∑∑ nij= N Las frecuencias relativas conjuntas (fij) vienen dadas por el cociente entre las frecuencias conjuntas y el número de observaciones. f ij =

nij N

Se cumple que la suma de todas las frecuencias conjuntas relativas es igual a 1.

∑∑ f ij=1

1. Distribuciones marginales Son las distribuciones para cada una de las variables obtenidas a partir de la distribución conjunta de la variable bidimensional. Existe tanto para x como para y.

1.1. Distribución marginal x 1

Construimos una tabla en la que en la primera columna aparezcan los valores de la variable x y en otra columna el número de veces que se repite el valor de la variable, a lo que llamamos frecuencias marginales (ni). La suma de estas frecuencias es igual al número de observaciones.

∑ n i.=N También podemos definir las frecuencias relativas marginales (fi.) que se obtienen como el cociente entre las frecuencias marginales y el número de observaciones. f i .=

∑ ni . N

La suma de todas las frecuencias marginales es igual a 1.

∑ f i .=1 1.2. Distribución marginal de y Construimos una tabla en la que en la primera columna aparezcan los valores de la variable y y en otra columna el número de veces que se repite el valor de la variable, a lo que llamamos frecuencias marginales (n.j). La suma de estas frecuencias es igual al número de observaciones.

∑ n . j =N También podemos definir las frecuencias relativas marginales (f.j) que se obtienen como el cociente entre las frecuencias marginales y el número de observaciones. f .j=

∑ n. j N

La suma de todas las frecuencias marginales es igual a 1.

∑ f . j=1 2. Independencia estadística Dos variables son independientes si y solo si las frecuencias conjuntas son iguales al producto de las frecuencias marginales divididas por el número de observaciones, o lo que es lo mismo, si las frecuencias relativas conjuntas son iguales al producto de las frecuencias relativas marginales nij =

n i . · n. j ↔ f ij =f i . · f j . N

Si para algún valor de i o de j no se cumple la igualdad, decimos que las variables no son independientes o que son dependientes.

2

3. Covarianza Es una medida de dispersión para la variable bidimensional. Su expresión es: S xy =

∑∑ ( x−´x ) · ( y− ´y) · nij N

También admite una expresión reducida: S xy =

∑ ∑ xi · y j ·n ij −´x · ´y N

La covarianza puede tomar valor positivo, negativo o nulo. Este valor indica el tipo de relación o dependencia lineal existente entre las variables: 

Si Sxy > 0: Existe una relación lineal directa o creciente entre las variables, es decir, las dos variables varían en el mismo sentido.



Si Sxy < 0: Existe una relación lineal inversa o decreciente entre las variables, es decir, las dos variables varían en sentidos contrarios.



Si Sxy = 0: Existe una independencia lineal o incorrelación entre las variables, es decir, las variables son independientes.

La covarianza presenta las siguientes propiedades: 

Cambio de origen: Si se les suma una constante, la covarianza no varía o es constante, por lo que es invariante ante estos cambios.



Cambio de escala: Si se les multiplica a las variables una constante, la covarianza queda multiplicas por las constantes.

4. Coeficiente de correlación lineal Indica el tipo y el grado de relación o dependencia lineal existentes entre dos variables. Viene dado por el cociente entre la covarianza y el producto de las desviaciones típicas: r xy=

S xy Sx · S y

Toma valores comprendidos entre -1 y 1. Su signo es igual que el de la covarianza y por lo tanto tiene la misma interpretación: 

Si rxy > 0: Existe una relación lineal directa o creciente entre las variables, es decir, las dos variables varían en el mismo sentido.



Si rxy < 0: Existe una relación lineal inversa o decreciente entre las variables, es decir, las dos variables varían en sentidos contrarios.

3



Si rxy = 0: Existe una independencia lineal o incorrelación entre las variables, es decir, las variables son independientes.

El valor de este coeficiente mide el grado de independencia lineal entre dos variables: 

Si rxy = 1: Existe entre las variables dependencia máxima creciente o directa.



Si rxy = -1: Existe entre las variables dependencia máxima decreciente o inversa.



Si rxy = 0: Las variables son independientes.

Cuando más próximo se encuentre su valor a 1 o -1, mayor será el grado de dependencia entre las variables. Cuanto más próximo a cero, menor será el grado de dependencia. Este coeficiente presenta las siguientes propiedades: 

Cambios de origen: Si se le suma una constante, el coeficiente de correlación lineal no varía, es decir, es invariante ante cambios de origen.



Cambios de escala: Si se le multiplica una constante, el coeficiente de correlación lineal no varía, es decir, es invariante ante cambios de escala.

5. Medidas de asociación en tablas de contingencia Cuando tenemos dos variables cualitativas o una cuantitativa y una cualitativa, para estudiar su independencia estadística hacemos exactamente lo mismo que cuando tenemos dos variables cuantitativas. nij =

n i . · n. j ↔ f ij =f i . · f j . N

Sin embargo, para estudiar el grado de asociación, no podemos utilizar el coeficiente de correlación lineal sino que utilizaremos los siguientes: En primer lugar, tenemos que calcular el coeficiente chi-cuadrado de Pearson (x2).

x 2=∑∑

(

n i. · n. j N ni . · n j. N

n ij −

)

2

Por último, a partir del coeficiente anterior, calculamos el coeficiente de contingencia de Pearson. c=



x2 x2 + N

Este último coeficiente toma valores comprendidos entre 0 y 1. Mide el grado de asociación:

4



Cuando más próximo sea el valor de este coeficiente a 1, mayor es el grado de asociación de las variables.



Cuanto más próximo sea el valor de este coeficiente a 0, menor será el grado de asociación de las variables.

6. Distribuciones condicionadas Son aquellas distribuciones para una variable condicionada a que otra tome determinados valores. En este tipo de distribuciones, las frecuencias las representamos por ni/j o nj/i, que al igual que en casos anteriores la suma de todas ellas coincide con el tamaño de la muestra. También podemos definir las frecuencias relativas como el cociente entre las frecuencias condicionadas y el tamaño de la muestra.

5...


Similar Free PDFs