Title | 4. LAS Medidas DE Dispersión, DE Concentración Y DE Forma EN UNA Distribución DE Frecuencias Unidimensional |
---|---|
Author | María GE |
Course | Introducción a la Estadística (ADE) |
Institution | UNED |
Pages | 7 |
File Size | 235 KB |
File Type | |
Total Views | 131 |
Resumen del libro...
4. LAS MEDIDAS DE DISPERSIÓN, DE CONCENTRACIÓN Y DE FORMA EN UNA DISTRIBUCIÓN DE FRECUENCIAS UNIDIMENSIONAL 4.1. LAS MEDIDAS DE DISPERSIÓN Son un complemento de las medidas de posición y permiten medir lo más o menos esparcida que se encuentra la variable estadística en torno a las medidas de posición. A mayor dispersión menor representatividad tienen las medidas de posición para describir la distribución de frecuencias y viceversa. Individuo 1 Individuo 2 Individuo 3 Individuo 4 Individuo 5 Suma de edades Media aritmética
xi 14 16 18 20 22 90 18
yi 2 4 5 39 40 90 18
4.1.1. RANGO, RECORRIDO O AMPLITUD TOTAL DE LA DISTRIBUCIÓN En una distribución, con los valores previamente ordenados de menor a mayor, se define como la diferencia entre el mayor y el menor valor de la distribución: Rx = xn – x(1). Rx = 22 – 14 = 8 Ry = 40 – 2 = 38 4.1.2. COEFICIENTE DE APERTURA Es la relación entre el mayor y el menor valor de la distribución: Cap =
x (n) x (1 )
.
Capx = 22/14 = 1,57 Capy = 40/2 = 20 4.1.3. RECORRIDO INTERCUARTÍLICO Es la diferencia entre el tercer y el primer cuartil de la distribución: Ri = Q3 - Q1. 4.1.4. RANGO ENTRE PERCENTILES Se define como la diferencia entre el percentil 90 y el 10: Rp = P90 - P10. 4.1.5. RANGO RELATIVO Se define como el cociente entre el recorrido y la media aritmética y expresa el número de veces que el recorrido contiene a la media aritmética: RRx =
RRx =
Rx ´x
= 8/18 = 0,44
Rx . ´x
Ry ´x
RRy =
= 38/18 = 2,11
4.1.6. RECORRIDO SEMI-INTERCUARTÍLICO Queda definido como el cociente entre el recorrido intercuartílico y la suma del primer y tercer cuartil: Rsi =
Q 3 −Q 1 . Q 3+ Q 1
4.1.7. DESVIACIÓN MEDIA Es la diferencia entre el valor de la variable y la medida de posición central que se considere (media aritmética, geométrica, armónica, mediana o moda). Cada valor de la variable tiene una desviación al respecto a la media (di); la suma de todas estas desviaciones multiplicadas por sus respectivas frecuencias es siempre cero. -
Desviación media o desviación absoluta media: la media de los valores absolutos de las r
desviaciones respecto a la media aritmética:
D x´ =∑ |x i−´x| i=1
ni . N
r
n Desviación mediana: D Me=∑| xi − Me| i N i =1
-
4.1.8. LA VARIANZA Es la media aritmética de los cuadrados de las desviaciones respecto a la media. Este estadístico se mide en el cuadrado de la unidad de la variable: r
σ 2x =∑ ⎸ x i−´x ⎸ i=1
2
ni N
4.1.9. LA DESVIACIÓN TÍPICA Para evitar el inconveniente anterior se opera con la raíz cuadrada positiva de este estadístico; la desviación típica o estándar es la raíz cuadrada positiva de la varianza:
´x x i−¿ ¿ ¿2 ni ¿ ¿ ¿ r
¿ ∑ i=1 s x =σ x = √ ¿ Esta es la medida de dispersión más importante en estadística aplicada; una desviación típica pequeña significa que todos los valores de la distribución se sitúan próximos a la media, mientras que una desviación típica elevada implica la existencia de valores, por exceso o por defecto, muy alejados de la media. Las principales propiedades de la desviación típica son: -
Es siempre mayor o igual que cero, ya que aunque la raíz cuadrada de la varianza tienen dos valores (positivo o negativo), por convenio se toma siempre el positivo.
-
No está afectada por cambios de origen. Sí que está afectada por cambios de escala, quedando multiplicada por el factor de escala cuando efectuamos un cambio de escala de la variable.
Junto a la varianza y a la desviación típica se utilizan dos medidas parecidas, la Cuasivarianza y la Cuasidesviación típica que son dos importantes estimadores.
Ejemplo de cálculo de la varianza en distribuciones de tipo I: xi - ´x
xi 4 6 10 16 36
Suma Varianza
σ 2x =
(xi -5 -3 1 7 0
´x 2 ¿¿
25 9 1 49 84 21
84 =21 4
s x =σ x = √ 21 ≈ 4,58 La desviación típica es la raíz cuadrada positiva 4de la varianza. 4.1.10. CÁLCULO DE LA VARIANZA MEDIANTE LOS MOMENTOS
x ¿ ´x ¿ i−¿ . El momento de orden 2 respecto a la media m2 se le denomina varianza m2 = ¿ ¿ ¿ r
¿ ∑ i=1 La relación matemática que permite obtener los momentos de segundo orden en función de los de primer orden y en el caso concreto de la varianza viene dado por m2 = a2 – a21 = a2 –
´x 2 . O lo que es lo mismo, la varianza también se define como el momento de orden 2 respecto al origen menos la media aritmética elevada al cuadrado. Xi
ni
xi ∙ n i
x 2i
4 7 8 9 12 16 21 25 30
7 5 8 5 3 4 3 7 8
28 35 64 45 36 64 63 175 240
16 49 64 81 144 256 441 625 900
x i2 ∙ni 112 245 512 405 432 1024 1323 4375 7200
Suma
50
750
3017
15628
Para aplicar el método de los momentos necesitamos conocer: r
∑ i=1
a1 = r
a2 =
∑ i=1
x i ni N
=
2
x i ni N
=
750 50
15628 50
= 15
= 312,6
Varianza: m2 = a2 – a12 = a2 – x´ 2 = 312,6 – 152 = 312,6 -225 = 87,56 Desviación típica: sx =
√ 87,56 ≈ 9,36
4.1.11. EL COEFICIENTE DE VARIACIÓN DE PEARSON Se define como el cociente entre la desviación típica y la media aritmética. Representa el número de veces que la desviación típica contiene la media. Se expresa como porcentajes como
γ=
σ ´x
γ=
σ ´x
o en
∙ 100.
Es una medida de dispersión relativa que permite comparar distribuciones diferentes, es decir, que no vienen expresadas en las mismas medidas. Este coeficiente es adimensional, ya que al venir expresada tanto la desviación típica como la media aritmética en la misma unidad y estar definido como un coeficiente, dicha unidad de medida queda anulada (simplificada). El coeficiente no varía, por tanto, ante cambios de escala, pero sí ante cambios de origen. Para la interpretación de este ratio tiene que tenerse en cuenta: -
-
Si γ = 0 la representatividad de la media es máxima. Valores menores de la unidad indican que el promedio representa adecuadamente a la distribución de frecuencias, ya que la dispersión es inferior a la media aritmética; en concreto, a partir de γ > 0,5, podríamos considerar que la media tiene una baja representatividad. A partir de la unidad hay que rechazar el promedio (media aritmética) como parámetro representativo de los datos de la distribución.
4.2. MEDIDAS DE CONCENTRACIÓN Miden el mayor o menor grado de equidad o igualdad en la distribución o reparto de los valores de una variable; se utilizan para analizar los aspectos redistributivos de variables como la renta, la riqueza, los salarios, etc. Las posibilidades de concentración van desde la concentración máxima (cuando un solo individuo percibe el total y los demás nada – reparto no equitativo -, hasta la concentración mínima, cuando el total analizado está repartido por igual entre todos los valores de la variable – reparto equitativo-. 4.2.1. ÍNDICE DE GINI
Este índice toma valores comprendidos entre 0 y 1; toma el valor 0 cuando la variable está distribuida de forma muy homogénea y valor 1 cuando está muy concentrada (toda la renta está en manos de un individuo). r−1
❑( pi−q i) ∑ i=1
IG =
r −1
pi ∑ i=1 Salario mensual € [500-900] [900-1300] [1300-1700] [1700-2100]
Nº trabajadores A 200 40 25 135
Nº trabajadores B 125 135 165 575
Empresa A Li-1 - Li
ni
Ni
pi = Ni/ ni
xi
xi ∙ n i
[500-900]
20 0 40
20 0 24 0 26 5 40 0
0,500
700
0,600
[900-1300] [13001700] [17002100] Suma
25 13 5 40 0
140000
ui = acumulad o de xi ∙ ni 140000
0,292887
0,2071
1100
44000
184000
0,384937
0,21506
0,663
1500
37500
221500
0,463389
0,19911
1,000
1900
256000
478000
1
0
qi
478000
pi - q i
0,62128
r−1
∑ ❑( pi−q i) IG =
i=1
=
r −1
∑ pi
0,62128 =0,35 0,5+ 0,6 +0,663
i=1
Empresa B Li-1 - Li
ni
Ni
pi = Ni/ ni
xi
xi ∙ n i
87500
ui = acumulad o de xi ∙ ni 87500
[500900] [9001300] [13001700]
125
125
0,125
700
0,055520
1100
148500
236000
0,149746
0,006947 9 0,110253
135
260
0,260
165
425
0,425
1500
247500
483500
0,306789
0,118210
qi
pi - q i
[17002100] Suma
575
100 0
1000
1900
100 0
109250 0 157600 0
1576000
1
0 0,297944
r−1
∑ ❑ ( pi −qi ) IG =
i=1
=
r−1
pi ∑ i=1
0,297944 =0,3678 0,125+ 0,26 +0,425
Como IGb > IGa deducimos que la concentración de salarios es más alta en la empresa B que en la empresa A. 4.2.2. CURVA DE LORENZ Es una forma gráfica de mostrar las dispersión o concentración de una distribución; tanto en abscisas como en ordenadas la gráfica parte del origen (0, 0) y termina en el punto (100, 100). En el eje horizontal tenemos los valores de qi y en el vertical los de pi. 4.3. LAS MEDIDAS DE FORMA 4.3.1. MEDIDAS DE ASIMETRÍA Son medidas que tratan de indicar el grado de simetría con el que se agrupan los valores de una distribución en torno a sus medidas centrales (generalmente la media aritmética o la mediana). Decimos que una distribución es simétrica respecto a la media o la mediana si al lado derecho de la misma queda la misma masa, es decir, la misma cantidad de frecuencias que al lado izquierdo. Es altamente improbable que la distribución de frecuencias sea totalmente simétrica, por lo que en la práctica diremos que la distribución de frecuencias es simétrica cuando lo es de un modo aproximado (Coeficiente de asimetría (As) próximo a 0). El estadístico más empleado para obtener la asimetría es el Coeficiente de asimetría de Fisher; está basado en el momento de tercer orden:
g1 =
m3 σ3
x x i−´¿ ¿ ¿ 3 ni = ¿ r
∑¿ i=1
¿
Si g1 = 0 → la distribución puede ser simétrica o no, pero si es simétrica se dará siempre que g1 = 0. Si g1 < 0 → la distribución es asimétrica a la izquierda (valores negativos). Si g1 > 0 → la distribución es asimétrica a la derecha (valores positivos).
4.3.2. MEDIDAS DE APUNTAMIENTO O CURTOSIS
Tratan de estudiar la distribución de frecuencias en la zona media, es decir, el mayor o menor número de valores de la variable alrededor de la media dará lugar a una distribución más o menos apuntada. Para estudiar el apuntamiento hay que definir una distribución tipo que nos sirva de referencia. Esta distribución es conocida como la distribución Normal o la curva de Gauss. Su forma es la de una campana en donde la gran mayoría de los valores se encuentran concentrados alrededor de la media, siendo escasos los valores que están en los extremos. Al tomar como referencia esta curva se dice que otra distribución es más apuntada que la distribución Normal (leptocúrtica) o menos apuntada (platicúrtica). A las distribuciones que se asemejan a la distribución Normal se les denomina mesocúrticas. El Coeficiente de Curtosis de Fisher está relacionado con el momento respecto a la media de cuarto orden m4 y viene dado por:
g2 =
m4 σ 4x
x ¿ ´x ¿ i−¿ ¿ – 3; donde m4 = . ¿ ¿ r
¿ ∑ i=1
Si g2 = 0 → la distribución será mesocúrtica o Normal. Si g2 < 0 → la distribución es platicúrtica o menos apuntada que la Normal. Si g2 > 0 → la distribución es leptocúrtica o más apuntada que la Normal....