Medidas Tendencia Central Y Dispersión PDF

Title Medidas Tendencia Central Y Dispersión
Author María Ramírez
Course Técnicas de análisis de datos cuantitativos
Institution Universitat Oberta de Catalunya
Pages 22
File Size 472.3 KB
File Type PDF
Total Downloads 5
Total Views 144

Summary

Download Medidas Tendencia Central Y Dispersión PDF


Description

Medidas de tendencia central y de dispersión Antoni Cosculluela Mas Albert Fornieles Deu Jaume Turbany Oset PID_00214851

© FUOC • PID_00214851

Medidas de tendencia central y de dispersión

Índice

Objetivos ...................................................................................................

5

1. Las medidas de tendencia central .................................................

7

1.1. La mediana o la observación central ..............................................

8

1.2. La media aritmética o valor medio ................................................

9

2. Medidas de dispersión ...................................................................... 11 2.1. La desviación estándar (s) ............................................................... 13 Resumen de los vídeos ........................................................................... 16 Actividades ............................................................................................... 19 Solucionario ............................................................................................. 21

© FUOC • PID_00214851

5

Objetivos

En los materiales didácticos de este módulo presentamos los contenidos y las herramientas imprescindibles para conseguir los objetivos siguientes: 1. Conocer las propiedades de los índices de posición, tendencia central 2. Identificar el índice de tendencia central más adecuado en cada caso. 3. Conocer las propiedades de los índices de dispersión. 4. Interpretar los listados Excel.

Medidas de tendencia central y de dispersión

© FUOC • PID_00214851

7

Medidas de tendencia central y de dispersión

1. Las medidas de tendencia central

En este apartado veremos dos maneras de resumir un valor típico o medio de un conjunto de datos que mide el centro de una distribución. Al final del presente apartado sobre medidas del centro deberéis ser capaces de: • Saber cómo se calcula la mediana, o valor central, de un conjunto de datos. • Saber cómo se calcula la media aritmética, o media, de un conjunto de datos.

Véase el resumen del vídeo 4 en el apartado "Resumen de los vídeos" de este módulo.

a

• Conocer qué diferencias hay entre la mediana y la media aritmética. Los gráficos de tallo y hojas, así como los histogramas, proporcionan una descripción general de un conjunto de datos cuantitativos. Ahora veremos maneras más específicas de resumir los datos cuantitativos en índices estadísticos numéricos, que nos permitirán comparar con facilidad diferentes conjuntos de datos (los valores resumen son números obtenidos mediante cálculos a partir de los datos. Estos índices permiten caracterizar la variable que se estudia. La mediana y la media son dos ejemplos de ello). Dedicaremos este apartado a estudiar algunos de los índices descriptivos más importantes. Empezaremos con las medidas de tendencia central: la mediana y la media aritmética. Como veremos, estos dos índices son diferentes y únicamente coincidirán cuando la distribución de la variable sea simétrica.

En primer lugar, tenemos que la mediana es el valor que divide la distribución de los datos en dos partes iguales (deja un 50% por encima y otro 50%

Sobre la mediana podéis ver el subapartado 1.1 de este módulo.

a

por debajo). Se trata pues de un índice de posición. Para encontrar la mediana deberemos ordenar los datos de menor a mayor y contar el número de elementos hasta encontrar cuál es el valor que está en el medio de la distribución. Dado que es un índice de posición, la mediana no se ve afectada por la presencia de valores extremos, por eso decimos que es un índice resistente o robusto.

La media aritmética (promedio), por el contrario, es un índice de peso, basado en el momento de la distribución (en realidad, la podemos definir como el centro de gravedad de la distribución) y se calcula sumando todos los valores de los datos y dividiendo este sumatorio por el número de observaciones (n). En el ejemplo de la figura 1 se encuentran algunos índices que todavía no han sido expuestos, pero que se explicarán en el próximo apartado (cuartiles y centiles). Fijándonos en las medidas de tendencia central, es fácil apreciar cómo, en este caso, los valores de la cola de la distribución asimétrica afectan consi-

a

Sobre la media aritmética podéis ver el subapartado 1.2 de este módulo.

8

© FUOC • PID_00214851

Medidas de tendencia central y de dispersión

derablemente a la media (de hecho, un único valor extremo puede hacer cambiar mucho el valor de la media aritmética), desplazándola en la dirección de dicha cola de la distribución, por lo que este índice no será una buena opción para describir variables asimétricas y/o con valores extremos. En estos casos es preferible llevar a cabo la descripción de la distribución de la variable mediante la mediana (podéis ver el resumen del vídeo 4 del CD). Figura 1. Distribución de salarios

1.1. La mediana o la observación central

Una manera fácil de conseguir un valor para el centro de una distribución es hallar la observación que queda exactamente en el medio, lo que implica que la mitad de las observaciones quedan por debajo de este valor y la otra mitad por encima de él. Este valor se denomina mediana de la distribución. Veamos un ejemplo. Supongamos que a lo largo de un período de 27 días anotáis el rato que debéis esperar hasta que el autobús llega por la mañana. Los datos, en minutos, se muestran en la tabla 1. Tabla 1. Tiempo de espera hasta que llega el autobús, en minutos 9

5

6

8

8

9

12

4

7

3

11

8

4

5

2

6

4

8

17

3

13

11

7

7

4

7

12

Ahora la pregunta es: ¿qué valor podéis usar como típico para describir el tiempo que debéis esperar? El gráfico de tallo y hojas de estos datos es:

Si tenemos estos datos, podemos saber a posteriori cuál es la mediana correspondiente.

a Véase el resumen del vídeo 4 en el apartado "Resumen de los vídeos" de este módulo.

9

© FUOC • PID_00214851

Medidas de tendencia central y de dispersión

Al construir el gráfico de tallo y hojas hemos puesto todas las observaciones en orden ascendente, de la observación menor (2 minutos) a la mayor (17 minutos). Puesto que hay 27 observaciones, la observación central será la decimocuarta de la lista ordenada, ya que dejará 13 valores anteriores al decimocuarto y 13 posteriores. El valor decimocuarto es 7 minutos. El hecho de que haya un cierto número de observaciones de 7 minutos no tiene importancia (de hecho, en la lista ordenada, el valor duodécimo, decimotercero, decimocuarto y decimoquinto es 7). Por tanto, la regla para conseguir la mediana pasa por buscar qué posición ha de ocupar el valor que divide en dos partes iguales la distribución. La fórmula para buscar esta posición es muy sencilla y consiste en sumar uno al número total de observaciones y dividirlo por dos. Formalmente: Posición de la mediana: Posición 

n 1 2

La letra n se emplea convencionalmente para el número de observaciones de un conjunto de datos.

a Sobre la notación que utilizamos, véase el subapartado 1.1 del módulo "Organización de los datos de una muestra: representaciones gráficas".

En el ejemplo, con n = 27 valores, el valor central es el valor de la posición (27 + 1)/2 = 14 de la lista, que corresponde al valor 7 minutos.

Cuando n es impar, el número de la observación para la mediana es un entero exacto. Sin embargo, cuando n es un número par, no hay ninguna observación exactamente central en la lista ordenada. Por ejemplo, si había 26 observaciones, entonces nuestra fórmula nos da (26 + 1)/2 = 13,5. Lo que hacemos ahora es tomar como mediana el punto medio entre los números que ocupan el decimotercero y decimocuarto lugar de la lista ordenada. Esto nos sigue dando un valor en el que la mitad de las observaciones quedan por debajo y la otra mitad por encima, de manera que satisface la definición de la mediana.

Los valores resumen como la mediana provocan que sean más fáciles las comparaciones entre diferentes grupos de observaciones (el vídeo da un ejemplo de un conjunto de sueldos para hombres y otro para mujeres. En ambos casos se ha calculado la mediana de los sueldos y vemos que la mediana de los hombres es superior a la de las mujeres).

1.2. La media aritmética o valor medio (X)

La media aritmética de un conjunto de datos cuantitativos es su valor medio (promedio). Para calcular la media aritmética no es necesario empezar ordenando los valores de los datos (como en el caso de la mediana), simplemente

a Podéis ver un resumen del vídeo 2 en el apartado "Resumen de los vídeos" de este módulo.

10

© FUOC • PID_00214851

sumamos todos los valores y dividimos por el número total de datos n. Utilizando la notación habitual, la media aritmética es igual a:

X

X

i

n

Para los datos de la tabla 1 del tiempo de espera del autobús los cálculos son los siguientes: 1) Sumar los 27 valores: 9 + 5 + 6 + ... + 7 + 4 = 200. 2) Dividir la suma por 27: 200 / 27 = 7,41. La media aritmética de estos valores es, por lo tanto, 7,41 minutos; es decir, a lo largo de los 27 días habéis tenido que esperar el autobús una media de 7,41 minutos. Fijaos en que la media da un valor ligeramente superior a la mediana (7 minutos). De ahí que en el caso de la media aritmética se deban tomar precauciones con los datos alejados o insólitos. Tanto la mediana como la media aritmética miden el centro de la distribución, pero lo hacen de manera distinta. Sólo cuando la distribución es simétrica las dos medidas coinciden. La principal diferencia entre ambas es cómo se ven afectadas por las asimetrías y/o los datos alejados. Cuando la distribución es asimétrica, la media aritmética siempre se desplaza hacia la cola de la distribución. En el caso más común de una distribución que es asimétrica hacia la derecha, por ejemplo, los datos de los ingresos que hemos visto en el vídeo, la media aritmética es más alta que la mediana. La presencia de un valor muy elevado no afecta a la mediana, pero influye mucho sobre la media aritmética. Decimos que la mediana “resiste” los datos alejados. Por ejemplo, imaginemos que, en lugar de 17 minutos, el valor más alto en los datos del ejemplo fuese 45 minutos, que es una espera muy larga para un solo día. Este cambio no afecta a la mediana, de hecho ésta permanecería igual incluso si lo cambiásemos por un valor mucho más elevado. La media aritmética, por el contrario, quedaría afectada, ya que la suma de todas las observaciones ahora sería 228, que dividida por 27 da el valor 8,44 minutos. Este incremento de una observación hace subir la media aritmética del tiempo de espera en un minuto, a pesar de que los otros 26 valores permanezcan intactos. En una situación como ésta, la media aritmética pierde la condición de ser un valor representativo.

Medidas de tendencia central y de dispersión

© FUOC • PID_00214851

11

Medidas de tendencia central y de dispersión

2. Medidas de dispersión

Anteriormente hemos considerado varias maneras de representar gráficamente la distribución de una variable y hemos definido dos modos de calcular los índices del centro de una distribución. Ahora necesitamos obtener información sobre hasta qué punto las observaciones se dispersan alrededor del centro. De la misma manera que existen varios modos de medir el centro de la distribución, también hay diferentes procedimientos para calcular la dispersión. Igualmente, la mejor o peor aplicabilidad de éstos índices también depende de si la distribución es simétrica o no, y de la presencia o no de datos insólitos. En definitiva, para describir adecuadamente una variable no es suficiente con las medidas de tendencia central, ya que éstas nos indican dónde se encuentran los valores centrales, pero no nos informan sobre cómo están agrupadas las observaciones en torno a este centro de la distribución, por lo que podemos tener variables con medias y/o medianas similares o incluso idénticas que tengan, en realidad, distribuciones completamente diferentes. Por tanto, para completar la descripción de las variables cuantitativas es preciso añadir los índices de dispersión. En concreto, valoraremos la posibilitad de utilizar el rango, la varianza, la desviación típica y los cuartiles. Al final de este apartado sobre medidas de dispersión deberéis ser capaces de: •

Saber cómo se resume la dispersión de una distribución mediante cinco números: el mínimo, el primer cuartil, la mediana (segundo cuartil), el tercer cuartil y el máximo.



Conocer cómo se representa el resumen de estos cinco números en un diagrama de caja.



Saber cómo se calcula la desviación estándar de un conjunto de valores.

El rango de una variable (recorrido o amplitud) se puede calcular con una operación muy sencilla, ya que únicamente consiste en restar el valor máximo del

a Sobre la notación que utilizamos, véase el subapartado 1.1 del módulo "Organización de los datos de una muestra: representaciones gráficas".

mínimo. Por desgracia, se trata de un índice de escasa utilidad, ya que un único valor extremo o insólito puede hacer que pierda gran parte del su sentido informativo. En términos de la notación habitual, en el que x(1), x(2),..., x(n) corresponden al orden estadístico de una distribución ordenada: valor mínimo = x(1), valor máximo = x(n), rango = x(n) – x(1). La varianza* se puede definir como la media de la suma de los cuadrados de las diferencias que hay entre cada valor y la media aritmética. Esto provoca

* Véase el vídeo 6 del CD.

© FUOC • PID_00214851

12

Medidas de tendencia central y de dispersión

que cuanto más grandes sean estas diferencias o distancias (más dispersa o heterogénea sea la variable), mayor será el valor de la variancia. El hecho de que las diferencias se eleven al cuadrado evita la presencia de valores negativos (si no se elevasen las diferencias al cuadrado, al haber algunos valores por encima y otros por debajo de la media, su sumatorio sería 0) y provoca que las diferencias más grandes pesen más en el valor del índice. Por otro lado, también implica que la varianza sea siempre de signo positivo y esté en la unidad de medida de la variable elevada al cuadrado (por ejemplo, el cociente de inteligencia (CI) tiene en la población una media  = 100 puntos de CI y una varianza 2 = 225 puntos2 de CI). Para facilitar su interpretación, en lugar de la varianza, se suele presentar su raíz cuadrada, que, por tanto, ya se encuentra en las mismas unidades de medida que la variable. Este índice se denomina desviación tipo (típica) o estándar y es uno de los índices de dispersión más utilizados (la desviación tipo del CI en la población es de  = 15 puntos de CI).

Los cuartiles* son, como la mediana, índices de posición. La lógica que subya-

* Véase el vídeo 5 del CD.

ce al cálculo de este índice es la siguiente: ordenamos los datos y los dividimos en cuatro partes del mismo tamaño, por lo que tendremos tres puntos de corte o cuartiles. El primer cuartil es el valor que deja el 25% de las observaciones por debajo, el segundo coincide con la mediana y, por tanto, es el valor que divide la distribución en dos partes iguales y el tercer cuartil corresponde al valor que deja el 75% de los valores por debajo (y, lógicamente, queda el 25% por encima). El cálculo de los cuartiles es muy sencillo, ya que podemos decir que los cuartiles 1.º y 3.º son la mediana de las dos mitades de la distribución que quedan definidas por la mediana. Una vez calculados los cuartiles, restando el 3.º del 1.º (Q3 – Q1) podemos obtener el rango intercuartílico, que nos indica cuál es la dispersión del 50% central de las observaciones. Como ya hemos señalado anteriormente, la descripción de las variables cuantitativas se suele presentar con un índice de tendencia central y uno de dispersión. En este sentido, es preciso remarcar que la media aritmética ha de ir siempre acompañada de la desviación tipo y la mediana de los cuartiles.

Por último, cabe constatar la posibilidad de realizar otro tipo de representación gráfica que nos puede ayudar a estudiar la distribución de una variable mediante el resumen de 5 números (máximo, cuartil 3.º, mediana, cuartil 1.º y mínimo). Este gráfico se denomina gráfico de caja o boxplot* y es de gran utilidad, ya que, además de ser una representación gráfica de la variable, per-

* Véase el vídeo 5 del CD.

13

© FUOC • PID_00214851

mite comparar distribuciones de la misma variable provinentes de diferentes muestras o subgrupos (por ejemplo, podríamos comparar la distribución de las alturas de chicos y chicas).

2.1. La desviación estándar (s) A continuación veremos otro índice estadístico de dispersión denominado desviación estándar, tipo o típica (a lo largo del curso utilizaremos indistintamente cualquiera de estas denominaciones). (Véase el vídeo 6 del CD.) La desviación estándar es un valor único que se puede utilizar para cuantificar la dispersión de un conjunto de datos. La alternativa a la desviación tipo más empleada utiliza varios números, como es el caso del resumen de cinco números. Recordad que ahora estamos interesados en encontrar un único número que resuma la dispersión de los datos y nos interesa, en concreto, la dispersión alrededor de la media aritmética. Este cálculo se realizará de la manera siguiente: 1) El primer paso es encontrar la media y, después, calcular todas las diferencias entre cada observación y la media aritmética del conjunto. Está claro que cuanto mayores son las diferencias, mayor es la dispersión de los datos, pero necesitamos combinar todas estas desviaciones en un valor global. 2) Calcular la variancia es el paso siguiente. Elevamos al cuadrado cada una de las desviaciones, las sumamos y después dividimos la suma resultante por n – 1 (el número de las observaciones menos 1). Hay que dividir por n – 1 y no por n, a pesar de que pueda parecer más intuitivo dividir por n para obtener la media del cuadrado de las desviaciones. El resultado de estos cálculos es la varianza. Ahora damos la fórmula para el cálculo de la varianza y la desviación típica:

Variancia de una variable:

s

Desviación típica:

s

2 x



(X

x



s

 X)2 n1 i

2 x

donde, x = variable; x1, x2, x3, ..., xn = valores de la variable; n = número de observaciones o valores •

Cálculo de la media x.



Cálculo de las desviaciones xi  x. • Cálculo de las desviaciones cuadráticas ( xi  x) 2. Veamos otro ejemplo sencillo. Imaginaos que tenemos los precios de un cierto producto comprado en seis comercios diferentes: 260, 240, 250, 210, 230 y

Medidas de tendencia central y de dispersión

14

© FUOC • PID_00214851

Medidas de tendencia central y de dispersión

250 euros. La suma de estos valores es 1.440, de manera que el valor medio es 1.440/6 = 240 euros. Las desviaciones del valor 240 son 20, 0, 10, 30, 10 y 10 (tomad nota de que las desviaciones respecto a la media aritmética s...


Similar Free PDFs