Title | TEMA 4. Estadística - Apuntes explicacion explicación teórica y practica |
---|---|
Author | Aitana Aguilar |
Course | Estadística |
Institution | Universidad de Sevilla |
Pages | 28 |
File Size | 516.4 KB |
File Type | |
Total Downloads | 54 |
Total Views | 118 |
Apuntes explicacion explicación teórica y practica...
TEMA 4. MEDIDAS DE DISPERSIÓN Y FORMA En este tema se pretende estudiar la mayor o menor variabilidad que presenta una determinada distribución de valores a través de las que se conocen como medidas de dispersión. Estas medidas de dispersión son: ● Absolutas: vienen expresadas en ciertas unidades de medida. Son las siguientes: ■ Recorrido ■ Recorrido intercuartílico ■ Varianza ■ Desviación típica ● Relativas: no vienen expresadas en unidades. Es: ■ Coeficiente de variación de Pearson. La variabilidad de la variable tiene que ver con la representatividad de la media: cuanta más variabilidad tenga una variable (más dispersión), peor será el resumen que proporciona su media. La técnica más habitual consiste en promediar las desviaciones de la variable con respecto a un promedio y de esa forma cuantificar si el promedio cumple su objetivo de representar o resumir toda la colección de observaciones. Por ello es conveniente, cuando se calcula un promedio, acompañarlo de una medida de dispersión que cuantifique su representatividad. Las medida de dispersión más sencilla es el rango, pero las más utilizadas son la varianza, la desviación típica y el coeficiente de variación de Pearson.
1.- MEDIDAS DE DISPERSIÓN ABSOLUTAS 1.1.- RECORRIDO O RANGO El rango o recorrido se define como la diferencia entre el mayor y menor de los valores observados, es decir: R = xk - x1 R = Xmax - Xmin Se trata por tanto de una medida no negativa, que viene expresada en las unidades de la variables y que se anula sólo cuando todos los valores de la variable son iguales. En ese caso la variable es degenerada y no hay dispersión. Esta medida de dispersión sólo depende de los dos valores extremos de la variable, por lo que da una idea falsa de la dispersión cuando existen datos anómalos (anormalmente altos y/o bajos) en la distribución de frecuencias.
1.2.- LA VARIANZA Y LA DESVIACIÓN TÍPICA Calculada la media aritmética (x), si considerásemos ese valor como una aproximación representativa de toda la distribución estaríamos cometiendo errores o desviaciones (ei) Este error o desviación (ei) sería la diferencia entre el verdadero valor y el aproximado que serían los siguientes: ei = xi - x para i=1,...,k Pero estos errores pueden ser negativos. Dado que lo importante para el cálculo de la dispersión es el tamaño de los errores, entonces los convertimos en positivos mediante una de estas dos opciones: ❏ Desviación absoluta media ❏ Varianza
DESVIACIÓN ABSOLUTA MEDIA Denominación: DMx Convertimos los errores en positivos tomando valores absolutos. |ei| = |xi - x| Por tanto, la desviación absoluta media es la media de los errores en valor absoluto. Para su cálculo, usamos la frecuencia absoluta:
En el caso de no tener dicha frecuencia, usaremos la relativa:
Nunca es negativa, y sólo pueden ser nulas si la variable es degenerada, es decir, si todas las observaciones son iguales a x . Usemos la frecuencia absoluta u acumulado debemos crear una columna en nuestra tabla de frecuencias que nos permita calcular el sumatorio correspondiente.
VARIANZA Denominación: Sx^2 Convertimos los errores en positivos tomando cuadrados. ei^2 = (xi - x)^2 Por tanto la varianza es la media de sus cuadrados. Para su cálculo, usamos la frecuencia absoluta:
o lo que es igual o más fácil Sx^2 = (E xi^2ni/N) - x^2 En el caso de no tener dicha frecuencia, usaremos la relativa:
o lo que es igual o más fácil Sx^2 = (E xi^2fi) - x^2 Usemos la frecuencia absoluta u acumulado debemos crear una columna en nuestra tabla de frecuencias que nos permita calcular el sumatorio correspondiente. Nunca es negativa, y sólo pueden ser nulas si la variable es degenerada, es decir, si todas las observaciones son iguales a x . Se utiliza más que la desviación absoluta media porque tiene mejores propiedades dado que mide la dispersión en torno a la media, penalizando las desviaciones más importantes. Hay que tener en cuenta que la varianza viene medida en la misma unidad en que están cuantificadas las observaciones pero elevada al cuadrado, lo que impide su interpretación. Para recuperar las unidades de medida originales y poder interpretar el resultado se define la Desviación Típica.
DESVIACIÓN TÍPICA Denotación: Sx Se utiliza para recuperar las unidades de medida originales y poder interpretar el resultado. Es la raíz cuadrada positiva de la varianza. Se utiliza como referencia para evaluar la desviación típica o intermedia que existe en la distribución respecto a x, por lo que un valor xi se dice: ● Menos desviado del nivel estándar o habitual del grupo si |xi-x|Sx. En general los valores del intervalo (x-Sx, x+Sx) se denominan centrales, y los que están fuera de él son valores considerados no centrales.
propiedades 1. La varianza y la desviación típica siempre son positivas, y sólo valen cero cuando todas las desviaciones de los valores respecto a la media son nulas, cosa que sucede única y exclusivamente cuando todos los valores de la distribución son el mismo (en tal caso la variable se dice degenerada). 2. La varianza es la diferencia entre la media aritmética calculada para los cuadrados de las observaciones y el cuadrado de la media aritmética original.
3. Si a todos los valores de la distribución se les suma (o resta) una constante a, la varianza no se modifica (por supuesto tampoco la desviación típica). 4. Si todos los valores de la distribución se multiplican (o dividen) por una constante b, la varianza queda multiplicada (dividida) por b^2. La desviación típica queda multiplicada (dividida) por el valor absoluto de b. Las dos últimas propiedades indican que la varianza y desviación típica son sensibles a los cambios de escala, pero son invariantes a los cambios de origen.
2.- MEDIDAS DE DISPERSIÓN RELATIVAS 2.1.- COEFICIENTE DE VARIACIÓN DE PEARSON Denominacion: CVx La variabilidad suele ser más importante en términos relativos. El coeficiente de variación de Pearson es la medida de dispersión relativa más empleada cuando los valores observados no son nunca negativos y se define como el cociente entre la desviación típica y la media aritmética.
Este coeficiente indica la proporción que representa la desviación típica al compararla con la media. Si el coeficiente de variación varía entre: ● 0-0.35: x muy representativa ● 0.35-0.7: x medianamente representativa ● +0.7: x no es representativa Es un coeficiente adimensional, ya que las unidades de la desviación típica y de la media se cancelan entre sí. Nótese que CVx no está definido si la media aritmética es nula.
PROPIEDADES 1. El CV se utiliza para evaluar la representatividad de la media. 2. El CV es invariante frente a cambios de escala. 3. El CV no es invariante frente a cambios de origen.
3.- TIPICACIÓN DE VARIABLES Dada una variable X sus valores tipificados son los que se obtienen restándoles la media de la distribución y dividiendo por la desviación típica. Es decir, la tipificación de X sería la variable Z Z = (x - x) / Sx La variable tipificada tiene media cero y desviación típica uno. La tipificación es útil porque consiste en un cambio de origen y escala que hace más homogéneas dos distribuciones que inicialmente pueden ser muy diferentes (ambas pasan a tener la misma media cero, la misma desviación típica uno y no tienen unidades), lo que permite comparar la posición de dos elementos en cada una de las poblaciones respectivas.
4.- PROPIEDAD DE MINIMIZACIÓN DE LA MEDIA ARITMÉTICA. PROPIEDAD DE MINIMIZACIÓN DE LA MEDIANA El numerador de la varianza es la suma de los cuadrados de las desviaciones de los valores de la distribución cuando dichas desviaciones se toman con respecto a la media. Pues bien, si en dicha suma se sustituye la media por otra constante entonces la suma aumenta, y por consiguiente la media es la constante que minimiza dicha suma. Este resultado, importante para la teoría, se conoce como Teorema de Köning, y puede enunciarse con más precisión así: Siendo c una constante cualquiera se verifica la relación
Este resultado admite la siguiente representación gráfica
Luego si c≠xc entonces
Un interpretación importante es la siguiente: si se quiere elegir un número fijo c para representar a una colección de datos X, y se toma como error en la representación de cada dato xi al valor ei=(x-c)^2, entonces el número fijo c que mejor representa a la distribución desde ese punto de vista es x, pues para ese valor la suma (o el promedio) de errores es mínima. Cuando los errores respecto a la constante se toman no al cuadrado sino en valor absoluto, es decir, si ei=|xi-c|, entonces la constante c que minimiza la suma (el promedio) de errores y que por tanto representa mejor a la distribución desde ese punto de vista es la mediana.
5.- MEDICIÓN DE LA ASIMETRÍA En el tema 3 se introdujo el concepto gráfico de asimetría. Recuérdese que los casos de variable sin agrupar y agrupada se unificaban, pues en ambos se utilizaba una línea estilizada.
Recuérdese que la simetría se indica hacia el lado de la cola larga. Es decir, en los gráficos de arriba la asimetría es a la derecha. Las gráficas simétricas son aquellas que se divide en dos partes iguales por una línea vertical. Cuando hay simetría la media y la mediana coinciden. Si sólo hay una moda coincide también con la media y mediana; pero si la moda es más de una ya no coinciden, como se muestra en el ejemplo de la derecha
La asimetría se puede evaluar con el coeficiente de asimetría de Fisher que: a) Informa sobre la asimetría sin necesidad de hacer la representación gráfica b) Cuantifica el grado de asimetría.
5.1.- COEFICIENTE DE ASIMETRÍA DE FISHER
Denominacion: g1.
No obstante la interpretación es sólo aproximada: de hecho lo único que se puede asegurar es que cuando hay simetría entonces g1 vale cero. PROPIEDADES ● El coeficiente g1 es adimensional. ● También es invariante a cambios de origen y de escala. ● Pero si a los valores observados se les cambia el signo entonces la asimetría es la opuesta, y el coeficiente cambia de signo.
6.- IDEAS DEL TEMA A RETENER ➔ Concepto de dispersión. Diferenciación entre medidas de dispersión absolutas (tienen unidades) y medidas de dispersión relativa (no tienen unidades) ➔ Una medida de dispersión absoluta de uso limitado: el rango. Interpretación y significado de dicha medida. ➔ Medidas de dispersión absoluta basadas en las dispersiones o errores respecto la media aritmética: desviación absoluta media y varianza. ➔ Concepto de varianza como medida de dispersión absoluta. Concepto de desviación típica. Interpretación de los valores extremos como aquellos que distan de la media aritmética más que la desviación típica y centrales como aquellos que distan menos. ➔ Propiedades 1) a 4) de la varianza, incluyendo la fórmula alternativa para la varianza que es más sencilla de aplicar (la demostración de la identidad algebraica que existe entre ambas fórmulas debe ser conocida). ➔ El coeficiente de variación de Pearson: propiedades de 1) a la 3). ➔ Tipificación de variables: propiedades de las variables tipificadas. Significado de la tipificación ➔ Propiedad de minimización de la media aritmética con respecto a otras constantes cuando las desviaciones se toman al cuadrado. Propiedad de minimización de la mediana con respecto a otras constantes cuando las desviaciones se toman en valor absoluto. ➔ Medición de la asimetría. Definición, cálculo, interpretación y propiedades del coeficiente de asimetría de Fisher....