TEMA 4. Estadística - Apuntes explicacion explicación teórica y practica PDF

Title	TEMA 4. Estadística - Apuntes explicacion explicación teórica y practica
Author	Aitana Aguilar
Course	Estadística
Institution	Universidad de Sevilla
Pages	28
File Size	516.4 KB
File Type	PDF
Total Downloads	54
Total Views	118

Preview

CLICK TO PREVIEW PDF

Summary

Apuntes explicacion explicación teórica y practica...

Description

TEMA 4. MEDIDAS DE DISPERSIÓN Y FORMA  En este tema se pretende estudiar la mayor o menor variabilidad que presenta una determinada distribución de valores a través de las que se conocen como medidas de dispersión.  Estas medidas de dispersión son:  ● Absolutas: vienen expresadas en ciertas unidades de medida. Son las siguientes:  ■ Recorrido ■ Recorrido intercuartílico ■ Varianza ■ Desviación típica  ● Relativas: no vienen expresadas en unidades. Es:  ■ Coeficiente de variación de Pearson.  La variabilidad de la variable tiene que ver con la representatividad de la media: cuanta más variabilidad tenga una variable (más dispersión), peor será el resumen que proporciona su media.  La técnica más habitual consiste en promediar las desviaciones de la variable con respecto a un promedio y de esa forma cuantificar si el promedio cumple su objetivo de representar o resumir toda la colección de observaciones.  Por ello es conveniente, cuando se calcula un promedio, acompañarlo de una medida de dispersión que cuantifique su representatividad.  Las medida de dispersión más sencilla es el rango, pero las más utilizadas son la varianza, la desviación típica y el coeficiente de variación de Pearson. 

  

1.- MEDIDAS DE DISPERSIÓN ABSOLUTAS  1.1.- RECORRIDO O RANGO  El rango o recorrido se define como la diferencia entre el mayor y menor de los valores observados, es decir:  R = xk - x1 R = Xmax - Xmin  Se trata por tanto de una medida no negativa, que viene expresada en las unidades de la variables y que se anula sólo cuando todos los valores de la variable son iguales.  En ese caso la variable es degenerada y no hay dispersión.  Esta medida de dispersión sólo depende de los dos valores extremos de la variable, por lo que da una idea falsa de la dispersión cuando existen datos anómalos (anormalmente altos y/o bajos) en la distribución de frecuencias. 

1.2.- LA VARIANZA Y LA DESVIACIÓN TÍPICA  Calculada la media aritmética (x), si considerásemos ese valor como una aproximación representativa de toda la distribución estaríamos cometiendo errores o desviaciones (ei)  Este error o desviación (ei) sería la diferencia entre el verdadero valor y el aproximado que serían los siguientes:  ei = xi - x para i=1,...,k  Pero estos errores pueden ser negativos.  Dado que lo importante para el cálculo de la dispersión es el tamaño de los errores, entonces los convertimos en positivos mediante una de estas dos opciones:  ❏ Desviación absoluta media ❏ Varianza   

DESVIACIÓN ABSOLUTA MEDIA  Denominación: DMx  Convertimos los errores en positivos tomando valores absolutos.  |ei| = |xi - x|   Por tanto, la desviación absoluta media es la media de los errores en valor absoluto.  Para su cálculo, usamos la frecuencia absoluta: 

  En el caso de no tener dicha frecuencia, usaremos la relativa: 

  Nunca es negativa, y sólo pueden ser nulas si la variable es degenerada, es decir, si todas las observaciones son iguales a x .  Usemos la frecuencia absoluta u acumulado debemos crear una columna en nuestra tabla de frecuencias que nos permita calcular el sumatorio correspondiente.               

VARIANZA  Denominación: Sx^2  Convertimos los errores en positivos tomando cuadrados.  ei^2 = (xi - x)^2  Por tanto la varianza es la media de sus cuadrados.  Para su cálculo, usamos la frecuencia absoluta: 

o lo que es igual o más fácil Sx^2 = (E xi^2ni/N) - x^2  En el caso de no tener dicha frecuencia, usaremos la relativa: 

o lo que es igual o más fácil Sx^2 = (E xi^2fi) - x^2   Usemos la frecuencia absoluta u acumulado debemos crear una columna en nuestra tabla de frecuencias que nos permita calcular el sumatorio correspondiente.  Nunca es negativa, y sólo pueden ser nulas si la variable es degenerada, es decir, si todas las observaciones son iguales a x .  Se utiliza más que la desviación absoluta media porque tiene mejores propiedades dado que mide la dispersión en torno a la media, penalizando las desviaciones más importantes.  Hay que tener en cuenta que la varianza viene medida en la misma unidad en que están cuantificadas las observaciones pero elevada al cuadrado, lo que impide su interpretación.  Para recuperar las unidades de medida originales y poder interpretar el resultado se define la Desviación Típica.   

DESVIACIÓN TÍPICA  Denotación: Sx  Se utiliza para recuperar las unidades de medida originales y poder interpretar el resultado.  Es la raíz cuadrada positiva de la varianza.  Se utiliza como referencia para evaluar la desviación típica o intermedia que existe en la distribución respecto a x, por lo que un valor xi se dice: ● Menos desviado del nivel estándar o habitual del grupo si |xi-x|Sx.  En general los valores del intervalo (x-Sx, x+Sx) se denominan centrales, y los que están fuera de él son valores considerados no centrales.                         

propiedades  1. La varianza y la desviación típica siempre son positivas, y sólo valen cero cuando todas las desviaciones de los valores respecto a la media son nulas, cosa que sucede única y exclusivamente cuando todos los valores de la distribución son el mismo (en tal caso la variable se dice degenerada). 2. La varianza es la diferencia entre la media aritmética calculada para los cuadrados de las observaciones y el cuadrado de la media aritmética original.  

  3. Si a todos los valores de la distribución se les suma (o resta) una constante a, la varianza no se modifica (por supuesto tampoco la desviación típica). 4. Si todos los valores de la distribución se multiplican (o dividen) por una constante b, la varianza queda multiplicada (dividida) por b^2. La desviación típica queda multiplicada (dividida) por el valor absoluto de b.  Las dos últimas propiedades indican que la varianza y desviación típica son sensibles a los cambios de escala, pero son invariantes a los cambios de origen. 

 

         

2.- MEDIDAS DE DISPERSIÓN RELATIVAS  2.1.- COEFICIENTE DE VARIACIÓN DE PEARSON  Denominacion: CVx  La variabilidad suele ser más importante en términos relativos.  El coeficiente de variación de Pearson es la medida de dispersión relativa más empleada cuando los valores observados no son nunca negativos y se define como el cociente entre la desviación típica y la media aritmética. 

  Este coeficiente indica la proporción que representa la desviación típica al compararla con la media.  Si el coeficiente de variación varía entre:  ● 0-0.35: x muy representativa ● 0.35-0.7: x medianamente representativa ● +0.7: x no es representativa  Es un coeficiente adimensional, ya que las unidades de la desviación típica y de la media se cancelan entre sí.  Nótese que CVx no está definido si la media aritmética es nula.           

PROPIEDADES  1. El CV se utiliza para evaluar la representatividad de la media. 2. El CV es invariante frente a cambios de escala. 3. El CV no es invariante frente a cambios de origen. 

 

          

3.- TIPICACIÓN DE VARIABLES  Dada una variable X sus valores tipificados son los que se obtienen restándoles la media de la distribución y dividiendo por la desviación típica.  Es decir, la tipificación de X sería la variable Z  Z = (x - x) / Sx  La variable tipificada tiene media cero y desviación típica uno.  La tipificación es útil porque consiste en un cambio de origen y escala que hace más homogéneas dos distribuciones que inicialmente pueden ser muy diferentes (ambas pasan a tener la misma media cero, la misma desviación típica uno y no tienen unidades), lo que permite comparar la posición de dos elementos en cada una de las poblaciones respectivas.                        

4.- PROPIEDAD DE MINIMIZACIÓN DE LA MEDIA ARITMÉTICA. PROPIEDAD DE MINIMIZACIÓN DE LA MEDIANA  El numerador de la varianza es la suma de los cuadrados de las desviaciones de los valores de la distribución cuando dichas desviaciones se toman con respecto a la media.  Pues bien, si en dicha suma se sustituye la media por otra constante entonces la suma aumenta, y por consiguiente la media es la constante que minimiza dicha suma.  Este resultado, importante para la teoría, se conoce como Teorema de Köning, y puede enunciarse con más precisión así:  Siendo c una constante cualquiera se verifica la relación 

  Este resultado admite la siguiente representación gráfica 

       

Luego si c≠xc entonces 

  Un interpretación importante es la siguiente: si se quiere elegir un número fijo c para representar a una colección de datos X, y se toma como error en la representación de cada dato xi al valor ei=(x-c)^2, entonces el número fijo c que mejor representa a la distribución desde ese punto de vista es x, pues para ese valor la suma (o el promedio) de errores es mínima.  Cuando los errores respecto a la constante se toman no al cuadrado sino en valor absoluto, es decir, si ei=|xi-c|, entonces la constante c que minimiza la suma (el promedio) de errores y que por tanto representa mejor a la distribución desde ese punto de vista es la mediana. 

                   

5.- MEDICIÓN DE LA ASIMETRÍA  En el tema 3 se introdujo el concepto gráfico de asimetría. Recuérdese que los casos de variable sin agrupar y agrupada se unificaban, pues en ambos se utilizaba una línea estilizada. 

  Recuérdese que la simetría se indica hacia el lado de la cola larga. Es decir, en los gráficos de arriba la asimetría es a la derecha.  Las gráficas simétricas son aquellas que se divide en dos partes iguales por una línea vertical.  Cuando hay simetría la media y la mediana coinciden. Si sólo hay una moda coincide también con la media y mediana; pero si la moda es más de una ya no coinciden, como se muestra en el ejemplo de la derecha 

  La asimetría se puede evaluar con el coeficiente de asimetría de Fisher que:  a) Informa sobre la asimetría sin necesidad de hacer la representación gráfica b) Cuantifica el grado de asimetría.  

5.1.- COEFICIENTE DE ASIMETRÍA DE FISHER

 Denominacion: g1. 

  No obstante la interpretación es sólo aproximada: de hecho lo único que se puede asegurar es que cuando hay simetría entonces g1 vale cero.  PROPIEDADES  ● El coeficiente g1 es adimensional. ● También es invariante a cambios de origen y de escala. ● Pero si a los valores observados se les cambia el signo entonces la asimetría es la opuesta, y el coeficiente cambia de signo. 

               

6.- IDEAS DEL TEMA A RETENER  ➔ Concepto de dispersión. Diferenciación entre medidas de dispersión absolutas (tienen unidades) y medidas de dispersión relativa (no tienen unidades) ➔ Una medida de dispersión absoluta de uso limitado: el rango. Interpretación y significado de dicha medida. ➔ Medidas de dispersión absoluta basadas en las dispersiones o errores respecto la media aritmética: desviación absoluta media y varianza. ➔ Concepto de varianza como medida de dispersión absoluta. Concepto de desviación típica. Interpretación de los valores extremos como aquellos que distan de la media aritmética más que la desviación típica y centrales como aquellos que distan menos. ➔ Propiedades 1) a 4) de la varianza, incluyendo la fórmula alternativa para la varianza que es más sencilla de aplicar (la demostración de la identidad algebraica que existe entre ambas fórmulas debe ser conocida). ➔ El coeficiente de variación de Pearson: propiedades de 1) a la 3). ➔ Tipificación de variables: propiedades de las variables tipificadas. Significado de la tipificación ➔ Propiedad de minimización de la media aritmética con respecto a otras constantes cuando las desviaciones se toman al cuadrado. Propiedad de minimización de la mediana con respecto a otras constantes cuando las desviaciones se toman en valor absoluto. ➔ Medición de la asimetría. Definición, cálculo, interpretación y propiedades del coeficiente de asimetría de Fisher....