TEMA 4. Estadística - Apuntes explicacion explicación teórica y practica PDF

Title TEMA 4. Estadística - Apuntes explicacion explicación teórica y practica
Author Aitana Aguilar
Course Estadística
Institution Universidad de Sevilla
Pages 28
File Size 516.4 KB
File Type PDF
Total Downloads 54
Total Views 118

Summary

Apuntes explicacion explicación teórica y practica...


Description

TEMA 4. MEDIDAS DE DISPERSIÓN Y FORMA  En este tema se pretende estudiar la mayor o menor variabilidad que presenta una determinada distribución de valores a través de las que se conocen como medidas de dispersión.  Estas medidas de dispersión son:  ● Absolutas: vienen expresadas en ciertas unidades de medida. Son las siguientes:  ■ Recorrido ■ Recorrido intercuartílico ■ Varianza ■ Desviación típica  ● Relativas: no vienen expresadas en unidades. Es:  ■ Coeficiente de variación de Pearson.  La variabilidad de la variable tiene que ver con la representatividad de la media: cuanta más variabilidad tenga una variable (más dispersión), peor será el resumen que proporciona su media.  La técnica más habitual consiste en promediar las desviaciones de la variable con respecto a un promedio y de esa forma cuantificar si el promedio cumple su objetivo de representar o resumir toda la colección de observaciones.  Por ello es conveniente, cuando se calcula un promedio, acompañarlo de una medida de dispersión que cuantifique su representatividad.  Las medida de dispersión más sencilla es el rango, pero las más utilizadas son la varianza, la desviación típica y el coeficiente de variación de Pearson. 

  

1.- MEDIDAS DE DISPERSIÓN ABSOLUTAS  1.1.- RECORRIDO O RANGO  El rango o recorrido se define como la diferencia entre el mayor y menor de los valores observados, es decir:  R = xk - x1 R = Xmax - Xmin  Se trata por tanto de una medida no negativa, que viene expresada en las unidades de la variables y que se anula sólo cuando todos los valores de la variable son iguales.  En ese caso la variable es degenerada y no hay dispersión.  Esta medida de dispersión sólo depende de los dos valores extremos de la variable, por lo que da una idea falsa de la dispersión cuando existen datos anómalos (anormalmente altos y/o bajos) en la distribución de frecuencias. 

1.2.- LA VARIANZA Y LA DESVIACIÓN TÍPICA  Calculada la media aritmética (x), si considerásemos ese valor como una aproximación representativa de toda la distribución estaríamos cometiendo errores o desviaciones (ei)  Este error o desviación (ei) sería la diferencia entre el verdadero valor y el aproximado que serían los siguientes:  ei = xi - x para i=1,...,k  Pero estos errores pueden ser negativos.  Dado que lo importante para el cálculo de la dispersión es el tamaño de los errores, entonces los convertimos en positivos mediante una de estas dos opciones:  ❏ Desviación absoluta media ❏ Varianza   

DESVIACIÓN ABSOLUTA MEDIA  Denominación: DMx  Convertimos los errores en positivos tomando valores absolutos.  |ei| = |xi - x|   Por tanto, la desviación absoluta media es la media de los errores en valor absoluto.  Para su cálculo, usamos la frecuencia absoluta: 

  En el caso de no tener dicha frecuencia, usaremos la relativa: 

  Nunca es negativa, y sólo pueden ser nulas si la variable es degenerada, es decir, si todas las observaciones son iguales a x .  Usemos la frecuencia absoluta u acumulado debemos crear una columna en nuestra tabla de frecuencias que nos permita calcular el sumatorio correspondiente.               

VARIANZA  Denominación: Sx^2  Convertimos los errores en positivos tomando cuadrados.  ei^2 = (xi - x)^2  Por tanto la varianza es la media de sus cuadrados.  Para su cálculo, usamos la frecuencia absoluta: 

o lo que es igual o más fácil Sx^2 = (E xi^2ni/N) - x^2  En el caso de no tener dicha frecuencia, usaremos la relativa: 

o lo que es igual o más fácil Sx^2 = (E xi^2fi) - x^2   Usemos la frecuencia absoluta u acumulado debemos crear una columna en nuestra tabla de frecuencias que nos permita calcular el sumatorio correspondiente.  Nunca es negativa, y sólo pueden ser nulas si la variable es degenerada, es decir, si todas las observaciones son iguales a x .  Se utiliza más que la desviación absoluta media porque tiene mejores propiedades dado que mide la dispersión en torno a la media, penalizando las desviaciones más importantes.  Hay que tener en cuenta que la varianza viene medida en la misma unidad en que están cuantificadas las observaciones pero elevada al cuadrado, lo que impide su interpretación.  Para recuperar las unidades de medida originales y poder interpretar el resultado se define la Desviación Típica.   

DESVIACIÓN TÍPICA  Denotación: Sx  Se utiliza para recuperar las unidades de medida originales y poder interpretar el resultado.  Es la raíz cuadrada positiva de la varianza.  Se utiliza como referencia para evaluar la desviación típica o intermedia que existe en la distribución respecto a x, por lo que un valor xi se dice: ● Menos desviado del nivel estándar o habitual del grupo si |xi-x|Sx.  En general los valores del intervalo (x-Sx, x+Sx) se denominan centrales, y los que están fuera de él son valores considerados no centrales.                         

propiedades  1. La varianza y la desviación típica siempre son positivas, y sólo valen cero cuando todas las desviaciones de los valores respecto a la media son nulas, cosa que sucede única y exclusivamente cuando todos los valores de la distribución son el mismo (en tal caso la variable se dice degenerada). 2. La varianza es la diferencia entre la media aritmética calculada para los cuadrados de las observaciones y el cuadrado de la media aritmética original.  

  3. Si a todos los valores de la distribución se les suma (o resta) una constante a, la varianza no se modifica (por supuesto tampoco la desviación típica). 4. Si todos los valores de la distribución se multiplican (o dividen) por una constante b, la varianza queda multiplicada (dividida) por b^2. La desviación típica queda multiplicada (dividida) por el valor absoluto de b.  Las dos últimas propiedades indican que la varianza y desviación típica son sensibles a los cambios de escala, pero son invariantes a los cambios de origen. 

 

         

2.- MEDIDAS DE DISPERSIÓN RELATIVAS  2.1.- COEFICIENTE DE VARIACIÓN DE PEARSON  Denominacion: CVx  La variabilidad suele ser más importante en términos relativos.  El coeficiente de variación de Pearson es la medida de dispersión relativa más empleada cuando los valores observados no son nunca negativos y se define como el cociente entre la desviación típica y la media aritmética. 

  Este coeficiente indica la proporción que representa la desviación típica al compararla con la media.  Si el coeficiente de variación varía entre:  ● 0-0.35: x muy representativa ● 0.35-0.7: x medianamente representativa ● +0.7: x no es representativa  Es un coeficiente adimensional, ya que las unidades de la desviación típica y de la media se cancelan entre sí.  Nótese que CVx no está definido si la media aritmética es nula.           

PROPIEDADES  1. El CV se utiliza para evaluar la representatividad de la media. 2. El CV es invariante frente a cambios de escala. 3. El CV no es invariante frente a cambios de origen. 

 

          

3.- TIPICACIÓN DE VARIABLES  Dada una variable X sus valores tipificados son los que se obtienen restándoles la media de la distribución y dividiendo por la desviación típica.  Es decir, la tipificación de X sería la variable Z  Z = (x - x) / Sx  La variable tipificada tiene media cero y desviación típica uno.  La tipificación es útil porque consiste en un cambio de origen y escala que hace más homogéneas dos distribuciones que inicialmente pueden ser muy diferentes (ambas pasan a tener la misma media cero, la misma desviación típica uno y no tienen unidades), lo que permite comparar la posición de dos elementos en cada una de las poblaciones respectivas.                        

4.- PROPIEDAD DE MINIMIZACIÓN DE LA MEDIA ARITMÉTICA. PROPIEDAD DE MINIMIZACIÓN DE LA MEDIANA  El numerador de la varianza es la suma de los cuadrados de las desviaciones de los valores de la distribución cuando dichas desviaciones se toman con respecto a la media.  Pues bien, si en dicha suma se sustituye la media por otra constante entonces la suma aumenta, y por consiguiente la media es la constante que minimiza dicha suma.  Este resultado, importante para la teoría, se conoce como Teorema de Köning, y puede enunciarse con más precisión así:  Siendo c una constante cualquiera se verifica la relación 

  Este resultado admite la siguiente representación gráfica 

       

Luego si c≠xc entonces 

  Un interpretación importante es la siguiente: si se quiere elegir un número fijo c para representar a una colección de datos X, y se toma como error en la representación de cada dato xi al valor ei=(x-c)^2, entonces el número fijo c que mejor representa a la distribución desde ese punto de vista es x, pues para ese valor la suma (o el promedio) de errores es mínima.  Cuando los errores respecto a la constante se toman no al cuadrado sino en valor absoluto, es decir, si ei=|xi-c|, entonces la constante c que minimiza la suma (el promedio) de errores y que por tanto representa mejor a la distribución desde ese punto de vista es la mediana. 

                   

5.- MEDICIÓN DE LA ASIMETRÍA  En el tema 3 se introdujo el concepto gráfico de asimetría. Recuérdese que los casos de variable sin agrupar y agrupada se unificaban, pues en ambos se utilizaba una línea estilizada. 

  Recuérdese que la simetría se indica hacia el lado de la cola larga. Es decir, en los gráficos de arriba la asimetría es a la derecha.  Las gráficas simétricas son aquellas que se divide en dos partes iguales por una línea vertical.  Cuando hay simetría la media y la mediana coinciden. Si sólo hay una moda coincide también con la media y mediana; pero si la moda es más de una ya no coinciden, como se muestra en el ejemplo de la derecha 

  La asimetría se puede evaluar con el coeficiente de asimetría de Fisher que:  a) Informa sobre la asimetría sin necesidad de hacer la representación gráfica b) Cuantifica el grado de asimetría.  

5.1.- COEFICIENTE DE ASIMETRÍA DE FISHER

 Denominacion: g1. 

  No obstante la interpretación es sólo aproximada: de hecho lo único que se puede asegurar es que cuando hay simetría entonces g1 vale cero.  PROPIEDADES  ● El coeficiente g1 es adimensional. ● También es invariante a cambios de origen y de escala. ● Pero si a los valores observados se les cambia el signo entonces la asimetría es la opuesta, y el coeficiente cambia de signo. 

               

6.- IDEAS DEL TEMA A RETENER  ➔ Concepto de dispersión. Diferenciación entre medidas de dispersión absolutas (tienen unidades) y medidas de dispersión relativa (no tienen unidades) ➔ Una medida de dispersión absoluta de uso limitado: el rango. Interpretación y significado de dicha medida. ➔ Medidas de dispersión absoluta basadas en las dispersiones o errores respecto la media aritmética: desviación absoluta media y varianza. ➔ Concepto de varianza como medida de dispersión absoluta. Concepto de desviación típica. Interpretación de los valores extremos como aquellos que distan de la media aritmética más que la desviación típica y centrales como aquellos que distan menos. ➔ Propiedades 1) a 4) de la varianza, incluyendo la fórmula alternativa para la varianza que es más sencilla de aplicar (la demostración de la identidad algebraica que existe entre ambas fórmulas debe ser conocida). ➔ El coeficiente de variación de Pearson: propiedades de 1) a la 3). ➔ Tipificación de variables: propiedades de las variables tipificadas. Significado de la tipificación ➔ Propiedad de minimización de la media aritmética con respecto a otras constantes cuando las desviaciones se toman al cuadrado. Propiedad de minimización de la mediana con respecto a otras constantes cuando las desviaciones se toman en valor absoluto. ➔ Medición de la asimetría. Definición, cálculo, interpretación y propiedades del coeficiente de asimetría de Fisher....


Similar Free PDFs