Tema3.2 DES PDF

Title Tema3.2 DES
Course Estadística 1
Institution Universidad Europea Miguel de Cervantes
Pages 18
File Size 1.1 MB
File Type PDF
Total Downloads 60
Total Views 132

Summary

apuntes de los power point...


Description

TEMA 3.2. MEDIDAS DE DISPERSIÓN Y DE FORMA 3.2. Las medidas de dispersión. ...................................... 1! 3.2.1. El recorrido. ............................................. 1! 3.2.2. La varianza. ............................................. 2! 3.2.3. La desviación típica o Standard. ................................ 3! Nota 1: Tipificación ............................................ 5! 3.2.4. El coeficiente de variación de Pearson. ............................ 5! 3.2.5. Cuasivarianza. ............................................ 8! Nota 2: Método abreviado para el cálculo de la varianza .................... 8! 3.3. Las medidas de forma. ........................................ 13! 3.3.1. Medidas de asimetría ...................................... 13! 3.3.1. Medidas de curtosis ....................................... 14! Nota 3: Diagramas de Cajas (Box-Plots) .............................. 16! Nota 4.Grados de libertad (no es necesario saberlo pero se incluye como aclaración) . 16! 3.2. Las medidas de dispersión. La representatividad de un promedio se mide por las medidas de dispersión; entendiendo por estas la mayor o menor concentración de los valores de la variable alrededor de algún valor central. Un promedio será tanto o más representativo cuanto menor sea la dispersión. La fuerte relación entre promedios y medidas de dispersión no quiere decir que exista dependencia o correlación entre ellas. Sino que son independientes. Podemos dividir las medidas de dispersión en dos grupos: - Medidas concretas: Recorridos. Varianzas. Desviaciones típicas. - Medidas abstractas: Los coeficientes de variación. 3.2.1. El recorrido. Es la más sencilla de las medidas de dispersión. Se calculará como la diferencia entre el mayor valor de la variable y el menor. Ri=max Oi – min Oi

Servirá para una primera aproximación y cuanto mayor sea, mayor será la dispersión. Aunque es fácil de calcular y sus unidades son las mismas que las de la variable, posee algunos inconvenientes: • No utiliza todas las observaciones, sólo dos de ellas. • Se puede ver muy afectada por alguna observación extrema. 1



El rango aumenta con el numero de observaciones o se queda igual, en cualquier caso nunca disminuye.

Comparemos, por ejemplo, estas dos series: Serie 1: 1 5 7 7 8 9 9 10 17 Serie 2: 2 4 6 8 10 12 14 16 18 Ambas series tienen rango 16, pero están desigualmente agrupadas, pues mientras la primera tiene una mayor concentración en el centro, la segunda se distribuye uniformemente a lo largo de todo el recorrido. Otros recorridos son: El recorrido semicuartílico.

Ds =

Q3 - Q1 2

La ventaja de trabajar con cuartiles es que trabajamos con valores dentro de la distribución (no con valores extremos), así la variabilidad será más fiable que en el caso anterior. - Recorrido intercuartílico: Q2 - Q1 - Recorrido interdecílico: D9 - D1 - Recorrido semicuartílico:

Q 3 - Q1 2 En el transcurso de esta sección veremos medidas de dispersión mejores que las anteriores, que se determinan en función de la distancia entre las observaciones y algún estadístico de tendencia central. 3.2.2. La varianza. Es la medida de dispersión de mayor uso, se define como el momento central de segundo orden (momento de orden dos respecto a la media). O bien, la media de las diferencias cuadráticas de n valores con respecto a su media aritmética. h 2

å( x - x ) n i

2

S =

i

i

N

Simplificación en el cálculo (es recomendable usar esta simplificación para problemas 2

realizados a mano): 2

2

2

S =

å( x i - x ) ni å x2i ni - 2 xå xi ni + x å n i å x 2i ni 2 2 - 2 x + x = å x 2i ni - n x 2 = = n n n

Inconvenientes: El inconveniente, es que viene expresada en el cuadrado de la unidad de medida de la variable. Cambios de origen y escala en la varianza: Efectuemos un cambio de origen y de escala sobre la variable x, es decir, construyamos otra variable y = ax + b, siendo a>0 y b constantes (multiplicar x por una constante es efectuar un cambio de escala y sumarle a x una constante es efectuar un cambio de origen). Esto quiere decir que para cada xi hay un yi = axi + b con su misma frecuencia ni. La tabla de la variable y será:

Entonces la varianza

La varianza no se ve afectada por el cambio de origen pero se ve afectada por el cuadrado del cambio de escala efectuado sobre la variable. 3.2.3. La desviación típica o Standard. Es otra medida de dispersión que viene expresada en las mismas unidades que la variable. La definiremos como la raíz cuadrada de la varianza.

å(x i - x )2 ni n

S =+ S 2=+

En inglés se utiliza s como abreviatura de Standard. 3

Significado y utilización: En las distribuciones simétricas se cumple: – A una distancia de una desv. típica de la media ( x - σ, x + σ) tendremos 68% observaciones. – A una distancia de dos desv. típica de la media ( x - 2σ, x + 2σ) tendremos 95% observaciones. – A una distancia de tres desv. típica de la media ( x - 3σ, x + 3σ) tendremos 95% observaciones. Se utiliza para normalizar o tipificar una distribución:

xi - x _ N(0,1) S Sus propiedades: 1) Sx ³ 0 2) Es una medida de dispersión óptima. 3) La desviación típica esta acotada superior e inferiormente. 4) No le afectan los cambios de origen. 5) Le afectan los cambios de escala.

Hemos de hacer notar que en la desviación típica tiene más influencia las desviaciones de los valores muy extremos que en la desviación media, ya que estas desviaciones en la primera medida están previamente elevadas al cuadrado. Ejemplo: Calcular la varianza y la desviación típica de las siguientes medidas, en metros: 3, 3, 4, 4, 5 Solución: 3 + 3 + 4 + 4 + 5 19 = = 3 ' 8 metros 5 5 1 2 + 42 ∑ 2 + 52 ) - 3 ' 82 = 0 ' 56m 2 = (3 2 ∑ 5

X= S 2X

Sx =

S 2x =

0 ' 56 = 0 ' 748 m

4

Nota 1: Tipificación Se conoce por tipificación al proceso de restar la media y dividir por su desviación típica a una variable X. De este modo se obtiene una nueva variable

de media y desviación típica Sz =1, que denominamos variable tipificada. Esta nueva variable carece de unidades y permite hacer comparables dos medidas que en un principio no lo son, por aludir a conceptos diferentes. Así por ejemplo nos podemos preguntar si un elefante es más grueso que una hormiga determinada, cada uno en relación a su población. También es aplicable al caso en que se quieran comparar individuos semejantes de poblaciones diferentes. Por ejemplo si deseamos comparar el nivel académico de dos estudiantes de diferentes Universidades para la concesión de una beca de estudios, en principio sería injusto concederla directamente al que posea una nota media más elevada, ya que la dificultad para conseguir una buena calificación puede ser mucho mayor en un centro que en el otro, lo que limita las posibilidades de uno de los estudiante y favorece al otro. En este caso, lo más correcto es comparar las calificaciones de ambos estudiantes, pero tipificadas cada una de ellas por las medias y desviaciones típicas respectivas de las notas de los alumnos de cada Universidad. 3.2.4. El coeficiente de variación de Pearson. Hemos visto que las medidas de centralización y dispersión nos dan información sobre una muestra. Nos podemos preguntar si tiene sentido usar estas magnitudes para comparar dos poblaciones. Por ejemplo, si nos piden comparar la dispersión de los pesos de las poblaciones de elefantes de dos circos diferentes, nos dará información útil. ¿Pero qué ocurre si lo que comparamos es la altura de unos elefantes con respecto a su peso? Tanto la media como la desviación típica, y , se expresan en las mismas unidades que la variable. Por ejemplo, en la variable altura podemos usar como unidad de longitud el metro y en la variable peso, el kilogramo. Comparar una desviación (con respecto a la media) medida en metros con otra en kilogramos no tiene ningún sentido. El problema no deriva sólo de que una de las medidas sea de longitud y la otra sea de masa. El mismo problema se plantea si medimos cierta cantidad, por ejemplo la masa, de dos poblaciones, pero con distintas unidades. Este es el caso en que comparamos el peso en toneladas de una población de 100 elefantes con el correspondiente en miligramos de una población de 50 hormigas. El problema no se resuelve tomando las mismas escalas para ambas poblaciones. Por ejemplo, se nos puede ocurrir medir a las hormigas con las mismas unidades que los elefantes (toneladas). Si la ingeniería genética no nos sorprende con alguna barbaridad, lo lógico es que la dispersión de la variable peso de las hormigas sea prácticamente nula (¡Aunque haya algunas que sean 1.000 veces mayores que otras!) En los dos primeros casos mencionados anteriormente, el problema viene de la dimensionalidad de las variables, y en el tercero de la diferencia enorme entre las medias de ambas poblaciones. El coeficiente de variación es lo que nos permite evitar estos problemas, pues elimina la dimensionalidad de las variables y tiene en cuenta la proporción existente entre medias y desviación típica. Se define del siguiente modo:

5

Basta dar una rápida mirada a la definición del coeficiente de variación, para ver que las siguientes consideraciones deben ser tenidas en cuenta: •

Sólo se debe calcular para variables con todos los valores positivos. Todo índice de variabilidad es esencialmente no negativo. Las observaciones pueden ser positivas o nulas, pero su variabilidad debe ser siempre positiva. De ahí que sólo debemos trabajar con variables positivas, para la que tenemos con seguridad que



No es invariante ante cambios de origen. Es decir, si a los resultados de una medida le sumamos una cantidad positiva, b>0, para tener Y=X+b, entonces , ya que la desviación típica no es sensible ante cambios de origen, pero si la media. Lo contario ocurre si restamos (b...


Similar Free PDFs