Bloque 1: Introducción Al Análisis Estadístico Unidimensional PDF

Title Bloque 1: Introducción Al Análisis Estadístico Unidimensional
Author Alberto Cano Canoteh
Course Estadistica
Institution Universidad de Valladolid
Pages 22
File Size 1.4 MB
File Type PDF
Total Downloads 19
Total Views 123

Summary

Download Bloque 1: Introducción Al Análisis Estadístico Unidimensional PDF


Description

Bloque 1: INTRODUCCIÓN AL ANÁLISIS ESTADÍSTICO UNIDIMENSIONAL. La palabra Estadística deriva de la latina “status” y se remonta a los tiempos en los que los estados–naciones recababan datos, especialmente sobre renta y población, a efectos de recaudación de impuestos y mantenimiento del ejército. Esos datos se identificaban con el estado, razón por la cual terminaron conociéndose como estadísticas. La Estadística está formada por el conjunto de métodos y técnicas que permiten la obtención, organización, síntesis, descripción e interpretación de los datos para la toma de decisiones en ambiente de incertidumbre. Palabras clave: describir, probabilidad y toma de decisiones con incertidumbre. Partes de la Estadística que se estudian en el Grado en Comercio:  Estadística Descriptiva. Esta rama es la más antigua de la Estadística y su objeto es el análisis de los datos para descubrir o describir las posibles regularidades que presenten.  Teoría de la Probabilidad. Estudia los fenómenos de naturaleza aleatoria.  Inferencia Estadística. Conjunto de métodos que basados en la inducción que sirven para establecer las propiedades de una población. 1.1. Datos y variables estadísticas. Distribuciones de frecuencias. Conceptos básicos Población: Conjunto de individuos objeto de estudio. Muestra: Subconjunto de la población, representativa de ésta. Entre las características observadas en la muestra y las de la población habrá siempre una diferencia que se conoce como error muestral. Variable estadística: característica de los elementos de una población. Clasificación de las variables estadísticas: Las variables son susceptibles de medirse en términos cuantitativos y a cada una de esas posibles mediciones o realizaciones se les conoce como valores, datos u observaciones. Las podemos clasificar: - Según el tipo de dato:  Cuantitativa: Toma valores numéricos.  Cualitativa (atributo): Toma valores no numéricos llamados modalidades del atributo 1

- Según el número de datos que toma:  Discretas: Nº de valores finito o infinito numerable.  Continuas: Nº de valores infinito no numerable. En este caso habitualmente se agrupan en intervalos. Ejemplos de variables estadísticas

Fuentes estadísticas Fuentes privadas: podemos considerar las elaboradas por el propio investigador. Fuentes públicas: las de organismos internacionales, como la Oficina de Estadística de la ONU (UNSTAT) y la Oficina de Estadística de la U.E. (EUROSTAT). En el Estado español, se puede destacar el Instituto Nacional de Estadística (I.N.E.). - La ley 7/2000 de 11 de Julio de Estadística de Castilla y León regula la actividad estadística que desarrolla la Comunidad de Castilla y León. - La organización estadística de Castilla y León está constituida por: -

La Dirección General de Estadística. Las unidades estadísticas de las distintas Consejerías y de las entidades públicas dependientes de la Comunidad. La Comisión de Estadística de Castilla y León. El Consejo Asesor de Estadística como órgano consultivo.

2

Distribución de frecuencias Valores agrupados y no agrupados.

Distribución de frecuencias para valores no agrupados. Valores de la variable

Frecuencias absolutas

Frecuencias relativas

x1 x2 ... xi ... xk

n1 n2 ... ni ... nk

f1 f2 ... fi ... fk

Frecuencias relativas acumuladas F1 = f1 F 2 = F 1 + f2 ... Fi = Fi-1 + fi ... Fk = 1

k

k

n

Frecuencias absolutas acumuladas N 1 = n1 N2 = N1 + n2 ... N i = Ni-1 + ni ... Nk = N

i

f

=N

i

=1

i=1

i=1

Distribución de frecuencias para valores agrupados en intervalos.

Intervalos Marca Frecuencias (Ii) de clase Frecuencias Frecuencias absolutas Li-1 - Li (xi) absolutas relativas acumuladas n1 f1 N 1 = n1 L0 - L1 x1 L1 - L2 x2 n2 f2 N2 = N1 + n2 ... ... ... ... ... ni fi N i = Ni-1 + ni Li-1 - Li xi ... ... ... ... ... xk nk fk Nk = N L k-1 - Lk k

n = N i

i=1

Amplitud Frecuencias del Altura del relativas intervalo intervalo acumuladas ci = Li – Li-1 hi = ni/ci F 1 = f1 c1 h1 F 2 = F 1 + f2 c2 h2 ... ... ... Fi = Fi-1 + fi ci hi ... ... ... Fk = 1 ck hk

k

f

i

=1

i=1

Los intervalos también se pueden representar por: Ii = [Li-1, Li), siendo el último cerrado en ambos extremos: Ik = [Lk-1, Lk]. Cuando se trabaja con frecuencias relativas, la altura en cada intervalo también se puede obtener f como el cociente hi = i . ci

3

Ejemplo 1. Datos sin agrupar.

X = notas de 100 alumnos en un examen. ni = nº de alumnos que sacan una nota. xi 0 1 2 3 4 5 6 7 8 9 10

ni 1 3 5 7 10 22 15 22 8 5 2 N = 100

fi 0,01 0,03 0,05 0,07 0,10 0,22 0,15 0,22 0,08 0,05 0,02 1

Ni 1 4 9 16 26 48 63 85 93 98 100

Fi 0,01 0,04 0,09 0,16 0,26 0,48 0,63 0,85 0,93 0,98 1

Diagrama de barras de frecuencias acumuladas

Diagrama de barras

Ejemplo 2. Datos agrupados en intervalos.

X = salario (cientos de euros). ni = nº de trabajadores que perciben salarios en el intervalo Ii.

Salario De 500 a 800 De 800 a 1.000 De 1.000 a 2.000 De 2.000 a 4.000

Ii [ 5, 8) [ 8, 10) [10, 20) [20, 40)

ni

xi

fi

Ni

Fi

50 25 20 5 100

6,5 9 15 30

0,50 0,25 0,20 0,05 1

50 75 95 100

0,50 0,75 0,95 1

4

ci 3 2 10 20

hi 16,666667 12,5 2 0,25

Histograma de frecuencias para los salarios

Gráficos de atributos.

Frecuencia. Diagrama de barras

Diagrama de sectores

Pirámide de población

5

Mas de 1000 De 800 a 1000 De 600 a 800 De 400 a 600 De 200 a 400 De 100 a 200 Menos de 100

Cartograma

500 450 400 350 300 250

B A

200 150 100 50 0

Ávila

Segovia

Zamora

León

Diagrama de barras apiladas

Pictograma

6

Provincia Ávila Segovia Zamora León

A 300 400 200 450

B 10 20 15 5

1.2. Medidas estadísticas de posición, dispersión, forma y concentración. 1.2.1. Medidas de posición o de localización.

Dan una idea general de por dónde se van a encontrar situados los datos. Medida

Notación

Media aritmética

X

Media geométrica

G(X)

Moda

Mo(X)

Percentil

Pj(X)

Mediana

Me(X)

Cuartil

Qj(X)

Decil

Dj(X)

Tipo de medida Localización (Central) Localización (Central) Localización (Central) Localización (No Central) Localización (Central) Localización (No Central) Localización (No Central)

Descripción

Valor medio. Valor medio. Valor con mayor frecuencia. el j % de los datos (ordenados) se encuentran por debajo de él. Me = P50 Q1 = P25; Q2 = Me = P50; Q3 = P75 P10 – P20 – … – P90. Dividen a la distribución en 10 partes iguales.

Media aritmética ( X ) Es el promedio de todos los datos. Dada una distribución de frecuencias, su valor se puede obtener como: k

x n i

X =

i=1

N

i

, ó también utilizando frecuencias relativas, X =

k

x f

i i

i=1

Ejemplo 1. Datos sin agrupar.

X = notas de 100 alumnos en un examen. ni = nº de alumnos que sacan una nota. xi

ni

xi ni

fi

xi fi

0 1 2 3 4 5 6 7 8 9 10

1 3 5 7 10 22 15 22 8 5 2 100

0 3 10 21 40 110 90 154 64 45 20 557

0,01 0,03 0,05 0,07 0,10 0,22 0,15 0,22 0,08 0,05 0,02 1

0 0,03 0,10 0,21 0,40 1,10 0,90 1,54 0,64 0,45 0,20 5,57

k

x n i

X= X =

N k

x f

i i

i=1

7

i

i=1

=

557 = 5,57 100

= 5,57

.

Ejemplo 2. Datos agrupados en intervalos.

X = salarios (cientos de euros). ni = nº de trabajadores que perciben salarios en el intervalo Ii. Ii

xi

[ 5, 8) 6,5 [ 8, 10) 9 [10, 20) 15 [20, 40) 30

ni

x i ni

fi

x i fi

50 25 20 5 100

325 225 300 150 1.000

0,50 0,25 0,20 0,05 1

3,25 2,25 3,00 1,50 10

k

x n i

X= X =

i

i=1

N k

x f

i i

=

1.000 = 10 (cientos €) 100

= 10 (cientos €)

i=1

Error de agrupamiento

Si en el ejemplo anterior agrupamos los intervalos de forma diferente (de una manera “menos fina”), obtenemos resultados distintos, debido a la falta de información. Ii [ 5, 8) [ 8, 10) [10, 40]

xi 6,5 9 25

ni 50 25 25 100

x i ni 325 225 625 1.175

k

x n i

X=

i

i=1

=

N

1.175 = 11,75 (cientos €) 100

En el caso de considerar únicamente dos intervalos: Ii [ 5, 10) [10, 40]

xi 7,5 25

ni 75 25 100

xi ni 562,5 625 1.187,5

k

x n i

X=

i=1

N

i

=

1.187,5 = 11,875 (cientos €) 100

Ventajas e inconvenientes de utilizar la media aritmética Las principales ventajas son:

1ª) Hace uso de todos los valores para su cálculo. 2ª) Se puede calcular siempre. 3ª) Es única. El principal inconveniente es que se trata de un promedio sensible a valores extremos de la variable, lo que invalida su utilidad en algunas ocasiones. Propiedades de la media aritmética 1ª) La media es uno de los posibles valores que puede tomar la variable. Por tanto, si para todo i, a  xi  b , entonces, a  X  b.

2ª) La media aritmética no varía si todas las frecuencias de su distribución se multiplican o dividen por una constante. 3ª) La suma de las desviaciones de los valores de la variable respecto de la media vale cero. Es decir,

k

  x - X n i

i

 0.

i=1

8

4ª) Teorema de König. La suma de las desviaciones al cuadrado de la variable respecto de una k

 x - C 

constante C cualquiera (S(C) =

2

i

n¨i ) se hace mínima cuando C = X .

i=1

5ª) La media aritmética se ve afectada por los cambios de origen en la variable. Es decir, si a todos los valores de X les añadimos una misma constante (yi = xi + C), entonces, Y = X + C. Un caso particular es la variable centrada: si Y = X - X , entonces, Y = X - X = 0. 6ª) La media aritmética se ve afectada por los cambios de escala en la variable. Es decir, si a todos los valores de X les multiplicamos por una misma constante (yi = C xi), entonces, Y = C X . 7ª) Si de un conjunto de valores obtenemos k subconjuntos disjuntos, la media aritmética de todo el conjunto se puede obtener a partir de todas las medias aritméticas de los diferentes subconjuntos de la siguiente forma: X =

X1 N1 +X2 N2 +...+X k Nk N1 +N2 +...+Nk

siendo Ni = nº de valores del subconjunto i-ésimo, Xi = media aritmética del subconjunto i-ésimo y N = N1 +N 2 +...+N k .

Media geométrica (G(X)) Dada una distribución de frecuencias, su media geométrica (G(X)) se obtiene como: k

G(X) =

 ni i=1

x1n1 ... x knk

=

N

x1n 1 ... x kn k =

k

N

x i=1

ni i

Se trata de un promedio que, para su cálculo, al igual que la media aritmética, hace uso de toda la información de la variable. Sin embargo es menos sensible a los valores extremos de lo que lo es la media aritmética. Frente a estas ventajas o virtudes, este nuevo promedio tiene algunas limitaciones: 1ª) Es menos intuitivo que la media aritmética. 2ª) Su cálculo no es tan inmediato. 3ª) En ocasiones no queda determinada. Si algún valor de la variable es nulo, entonces G(X) se anula. Si la variable toma valores negativos este promedio da problemas.

Propiedades de la media geométrica

- La media geométrica goza de la propiedad de que su logaritmo es igual a la media aritmética de los logaritmos de los valores de la variable. - La media geométrica es siempre menor o igual que la media aritmética. - La media geométrica se utiliza especialmente para promediar porcentajes, tasas, números índices, etc., y siempre que la variable presente variaciones acumulativas.

9

Ejemplo 1.

X = Tasas en %. Los años corresponden a las frecuencias. xi 1 2 3 4 5

ni 2 2 3 2 1 N = 10

G(X) = 10 1 2x 2 2x 3 3x 4 2x 5 1 =

10

8.640 = 2,4754

Ejemplo 2. Comparación media aritmética y geométrica. xi

1 10 100 1.000 10.000 100.000 1.000.000

ni 1 1 1 1 1 1 1 N=7

k

x n i

X=

i=1

N

i

=

1.111.111 = 158.730,1429 7

G(X) = 7 10 21 = 1.000 Son valores muy diferentes.

Mediana (Me(X)) Podemos dar varias definiciones: 1º) Es aquel valor de la distribución que ocupa el lugar central una vez los valores han sido ordenados de forma creciente, de menor a mayor. 2º) Aquel valor de la distribución, una vez ordenada de menor a mayor, que deja a su izquierda y a su derecha el mismo número de observaciones. 3º) El primer valor de la variable, una vez ordenados de menor a mayor, cuya frecuencia acumulada N . es mayor o igual que 2 Propiedades de la mediana

1ª) Al igual que la media, la mediana se ve afectada por cambios de origen y cambios de escala. 2ª) La mediana no se ve afectada si todas las frecuencias se multiplican o dividen por una misma constante. 3ª) La mediana no se ve influida por los valores extremos de la variable. 4ª) Para el caso de distribuciones campaniformes fuertemente asimétricas, la mediana resulta un promedio mejor que la media aritmética. 5ª) Dado que en su cálculo no intervienen los valores extremos hace que se pueda obtener fácilmente incluso en presencia de intervalos abiertos. El principal inconveniente de la mediana es que, para su cálculo, no se hace uso de toda la información que suministra la variable. 10

Ejemplo 1. Dos casos: N no figura en la columna de frecuencias absolutas acumuladas. Caso 1: El porcentaje 2 N Es decir, Ni-1 < < Ni. Entonces, Me(X) = xi. 2 xi 10 23 35 44

Ni 12 19 25 40

N = 40. N = 20 < N3 = 25 2 Me(X) = x3 = 35

N2 = 19 <

N coincide con una de las frecuencias absolutas acumuladas. 2 N x +x = Ni, entonces, Me(X) = i i+1 . Es decir, si 2 2

Caso 2: El porcentaje

xi 10 23 35 44

Ni 12 20 24 40

N = 40. N = 20 = N2. 2 23+ 35 x +x  Me(X) = 2 3 = = 29. 2 2

Ejemplo 2. X = notas de 100 alumnos en un examen. ni = nº de alumnos que sacan una nota.

xi 0 1 2 3 4 5 6 7 8 9 10

ni

Ni

1 1 3 4 5 9 7 16 10 26 22 48 15 63 22 85 8 93 5 98 2 100 100

N = 100 N = 50 < N7 = 63 2 Me(X) = x7 = 6.

N6 = 48 <

Moda (Mo(X)) La moda es aquel valor de la distribución que más se repite o que presenta mayor frecuencia. Es posible que exista más de una moda. Las propiedades de la moda son muy similares a las de la mediana, en el sentido de que se ve afectada por cambios de origen y de escala, no cambia cuando las frecuencias se multiplican o dividen por una constante y no se ve afectada por los valores extremos de la distribución. 11

Como inconveniente hay que señalar que no hace uso de toda la información de la tabla y que en distribuciones multimodales pierde sentido.

X < Me < Mo

X = Me = Mo

X > Me > Mo

En distribuciones simétricas y unimodales, moda, media aritmética y mediana son iguales. Ejemplo.

Sobre la tabla, se localiza la frecuencia máxima (ni = nmáx). El valor xi asociado será la moda. X = notas de 100 alumnos en un examen. xi

ni

0 1 2 3 4 5 6 7 8 9 10

1 3 5 7 10 22 15 22 8 5 2

nmáx = n6 = n8 = 22  Mo1(X) = x6 = 5  Mo2 (X) = x8 = 7

Medidas de posición no central Cuantiles o cuantilas: valores de la distribución que la dividen en partes iguales, es decir, en intervalos con igual número de observaciones. Cuartiles (Qj): son los tres valores de la variable que dividen la distribución en cuatro partes iguales, es decir, en cuatro intervalos dentro de cada cual está incluida la cuarta parte de los valores u observaciones de la variable. El segundo cuartil coincide con la mediana. Deciles (Dj): son los nueve valores de la variable que dividen la distribución en diez partes iguales, es decir, en diez intervalos dentro de cada cual está incluida la décima parte de los valores u observaciones de la variable. Percentiles (Pj): son los noventa y nueve valores de la variable que dividen la distribución en cien partes iguales, es decir, en cien intervalos dentro de cada cual está incluida la centésima parte de los valores u observaciones de la variable.

Para obtener cualquier percentil, decil, cuartil, ... el razonamiento es el mismo que con la mediana. Lo único que tenemos que hacer es cambiar es el porcentaje del 50% por el que corresponda en cada caso.

12

Ejemplo.

En el ejemplo de las notas de un examen, comprobar que los tres cuartiles y el percentil 93 toman los valores: Medida Valor Q1 = P25 4 Q2 = Me(X) = P50 6 Q3 = P75 7 P37 5 P93 8,5 1.2.2. Medidas de dispersión.

Medidas que cuantifican el grado de representatividad de ciertas medidas de posición, especialmente de la media aritmética. Un promedio es representativo de una distribución si los valores de la misma están próximos a éste. Por el contrario, si esos valores estuvieran muy dispersos o alejados, diríamos que el promedio no es muy representativo. Las medidas de dispersión se pueden clasificar en dos categorías: absolutas o relativas. Medidas de dispersión absolutas: Medida Recorrido Recorrido intercuartílico Varianza

Desviación típica Desviación media respecto de la media Desviación media respecto de la mediana

Notación Tipo de medida Descripción Re Dispersión Re = xmáx – xmín RI Dispersión RI = Q3 – Q1 2 SX Dispersión Distancia media de los datos a X . Distancia media de los datos a X , SX Dispersión expresada en las mismas unidades que X. Distancia media de los datos a X . Sigue el DX Dispersión criterio del valor absoluto. Distancia media de los datos a la mediana. DMe Dispersión Sigue el criterio del valor absoluto.

Recorrido (Re) Diferencia entre los valores máximo y mínimo de la variable. Re = xmáx – xmín.

Recorrido intercuartílico (RI) Diferencia entre el tercer y primer cuartel de la variable. RI = Q3 – Q1.

Varianza ( S2X ) Se puede interpretar como una distancia de los datos a la media aritmética. Utilizaríamos el concepto de diferencias al cuadrado. k

2 X

S =

  x - X i

i=1

N 13

2

ni

Propiedades de la Varianza

1ª) SX2  0. Si S2X = 0, entonces X será constante. 2ª) La varianza no cam...


Similar Free PDFs