Apuntes estadística descriptiva e inferencia estadística PDF

Title Apuntes estadística descriptiva e inferencia estadística
Author Carlos Medina
Course Estadística
Institution Universidad Mayor de San Simón
Pages 38
File Size 1.5 MB
File Type PDF
Total Downloads 26
Total Views 138

Summary

Apuntes sobre temas como: descripción de datos, estadísticos de posición y de dispersión...


Description

NOCIONES DE ESTADISTICA DESCRIPTIVA Estadística descriptiva: Conjunto de métodos estadísticos que se relacionan con el resumen y descripción de los datos, como tablas, gráficas, y el análisis mediante algunos cálculos. Inferencia estadística: Conjunto de métodos con los que se hace la generalización o la inferencia sobre una población utilizando una muestra. Las conclusiones de la inferencia deben ser dadas con una medida de confiabilidad que es la probabilidad, a fin de verificar la veracidad de estas.

1.1 POBLACIÓN Y MUESTRA Población: Un conjunto de elementos (personas, objetos), que contienen características observables de naturaleza cualitativa o cuantitativa que se pueden medir en ellos. Unidad Elemental o unidad estadística: Cada elemento de una población. Dato estadístico, valor observado: El resultado de medir una característica observable de una unidad elemental. Parámetro: Es una medida descriptiva que resume una característica de la población, tal como la media (μ) o la varianza (σ2), calculada a partir de los datos observados de toda la población. Muestra: Es una parte de la población seleccionada de acuerdo con un plan o regla, con el fin de obtener información acerca de la población de la cual proviene. Estadística o estadígrafo: Es una medida descriptiva que resume una característica de la muestra, tal como la media ( ´x ) o la varianza (s2).

2 VARIABLES ESTADÍSTICAS Variable estadística: Es una característica definida en la población por la tarea o investigación, que puede tomar dos o más valores (cualidades o números).

2.1 ESCALAS DE MEDICIÓN Escala de medición: Es un instrumento de medida, con el que se asigna valores (cualidades o números) a las unidades estadísticas Tipos de escalas de medición:    

Nominal Ordinal De intervalos De razones

Escala nominal: Es aquella en que dos o mas valores de una variable sólo permiten percibir las diferencias o semejanzas de las unidades estadísticas que se midan. El método estadístico con datos obtenidos en escala nominal consiste básicamente en obtener el número o porcentaje de casos en cada modalidad y obtener la moda

Variables de nominal:

modalidad de escala

Sexo, estado civil, ideas religiosas. Escala ordinal: Es una escala nominal donde los valores de la variable se pueden ordenar en forma ascendente o descendente. El método estadístico con datos obtenidos en escala ordinal consiste básicamente en obtener el número o porcentaje de casos en cada modalidad y obtener la moda, la mediana, los percentiles y el coeficiente de correlación por rangos.

Variables de ordinal Estatus mérito

modalidad de escala

socioeconómico,

orden

de

Escala de intervalos: Una escala de intervalos es una escala ordinal con cuyos valores no solo se pueden verificar igualdad, no igualdad y orden, si no también, se puede elegir una unidad de escala y comprobar cuántas veces la diferencia entre dos valores es igual a la diferencia entre otros dos valores de la escala (se puede comparar intervalos) Si X1, X2 y X3 son tres valores en la escala de intervalo, se verifica, por ejemplo, la relación: x 3− x 1=c ( x2 − x1 ) o

x 3−x 1 =c x 2−x 1

Variables de modalidad de escala de intervalos: Temperatura, tiempo, calificaciones de una prueba de aptitud. Con los valores de esta escala son válidas las relaciones de igualdad, de no igualdad y de orden. También, son válidas las operaciones de adición y sustracción entre los valores de la escala, y la multiplicación y división entre las diferencias de los valores de la escala. Pero no es válida la multiplicación y división entre los mismos valores de la escala. Escala de razón o cociente Es una escala de intervalo con cuyos valores además podemos comprobar cuántas veces un valor de la escala es igual a otro valor de la escala. Esto es si X 1 y X2 son dos valores en la escala de razón, se verifica la relación:

x 2=c x 1 o

x2 =c x1

La escala de razón tiene un cero absoluto (ausencia total de la característica que se observa). Variables de esta modalidad de escala: Longitud, peso, volumen, vida útil etc (continuos) La aplicación de métodos estadísticos cuantitativos requiere que la variable se mida por lo menos en escala de intervalos.

2.2 CLASIFICACIÓN DE VARIABLES Variable cualitativa: es la característica cuyos valores se expresan en escalas nominal u ordinal, por ejemplo, sexo, profesión, estado civil, orden de méritos, etc. Con sus valores, que son cualidades, no se pueden realizar operaciones aritméticas. Variable cuantitativa: es la característica cuyos valores se expresan en escalas de intervalo o de razón, por ejemplo, temperatura, número de hijos, ingresos mensuales, tiempo de vida útil, etc. Con sus valores, que son números, se pueden realizar operaciones aritméticas. Discreta: es aquella variable cuantitativa que puede tomar sólo ciertos valores en un intervalo considerado y no admite ningún valor entre dos valores consecutivos fijos. Generalmente, es una variable cuyos valores se obtienen por conteo (números naturales). Por ejemplo, una familia puede tener 0, 1, 2....hijos, pero no algún valor intermedio. Continua: es aquella variable cuantitativa que puede tomar cualquier valor en el intervalo considerado, por ejemplo, salario, tiempo, peso, volumen, longitud, etc.

Tipo de gráfico conveniente.

ORGANIZACIÓN DE DATOS: DISTRIBUCIÓN FRECUENCIAS.

3

3.1

LOS DE

Variable cualitativa

n=unids. estcs . de la muestra k =categorias o modalidadesde la muestra f i : Frecuencia absoluta f i :numero de datos observados

en cada categoria n :suma de todas las frecuencias absolutas hi : Frecuencia relativa hi=

fi n

pi : Frecuencia porcentaje

pi=hi ×100 %

3.2 Variable cuantitativa discreta Cuando el número de datos no es muy grande se sigue el mismo procedimiento que el definido para variables cualitativas. En el caso en que los datos se repitan los datos se organizan del siguiente modo:

3.3 Distribución de frecuencias por intervalos. La distribución de frecuencias por intervalos o clases se usa cuando la variable estadística es continua o cuando el número de valores distintos de una variable discreta es muy grande (más de 20 líneas en el monitor de una computadora). Recomendaciones: R1. Elegir no mas de 20 intervalos ni menos de 5. R2. El número de intervalos elegido debe dar una distribución de frecuencias monomodal. Las frecuencias aumentan progresivamente hasta una frec. máxima y luego disminuyen del mismo modo. Construcción de la distribución de frecuencias: 1. Determinar el rango R de variación: R= X max −X min 2. Determinar el número de intervalos k: Regla de Sturges: k =1+ 3.3 log( n ) ,n> 10

k se redondea al inmediato al número entero mayor, tomando en cuenta R1 y r2. Alternativamente: k =√ n , 25 ≤ n ≤ 40 3. Determinar la amplitud A del intervalo: A=

R k

Si A no es un número exacto sus decimales y los de los datos deben ser iguales en número redondeando el ultimo digito al inmediato superior, de manera que se cubre todo el rango. 4. Determinar los extremos de los intervalos de la siguiente manera: ¿ X min , X min + A ¿ I 1=¿

Es un numero que caracteriza a un intervalo. Se calcula del siguiente modo: , unintervalo Li ,U i ¿ Sea Ii=¿ Su marca de clase es m i=

Li +U i 2

Graficas: Histograma: La base de cada barra es proporcional a la amplitud del intervalo, y la altura es proporcional a su frecuencia (absoluta, o relativa, o porcentaje).

¿ X min + A , X min +2 A ¿ I 2=¿ ¿ X min +2 A , X min +3 A ¿ I 3=¿ …. I 4=[ X min +(k −1) A , X min +kA ]

Observe que se cierra por la derecha el último intervalo, esto se debe a que si la división R/k es exacta en el número de decimales de los datos, entonces, X max =X min +kA Marca de clase:

Polígono:

Curvas de frecuencias: Una curva de frecuencias se obtiene del polígono de frecuencias "suavizando” sus puntos angulosos.

La curva de frecuencias es importante por que representa realmente el tipo de población de la que se han obtenido los datos. La curva de frecuencias es también llamada modelo de la población, y describe las características de la distribución de la población como: simetría, asimetría, tipos como: normal, bimodal, uniforme, etc.. Formas de la curva de frecuencias: Distribución simétrica

Para variables cualitativas a nivel nominal este tipo de distribución no tienen ningún significado. Variables discretas. – Forma de acumulación: menor o igual que Fi :frecuencia absoluta acumulada i

Fi =∑ f i , i=1,2 , k j =1

H i : frecuencia relativa acumulada i

H i =∑ h i o H i = j=1

Fi , i=1,2,3,.. , k n

Pi : Frecuencia porcentual acumulada

Pi=H i ×100 %, i=1,2,. . , k

Distribución asimétrica

El dato de la fila 3 de la columna de frecuencias acumuladas significa que 12 familias tienen 2 hijos o menos. Gráfico: Distribución multimodal

En términos de función de distribución acumuladas (FDA):

3.4 Distribución de frecuencias acumuladas. Variable cualitativa. -

Para la fig. 1.10 b

Distribución intervalos.

de

frecuencias

de

La frecuencia acumulada de cada intervalo es la suma de las frecuencias (absolutas, relativas o porcentuales), hasta ese intervalo.

F5 =33indica que 33ingresos son menores q

Gráfica: Ojiva o polígono acumuladas.

de

frecuencias

Se obtiene uniendo con segmentos de recta, los puntos cuya abscisa es proporcional al límite superior U i de cada intervalo y cuya ordenada es proporcional a la frecuencia acumulada respectiva (absoluta, relativa o porcentaje).

intervalo determinado de la variable. Por ejemplo, en la figura 1.11, aproximadamente 16 personas (33-17 en el eje vertical) tienen ingresos entre 58 y 66 dólares quincenales (en el eje horizontal). 2) Determinar cuantiles. Se denominan cuantiles a los valores de la variable que dividen a la distribución de los datos en 2, 4, 10 o 100 partes iguales. Mediana. Es el valor M e de la variable que divide a la distribución en dos partes iguales. Cuartil. Es cada uno de los tres valores Q1, Q2, Q3 que divide a la distribución de los datos en 4 partes iguales. El cuartil Q2 es igual a Me . Percentil (o centil). Es cada uno de los 99 valores P1..., P25..., P50 ..., P75..., P99 que divide a la distribución de los datos en 100 partes iguales. El percentil P25= Q1, P50= Q2 y P75= Q3. Cálculos: Porcentaje entre dos valores de un rango a partir de las frecuencias acumuladas. Cálculo de la mediana con la ojiva. Cálculo de percentiles de la forma analítica mediante la ojiva de distribución de frecuencias acumuladas Ejm. 1.5 Cálculo de percentiles con la ecuación:

[

Pk =L P + k

Con la ojiva se pueden resolver dos tipos de problemas: 1) Calcular el número (o porcentaje) de observaciones que corresponden a un

n

( 100k )−F fi

i−1

]

A

LP : Limite inf . del∫ .que contiene a Pk k

f i : frec.|.| del∫ . que cont . a Pk Fi−1 :Frec . acu .|.|del∫ . I i−1

Llenado de una tabla de distribución de frecuencias a partir de unos pocos datos y determinación de porcentajes.

A : Amplitud delintervalo

Ej. 1.6 Determinación de percentiles para datos no tabulados. Ej. 1.7

MEDIDAS DE POSICIÓN 4 INTRODUCCIÓN Los indicadores que describen a los datos en forma más precisa, deben calcularse. Estos indicadores resumen los datos en medidas descriptivas que se refieren a la centralización o posición, a la dispersión o variación, a la asimetría, y a la curtosis de los datos. Las medidas de posición reflejan la tendencia central y la localización de los datos. Las medidas de tendencia central, denominados también promedios, ubican el centro de los datos como la media aritmética, la media geométrica, la media armónica y la mediana.

 

Se ordenan los datos en forma creciente. Luego, se ubica el valor central Me. Si n es impar, la mediana es el dato ordenado del centro. Pero si n es par, la mediana es la semisuma de los dos valores ordenados centrales.

2) Mediana de datos tabulados. Sin intervalos: Se sigue el mismo procedimiento ya descrito para datos no tabulados. Con intervalos:

Las medidas de localización indican el lugar de los datos más frecuentes (moda) o de los menos frecuentes a partir de los cuantiles. 5 MEDIANA La mediana o valor mediano de una serie de valores observados es el número Me que separa a la serie de datos ordenados en forma creciente (o decreciente) en dos partes de igual número de datos. La mediana es la medida promedio que depende del número de datos ordenados y no de los valores de estos datos.

5.1 Cálculo de la mediana. 1) Mediana de datos no tabulados.

Primero se determina el intervalo Ii = [Li,Ui[ que contiene a la mediana Me. Para esto, se determinan las frecuencias acumulada Fi y Fi-1 de manera que: Fi−1 ≤n /2< F i

Segundo:

Calcular la Me con la sgte. ec.: n −F i−1 2 A M e =Li+ fi

DATOS SIN TABULAR: La moda de los datos:

intervalo de mediana

a) 7, 9, 7, 8, 7, 4,7,13, 7 es igual a 7. Esta serie de dalos es unimodal b) 5, 3, 4, 5, 7, 3, 5, 6 3 es igual tanto a 3, como a 5. Esta serie de dalos es bimodal. c) 31, 11, 12, 19 no existe. (También vale decir que cada uno de los datos es una moda)

Li :límite inferior del intervalo de lamediana

DATOS TABULADOS:

n :numero de datos observados

Para calcular la moda de n datos tabulados por intervalos, primero se determina el intervalo que contiene a la moda, esto es, el intervalo que tiene la mayor frecuencia (intervalo modal). Luego se utiliza la fórmula:

f i =Fi −F i−1

A :amplitud del intervalo de lamediana Fi :frecuencia absoluta acumulada del

Fi−1=f recuencia|.|acu . del ∫ ervalo inmediatamente anterior al demediana

5.2 Propiedades de la mediana. 1) La mediana, sólo depende del número de datos ordenados y no del valor de los datos. Por lo tanto, no es sesgada por algún valor grande o pequeño. 2) La mediana puede ser calculada para distribuciones de frecuencia con intervalos de diferente amplitud, siempre que se pueda determinar el límite inferior del intervalo de la mediana, Li. 3) La mediana puede ser calculada para variables con valores en escala ordinal. 4) La suma de las diferencias (en valor absoluto) de n datos con respecto a su mediana es mínima. En el caso de datos sin tabular, n

∑ |x i−c|=m ínimo , si c es la mediana de lo i=1 6 MODA La moda de una serie de datos es el valor Mo, que se define como el dato que más veces se repite. La moda es el promedio menos importante debido a su ambigüedad.

(

M o=Li +

)

d1 A d 1 +d 2

Li=límiteinf . del interv . modal

d 1=f i− f i−1 f i , Frecuencia del∫ .modal f i −1 , Frec . del ∫ . inmediato anterior d 2=f i− f i+1

f i −1 , Frec . del ∫ . inmediato posterior A : Amplitud delintervalo modal

NOTA. La fórmula de la moda sólo se aplica en distribuciones con una sola frecuencia máxima. 7 MEDIA ARITMÉTICA Definición. La media aritmética, denominada simplemente media, es la suma de los valores observados de la variable, dividido por el número de observaciones.

7.1 Cálculo de aritmética.

la

media

k

∑ f i x i=n x´ i=1

DATOS NO TABULADOS.

2) Si cada uno de los n valores xi es transformado en: y i=a x i + b , siendo a y b constantes, entonces, la media de los n valores yi es:

n

∑ xi ´x = i=1 n

´y =a x´ +b

DATOS TABULADOS. Variable discreta:

Como casos particulares se tiene:

Si n valores de una variable estadística discreta X se clasifican en k valores distintos x1, x2, x3, ..., xk con frecuencias absolutas respectivas f1, f2, f3, ..., fk, entonces, su media aritmética es el número:

Si y i=b , entonces, ´y =b . Esto es, si los n datos son iguales a una constante, entonces su media es igual a esa constante. Si y y i= x i +a , entonces, ´y =´x +b . Esto es, si a cada dato se suma una constante la media queda sumada por esa constante. y =a x ´y =a x´ . Si i i , entonces, Esto es, si a cada dato se multiplica por una constante, la media queda multiplicada por esa constante.

k

∑ f i xi

´x = i=1

n

Variable continua, datos tabulados por intervalos: Si n valores de alguna variable X están tabulados en una distribución de frecuencias de k intervalos, donde: m1, m2, …, mk son las marcas de clase, y f1, f2, …, fk son las frecuencias absolutas respectivas entonces, su media aritmética es el número:

3) La suma algebraica de las desviaciones de n datos xi con respecto a su media ´x , es igual a cero. Para datos no tabulados, y tabulados, se tiene respectivamente: n

∑ (x i− x´ ) =0 i=1

k

∑ f i mi ´x =

x f i (¿¿ i−´x )=0

i=1

n

7.2 Propiedades aritmética.

k

de

la

¿ ∑ i=1

media

1) La suma total de n valores cuya media es ´x es igual a n ´x . Para n datos no tabulados y tabulados respectivamente, se tiene:

4) La suma de los cuadrados de las desviaciones de n datos con respecto a su media es mínima. Para datos no tabulados, por ejemplo, n

n

x i=n ´x ∑ i=1

(x i−c ) 2=minima , si c=´x ∑ i=1 En efecto, si c es cualquier número real,

n

n

9

Uso de los promedios

2 2 2 ( x i−c ) =¿ ∑ ( xi −´x + x´ −c ) =∑ ( x i− x´ ) +2 1. De los promedios definidos, la media i=1 i=1 n

∑¿ i=1

8

Relación entre media, mediana, y moda. 1 Si la distribución de frecuencias es simétrica, entonces, la media, la mediana y la moda tienen el mismo valor. Esto es: ´x =Me= Mo

aritmética se usa con más frecuencia por su mejor tratamiento algebraico. Pero no siempre es un buen promedio. 2. Si la distribución de frecuencias es simétrica (o "casi" simétrica), la media, o la mediana o la moda es el promedio representativo, pues, en este caso, los tres promedios son iguales (o casi iguales). 3. Si la distribución tiene marcada asimetría, entonces, la mediana es la medida promedio más representativa. 10 Otras medias La media geométrica La media armónica

2. Si la distribución es asimétrica de cola a la derecha, entonces, la moda es menor que la mediana y esta a su vez es menor que la media (figura 2.2(b)) Es decir: Mo< Me 0 Dist . asimetrica positiva ´x > Me> Mo

Propiedades de la varianza:

As As=

tabulados

en

k

M 3 /n s3 k

M 3=∑ f i (m i−´x )3

Curtosis basada en percentiles: Esta medida de curtosis es muy poco usada por ser muy inestable, pero describe bien el concepto:

i=1

s=desviacion estandar

NOTA (Ojivas asimétricas y simétricas). Las ojivas o curvas de frecuencias acumuladas, presentan formas particulares según el tipo de asimetría. Por ejemplo, en la figura 3.2a la curva de frecuencia acumulada A es de una distribución con asimetría extrema negativa. La Ojiva C es de asimetría extrema positiva. La ojiva B es de una distribución simétrica. En la figura 3.2b la diagonal D es la ojiva de una distribución normal. La curva F es la ojiva de una distribución simétrica leptocúrtica, y la E de...


Similar Free PDFs