Apunte Estadistica TP 1 uade PDF

Title	Apunte Estadistica TP 1 uade
Course	Estadistica
Institution	Universidad Argentina de la Empresa
Pages	13
File Size	1 MB
File Type	PDF
Total Downloads	202
Total Views	383

Preview

CLICK TO PREVIEW PDF

Summary

CONCEPTOS GENERALESEstadística: Es la ciencia que estudia los fenómenos aleatorios, es decir, aquellosprocesos cuyos resultados son impredecibles. Esta ciencia incluye dos ramas de conocimiento: la estadística inferencial y la estadística descriptiva. El objetivo de la estadística es el de hacer inf...

Description

Prof. Elsa Diaz

ESTADÍSTICA I – APUNTE TP Nª 1

CONCEPTOS GENERALES

Estadística: Es la ciencia que estudia los fenómenos aleatorios, es decir, aquellos procesos cuyos resultados son impredecibles. Esta ciencia incluye dos ramas de conocimiento: la estadística inferencial y la estadística descriptiva. El objetivo de la estadística es el de hacer inferencias (predecir, decidir) sobre algunas características de una población con base en la información contenida en una muestra. Población: es cualquier colección ya sea de un número finito de mediciones o una colección grande, virtualmente infinita, de datos acerca de algo de interés. La población es la totalidad de los elementos bajo estudio. Por ejemplo: totalidad de estudiantes, tornillos, perros, altura de deportistas, etc. N: tamaño de la población Muestra: es un subconjunto representativo seleccionado de una población, “subconjunto representativo”en el sentido que refleja las características esenciales de la población de la cual se obtuvo. n: tamaño de la muestra

Estadística descriptiva: se encarga de la recopilación, organización, presentación, análisis e interpretación de datos correspondiente a una variable con el fin de realizar una toma de decisiones más efectivas. Pasos en la estadística descriptiva: Una vez identificada la variable de interés se necesita reunir los datos, es decir recopilar los mismos a través de la observación directa, registros, encuestas, censos, un muestreo o diseñando un experimento. Luego es conveniente organizarlos, ordenarlos, para luego realizar su presentación a través de cuadros o gráficos. Éstos nos ayudarán a tener una visión ordenada de los datos para luego realizar el análisis que nos permitirá extraer las primeras conclusiones. Variable: Es cualquier característica observable de las unidades estudiadas, es la característica de interés. Por ejemplo: edad, género, altura, etc. Variable cualitativa: características no medibles (no numérica), atributos. Por ejemplo: género, religión, estado civil, color de ojos, nivel socioeconómico. Variable cualitativa ordinal: las categorías de la variable guardan un orden según el mayor o menor grado en que poseen una misma dimensión común. Ejemplo: cargo ocupado por cada empleado en una empresa, nivel socioeconómico, etc. Variable cualitativa nominal: aún asignando un valor numérico a cada categoría de la variable, no supone relación de orden, distancia ni proporción entre ellas. Por ejemplo: nacionalidad de cada estudiante, género, religión, estado civil, color de ojos, etc.

1

Prof. Elsa Diaz

ESTADÍSTICA I – APUNTE TP Nª 1

Variable cuantitativa: características medibles.(numéricas). Por ejemplo: edad, número de hijos, saldo en una cuenta corriente, etc. Variable cuantitativa discreta: asume una cantidad finita de valores en un intervalo dado, es decir, no admite valores intermedios entre dos valores específicos. Por ejemplo: número de hijos Variable cuantitativa continua: asume infinitos valores en un intervalo dado. Por ejemplo: saldo en una cuenta corriente Ejercicio: Para las siguientes situaciones identifique la variable de estudio y clasifíquela. Indique Si se trata de una muestra o de una población. a) Cantidad de hijos de 50 trabajadores encuestados de la Empresa X. b) Precio de 1000 terneros comercializados en cierto mercado del país en la última semana de marzo de 2010 c) Ingresos mensuales por familia en cierta ciudad d) Se desea estudiar el perfil de los alumnos que cursan en una Universidad. La Universidad cuenta con 3000 alumnos. Para ello, a cada uno se lo consultará acerca de las siguientes características: -Barrio de residencia -Estado civil -Edad (años cumplidos) -Grado de satisfacción con la facultad -Cantidad de materias aprobadas -Ocupación - Ingreso(en pesos, sin centavos)

Métodos de la estadística descriptiva: La estadística descriptiva utiliza métodos para describir un conjuntos de datos. Estos métodos pueden ser clasificados en dos tipos: métodos gráficos y métodos numéricos. Para introducir los métodos gráficos y numéricos se tendrá en cuenta que en algunos casos se deberá realizar una tabulación de los datos, esto es presentar los datos en una tabla. La tabla propuesta dependerá del tipo de variable con la que estemos trabajando: a) variable discreta: se recurre a un Arreglo de frecuencias: La tabla tendrá dos columnas, la primera estará compuesta por los diferentes valores que tomó la variable ( x i) y en la segunda columna se indicará la frecuencia de cada variable ( f i ) Ejercicio: En cierta fábrica metalúrgica se registró la cantidad de ausentes por día, durante el mes de febrero. Los datos son los siguientes: 8, 6, 5, 0, 4, 1, 5, 6, 6, 3, 2, 4, 6, 5, 3, 9, 5, 4, 6, 5 ,7, 7, 6, 6, 5, 2, 8,7 Ordene los datos en un arreglo de frecuencias 2

Prof. Elsa Diaz

ESTADÍSTICA I – APUNTE TP Nª 1

b) variable es continua: se recurre a un Arreglo distribucional de las observaciones en el conjunto: se grupan las observaciones en un número relativamente pequeño de clases que no se superpongan entre sí, de tal manera que no existe ninguna ambigüedad con respecto a la clase a la que pertenece una observación en particular. El número de observaciones en una clase recibe el nombre de frecuencia de clase (f i), mientras que el cociente de una frecuencia de clase con respecto al número total de observaciones de todas las clases se conoce como la frecuencia relativa ( f r ) de esa clase. La frecuencia acumulada (F) es la frecuencia total de todos los valores menores que el límite superior de la clase de un intervalo de clase dado; mientras que la frecuencia acumulada relativa ( Fr) es el cociente de una frecuencia acumulada con respecto al número total de observaciones de todas las clase. Las fronteras de la clase se denominan límites (L), y el promedio entre los límites superior (LS) e inferior (LI) recibe el nombre de punto medio o marca de la clase (x i).

Ejercicio: El siguiente conjunto de datos de refiere a las edades de un grupo de 33 personas 24,3

19,7

16,6

23,2

18,1

11,1

15,8

20,9

23,0

25,3

23,6

12,6

16,2

24,7

26,4

11,6

20,4

29,2

7,4

18,5

24,2

21,4

30,7

21,1

8,5

29,6

24,6

6,4

27,4

26,5

18,6

16,4

20,1

Se pide ordenar los datos en una distribución de frecuencias (considerar clases de ampiltud 4 unidades) luego calcule las frecuencias acumuladas, las frecuencias relativas y las frecuencias relativas acumuladas.

3

Prof. Elsa Diaz

ESTADÍSTICA I – APUNTE TP Nª 1

Métodos gráficos: Los gráficos además de expresar visualmente los hechos más importantes de la información numérica, permiten una mejor y más fácil comprensión y ahorra tiempo y esfuerzo en el análisis de datos estadísticos al facilitar su apreciación visual en forma conjunta. Gráfico de bastones/barras (para variables cuantitativas discretas o cualitativas): el gráfico consiste en un conjunto de barras, líneas, verticales, hallándose cada barra sobre la observación respectiva y con una altura proporcional a la frecuencia de la observación Ejercicio: Realice el gráfico correspondiente de cada ítem propuesto 1) La siguiente tabla muestra la cantidad de hijos de 50 trabajadores encuestados de la empresa Telecom Cantidad de hijos 0 1 2 3 4 5

Cantidad de empleados 9 11 19 7 3 1

4

Prof. Elsa Diaz

ESTADÍSTICA I – APUNTE TP Nª 1

2) Los siguientes datos corresponden al género de los alumnos de una determinada Universidad: mujeres: 1400; varones:1100

Histograma de frecuencias (para variables cuantitativas continuas): se construyen rectángulos sobre cada una de las clases, con alturas proporcionales al número de elementos que caen en la clase (frecuencia absoluta de clase) Polígono de frecuencias(para variables cuantitativas continuas):: Se puede obtener uniendo los puntos medios de los techos de los rectángulos del histograma. Se acostumbra prolongar el polígono hasta las marcas de clase (punto medio) superior e inferior para completar el área cubierta por dicha poligonal, de forma tal que resulte igual al área cubierta por el histograma Ejercicio: La siguiente distribución de frecuencias representa los sueldos de los empleados de la consultora X . Grafique el histograma y el polígono de frecuencias Salario ( en $ ) 1200-1400 1400-1600 1600-1800 1800-2000

Cantidad de empleados 50 80 100 20

5

Prof. Elsa Diaz

ESTADÍSTICA I – APUNTE TP Nª 1

Ojiva (para variables cuantitativas continuas): el intervalo(o el límite superior del intervalo) aparece en el eje horizontal y la frecuencia acumulada relativa (o acumulada absoluta) en el eje vertical. Se suele considerar a un punto del eje horizontal como el origen de la ojiva, este punto es el límite inferior del primer intervalo de clase. Se supone que el incremento dentro de los intervalos es lineal, por lo tanto los puntos se unen mediante trazos rectos, obteniendo la poligonal denominada ojiva Ejercicio. La siguiente distribución de frecuencias representa el número de días durante un año, que los empleados y obreros de una compañía manufacturera estuvieron ausentes del trabajo debido a enfermedad. Número de inasistencias 0-3 3-6 6-9 9-12 12-15 Total

Número de empleados 5 12 23 8 2 50

Grafique la ojiva

Métodos numéricos Las limitaciones de los métodos gráficos pueden salvarse con el uso de medidas descriptivas numéricas. Con base en los datos muestrales es posible calcular un conjunto de números que proporcionen al estadístico una buena imagen mental de la distribución de frecuencias de la población y que resulte útil para hacer inferencias acerca de las características de la población. Las medidas descriptivas numéricas calculadas a partir del total de observaciones de la población se denominan parámetros; aquellas calculadas de las observaciones de una muestra se denominan estadísticos

6

Prof. Elsa Diaz

ESTADÍSTICA I – APUNTE TP Nª 1

Existen cuatro medidas de interés para cualquier conjunto de datos: la medida de tendencia central , medida de variabilidad, medidas de posición y medidas de forma.

Medidas de tendencia central: medidas numéricas que se emplean comúnmente para describir conjuntos de datos. La tendencia central de un conjunto de datos es la disposición de éstos para agruparse ya sea alrededor del centro o de ciertos valores numéricos. Existen principalmente tres medidas de tendencia central: la media aritmética, la mediana y la moda Media Aritmética( x : para una muestra; µ : para una población): la media de las observaciones es el promedio aritmético de éstas, es decir, la sumatoria de todos los valores de la variable dividida por la cantidad de datos. La unidad de medida de la media es la misma que la de la variable. Para datos sin agrupar n

åx x=

i

i =1

n

Para datos en un arreglo de frecuencias: k

åx x=

i

fi

i =1

n

Para datos agrupados, es decir, para un arreglo distribucional de frecuencias: k

x =å i= 1

xi f n

i

donde:

k: número de clases x i : punto medio de la i-ésima clase f i : frecuencia de la i-ésima clase n: suma de todas las frecuencias NOTA: El valor de la media puede afectarse de manera desproporcionada por la existencia de algunos valores extremos Mediana (Me): Por definición, la mediana es el valor de la variable hasta donde se acumula el 50% de las observaciones. La mediana de un conjunto de observaciones es el valor para el cual, cuando todas las observaciones se ordenan de manera creciente, la mitad de éstas es menor que este valor y la otra mitad mayor.

7

Prof. Elsa Diaz

ESTADÍSTICA I – APUNTE TP Nª 1

Para datos sin agrupar -

Si el número de observaciones en el conjunto es impar, la mediana es el valor de la observación que se encuentra a la mitad del conjunto ordenado. Ej: datos: 2, 5,3, 6,3, 2, 2

-

Si el número de observaciones en el conjunto es par , la mediana es el promedio de los valores de las dos observaciones que se encuentren a la mitad del conjunto ordenado Ej: daos: 2,5,3,3, 6,2,2,2

Se aconseja primero encontrar el orden mediano, esto es la mitad de las observaciones, para luego obtener la mediana que corresponde con el valor ubicado en el orden mediano n Meº =Orden Me = 2 Para datos en un arreglo de frecuencias:

N , si éste no coincide con algún 2 valor de la frecuencia acumulada absoluta, entonces se busca el primer valor de ésta que supere al orden Me. El valor de la variable que le corresponde, es la mediana. Si el orden mediano coincide con algún valor de la frecuencia acumulada absoluta, entonces la mediana es la semi-suma entre el valor de la variable que le corresponde y el siguiente Primero se debe hallar el orden mediano: Orden Me =

Para datos agrupados en una distribución de frecuencias: Se debe hallar el “intervalo mediano” encontrando previamente el orden mediano; éste es un valor de la frecuencia N acumulada absoluta : Orden Me = . 2 Se busca el primer valor, de la frecuencia acumulada, que iguale o supere al orden Me. El intervalo que le corresponde será llamado intervalo mediano. La fórmula para localizar a la Me dentro del intervalo es: N / 2 - Fa .i Me= LI + donde: LI: límite inferior del intervalo mediano f N/2: posición de la mediana F a : frecuencia acumulada anterior f: frecuencia el intervalo mediano i: amplitud, ancho de los intervalos NOTA: Dado que la mediana es un valor que se basa en la secuencia ordenada de las observaciones en un conjunto de datos, la existencia de algunos valores extremos no afectará su valor. La mediana puede ser una media de tendencia central mucho más deseable que la media 8

Prof. Elsa Diaz

ESTADÍSTICA I – APUNTE TP Nª 1

Moda (Mo): la moda de un conjunto de observaciones es el valor de la observación que ocurre con mayor frecuencia en el conjunto. Puede suceder que la frecuencia más alta se encuentre compartida por dos o más observaciones. También puede ocurrir que en un conjunto no exista un par de observaciones cuyo valor sea el mismo (en esta situación se dice que no hay moda) Para datos sin agrupar o en un arreglo de frecuencias Es el valor de la observación que ocurre con mayor frecuencia en el conjunto. Para datos agrupados en una distribución de frecuencias: D1 Mo= LI + .i donde: D1 + D 2 LI: límite inferior del intervalo modal(intervalo en el que quedan incluidos más datos) D1 : frecuencia modal – frecuencia anterior D 2 : frecuencia modal – frecuencia posterior i: amplitud de los intervalos Nota: La Moda se puede obtener gráficamente a) variable cuantitativa discreta: El valor de la variable cuyo “bastón” tenga la máxima longitud, es el modo b) variable cuantitativa continua: Se construye el correspondiente histograma. Se observa el intervalo de mayor frecuencia asociándolo con el rectángulo de mayor altura. Se trazan los segmentos BD y AC . La perpendicular al eje de las abscisas que pasa por la intersección de los segmentos determina en aquél el valor del modo

9

Prof. Elsa Diaz

ESTADÍSTICA I – APUNTE TP Nª 1

Medidas de variabilidad o dispersión: la variabilidad de un conjunto de datos es la dispersión de las observaciones en el conjunto. Es interesante la información que pueden aportar las medidas de dispersión en relación al grado de concentración de los datos en torno a un valor central. Entre las medidas e variabilidad se encuentran la varianza, la desviación estándar y el coeficiente de variación Varianza( s2 : para una muestra; s 2 : para una población): la varianza de las observaciones es el promedio del cuadrado de las distancias (desvío) entre cada observación y la media del conjunto de observaciones Para datos sin agrupar: n

å (x 2 s =

i

-x

N

)

2

å(x s2 =

i=1

i

- µ)

2

i =1

N n -1 Para datos en un arreglo de frecuencias o para datos agrupados en una distribución de frecuencias

k

å (x s2 =

k

)

2

i

å(x

- x fi

i=1

n -1

s2 =

- µ) . fi 2

i

i =1

N

Desvío estándar ( s : para una muestra; s : para una población): como el valor numérico de la varianza de la variable “x” queda expresado en otra dimensión ( el cuadrado de la magnitud de la variable) y esto hace que su interpretación sea difícil, se cuenta con otra medida de variabilidad, el desvío estándar,y es la raíz cuadrada (positiva) de la varianza

s = s2

s = s2

Coeficiente de variación (CV): Se clasifica como una medida de dispersión relativa. Se define como el cociente entre el desvío estándar y la media aritmética.

s s .100% CV= .100% µ x El CV es un número puro, sin magnitud, su valor numérico permite establecer criterios generales acerca de la homogeneidad de los datos y de la representatividad de la media aritmética. Se considera que si el CV £ 0,20 entonces la variable en estudio es homogénea y además si el CV £ 0,10 la media aritmética es representativa. El CV puede presentarse como porcentaje para relacionar el desvío con la media aritmética. Por ejemplo: Si CV= 0,53 Þ el desvío estándar es el 53% de la media y además, el promedio no es representativo del conjunto de datos. CV=

10

Prof. Elsa Diaz

ESTADÍSTICA I – APUNTE TP Nª 1

Medidas de posición: También llamadas medidas de concentración, son aquellas medidas con las cuales se puede establecer porcentaje de datos que está concentrado dentro de un determinado intervalo. Los cuartiles y percentiles son algunas de las medidas de posición. Los cuartiles (q) son 3 y dividen a la distribución en 4 partes iguales. Los percentiles (p) son 99 y dividen a la distribución en 100 partes iguales Cuartiles: sean x 1 , x 2 ,…,x n , un conjunto de n observaciones ordenadas por orden de magnitud, el primer cuartil ( q 1 ) es aquel que deja a la izquierda ¼ (25%) de las observaciones y es menor que ¾ (75%) de las observaciones. El segundo cuartil ( q 2 ) es la mediana. El tercer cuartil ( q 3 ) sobrepasa ¾ (75%) de las observaciones y es menor que ¼ (25%) de ellas Percentiles: sean x 1 , x 2 ,…,x n , un conjunto de n observaciones ordenadas por orden de magnitud, el percentil p j es un valor tal que el j % de las observaciones es menor que él y el (100 - j ) % de las observaciones son mayores, es decir, es el valor de la variable que supera al j % de los datos y es superado por el (100- j ) % de los mismos. Por ejemplo: 1) “El 75% de los jubilados cobra menos de $ 900” Þ p 75 = 900 2) “En una Universidad el 30% de los alumnos obtiene calificaciones mayores que 7” Þ p 70 = 7

Todas las medidas de posición se obtienen con la fórmula de la mediana N / 2 - Fa Me= LI + . i , adaptando previamente la posición de la misma (Me= q 2 , “deja 2/4 f de las observaciones a la izquierda y 2/4 a la derecha”), es decir

j N - Fa q j = LI + 4 .i f

j N - Fa p j = LI + 100 .i f

Nota: 1) “ j ” recibe el nombre de “fractil de orden j ”. El fractil es el valor de la variable tal que supera un j % de datos en la serie ordenada. Se recurre a este concepto en los ejercicios que piden el valor de una variable “x” y dan como dato un porcentaje. 2) Me= q2 = p...