Estadística 1 - APUNTES DE TODAS LAS CLASES PDF

Title Estadística 1 - APUNTES DE TODAS LAS CLASES
Course Estadística I
Institution Universidad San Ignacio de Loyola
Pages 41
File Size 2.6 MB
File Type PDF
Total Downloads 316
Total Views 400

Summary

SEMANA 1 : CONCEPTOS BÁSICOSEs una ciencia que permite un trabajo interdisciplinario en diferentes áreas de investigación proporcionando un conjunto de técnicas que ayudan al profesional en la recolección, organización, resumen, análisis e interpretación de los datos; los cuales, le orientan en la t...


Description

SEMANA 1 : CONCEPTOS BÁSICOS Es una ciencia que permite un trabajo interdisciplinario en diferentes áreas de investigación proporcionando un conjunto de técnicas que ayudan al profesional en la recolección, organización, resumen, análisis e interpretación de los datos; los cuales, le orientan en la toma de decisiones. Es una ciencia porque: ❖ Se realizan experimentos y observaciones; ❖ Se obtienen conclusiones o proposiciones objetivas a partir de los resultados de dichos experimentos y observaciones; y ❖ Se formulan leyes que simplifican la descripción de un gran número de observaciones División de la Estadística clásica, está dividida en dos grandes áreas: 1. Estadística descriptiva 2. Estadística Inferencial

Estadística Descriptiva Es una ciencia que proporciona un conjunto de métodos que se utilizan para recolectar, resumir, clasificar, analizar e interpretar el comportamiento de los datos con respecto a una característica materia de estudio o investigación. Los resultados obtenidos son válidos solo para el conjunto de datos con el que se trabajó. Ejemplos • 500 de los 1560 empleados de la Empresa Neptuno tienen tarjeta de crédito Interbank-Visa. • El consumo promedio de los empleados de la Empresa Neptuno que tienen tarjeta de crédito Interbank-Visa es de US$ 500 Estadística Inferencial Se refiere al proceso de generalizar propiedades del todo, la población, partiendo de lo específico, una muestra. Para que éstas generalizaciones sean válidas la muestra debe ser representativa de la población y la calidad de la información debe ser controlada, además, se tiene que especificar la probabilidad de cometer errores. Ejemplos: ➢ En los canales de TV que ponen a disposición del público sus líneas telefónicos para averiguar la opinión de los televidentes sobre temas de actualidad. ➢ En el control de calidad de los productos, la industrias obtienen datos sobre la proporción de productos defectuosos, inspeccionando sólo una parte de éstos. Población Conjunto sobre el que se centra el objetivo de un análisis o investigación estadística. Está compuesta por unidades a las que se denomina elementos. Es decir, es la colección de todos los 1

individuos, objetos u observaciones que poseen al menos una característica en común. La población también tiene otro tipo de clasificación: • Población finita es aquella que tiene un número limitado de elementos. • Población infinita es aquella que no tiene límites o cotas, esto es, tiene un número infinito de elementos. Dato: Manifestación de un fenómeno de forma cualitativa o numérica. Cuantificación del mundo real en una representación cualitativa o numérica, comprensible para el individuo. Muestra Es un subconjunto que se selecciona de la población. Una muestra debe ser representativa; es decir, debe mostrar las características típicas que poseen los elementos de toda la población. Una muestra aleatoria y representativa contiene la información necesaria para tomar decisiones respecto a la población. -Unidad elemental: Es cualquier elemento de la población que posee la información sobre el fenómeno que se estudia. -Censo: Observación de la(s) característica(s) en todos los elementos de una población. - Encuesta: Método de medición de una o más variables en una muestra. Fuentes de datos En un estudio o investigación estadística son básicos los datos. Atendiendo a su procedencia o generación, las llamadas fuentes de información se clasifican en: • Fuentes primarias: Son datos que genera el investigador para alcanzar los objetivos del proyecto, análisis o estudio de un fenómeno. • Fuentes secundarias: Son datos recabados por empresas o agentes ajenos a la propia investigación. Suele ser información elaborada en otras investigaciones o recopilada y difundida por organismos públicos y privados TIPOS DE MUESTREO Muestreo no probabilístico • Los elementos son seleccionados mediante criterios subjetivos, es decir, la muestra no se selecciona utilizando criterios técnicos. En este tipo de muestreo no se conocen las probabilidades de selección de los elementos que conforman la población. A continuación, se presentan tipos de muestreo no probabilístico: • Muestreo por conveniencia, Muestreo por juicio, Muestreo por cuotas, Muestreo por bola de nieve. Muestreo probabilístico

2

• Los elementos son seleccionados utilizando criterios técnicos. En este tipo de muestreo, un elemento que pertenece a la población tiene una probabilidad de ser incluido en la muestra. A continuación, se presentan tipos de muestreo no probabilístico: • Muestreo aleatorio simple, Muestreo aleatorio sistemático, Muestreo estratificado Variable: Es una característica de la población que se va investigar y que tiene diferentes valores.

Variable cualitativa : Se refieren a características o cualidades que no pueden ser medidas con números, denominada también variable de atributo, se refiere a características no numéricas de un estudio. -Variable Cualitativa Nominal Características que expresan un valor de nominación; por ejemplo, el sexo, la afiliación religiosa, el lugar de nacimiento, el color de los ojos. - Variable Cualitativa Ordinal Características que expresan un valor de orden; por ejemplo, el nivel de educación, el estrato socioeconómico, la categoría de ocupación.

Variable cuantitativa: Se refiere a características que se puede registrar numéricamente; es decir, es la que se expresa mediante un número, por tanto se pueden realizar operaciones aritméticas con ella. Se puede distinguir dos tipos: - Variables Cuantitativas Discretas Características que sólo pueden adquirir valores enteros y casi siempre hay “brechas” entre esos valores; por ejemplo, el número de personas que habitan en una casa (1, 2, 3,..., etc.). -Variables Cuantitativas Continuas Características que pueden tomar cualquier valor dentro de un intervalo específico. También se puede decir que son características cuya unidad de medida es fraccionaria; por ejemplo, el tiempo que toma volar de Lima a Nueva York, la altura (en cm.) de los estudiantes.

3

Tipos de Variables Parámetro y Estadístico - Parámetro Es una medida resumen que describe una característica de toda la población, y para determinar su valor es necesario utilizar toda la información de la población.

-Estadístico o estadígrafo Es una medida resumen que describe una característica de la población con los datos u observaciones de una muestra CICLO DE LA ESTADÍSTICA

4

Organización y Presentación de Datos: Cualitativos y Cuantitativos Discretos Organización de datos Después de la recopilación de los datos, es necesario clasificarlos, resumirlos y presentarlos en forma tal, que faciliten su comprensión y su posterior análisis y utilización, para ello se ordenan en un tabla de distribución de frecuencias y se representan en gráficos. -Tabla de distribución de frecuencias Presentan la distribución de un conjunto de datos de acuerdo al tipo de variable que se tenga. En caso de que sólo se disponga de la tabla, es posible calcular algunos indicadores de resumen.

Componentes de una tabla de frecuencias 1. Numeración de la tabla 2. Título de la tabla 3. Encabezado 4.Cuerpo o Contenido 5. Fuente

Caso de Variables del Tipo Cualitativo Distribución de frecuencias para una variable cualitativa -En la primera columna, se muestran las diferentes categorías que toma la variable. Cabe indicar que los valores que toma la variable se conocen como categorías. -En la segunda columna, se muestran las frecuencias absolutas (fi ) que representan el número de veces que se repiten cada una de las categorías en el conjunto de datos. -En la tercera columna, se muestran las frecuencias relativas (hi ) que representan la proporción de cada una de las categorías en el conjunto de datos. -En la cuarta columna, se muestran las frecuencias porcentuales (pi ) que representan el porcentaje de cada una de las categorías en el conjunto de datos.

Gráfico de barras En este tipo de gráficos, a cada categoría le corresponde una barra vertical (horizontal) cuya altura (longitud) es igual o proporcional a su respectiva frecuencia absoluta, relativa o porcentual. Pasos para su construcción: Paso 1: Se traza un sistema de coordenadas, luego los valores

5

que toma la variable (categorías) se representan en el eje X y las frecuencias absolutas, relativas o porcentuales son representadas en el eje Y. Paso 2: A cada valor de la variable, le corresponde una barra cuya altura es igual o proporcional a su respectiva frecuencia absoluta, relativa o porcentual.

Gráfico de Sectores Circulares En este tipo de gráficos, a cada categoría le corresponde un sector circular cuya área es proporcional a su respectiva frecuencia porcentual. Para calcular el ángulo (αSi) del sector circular que corresponde a la categoría i se utiliza la siguiente fórmula:

Donde: Si = Sector circular que corresponde a la categoría i. pi = Frecuencia porcentual que corresponde a la categoría i

Distribución de frecuencias para una variable cuantitativa discreta

Gráfico de líneas o bastones : Estos gráficos se utilizan para representar datos cuantitativos discretos. Pasos para su construcción: Paso 1: Se traza un sistema de coordenadas, los valores que toma la variable se representan en el eje X y las frecuencias absolutas o relativas se representan en el eje Y. 6

Paso 2: Sobre cada valor que toma la variable se levanta una línea cuya altura es igual o proporcional a su respectiva frecuencia absoluta o relativa

SEMANA 2: Organización y Presentación de Datos: Cuantitativos Continuos Tabla de distribución de frecuencias

HISTOGRAMA Estos gráficos se utilizan para representar variables cuantitativas continuas. En este tipo de gráfico, a cada intervalo le corresponde una barra cuya altura es igual o proporcional a su respectiva frecuencia absoluta, relativa o porcentual. Pasos para su construcción: -Paso 1: Se traza un sistema de coordenadas, luego los intervalos se representan en el eje X y las frecuencias absolutas o relativas se representan en el eje Y. -Paso 2: Sobre cada intervalo se levanta una barra cuya altura es igual o proporcional a su respectiva frecuencia absoluta o relativa, no existen separaciones entre las barras

Polígonos de frecuencias El polígono de frecuencias se obtiene al unir los puntos medios de los lados superiores de las barras de un histograma mediante segmentos de rectas, aunque la figura así formada no es un polígono, este se consigue al unir los puntos medios de las dos barras extremas con los puntos medios de los intervalos adyacentes cuya frecuencia es cero

Diagrama de tallo y hoja • El diagrama "tallo y hojas" (Stem-and-Leaf Diagram) permite obtener simultáneamente una distribución de frecuencias de la variable y su representación gráfica. • Esta representación de los datos es semejante a la de un histograma pero además de ser fáciles de elaborar, presentan más información que estos. Pasos para su construcción: Paso 1: Seleccionar el primer dígito o los primeros dígitos de cada dato para los valores del tallo, los últimos dígitos de cada dato se convierten en las hojas. Paso 2: Los valores del tallo se presentan en una columna. Paso 3: A cada dato le corresponde una hoja en la misma fila del correspondiente valor del tallo

8

SEMANA 3: Medidas de tendencia central: Media, Mediana y Moda Medidas de resumen Las medidas de resumen son útiles para describir un conjunto de datos. A continuación,se presentan las medidas de resumen que serán motivo de estudio:

Medidas de posición Las medidas de posición son aquellas medidas de resumen cuyas posiciones permiten hacer una descripción particular del conjunto de datos. Se dividen en: • Medidas de tendencia central • Medidas de tendencia no central Las medidas de tendencia central son aquellas que tienden a ocupar posiciones centrales en el conjunto de datos. Entre estas tenemos: ▪ Media o promedio aritmético ▪ Mediana ▪ Moda ▪ Media ponderada ▪ Media total ▪ Media armónica ▪ Media geométrica MEDIA ARITMÉTICA Llamada también promedio aritmético, es la medida más utilizada, conocida y fácil de calcular e interpretar. 9

Propiedades de la Media Aritmética ❖ Si a cada una de los valores (datos) se le suma o se le resta una constante (b), los valores del nuevo conjunto de datos tienen la siguiente forma: La media aritmética del nuevo conjunto de datos es igual a: ❖ Si a cada una de los valores (datos) se le multiplica por una constante (c), los valores del nuevo conjunto de datos tienen la siguiente forma: La media aritmética del nuevo conjunto de datos es igual a: A partir de las dos propiedades anteriores, se obtiene el siguiente conjunto de datos: La media aritmética del nuevo conjunto de datos es igual a: Un resumen de las propiedades se presenta en el siguiente cuadro:

Mediana La mediana es el valor que se encuentra en el centro del conjunto de datos, cuyos valores se encuentran ordenados en forma ascendente (descendente). El 50% de los datos se encuentran a la izquierda de la mediana y el otro 50% se encuentran a la derecha

10

Moda La Moda es el valor de la variable que se presenta con mayor frecuencia o que más se repite en un conjunto de observaciones, y se denota por Mo . Observación. Si el conjunto de datos presenta un solo valor con la mayor frecuencia, entonces se dice que la distribución es unimodal y si presenta más de dos valores con iguales frecuencias y mayores a la vez, entonces se dice que la distribución es multimodal

11

Cálculo de la Media, Mediana y Moda para datos agrupados Media aritmética (ഥ�) : El cálculo de la media aritmética cuando los datos están agrupados en tablas de frecuencias con k intervalos, se realiza de la siguiente manera

Mediana (Me) Cuando sólo se disponga de información resumida en una tabla de frecuencias, se puede hacer el cálculo de la Mediana, mediante la siguiente expresión:

donde: • Linf = Límite inferior del intervalo donde se encuentra la mediana. • c = Amplitud del intervalo. • Fi-1 = Frecuencia absoluta acumulada del intervalo anterior donde se encuentra la mediana. • fi = Frecuencia absoluta (simple) del intervalo donde se encuentra la mediana. • = Posición que ocupa la mediana en el conjunto de datos Moda (Mo) : Cuando sólo se disponga de información resumida en una tabla de frecuencias, se puede hacer el cálculo de la Moda, mediante la siguiente expresión:

También: • Linf = Límite inferior del intervalo donde se encuentra la moda. • c = Amplitud del intervalo. • fi = Frecuencia absoluta del intervalo donde se encuentra la moda. • fi-1 = Frecuencia absoluta del intervalo anterior donde se encuentra la moda. • fi+1 = Frecuencia absoluta del intervalo posterior donde se encuentra la moda. Observación: La mayor frecuencia absoluta corresponde al intervalo donde se encuentra la moda

12

SEMANA 4: Media ponderada, media geométrica, media armónica, media total Media ponderada Se calcula cuando la variable toma valores que se repiten varias veces. Para un conjunto de datos: x1 , x2 , ..., xn con pesos o ponderaciones: w1 , w2 ,...,wn , la media ponderada se define de la siguiente manera:

donde: xi = Es el i-ésimo valor que toma la variable. wi = Es la ponderación del i-ésimo valor que toma la variable. Media total La media total es útil cuando se conocen las medias y los tamaños de varias muestras, y es de interés calcular la media de todas las muestras juntas. La fórmula es la siguiente:

donde: ni = Tamaño de la muestra i � ഥ = Media aritmética de la muestra i k = Número de muestras Media armónica: La media armónica se define como el cociente entre el número de datos y la suma de las inversas de los mismos, es decir:

Una referencia importante: -Si la dimensión del numerador es constante se usa la media armónica. - Si la dimensión del denominador es constante usar la media aritmética

13

Media geométrica La media geométrica para un conjunto con n observaciones positivas x1 , x2 ,..., xn se define de la siguiente manera: = 1× 2× 3×

⋯ ×

La media geométrica es útil cuando se desea promediar porcentajes, tasas de crecimiento, entre otros. Factor de crecimiento en el periodo i, FCi . Dadas las observaciones x0 , x1 ,…, xn-1 , xn , desde el período inicial t0 hasta el período final tn , el factor de crecimiento promedio en el periodo establecido está dado por: ഥ = 1× 2×

⋯ × = 0

que también puede expresarse como: = 1 0 × 2 1 ×

×⋯−1

donde: = Factor de crecimiento en el período i con respecto al período anterior. n = Número de períodos Tasa de crecimiento (r). A partir del factor de crecimiento promedio , se obtiene la tasa de crecimiento promedio (r), así: �% = �ഥ� − �× ���% Pronóstico o predicción para el periodo n. �� = �ഥ� � + � � Donde: ഥഥ: Valor estimado o pronosticado para el periodo n 0: Valor de la variable del último periodo observado, será considerado como valor inicial para el pronóstico. : Tasa de crecimiento.

14

-PercentilesMedidas de tendencia no central Con la finalidad de obtener valores que representen la distribución se estudian las medidas de tendencia central, pero también es de suma importancia estudiar otros valores de la distribución que ocupan lugares particulares y que son necesarios para un mejor conocimiento de esta, estos valores se denominan cuantiles. Se dividen en: Cuartiles (Qk ). Los cuartiles son tres valores (Qk ; k = 1, 2, 3) que dividen al conjunto de datos en cuatro partes iguales. Estos son: ➢ El cuartil 1 (Q1 ) divide al conjunto de datos en dos partes, el 25% de los datos son menores (menores o iguales) que el cuartil 1 y el 75% de los datos son mayores (mayores o iguales) que el cuartil 1. ➢ El cuartil 2 (Q2 ) divide al conjunto de datos en dos partes, el 50% de los datos son menores (menores o iguales) que el cuartil 2 y el 50% de los datos son mayores (mayores o iguales) que el cuartil 2. ➢ El cuartil 3 (Q3 ) divide al conjunto de datos en dos partes, el 75% de los datos son menores (menores o iguales) que el cuartil 3 y el 25% de los datos son mayores (mayores o iguales) que el cuartil 3. Deciles (Dk ). Los deciles son nueve valores (Dk ; k = 1, 2, …, 9) que dividen al conjunto de datos en diez partes iguales. El decil k (Dk ) divide al conjunto de datos en dos partes, el (10k)% de los datos son menores (menores o iguales) que el decil k y el (100-10k)% de los datos son mayores (mayores o iguales) que el decil k. Percentiles (Pk ). Los percentiles son noventa y nueve valores (Pk; k = 1, 2,…, 99) que dividen al conjunto de datos en cien partes iguales. El percentil k (Pk ) divide al conjunto de datos en dos partes, el k% de los datos son menores (menores o iguales) que el percentil k y el (100 - k)% de los datos son mayores (mayores o iguales) que el percentil k

Percentiles (Datos No Agrupados) -Cálculo de percentiles para datos no agrupados 1. Ordenar los datos en forma ascendente 2. Hallar la posición (j) del percentil (Pk ) a partir de la siguiente expresión:

3. Ubicar el percentil en la posición hallada si “j” es un número entero; caso contrario, el percentil se calcula con la siguiente fórmula:

15

SEMANA 5: Medidas de Variabilidad, Forma y Concentración Variabilidad de los datos : Se tiene la distribución de los ingresos de los trabajadores de dos pequeñas empresas E.

Medidas de Variabilidad • Las Medidas de Variabilidad nos brindan información acerca de la magnitud del alejamiento de los datos en relación a un valor central o de concentración de los datos. • En el análisis estadístico se necesita conocer la variabilidad de los datos, es decir, cuán parecidos son respecto a las Medidas de Tendencia Central. • Las principales medidas de variabilidad que vamos a estudiar son las siguientes: ❑Rango ❑Rango Intercuartílico ❑Varianza ❑Desviación Estándar ❑Coeficiente de Variabilidad

Rango y rango intercuartílico : Rango (R), El rango se define como la difer...


Similar Free PDFs