Resumen Estadistica 1 PDF

Title Resumen Estadistica 1
Course Estadística I
Institution Universidad Siglo 21
Pages 22
File Size 1 MB
File Type PDF
Total Downloads 337
Total Views 697

Summary

ESTADISTICAS Y DEFINICION- MODULO 1La estadística: “Es el conjunto de métodos y técnicas que permiten determinar, de una muestra debidamente representativa de una población, los valores estadísticos, a fin de poder inferir sobre los parámetros poblacionales con un cierto grado de bondad"1 ....


Description

ESTADISTICAS Y DEFINICION- MODULO 1 La estadística: “Es el conjunto de métodos y técnicas que permiten determinar, de una muestra debidamente representativa de una población, los valores estadísticos, a fin de poder inferir sobre los parámetros poblacionales con un cierto grado de bondad" 1.2 Concepto de Población y muestra Diferencia entre muestras y poblaciones Los expertos en estadística recogen datos de una muestra y utilizan esta información para hacer inferencias sobre la población que representa esa muestra. El estudio de una muestra es más sencillo que el de la población completa, cuesta menos y lleva menos tiempo. Una población es un conjunto de todos los elementos que estamos estudiando, acerca de los cuales intentamos sacar conclusiones. Una muestra es una colección de algunos elementos de la población, no de todos. Una muestra representativa contiene las características relevantes de la población en las mismas proporciones en que están incluidas en tal población. Si la población de mujeres del ejemplo es un tercio de afroamericanas, entonces una muestra representativa en términos de raza tendrá también un tercio de afroamericanas. Variable en estudio: Definida anteriormente como: La característica que se observa en cada uno de los elementos de la población y que se modifica o no de un elemento con respecto a otro.

La variable cuantitativa discreta es la que resulta de un conteo y sólo puede tomar valores definidos y no puede tomar ningún valor comprendido entre dos valores consecutivos, por esa razón, toma valores del conjunto de números enteros. La variable cuantitativa continua Es la que puede tomar infinito valores posibles dentro de un cierto intervalo, es decir, toma valores dentro del conjunto de números reales. La variable cualitativa nominal es aquella variable en estudio, en la cual los valores que adopta pueden ser clasificados de acuerdo a categorías, pero sin orden jerárquico. La variable cualitativa jerarquizada es aquella variable en estudio, que se presenta cuando es necesario otorgarle a ella una cierta jerarquía de orden. Los datos esperados son los datos que un investigador espera si la hipótesis que se planteó al iniciar la investigación fuera cierta. Los datos observados son aquellos que se encuentran en la muestra sujeta a análisis y que reciben el nombre de estadísticos de la muestra. Ordenamiento de datos en arreglos de datos y distribuciones de frecuencias Una ordenación de datos es una de las formas más sencillas de presentarlos, ofrece varias ventajas con respecto a los datos sin procesar: 1) Podemos identificar los valores mayor y menor rápidamente. 2) Es fácil dividir los datos en secciones. 3) Podemos ver si algunos valores aparecen más de una vez en el arreglo. 1

4) Podemos observar la distancia entre valores sucesivos de los datos. A pesar de las ventajas, en algunas ocasiones un ordenamiento de datos no resulta útil. Suele ser necesario comprimir la información sin que pierda su utilidad para la interpretación y la toma de decisiones. Una distribución de frecuencias muestra el número de observaciones del conjunto de datos que caen en cada una de las clases. Si se puede determinar la frecuencia con la que se presentan los valores en cada clase de un conjunto de datos, se puede construir una distribución de frecuencias. Serie simple: Los datos en bruto, tal cual fueron obtenidos, sin agrupar constituyen una serie simple. Están dados, entonces, por una cantidad finita de datos estén éstos ordenados o no. Definición de distribución de frecuencias relativas La frecuencia relativa de un valor, expresada como fri, es el cociente entre su frecuencia absoluta y la suma de todas las frecuencias absolutas. La frecuencia acumulada de una clase y se la denota como fai, a la suma de su frecuencia absoluta y la suma de las frecuencias absolutas de los valores que le anteceden. Una distribución de frecuencias acumuladas nos permite ver cuántas observaciones están por encima de ciertos valores, en lugar de hacer un mero registro del número de elementos que hay dentro de los intervalos. La gráfica de una distribución de frecuencias acumuladas se conoce como ojiva. De la misma manera que el polígono de frecuencia, se grafica uniendo los puntos centrales del lado más alto de cada barra, no ya de un histograma de frecuencias absolutas o relativas sino de un histograma de frecuencias acumuladas La frecuencia desacumulada de un valor, y se denota fds de una distribución, a la diferencia entre el número total de observaciones y su frecuencia acumulada. Hay oportunidades en que un ordenamiento de datos no resulta útil, Una alternativa a la hora de resumir datos es a partir de una tabla de frecuencias o de distribución de frecuencias. Una tabla de distribución de frecuencias se utiliza para ubicar datos distribuidos en clases, es decir, en agrupamientos de valores que describen una característica particular de dichos datos. Para poder construir una distribución de intervalos de clase, se debe tener en cuenta: 1- El número de intervalos: La determinación del número de intervalos (k) está relacionada con la cantidad de datos que tenemos (n). Algunos técnicos definen

O El método Sturges Tipos de intervalos finitos: Son aquellos intervalos de números que se relacionan con segmentos de recta 1- Intervalo abierto: Se trata de un intervalo cuyos extremos no participan del conjunto que está describiendo. 2- Intervalo cerrado: Al contrario del intervalo abierto, sus extremos si forman parte del conjunto solución al que representa. Este intervalo involucra, entre de sus extremos a y b, todos los números reales que sean iguales o mayores que a y los que sean iguales o menores que b. Estos valores se colocan entre corchetes y separados por un punto y coma 3- Semi-abiertos Tipos de intervalos infinitos: 2

Representación gráfica de distribuciones de frecuencias Las gráficas proporcionan datos en un diagrama de dos dimensiones. En el eje horizontal podemos mostrar los valores de la variable (la característica que estamos midiendo), como la producción de alfombras en yardas. En el eje vertical señalamos las frecuencias de las clases mostradas en el eje horizontal. Las gráficas son útiles debido a que resaltan y aclaran los patrones que no se pueden distinguir fácilmente en las tablas. Diagramas circulares: En este tipo de gráfico, consideraremos que el ángulo central del círculo es de 360 °, que representa el 100 % de los datos relevados y que cada una de las clases estará dada por un sector cuyo ángulo será proporcional a su frecuencia porcentual. Por eso, con una regla de tres simple directa se procede a graficarla Diagrama de barras: Estos diagramas proporcionan información en un gráfico de dos dimensiones. En el eje horizontal, podemos mostrar los valores de la variable (la característica que estamos midiendo), como las calificaciones en una evaluación o los diferentes deportes practicados en un club social; y, en el eje vertical, señalamos las frecuencias de las clases mostradas en el eje horizontal. Histogramas Un histograma consiste en una serie de rectángulos, cuyo ancho es proporcional al rango de los valores que se encuentran dentro de una clase, y cuya altura es proporcional al número de elementos que caen dentro de la clase. Si las clases empleadas en la distribución de frecuencias son del mismo ancho, entonces las barras verticales del histograma también tienen el mismo ancho. Un histograma que utiliza las frecuencias relativas de los datos puntuales de cada una de las clases, en lugar de usar el número real de puntos, se conoce como histograma de frecuencias relativas. Recuerde que la frecuencia relativa de cualquier clase es el número de observaciones que entran en la clase, dividido entre el número total de observaciones hechas.

Polígonos de frecuencias Los polígonos de frecuencias son otra forma de representar gráficamente distribuciones tanto de frecuencias como de frecuencias relativas. Para construir un polígono de frecuencias señalamos éstas en el eje vertical y los valores de la variable que estamos midiendo en el eje horizontal, del mismo modo en que se hizo con el histograma. A continuación, graficamos cada frecuencia de clase trazando un punto sobre su punto medio y conectamos los puntos sucesivos resultantes con una línea recta para formar un polígono Un polígono de frecuencias es sólo una línea que conecta los puntos medios de todas las barras de un histograma. Por consiguiente, podemos reproducir el histograma mediante el trazado de líneas verticales desde los límites de clase (señalados en el eje horizontal) y, luego, conectando esas líneas con rectas horizontales a la altura de los puntos medios del polígono. Un polígono de frecuencias que utiliza frecuencias relativas de datos puntuales en cada una de las clases, en lugar del número real de puntos, se conoce como polígono de frecuencias relativas. Tiene la misma forma que el polígono de frecuencias construido a partir del mismo conjunto de datos, pero con una escala diferente en los valores del eje vertical. En lugar del número absoluto de observaciones, la escala representa el número de observaciones de cada clase expresadas como una fracción del total de observaciones. 3

Los histogramas y los polígonos de frecuencias son similares. ¿Por qué necesitamos ambos? Las ventajas de los histogramas son: 1. Los rectángulos muestran cada clase de la distribución por separado. 2. El área de cada rectángulo, en relación con el resto, muestra la proporción del número total de observaciones que se encuentran en esa clase. Los polígonos, por su parte, también poseen ciertas ventajas. 1. El polígono de frecuencias es más sencillo que su histograma correspondiente. 2. Bosqueja con más claridad un perfil del patrón de los datos. 3. El polígono se vuelve cada vez más suave y parecido a una curva conforme aumentamos el número de clases y el número de observaciones. Términos introducidos en el capítulo 2 Datos continuos Datos que pueden pasar de una clase a la siguiente sin interrupción y que pueden expresarse mediante números enteros o fraccionarios. Datos discretos Datos que no pasan de una clase a la siguiente sin que haya una interrupción; esto es, en donde las clases representan categorías o cuentas distintas que pueden representarse mediante números enteros. Distribución de frecuencias acumuladas Presentación de datos en forma de tabla que muestra cuántos datos están por encima o por debajo de ciertos valores. Capítulo 3 Medidas de tendencia central y dispersión en distribuciones de frecuencias Tendencia central La tendencia central se refiere al punto medio de una distribución. Dispersión La dispersión se refiere a la separación de los datos en una distribución, es decir, al grado en que las observaciones se separan. Sesgo Las curvas que representan los datos puntuales de un conjunto de datos pueden ser simétricas o sesgadas. Las curvas simétricas tienen una forma tal que una línea vertical que pase por el punto más alto de la curva dividirá su área en dos partes iguales. Curvas sesgadas. Están sesgadas porque los valores de su distribución de frecuencias se concentran en el extremo inferior o en el superior de la escala de medición del eje horizontal. Estos valores no están igualmente distribuidos.

Valores o medidas de tendencia central o de posición: “Es la medida que describe cómo todos los valores de los datos se agrupan en torno a un valor central.” Una medida de tendencia central: la media aritmética Casi siempre, cuando nos referimos al “promedio” de algo, estamos hablando de la media aritmética. Para encontrar la media aritmética, sumamos los valores y dividimos el resultado entre el número de observaciones 4

Una muestra de una población consiste en n observaciones (con n minúscula) con una media de x (x barra). Recuerde que las medidas calculadas para una muestra se conocen como estadísticos. La media de una población se simboliza con u , que es la letra griega mu. Media aritmética de la población

Otra medida de tendencia central: la mediana La mediana es un solo valor del conjunto de datos que mide la observación central del conjunto. Esta sola observación es el elemento que está más al centro del conjunto de números. (Cálculo de la mediana a partir de datos no agrupados: Para hallar la mediana de un conjunto de datos, primero se organizan en orden descendente o ascendente. Si el conjunto de datos contiene un número impar de elementos, el de en medio en el arreglo es la mediana; si hay un número par de observaciones, la mediana es el promedio de los dos elementos de en medio. Cálculo de la mediana a partir de datos agrupados

Ventajas y desventajas de la mediana La mediana tiene varias ventajas respecto a la media. La más importante, es que los valores extremos no afectan a la mediana de manera tan grave como a la media. La mediana es fácil de entender y se puede calcular a partir de cualquier tipo de datos, La mediana tiene también algunas desventajas. Ciertos procedimientos estadísticos que utilizan la mediana son más complejos que aquellos que utilizan la media. También, debido a que la mediana es una posición promedio, debemos ordenar los datos antes de llevar a cabo cualquier cálculo. implica consumo de tiempo) Una medida final de tendencia central: la moda: La moda es el valor que más se repite en el conjunto de datos. Cálculo de la moda de datos agrupados Cuando los datos ya se encuentran agrupados en una distribución de frecuencias, podemos suponer que la moda está localizada en la clase que contiene el mayor número de elementos, Para determinar un solo valor para la moda a partir de esta clase modal, utilizamos la ecuación:

Rangos: medidas de dispersión útiles Rango El rango es la diferencia entre el más alto y el más pequeño de los valores observados. Es fácil entender y encontrar el rango, pero su utilidad como medida de dispersión es limitada. El rango sólo toma en cuenta los valores más alto y más bajo de una distribución y ninguna otra observación del conjunto de datos. Como resultado, ignora la naturaleza de la variación entre todas las demás observaciones, y tiene una gran influencia de los valores extremos. 5

En una distribución de frecuencias, una fracción o proporción dada de los datos cae en un fractil El rango interfractil es una medida de la dispersión entre dos fractiles de una distribución de frecuencias, es decir, la diferencia entre los valores de los dos fractiles. Los fractiles tienen nombres especiales, dependiendo del número de partes iguales en que dividen a los datos. Los fractiles que los dividen en 10 partes iguales se llaman deciles. Los cuartiles dividen los datos en cuatro partes iguales. Los percentiles dividen al conjunto de datos en 100 partes iguales. Los cuartiles son, entonces, los valores más altos de cada una de estas cuatro partes, Desvio medio: Lo podemos expresar como la media aritmética de los valores absolutos de los desvíos respecto a la media del agrupamiento de datos. Varianza de población Cada población tiene una varianza, su símbolo es (sigma cuadrada). Para calcular la varianza de una población, la suma de los cuadrados de las distancias entre la media y cada elemento de la población se divide entre el número total de observaciones en población.

Por esto debemos hacer un cambio significativo en la varianza para calcular una medida útil de la desviación que no nos dé problemas con las unidades de medida y, en consecuencia, sea menos confusa. Esta medida se conoce como la desviación estándar y es la raíz cuadrada de la varianza. La desviación estándar, entonces, queda en las mismas unidades que los datos originales. Desviación estándar de la población Es simplemente la raíz cuadrada de la varianza de la población. Como la varianza es el promedio de los cuadrados de las distancias de las observaciones a la media, la desviación estándar es la raíz cuadrada del promedio de los cuadrados de las distancias entre las observaciones y la media. Mientras que la varianza se expresa con el cuadrado de las unidades utilizadas para medir los datos, la desviación estándar está en las mismas unidades que las que se usaron para medir los datos. Para calcular la varianza o la desviación estándar, elaboramos una tabla utilizando todos los elementos de la población. Usos de la desviación estándar La desviación estándar nos permite determinar, con un buen grado de precisión, dónde están localizados los valores de una distribución de frecuencias con relación a la media. Una medida que se conoce como resultado estándar nos da el número de desviaciones estándar que una observación en particular ocupa por debajo o por encima de la media. Si x simboliza la observación, entonces el resultado estándar calculado a partir de los datos de la población es:

donde, • x observación tomada de la población

6

Para calcular la varianza y la desviación estándar de una muestra

Dispersión relativa: el coeficiente de variación Lo que necesitamos es una medida relativa que nos proporcione una estimación de la magnitud de la desviación respecto a la magnitud de la media. El coeficiente de variación es una de estas medidas relativas de dispersión. Relaciona la desviación estándar y la media, expresando la desviación estándar como porcentaje de la media. La unidad de medida, entonces, es “porcentaje”, en lugar de las unidades de los datos originales. Para una población, la fórmula para el coeficiente de variación es:

Términos introducidos en el capítulo 3 Teorema de Chebyshev No importa qué forma tenga la distribución, al menos 75% de los valores de la población caerán dentro de dos desviaciones estándar a partir de la media, y al menos 89% caerá dentro de tres desviaciones estándar. Un fractil es una fracción o proporción dada de los datos de una distribución de frecuencias. Estos fractiles toman denominaciones según el número de partes iguales en que se subdividen los datos, como por ejemplo, cuando se dividen en 10 partes iguales, cada una de ellas es un decil.Los cuartiles son aquellos que surgen de dividir los datos en cuatro partes iguales, es decir que cada una es un cuartil. De la misma manera, los percentiles son los que surgen de dividir al agrupamiento de datos en 100 partes iguales y cada una de ellas es un percentil. Regla empírica: La mediana y la media son iguales en conjuntos de datos simétricos, donde los valores tienden a agruparse alrededor de ella y así generan una distribución con forma de campana. En las distribuciones de este tipo, se puede utilizar la regla empírica.

7

Empíricamente el 68 % de la población se encuentra a una distancia de ±1 desvío estándar respecto de la media. Del mismo modo, el 95 % de la población se encuentra a una distancia de ±2 desvíos estándar respecto de la media. De la misma manera anterior, se comprobó que el 99,7 % de la población se encuentra a una distancia de ±3 desvíos estándar de la media de distribución

MODULO 2 Probabilidad I: Terminología básica en probabilidad la probabilidad es la posibilidad de que algo pase. Las probabilidades se expresan como fracciones (1 /6, 1 / 2, 8 /9) o como decimales (0.167, 0.500, 0.889) que están entre cero y uno. Los casos de los valores de los extremos son P(E) = 0 y P(E) = 1. En la teoría de la probabilidad, un evento es uno o más de los posibles resultados de hacer algo. En la teoría de probabilidad, la actividad que origina uno de dichos eventos se conoce como experimento. Utilizando un lenguaje formal, podríamos hacer la siguiente pregunta: en un experimento de lanzar una moneda Se dice que los eventos son mutuamente excluyentes si uno y sólo uno de ellos puede tener lugar a un tiempo. Considere de nuevo el ejemplo de la moneda. Tenemos dos resultados posibles, cara y cruz. En cualquier lanzamiento obtendremos una cara o una cruz, nunca ambas. En consecuencia, se dice que los eventos cara y cruz en un solo lanzamiento son mutuamente excluyentes. La pregunta fundamental que se debe formular al decidir si ciertos eventos son mutuamente excluyentes es: ¿pueden ocurrir dos o más de tales eventos al mismo tiempo? Si la respuesta es afirmativa, los eventos no son mutuamente excluyentes. Cuando una lista incluye todos los eventos que...


Similar Free PDFs