Resumen Probabilidad y Estadistica PDF

Title	Resumen Probabilidad y Estadistica
Course	Probabilidad Y Estadistica
Institution	Universidad Nacional de San Luis
Pages	46
File Size	1.3 MB
File Type	PDF
Total Downloads	240
Total Views	277

Preview

CLICK TO PREVIEW PDF

Summary

Unidad 1 Significado: es una disciplina compuesta por un cuerpo de y que, a de datos y permite acceder a clave para la toma de decisiones. Es el cuerpo de y que estudia las leyes que rigen la de aleatorios. Objeto: el contenido de la moderna incluye la y de para ayudar tanto en el de datos como en e...

Description

Unidad 1

Estadística. Significado: es una disciplina técnica compuesta por un cuerpo de teoría y metodología que, a través de datos y métodos estadísticos, permite acceder a información clave para la toma de decisiones. Es el cuerpo de teoría y metodología que estudia las leyes que rigen la manifestación de fenómenos aleatorios. Objeto: el contenido de la estadística moderna incluye la recolección, presentación y caracterización de información para ayudar tanto en el análisis de datos como en el proceso de la toma de decisiones. Estudia determinadas magnitudes que varían de un modo aleatorio en el ceno de la población. Definiciones:  Estadística descriptiva: puede definirse como aquellos métodos que incluyen la presentación y caracterisacion de un conjunto de datos con el fin de describir apropiadamente las distintas características de ese conjunto y presentarlas mediante gráficos y medidas numéricas de resumen través de la cuantificación y ordenamiento de dichos datos. Intenta explicar los fenómenos observados. Es la encargada, en resumen, de la recolección, organización, sistematización, presentación, análisis e interpretación de datos numéricos o de inf. Cuantitativa.  Estadística inferencial: puede definirse como aquellos métodos que hacen posible la estimación de una característica de una población o la toma de una decisión referente a una población, basándose en los rtdos de una muestra. Trabaja solo con una porción de la población para determinar el comportamiento de toda la población.  Población: es la totalidad de elementos o cosas que se toman en consideración  Muestra: es la porción de la población que se selecciona para su análisis  Parámetro: es una medida que describe una característica de toda la población  Estadístico: es una medida de resumen que se calcula para describir una característica a partir de una sola muestra de población  Datos: Los datos son hechos, información y cifras que se recogen, analizan y resumen para su presentación e interpretación. El conjunto de datos es el conjunto de datos reunidos para un determinado estudio.

Variables: Son atributos o características de de personas, clases o fenómenos mensurables, cuantitativos o cualitativos, y tienen la propiedad de asumir valores alternativos, mutuamente excluyentes y se expresan en categorías. La capacidad que tienen las variables de relacionarse entre si es fundamento de investigaciones explicativas, basadas en la búsqueda de distintas relaciones reciprocas de orden casual. Las relaciones entre variables pueden analizarse esquemáticamente como simétricas, reciprocas o asimétricas (de dependencia) 1. Relaciones simétricas: implican simultaneidad casual, ausencia de nexos. Son aquellos casos en que dos o más variables son indicadores coincidentes y simultáneos de una causa común Ej. (dolor y emaciación en el cáncer) 2. Relaciones reciprocas: expresan una relación bidireccional en la que no es posible decidir cuál es la supuesta causa y cual el supuesto efecto (bajo nivel de instrucción, incapacidad para aumentar ingresos) 3. Relaciones asimétricas: se establecen entre una variable denominada independiente y otra dependiente cuya ocurrencia es determinada (rubeola en el embarazo, provoca malformaciones al recién nacido)

Las variables, se pueden clasificar en uno de las escalas siguientes: Nominal: Sus valores sólo se pueden clasificar en clases (o categorías), no se pueden ordenar de pequeño a grande o de menos a más. Ejemplos: sexo, estado civil, profesión, ocupación. Ordinal: Sus valores se pueden clasificar en categorías y se pueden ordenar en jerarquías con respecto a la característica que se evalúa. Ejemplos: nivel socioeconómico, clase social, lugar en la clase. De intervalo: Sus valores tienen un orden natural, es posible cuantificar la diferencia entre dos valores de intervalo. Generalmente tienen unidad de medida. Una variable de intervalo es discreta cuando sólo puede tomar un valor entero (por ejemplo: número de hijos, veces que se consultó al establecimiento de salud); o bien es continua si puede tomar cualquier valor en un intervalo (por ejemplo.: peso, talla, índice de masa corporal, etc). De razón: El cero representa la ausencia de la característica que se evalúa. Ejemplos: costo por atención, adecuación peso(edad) Clasificación: 1) Según su naturaleza:  Cualitativas o categóricas: sus elementos de variación no son numéricos sino cualidades que se agrupan en categorías. Aquellas con dos categorías se denominan dicotómicas, aquellas con mas de dos categoras se denominan politomicas.  Cuantitativas: tienen carácter numérico y se expresan en forma de valores de diferente grado o magnitud, distribuidos a lo largo de una escala. Pueden manifestarse en dos formas:  Continuas: pueden tomar cualquier valor dentro de un rango y la unidad de medición puede subdividirse en forma infinita  Discreta (discontinua): se hallan restringidas a determinados valores enteros, finitos que aumentan o disminuyen por saltos 2) Según su nivel de abstracción:  Teóricas: alto grado de abstracción, se refieren a realidades no medibles directamente de forma empírica  Intermedias: expresan aspectos parciales y más concretos aunque tampoco medibles directamente  Empíricas: representan los aspectos de una variable teórica que se miden directamente en la realidad 3) Según su posición en una hipótesis o en la relación que las une:  Independientes: explican condicionan o determinan la presencia de otras  Dependientes: variables cuya variación en una relación es explicada o se da en función de la variable independiente  Intervinientes: están vinculadas funcionalmente a las variables independientes y dependientes produciendo efectos indirectos en la relación entre ellas La estadifica y la investigación: Cualquier trabajo de investigación requiere la obtención de una determinada masa de información cuyo tipo y volumen deben ser controlados y justificados. A. 1. 2. 3. 4. 5. 6.

Etapa de planeamiento: Selección de un tema Formulación de un problema Fijar objetivos (general, temporal) Delimitación temporal y espacial Diseño de la investigación (explicativo, descriptivo, experimental) Definir la población o muestra

B.

Etapa de ejecución:

1. Recolección de la información: recopiladores (fuente primaria) compiladores (fuente secundaria). Los datos pueden ser internos o extremos según si son obtenidos de fuentes de la organización o externas a ella.  Se pueden obtener datos ya publicados por fuentes gubernamentales, industriales o individuales.  Se pueden diseñar experimentos para obtener datos necesarios.  Se puede realizar una encuesta  Se puede realizar un estudio observacional. Existen cuatro razones para recolectar datos: proporcionan la entrada necesaria a un estudio de investigación, para medir el desempeño, para ampliar la toma de decisiones, para la saisfaccion de la curiosidad. 2. Sistematización: Un aspecto inicial del tratamiento es la codificación de los datos consiste en representar cada respuesta en un cuestionario por medio de signo o indicaciones. El segundo aspecto es la tabulación de los datos consiste en disponerlos en el espacio y efectuar su conteo.  Arreglo ordenado de datos numéricos: si se ordenan los datos de mayor a menor, la secuencia ordenada se llama arreglo ordenado. Mientras más grande es el número de observaciones presentes más útil será organizarlas en un diagrama de tallo y hoja a fin de estudiar sus características en lugar de un arreglo ordenado.  Diagrama de tallo y hoja: herramienta valiosa y versátil para organizar un conjunto de datos y entender la distribución y agrupación de los valores dentro de un intervalo de observaciones en el conjunto. Separa los datos en digitos guía, o tallos, y digitos que le siguen u hojas. Los pasos para la etapa de sistematización son: a. Corrección: los datos recopilados deben ser corregidos y ajustados. b. Clasificación: es decidir las clasificaciones addecuadas en las cuales los datos serán agrupados. c. Tabulación: numerarlos y registrarlos de acuerdo con las clasificaciones. 3.

Presentación: la información recolectada puede presentarse mediante enunciados, mediante tablas estadísticas y mediante gráficos estadísticos.

1.

Tabla:

Partes de una tabla: o Titulo: descripción del contenido de la tabla. Deberá ser claro y completo incluyendo la unidad de observación, la variable y las delimiaciones espaciales y temporales. o Encabezado: titulo de la parte superior de una columna. o Concepto o columna matriz: descripciones en filas de la tabla, se colocan a la izquierda de la tabla y consisten en las categorías o intervalos de la variable. o Cuerpo: contenido de los datos estadísticos. o Nota de encabezado: escritas sobre el encabezado y debajo del título, explican aspectos no incluidos en el titulo ni en la tabla. (ej.: datos expresados en miles de pesos) o Nota de pie: colocadas debajo de los conceptos o Fuentes: usualmente escrita debajo de las notas de pie. Es la declaración del origen de los datos. Tabulación para datos numéricos: a medida que el numero de observaciones crece es necesario condensar los datos en tablas apropiadas, entonces los datos pueden agruparse en intervalos de clase de acuerdo con divisiones establecidas. Tal arreglo de datos en forma tabular se llama distribución de frecuencias. En general esta distribución debe tener entre 5 y 15 clases cuyo ancho se determina i=R/n° inervalos de clase deseado, siendo R=max-min+1.

El punto medio de cada intervalo de clase se llama marca de clase y es representativo del intervalo. La tablas para datos numéricos cuentan con los siguientes elementos: o o o o o o

Sistema de clasificación: expresa las categorías de las variables. Frecuencias absolutas (f): cantidad de individuos que responden a cada categoría. La suma de tosas las frecuencias absolutas es N. Frecuencias relativas (f’): es la razón de la frecuencia absoluta de cada categoría sobre el numero total de observaciones. Su suma es igual a 1 Frecuencias porcentuales (f%): se expresa la frecuencia relativa en forma de porcentaje. Frecuencias acumuladas ascendentes y descendentes: se parte de la primer o ultima frecuencia absoluta y va sumando o restando de acuerdo a los valores de f respectivamente. Marca de clase: si se trata de una tabla de distribución de frecuencia.

Las tablas para datos categóricos solo cuentan con columnas para el sistema de clasificación y para las frecuencias absoluta, relativa y porcentual. 2. Gráficos Partes de un grafico: a. Titulo: descripción del contenido del grafico. b. Diagramas: representación de los datos mostrados en forma de grafica. c. Escalas: de los ejes X e Y d. Fuente: origen de los datos. Para datos numéricos o Histograma: grafica de barras verticales que se construyen en los límites de cada clase o Polígono: el punto medio de cada clase representa los datos de esa clase. Estos puntos se conectan formando una secuencia o Polígono acumulado (Ojiva): representación de una tabla de distribución acumulada o Grafico de líneas o bastones: se pueden calcular las frecuencias relativas, porcentuales y acumuladas. Para datos categóricos o Diagrama de barras: cada categoría se representa con una barra cuya longitud es la frecuencia o el porcentaje de observaciones dentro de la categoría. o Diagrama de pastel: se utiliza para describir los datos categóricos de una tabla resumen o Diagrama de Pareto: Diagrama de barras verticales, donde los respuestas categorizadas se grafican en orden descendente de frecuencias y se combinan con un polígono acumulado en la misma escala.

4. Análisis: su propósito abarca a. b. c. d.

Resumir en diversas medidas las observaciones de una variable. Comparar las observaciones de dos o mas variables. Establecer relaciones y diferencias halladas entre dichas variables. Establecer generalización de los resultados obtenidos con una muestra hacia la población.

5. Interpretación: se interpretan los resultados discutiendo y resumiendo en en conclusiones y/o recomendaciones las evidencias mas significativas del proceso de investigación. Después de que el análisis estadístico esta completo los resultados del análisis deben ser interpretados. Una correcta interpretación guiara a una conclusión valida del estudio y ayudar en la toma de decisiones. 6. Informe final.

Unidad 2

Medidas de tendencia central: (completar formulas) La mayor parte de las series de datos muestran una clara tendencia a agruparse alrededor de un punto “central”. Así pues, dada cualquier serie de datos particular por lo general es posible seleccionar algún valor o promedio típico para describir toda la serie de datos. Ese valor descriptivo típico es una medición de tendencia central. Estas son: 1. Media aritmética: es la suma de los valores dividida entre la cantidad de observaciones. Es una de las más comunes, también se la conoce como promedio aritmético. Se expresa como µ (la media de la población) y como ẋ ( la media de la muestra). Cuando hay valores extremos, cuando los intervalos son abiertos, esta medida no es representativa del conjunto de datos. o Principales características:  El cálculo se basa en todos los valores de un conjunto de datos. El valor de cada elemento afecta al de la media  Si existen valores extremos la media puede ser menos representativa o Propiedades matemáticas importantes  La suma algebraica de las desviaciones individuales con respecto a la media es igual a 0  La suma del cuadrado de las desviaciones con respecto a la media es mínima.  La media de una constante por una variable es igual a la constante por la media de la variable.  La media de una constante mas una variable es igual a la constante más la media de la variable. o Para determinarla

En datos agrupados

En datos no agrupados 2. Moda: Es el valor que aparece con mayor frecuencia. Puede considerarse como el valor más típico. Puede haber más de una moda, cuando hay dos la distribución de valores se conoce como bimodal o mas, polimodal. Es la única medida de centralización utilizada para el estudio de las variables cualitativas pues no precisa la realización de ningún cálculo. o Principales características:  Es el valor con más alta frecuencia en el conjunto de valores. No se calcula incluyendo todos los valores y no está definida algebraicamente como lo está la media  No está afectada por los valores extremos  La moda en un conjunto de datos discretos es fácil de calcular pero con datos continuos nunca puede existir.  No puede ser calculada exactamente  El valor de la moda puede ser afectado enormemente por el método de designación de intervalos de clase 3. Mediana: es el valor medio de una secuencia ordenada de datos. Deja el 50% de los valores por debajo de él y el otro 50% por encima. No se ve afectada por ningún valor extremo de una serie de datos. o Método para determinarla  Datos no agrupados: ordenar (arreglo ordenado) y localizar el valor central. Si el núm. de datos es par, la mediana no es verdadera, por lo que es la mitad de los dados elementos centrales.

 Datos agrupados: cuando los valores están agrupados en una distribución de frecuencia cada uno de los valores pierde su identidad en la tabla. Primero se debe poner una columna en la tabla para registrar las frecuencias acumuladas luego se encuentra ahí la clase mediana. Esta es la que contiene la mediana. o Principales características:  Es un promedio de posición, no es afectada por los valores extremos sino por cantidad de observaciones.  Deja el 50% de los valores por debajo de él y el otro 50% por encima.  No está definida algebraicamente  En algunos casos no puede ser calculada exactamente, como si puede serlo la media  Propiedad: la sumatoria de las diferencias entre c/observación y la mdn es mínima. Comparación entre la media, la mediana y la moda (medidas alternas para describir la tendencia central)  La media concede igual importancia, incluso a los valores muy extremos, mientras que la mediana tiende a concentrarse en los valores que están a la mitad de la matriz de datos.  Solo habrá un valor tanto para la media como para la mediana. Sin embargo los datos pueden tener más de una moda  La moda tiende a ser menos útil que la media y la mediana Forma de distribución y las medidas de tendencia central: Los valores relativos de la media, la mediana y la moda, dependen mucho de la forma de distribución de los datos que ellas describen. Las distribuciones pueden ser en términos de simetría o asimetría El sesgo es la tendencia de la distribución a acumularse a la derecha o a la izquierda.   moda  moda.

Distribución simétrica: media, mediana y moda iguales Distribución positivamente sesgada: la media es mayor que la mediana, que a su vez es mayor que la Distribución negativamente sesgada: la media es menor que la mediana que a su vez es menor que la

Medidas de posición: Son indicadores que posicionan un valor de la variable respecto del resto de su grupo. Los fractiles dividen a la distribución de datos en partes iguales. Son utilizados para calcular la redistribución del ingreso. 4. 5. o o 

Los deciles: dividen a los datos ordenados en 10 partes iguales. Los cuartiles: Dividen los datos ordenados en 4 partes iguales. Rango intercuartilico: diferencia entre el Q3 y el Q1 Desviación cuartilica: es la mitad del rango intercuartil. (Q3-Q1)/2 Los centiles: dividen a los daos ordenados en 100 partes iguales.

Medidas de dispersión: Nos muestran la variabilidad que existe en una distribución de frecuencias. Nos dan una idea sobre la representatividad de las medidas de centralización. A mayor dispersión, menos representatividad. La variación es la cantidad de dispersión o propagación en los datos. Complementan a las medidas de posición.

 Rango: es la diferencia entre las observaciones mayor y menor de un conjunto de datos +1. Cuando se desconocen Max y min, se debe tomar la marca de clase del primer intervalo y la del último intervalo.  Amplitud intercuartil: es la diferencia entre dos cuartiles (Q3-Q1)en una serie de datos. Cuando la amplitud es pequeña tendremos un comportamiento homogéneo de los valores, de lo contrario será heterogéneo. Me dice cuantos valores de la variable se encuentran concentrados en el 50% central de los casos.  Desviación cuartil: se divide en dos a la amplitud intercuartil.  Varianza y Desviacion estándar: complementan a la media. 1. Varianza: establece la forma en que los valores fluctúan respecto a la media. Es igual a la sumatoria de los desvíos de los valores de la variable respecto a la media, elevadas al cuadrado sobre N. 2. Desviacion estándar: es la raíz cuadrada de la varianza. Ni esta ni la varianza pueden ser negativas (por estar elevadas al cuadrado). Solo pueden ser 0 cuando la diferencia entre la media y las observaciones no exista.  Coeficiente de variación: es una medida relativa de dispersión. Se expresa en porcentaje. Mide la dispersión en los datos relativos de la media. Es útil cuando se compara la variabilidad entre conjuntos de datos expresados en distintas unidades de medición. CV=Des./Media * 100  Desviacion media: Es la media aritmética de las desviaciones de los valores individuales con respecto al promedio de los datos dados Está basada en todos los elementos no como el recorrido y la desviación intercuartilica. Esta al igual que la desviación estándar está diseñada para medir la dispersión alrededor de un promedio.

Asimetría y Curtosis Asimetria: esta propiedad de una serie de datos nos muestra la manera en que los mismos se distribuyen, para lo cual basta comparar la media, mediana y moda. El Coeficiente de asimetría (fisher), se representa mediante la ecuación matemática,

Donde (g1) representa el coeficiente de asimetría de Fisher, (Xi) cada uno de los valores, ( ) la media de la muestra y (ni) la frecuencia de cada valor. Los resultados de esta ecuación se interpretan:  (g1 = 0): Se acepta que la distribución es Simétrica, es decir, existe aproximadamente la misma cantidad de valores a los dos lados de la media. Este valor es difícil de conseguir por lo que se tiende a tomar los valores que son cercanos ...