CAPITULO-I PDF

Title CAPITULO-I
Author Gina Campos
Pages 32
File Size 475.2 KB
File Type PDF
Total Downloads 307
Total Views 925

Summary

PROBABILIDAD Y ESTADÍSTICA MTRO. JORGE VELAZQUEZ C. 1.1 DISTRIBUCIONES DE FRECUENCIA. Generalmente la información se reúne y almacena electrónicamente, así como mediante registros o archivos tradicionales. Los formatos difieren de acuerdo con el observador o el proceso de observación, y reflejan las...


Description

PROBABILIDAD Y ESTADÍSTICA MTRO. JORGE VELAZQUEZ C.

1.1 DISTRIBUCIONES DE FRECUENCIA. Generalmente la información se reúne y almacena electrónicamente, así como mediante registros o archivos tradicionales. Los formatos difieren de acuerdo con el observador o el proceso de observación, y reflejan las preferencias individuales y la facilidad de uso. En estudios de gran escala, donde existe una identificación por unidad de análisis, con frecuencia loso datos provienen de diversos archivos, así que es necesario extraerlos y fusionarlos en un solo archivo de formato adecuado para el análisis estadístico. Se recomienda utilizar un formato o hoja de cálculo, ya que generalmente son compatibles con casi todos los sistemas de software analítico. Los datos estadísticos se obtienen generalmente por censos, muestreos o experimentación y forman un conjunto desorganizado de datos. Antes de que estos puedan usarse como una base de datos para realizar inferencias sobre el fenómeno bajo estudio, deben ser organizados, y extraer la información que es de utilidad. Una manera útil de resumir un conjunto de datos es la construcción de una tabla de frecuencias o distribución de frecuencias. 1.1.1 Concepto de variable. Definición 1. Variable. Variable es toda característica sujeta a medición o conteo. Si la variable puede adoptar sólo un valor, recibe el nombre de constante. Existen dos tipos de variables:  Variables discretas. Aquellas que solamente pueden tomar un número finito o numerable de valores. Por ejemplo, el lanzamiento de un dado tiene solamente 6 posibles resultados.  Variables continuas. Una variable continua es aquella que puede tomar cualesquiera de los valores especificados dentro de un intervalo. Por ejemplo, la longitud de un tornillo, el tiempo de "vida" de una bombilla eléctrica, etc. 1.2 Representación Tabular y Gráfica de las muestras. En el trabajo estadístico es importante diferenciar entre una población y una muestra. Una población es definida como la totalidad de valores posibles de una característica particular de un grupo especificado de objetos; mientras que una muestra es una partición de la población seleccionada conforme a un arreglo o plan. Así, una vez obtenida una muestra (generalmente aleatoria) de una población particular, se obtiene una secuencia de observaciones que son anotadas en el orden en que aparecen. Sea por ejemplo, la medición del valor de alguna característica cuantitativa de un cierto lote. Los datos obtenidos son presentados en la Tabla 1. Tabla 1. Muestra de 20 valores 99 100 102 101 98 103 100 102 99 101 100 100 99 101 100 102 99 101 98 100

PROBABILIDAD Y ESTADÍSTICA MTRO. JORGE VELAZQUEZ C.

Para ver la información contenida en los datos anteriores, es conveniente ordenar los datos. Una manera de hacerlo es por medio de una Tabla de Conteo (columnas 2 y 3), la cual es presentada en la Tabla 2.

El número de veces que aparece un valor “x” en una muestra se le denomina frecuencia de ese valor y dividiendo tal frecuencia entre el tamaño de la muestra, n, se obtiene la frecuencia relativa (Columna 4). Cuando se requiere analizar una variable, esto es datos univariados, las gráficas de puntos también se pueden utilizar como una representación gráfica, que ofrece una presentación simple y atractiva para dichos datos, ya que refleja la extensión, extremos, centros y espacios o separaciones. Para acomodar el rango de valores de los datos se gradúa una línea horizontal. Después se grafica cada observación como un punto directamente arriba de esa línea y, en donde hay múltiples observaciones que tienen el mismo valor, simplemente se apilan verticalmente los puntos en la posición correspondiente de la graduación. Se recomienda utilizar este tipo de gráficos cuando se cuenta con una cantidad relativamente pequeña de observaciones, esto significa algo así como menor a 30, o cuando hay relativamente pocos valores distintos representados en el conjunto de datos.

Si para cierto valor x sumamos todas las frecuencias correspondientes a los valores de la muestra que son menores o iguales a “x” se obtendrá la frecuencia acumulada correspondiente a “x” (Columna 5). Al observar la tabla anterior es fácilmente deducible lo siguiente: Teorema 1. La frecuencia relativa es al menos igual a 0 y a lo más igual a 1.

22

PROBABILIDAD Y ESTADÍSTICA MTRO. JORGE VELAZQUEZ C.

0.35 0.30 0.25 0.20 0.15 0.10 0.05 0.00 97

98

99

100

101

102

103

104

Figura 1 Si una muestra consta de demasiados valores numéricamente diferentes, sus funciones de frecuencias y sus gráficas correspondientes pueden llegar a ser muy complicadas o confusas. Para remediar esto, se acostumbra condensar los datos tabulando únicamente frecuencias asociadas a ciertos intervalos, llamados intervalos de clase, cuyos puntos medios son conocidos como marcas de clase. Se dice que los valores de la muestra en cada uno de los intervalos forman una clase y al número de ellos se le denomina frecuencia de clase; la división de la frecuencia de clase entre el tamaño de la muestra, “n” es la correspondiente frecuencia relativa de clase. En muchas aplicaciones será posible seguir las siguientes reglas:  Todos los intervalos de clase deberán tener la misma longitud.  Los intervalos de clase se escogerán de manera que las marcas de clase correspondan a números simples, o bien estas serán asignadas con el uso adecuado de los signos de igualdad y desigualdad. El número de intervalos que en la práctica ha dado buenos resultados no es menor de 5 ni mayor de 15 (existe una regla empírica que sugiere calcular la raíz del número de datos y con ello determinar el número de intervalos). El número de clases o intervalos de clase es totalmente arbitrario, sin embargo la experiencia indica que las cantidades antes citadas generan información confiable.

23

PROBABILIDAD Y ESTADÍSTICA MTRO. JORGE VELAZQUEZ C.

Ejemplo 1. Considérese la siguiente muestra, que representa el porcentaje de sílice de 140 coladas sucesivas de hierro para lingote. Tabla 3 Datos del ejemplo 1

1.13 1.00 0.96 0.67 0.77 0.65 0.83 0.92 0.80 0.94 0.96 0.76 0.34 0.60

0.79 0.73 0.85 0.62 0.60 0.66 0.84 1.00 0.99 0.96 0.60 0.30 0.87 0.89

0.70 0.91 1.20 1.00 0.97 1.00 1.08 0.85 0.71 0.72 0.74 0.96 0.94 0.85

1.32 0.74 0.77 0.67 1.00 0.92 0.94 0.89 0.98 0.87 0.97 0.94 0.60 0.72

0.72 0.65 0.88 1.00 1.09 0.60 0.72 0.88 1.17 1.00 0.75 0.73 0.91 1.11

1.45 1.45 0.87 0.64 0.60 1.00 0.81 1.14 0.68 0.74 0.70 0.67 0.77 0.82

1.00 1.17 0.85 0.36 0.68 0.89 0.93 1.13 1.00 0.80 1.00 0.86 1.18 0.60

0.73 0.93 0.84 1.07 0.76 0.60 0.82 1.00 0.91 0.60 0.68 0.75 0.47 0.73

0.97 0.61 1.02 1.45 0.93 0.57 0.60 0.61 0.69 1.16 1.25 0.66 0.56 1.18

0.73 0.62 0.78 0.68 0.61 1.00 1.11 1.00 1.00 0.70 0.85 1.00 1.50 1.12

Es necesario encontrar el valor más grande y el más pequeño de la tabla para encontrar el rango: 1.5 – 0.3 = 1.2 Si se desea por ejemplo construir 10 intervalos de clase (con la regla de la raíz serían 11 intervalos), en este caso el ancho de cada intervalo sería: (1.2 / 10) = 0.12 Se inicia con el valor más pequeño y se le añade el ancho del intervalo consecutivamente, para obtener la siguiente tabla 4 Clase

Frecuencia

0.3-0.42 0.42-0.54 0.54-0.66 0.66-0.78 0.78-0.9 0.90-1.02 1.02-1.14 1.14-1.26 1.26-1.38 1.38-1.50

3 1 22 32 23 38 9 7 1 4

Tabla 4

Con esta información es posible calcular las frecuencias relativas o porcentuales, las frecuencias acumuladas, las frecuencias relativas acumuladas, y con ellas los gráficos: Histograma, polígono de frecuencias, Gráficos de pastel (de Pay o Circular) que a continuación se desarrollan.

24

PROBABILIDAD Y ESTADÍSTICA MTRO. JORGE VELAZQUEZ C.

Clase

Frecuencia

0.3-0.42 0.42-0.54 0.54-0.66 0.66-0.78 0.78-0.9 0.90-1.02 1.02-1.14 1.14-1.26 1.26-1.38 1.38-1.50 suma

3 1 22 32 23 38 9 7 1 4 140

Frecuencia Relativa 2.14% 0.71% 15.71% 22.86% 16.43% 27.14% 6.43% 5.00% 0.71% 2.86% 100.00%

Frecuencia Acumulada 3 4 26 58 81 119 128 135 136 140

Frec. Relativa Acumulada 2.14% 2.86% 18.57% 41.43% 57.86% 85.00% 91.43% 96.43% 97.14% 100.00%

Tabla 5

Frecuencia

Para calcular la frecuencia relativa solamente se requiere dividir cada una de las frecuencias entre 3 el total, y convertirlo a porcentaje, por ejemplo en el primer renglón es: x 100%  2.14% 140 Es frecuente y muy útil representar la distribución con una gráfica o histograma de frecuencias, que es una representación gráfica de la distribución de frecuencias. Nótese que el histograma está formado por rectángulos cuyas bases son los intervalos de clase, y cuyas alturas son las frecuencias correspondientes a cada intervalo, como se muestra:

40 35 30 25 20 15 10 5 0

Histograma Figura 2

Contenido de Sílice

En algunas ocasiones cuando la cantidad de datos es muy grande, se puede utilizar para el eje vertical (“y”) las frecuencias relativas, y con ello evitar un eje muy grande o impreciso, también es posible encontrar que utilizan los dos ejes, formando una “U”, y en uno de ellos se incluye la frecuencia absoluta, mientras que en el otro los porcentajes correspondientes a la frecuencia relativa. Para elaborar el polígono de frecuencias se requiere calcular los puntos medios de cada intervalo de clase, que usualmente recibe el nombre de marca de clase. Como el polígono es una figura

25

PROBABILIDAD Y ESTADÍSTICA MTRO. JORGE VELAZQUEZ C.

geométrica cerrada, se necesita añadir un intervalo anterior al primero, y uno posterior al último, que obviamente tendrán como frecuencia un valor de “0”. Para ilustrar esta situación se presenta la tabla utilizada para realizar el gráfico: Clase marca de Frecuencia clase 0.18-0.30 0.3-0.42 0.42-0.54 0.54-0.66 0.66-0.78 0.78-0.9 0.90-1.02 1.02-1.14 1.14-1.26 1.26-1.38 1.38-1.50 1.50-1.62

0.24 0.36 0.48 0.6 0.72 0.84 0.96 1.08 1.2 1.32 1.44 1.56

0 3 1 22 32 23 38 9 7 1 4 0

Tabla 6

Solamente se utilizan la segunda y tercer columna, y se obtiene:

Frecuencia

Contenido de Sílice 40 35 30 25 20 15 10 5 0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1.1 1.2 1.3 1.4 1.5 1.6 1.7

Polígono de Frecuencias

Figura 3

Al igual que en el histograma es posible utilizar las frecuencias relativas o porcentuales, o las frecuencias absolutas, o ambas. El polígono de frecuencias, también se puede obtener uniendo los puntos medios de cada una de las barras, este gráfico puede ser elaborado separadamente, o en conjunto con el Histograma. Con los mismos datos del histograma es posible elaborar un diagrama circular, que también recibe el nombre de diagrama de Pay o de Pastel.

26

PROBABILIDAD Y ESTADÍSTICA MTRO. JORGE VELAZQUEZ C.

Diagrama de Pastel 0.3-0.42

143 9

1

0.42-0.54 0.54-0.66

7

22

0.66-0.78 0.78-0.9

38

0.90-1.02

32

1.02-1.14

23

1.14-1.26 1.26-1.38 1.38-1.50

Figura 4

Para la construcción de este gráfico en forma manual solamente se requiere realizar el cálculo de las áreas correspondientes a los ángulos formados como se muestra. El círculo completo tiene 360 grados, y corresponde a la frecuencia total que es de 140 unidades, por lo que utilizando simples reglas de tres se calcula la proporción correspondiente para cada uno de los intervalos de clase, por ejemplo la clase formada desde 0.66 a 0.78 tiene una frecuencia de 32, por lo que: 360   140 (32)(360) de aquí que X    82.28  140 X  32 No es importante el lugar donde se inicia el dibujo, esto es a partir de que eje se midan los grados, solamente se debe cuidar mantener un orden e ir acumulando las mediciones de cada uno de los intervalos, para obtener un círculo de 360 grados. Con el uso de los datos de frecuencias acumuladas también es posible construir gráfico de frecuencias acumuladas absolutas o relativas, utilizando líneas o barras: Clase

Frec. Acum.

Frec. Relativa Acumulada

0.3-0.42 0.42-0.54 0.54-0.66 0.66-0.78 0.78-0.9 0.90-1.02 1.02-1.14 1.14-1.26 1.26-1.38 1.38-1.50

3 4 26 58 81 119 128 135 136 140

2.14% 2.86% 18.57% 41.43% 57.86% 85.00% 91.43% 96.43% 97.14% 100.00%

Tabla 7

27

PROBABILIDAD Y ESTADÍSTICA MTRO. JORGE VELAZQUEZ C.

Para con estos datos obtener:

160 140 120 100 80 60 40 20 0

120.00% 100.00% 80.00% 60.00% 40.00% 20.00% 0.00% 0.3- 0.42- 0.54- 0.66- 0.78- 0.90- 1.02- 1.14- 1.26- 1.380.42 0.54 0.66 0.78 0.9 1.02 1.14 1.26 1.38 1.50

Contenido de Silice

Figura 5

Frecuencia Relativa Acumulada

Frecuencia Acumulada

Histograma y Poligono de Frecuencias Acumuladas

Existen muchos más gráficos, aquí se presentan los más convencionales. Las funciones de Microsoft Excel para los temas anteriormente tratados se manejan de la siguiente manera:  Los datos de la tabla 3 insértelos completos en una columna  Habilite en herramientas – opciones – complementos, la función análisis de datos (es posible que le solicite insertar el disco de Office 2000 profesional)  En el menú herramientas elija análisis de datos y de la ventana que aparece, escoja Estadística descriptiva:

Figura 6

Después de aceptar aparecerá la siguiente ventana:

28

PROBABILIDAD Y ESTADÍSTICA MTRO. JORGE VELAZQUEZ C.

Figura 7

Se selecciona en Rango de entrada todos los datos, si se utiliza algún rótulo en la primer celda se habilita “Rótulos en la primer fila”, se elige alguna celda vacía para el rango de salida, se habilita el “Resumen de estadísticas”, y se oprime con el mouse el botón aceptar, con lo que se obtiene una tabla como la que se muestra:

Tabla 8

Ya con la información previa como son el Rango, la Media y la Desviación estándar se pueden diseñar la cantidad de intervalos, así como su anchura. En este caso puesto que el Rango es de 1.2, y se decide por 10 intervalos, la anchura de cada uno de ellos será de (1.2 / 10) = 0.12, y como el valor mínimo que muestra la tabla es de 0.3, el primer intervalo será de 0.3 a 0.3 + 0.12 = 0.42. Para diseñar la distribución de frecuencias en Excel, en una columna de su elección se deben poner solamente los límites superiores de cada intervalo, que para este caso serían 0.42, 0.54, 0.66,..., 1.50. Después en la barra de herramientas – análisis de datos - se elige ahora histograma, y se procede como a continuación se muestra:

29

PROBABILIDAD Y ESTADÍSTICA MTRO. JORGE VELAZQUEZ C.

Figura 8

Figura 9

En el rango de entrada se selecciona con el mouse los datos que aparecen en la primer columna. Si escribió algún rotulo en la primer columna y lo seleccionó con el mouse, se requiere habilitar “Rótulos”. Para el rango de clases se deben elegir los límites previamente diseñados en la segunda columna, posteriormente si se quiere tener los resultados en la misma hoja, se requiere seleccionar alguna celda que esté libre habilitando al mismo tiempo Rango de salida. Se elige la opción Porcentaje acumulado, y los resultados son como se muestran:

Tabla 9

Con los resultados de las columnas C y D se puede modificar manualmente para crear los gráficos que fueron mostrados anteriormente. Esto es si modifica como se muestra a continuación:

30

PROBABILIDAD Y ESTADÍSTICA MTRO. JORGE VELAZQUEZ C.

Tabla 10

Si se seleccionan los datos contenidos en las columnas C y D con el mouse, sin incluir los títulos, se puede insertar una primera gráfica como se muestra a continuación:

Figura 10

Siguiendo los pasos con el icono siguiente, se llega al gráfico que se muestra, se requiere de darle algunos toques de presentación, para ello cuando ha terminado el gráfico como el mostrado anteriormente, posicione el mouse sobre alguna barra y de doble clic, aparecerá una ventana como se muestra a continuación (elija Orden de las series):

31

PROBABILIDAD Y ESTADÍSTICA MTRO. JORGE VELAZQUEZ C.

Figura 11

Con los retoques logrados, se presenta el Histograma:

Frecuencia

HISTOGRAMA 40 35 30 25 20 15 10 5 0

Figura 11

Contenido de Sìlice

Figura 12

32

PROBABILIDAD Y ESTADÍSTICA MTRO. JORGE VELAZQUEZ C.

Con procedimientos semejantes se pueden insertar los demás gráficos mostrados en la figuras 1, 3, 4 y 5.

1.4 MEDIDAS DE TENDENCIA CENTRAL (Medidas descriptivas de la muestra o llamadas también medidas de localización). A partir de una serie de números se tiene la necesidad de estudiarlos y lo primero que normalmente se hace es ordenarlos. Cuando los datos están ordenados normalmente se desea obtener un número que represente a ese conjunto. Las medidas de tendencia central son: MEDIA, MEDIANA Y MODA y estas se constituyen en herramientas importantes.

A partir de una serie de números: (x-media)2

Media o Promedio Aritmético = suma de los datos / número de datos

Número 6 4

ordenados 2 3

13.30103806 7.006920415

5

4

2.712802768

7

4

2.712802768

8

4

2.712802768

4 2 3

4 5 5

2.712802768 0.418685121 0.418685121

Mediana = x = valor de en medio o media de los valores de en medio

4 6

6 6

0.124567474 0.124567474

Mediana = 6

8 7 6

6 7 7

0.124567474 1.830449827 1.830449827

5 4 8 9 Sumas

8 8 8 9

5.53633218 5.53633218 5.53633218 11.24221453

96

63.88235294

Suma de datos = 96 No. de datos = 17 Media = x = 5.647058824

~

Moda = veces ocurre



= elemento que más

Moda = 4 Tabla otro 11 Los hace falta

33

PROBABILIDAD Y ESTADÍSTICA MTRO. JORGE VELAZQUEZ C.

Los números en sí ya empiezan a dar información, pero hace falta otro elemento que indique que tan dispersos están esos números alrededor de la media. Esto es si se calcula la media de algunos pares de número por ejemplo 8 y 4 dan como media 6. El par 9 y 3 así como el 6,6 darán la misma media que en todos los casos es 6. Por el motivo antes señalado aparece una medida de uso muy importante que se conoce como desviación estándar o típica. La cual para datos sueltos (de una población) se calcula como sigue: 2 S = (1 ( xi  x) / n = (63.8823 / 17) = 1.9385 n

En el ejemplo de la tabla si se substituyen los valores la desviación es = 1.93850083 Media geométrica (G). Es la raíz en enésima del producto de los valores de los elementos de la muestra, es usada cuando los valores de los datos de la muestra no son lineales, es decir que su valor depende de varios factores a la vez, se determina de la siguiente forma:

G  n x1 * x2 * ...* xn Donde: G = media geométrica xi = dato i n = número de datos en la muestra

Ejemplos: 1. Las siguientes temperaturas han sido tomadas de un proceso químico, 13.4 oC, 12.8, 11.9, 13.6, determine la temperatura promedio de este proceso. Solución: 4 4 G = 13.4 x12.8x11.9 x13.6  27758.7968 = 12.9077 oC

2. Las siguientes temperaturas han sido tomadas de un proceso para fabricar queso chihuahua, 21.4oC, 23.1, 20.2, 19.7, 2...


Similar Free PDFs