Teoria DE Estadistica PDF

Title	Teoria DE Estadistica
Author	Fidel Herrera Barreto
Course	Análisis matemático
Institution	Universidad de Salamanca
Pages	60
File Size	2.2 MB
File Type	PDF
Total Downloads	14
Total Views	156

Preview

CLICK TO PREVIEW PDF

Summary

Download Teoria DE Estadistica PDF

Description

Matemática Aplicada II. Grado I. Civil. Notas sobre Estadística

Curso 2017/201 /2018 8

Contenido 1.- Análi Análisis sis descri scriptivo ptivo de dato datoss 1.- Introducción.

3

1.1. Fases a seguir en un estudio estadístico.

3

1.2. Estadística descriptiva e inferencia estadística.

4

1.3. Concepto de variable estadística.

5

1.3.1. Clases (o categorías) para una variable estadística.

5

1.3.2. Consideraciones previas al estudio de una variable estadística agrupada en clases.

6

1.4. Distribución de frecuencias absolutas de una variable estadística.

6

1.4.1. Representaciones gráficas de datos.

7

1.4.2. Descripción de una variable estadística.

7

1.4.2.1.Parámetros de centralización.

7

1.4.2.2.Parámetros de Posición.

9

1.4.2.3. Parámetros de dispersión.

10

1.4.2.4. Parámetros de forma.

11

2.- Análisis de distrib istribucione ucione ucioness bidim idimension ension ensionales ales ales.. Introducción.

12

2.1. El problema del ajuste.

13

2.2. Regresión lineal.

15

2.3. Correlación lineal.

16

3.- Cálcul Cálculo o de proba babili bili bilidades dades. 3.1. Conceptos.

19

3.2. Frecuencia relativa de sucesos aleatorios..

21

3.3. Sucesos condicionados. Probabilidad condicionada.

22

4.- Análisis de una v var ar ariable iable aleato aleatoria. ria. 4.1. Estudio de una variable aleatoria discreta.

23

1

Matemática Aplicada II. Grado Ingeniería Ténica. Notas sobre Estadística

Curso 2017/201 /2018 8

4.2. Estudio de una variable aleatoria contínua.

24

5.- Dis Distribuc tribuc tribuciones iones más notables. 5.1. Distribuciones de variable aleatoria discreta.

27

5.1.1.Distribución binomial.

27

5.1.2. Distribución de Poisson (o de los sucesos raros).

28

5.2.3. Distribución geométrica.

28

5.2. Distribuciones de variable aleatoria continuas.

29

5.2.1. Distribución rectangular o uniforme.

29

5.2.2. Distribución exponencial negativa.

29

5.2.3. Distribución normal (o de Gauss).

30

5.2.4. Distribuciones deducidas de la normal.

31

5.2.4.1. Distribución Ji (o Chy) cuadrado de Pearson.

Χ 2n .

31

5.2.4.2Distribución t n de Student.

32

5.2.4.3Distribución Fm;n (de Fisher-Snedecor ).

33

6.- Inferen Inferencia cia estadística stadística.. 6.1.Introducción a la inferencia estadística.

34

6.2.Estimación puntual.

36

6.3. Estimación mediante la construcción de intervalos de confianza.

39

6.4. Pruebas de hipótesis estadísticas.

42

6.4.1. Otras pruebas de hipótesis.

46

6.4.1.1 Las pruebas Ji cuadrado

46

6.4.1.2.Prueba de independencia.

47

6.4.1.3.Prueba de homogeneidad.

48

6.4.1.4.Sobre otras pruebas no paramétricas.

48

2

Matemática Aplicada II. Grado Ingeniería Ténica. Notas sobre Estadística

Curso 2017/201 /2018 8

Capítulo 1.- Análisis descriptivo de datos

1.- Introducción. Clásicamente se entendía por estadística a toda colección de datos ordenados y clasificados según determinados criterios cuyo objetivo es conocer el comportamiento de colectividades. Más recientemente entendemos por estadística a aquella parte de las matemáticas que utiliza por instrumento a las propias matemáticas , en particular el cálculo de probabilidades, para estudiar las leyes de comportamiento de fenómenos no sometidos a las leyes fijas sino al azar y poder establecer conclusiones a cerca de algún evento. También puede entenderse por estadística al conjunto de técnicas y métodos que se siguen para recoger, organizar, presentar, analizar, contrastar y generalizar resultados de observaciones. 1.1. Fases a seguir en un estu studio dio esta stadístico dístico . Es recomendable a la hora de abordar un trabajo de estadística seguir determinados pasos y hacerlo en un determinado orden •

Una primera fase podría decirse de recopilación de información; mediante ella se obtendrá información individualizada sobre los elementos que conforman la población.

Es ésta la más delicada de las fases de todo estudio estadístico puesto que los resultados finales de un análisis están en gran parte condicionados por la información que se recoge para ser analizada. En el momento de abordar un estudio conviene definir unos objetivos y tener bien claro quiénes son y qué secuencias habrá que seguir para lograrlos. Los datos a recoger en esta fase los clasificaremos en dos tipos: Datos directos o publicados, que son datos que se obtienen de censos, anuarios, informes,…, son datos que están a disposición del investigador. Los datos indirectos (o de recopilación propia) son datos que se obtienen directamente de la observación de fenómenos. Diremos datos experimentales a aquellos que el investigador recoge observando resultados de investigaciones.

•

•

La segunda podrá definirse como fase de ordenación y agrupación de datos. Los datos recogidos en la fase anterior son ahora adecuadamente ordenados y tabulados para poder intuir cierta información sobre lo que se pretende estudiar. En tercer lugar, en la denominada fase de análisis, utilizando las técnicas adecuadas en esta fase, se estudia la información recogida para determinar parámetros que caracterizarán un contenido.

3

Matemática Aplicada II. Grado Ingeniería Ténica. Notas sobre Estadística

•

Curso 2017/201 /2018 8

Finalmente, en la llamada de interpretación de resultados se tratará de establecer las conclusiones sobre la información analizada y generalizarlas cuanto sea posible a problemas semejantes al analizado.

Una cuestión a tener en cuenta. Conscientes de que en todo estudio es posible cometer algún error, en estadística nos hemos de centrar siempre en controlarlos en la mayor medida posible. Diremos errores de muestreo a aquellos errores que se cometen al tratar una muestra como perfectamente representativa de la población de la que procede cuando esto en realidad esto nunca ocurre salvo que la muestra coincida exactamente con toda la población objeto de estudio. Todos los demás errores se dicen sesgos. • Son sesgos de omisión aquellos errores que cometemos al intuir información de elementos de una muestra no analizados. • Diremos sesgos de medida a aquellos errores que se cometen en las mediciones de individualidades: (sistemáticos, accidentales,… ). • Otros errores podemos citarlos como de elaboración de resultados, son equivocaciones en el empleo de técnicas de análisis inadecuadas.

1.2. Estadí Estadística stica descript scriptiva iva e inferenci nferencia a esta stad dística.

Entenderemos por estadística descriptiva a aquél conjunto de técnicas que se ocupan de describir las individualidades de un colectivo, bien en su totalidad (en este caso de dice que realizamos un censo), bien una parte de la misma mediante el análisis de cada una de las individualidades que caracterizan a los elementos de tal conjunto. Entenderemos por estadística inferencial o inductiva al conjunto de técnicas que tienen por objetivo el esclarecimiento de los comportamientos de colectivos mediante análisis de un pequeño grupo de individuos procedentes de aquel colectivo (muestra) que tenga un adecuado tamaño y un alto grado de representatividad. Los métodos descriptivos presentan como gran ventaja que su utilización no plantea riesgos en los procesos de inducción ya que los procesos descriptivos no utilizan técnicas de inducción; como inconvenientes, suelen ser procesos lentos , caros, y suelen llevar asociadas altas probabilidades de errores de cálculos debido a la enorme cantidad de información a tratar. Los métodos inductivos tienen como ventajas la rapidez de su ejecución, en cada paso proporcionan avances sobre las conclusiones finales de un análisis, son más baratos que los que utiliza la estadística descriptiva y presentan probabilidades bajas de cometer errores de cálculos. El mayor inconveniente de estas técnicas radica en la no siempre fácil tarea de la determinación de muestras soporte adecuadas en cuanto a representatividad y tamaño.

4

Matemática Aplicada II. Grado Ingeniería Ténica. Notas sobre Estadística

Curso 2017/201 /2018 8

1.3. Concepto de variable estadística. La información que se desprende de la observación de experimentos generalmente forma una larga lista de , en muchos casos repetidos. Consideremos un experimento E, y sea ei una determinada experimentación ejecutada en el contexto de tal experimento. Sea ωi el resultado de una tal experimentación . Se dice variable estadística a la aplicación v que asocia a cada una de las experimentaciones realizados un resultado: w( ei ) = ω i En el tratamiento de un trabajo estadístico, inicialmente se hace imprescindible clasificar a las variables estadísticas, y en este sentido •

•

Una variable se dice cuant cuantitativa itativa si los resultados de los experimentos sobre los que actúa vienen expresados a través de números. o Una variable cuantitativa es di discreta screta si entre dos de sus valores consecutivos es imposible ubicar cualquier otro valor de la misma variable. o Una variable cuantitativa se dice contínua si entre dos cualesquiera de sus valores cabe ubicar incluso otros infinitos de sus valores. Una variable se dice cualitativa si los resultados de los experimentos sobre los que actúa vienen expresados no mediante valores numéricos si no a través de cualidades o atributos.

1.3.1. Cla Clases ses (o categorías) para una variable e stadíst stadística. ica. Diremos así a los grupos disjuntos en los que se encerrarán los valores de la variable. Están caracterizadas estas categorías porque las individualidades encerradas en una determinada clase presentan semejanza y por el contrario elementos de clases distintas son claramente distintos en comportamiento. Entendemos por cl clases ases de val alo or único a aquellos conjuntos en los que todos los valores de la variable allí encerrados son idénticos. Estas clases son adecuadas para encerrar valores bien de variables cualitativas o bien de variables cuantitativas discretas. Las cla clases ses de inte ntervalo rvalo son definidas por intervalos entre cuyos extremos se encierran valores de las variables que están comprendidos entre dichos extremos. Estas clases resultan adecuadas para encerrar valores de variables cuantitativas continuas e incluso para encerrar valores de variables cuantitativas discretas en los casos en que el número de valores de la variable sea extremadamente elevado. Si bien la determinación del número de clases para encerrar los valores de una variable no obedece a criterios fijos sí es conveniente recordar que el número de clases a construir no debe ser demasiado grande puesto que si así es ello no supone ahorro alguno en el tratamiento de la información , tampoco debe ser

5

Matemática Aplicada II. Grado Ingeniería Ténica. Notas sobre Estadística

Curso 2017/201 /2018 8

muy pequeño porque en este caso se cometerá con frecuencia el error de que valores bien diferentes son interpretados del mismo modo. Señalaremos, a su vez, que hay casos en los que por diferentes razones una variable cuantitativa continua conviene tratarla como discreta y al contrario, casos en los que una variable cuantitativa discreta conviene tratarla como continua . Finalmente, a la hora de agrupar valores de una variable en clases no hemos de perder de vista que las clases deben estar bien definidas, es decir, que cada valor de la variable esté en una y sólo en una clase. 1.3.2. Considerac Consideraciones iones pre revias vias al e studio d e una variable estad stadística ística agrupada en clases . •

• •

•

Diremos mar marca ca de clase a aquél valor de la variable representante de todos los valores incluidos en dicha clase. Suele ser un valor, a veces real pero, generalmente teórico que intenta ser el mejor representante de todos los valores incluidos en la clase. Se dice amplitud de clase a la medida del intervalo que la define. Llamaremos frecuen recuencia cia abso bsoluta luta correspondiente a la clase o categoría i-ésima, y denotamos f i , al total de valores de la variable incluidos en dicha categoría. La fre frecuenci cuenci cuencia a relativa fri correspondiente a la clase i-ésima representa el cociente entre la frecuencia absoluta de dicha clase y el total de valores fi de la variable incluidos en tal clase , fri = ; ( N es el total de valores de la N variable).

Se dice frecuen frecuencia cia acumul cumulada ada, y denotamos Fi , asociada a la clase iésima al total de valores de la variable que, ordenados en sentido creciente todos los valores de ésta, se sitúan más atrás o incluso sobre el extremo superior de dicha clase.

•

1.4. Distr Distribución ibución d de e fre recuencias cuencias abs absolutas olutas de una varia ariable ble estad stadístic ístic ística. a. Se dice distribución de frecuencias para una variable estadística a todo par que en su primera componente hace referencia a las clases en las que se encierra la variable, y la segunda se refiere a las frecuencias absolutas con que la variable se manifiesta en las diferentes clases. Distinguiremos los tipos siguientes de distribuciones de frecuencias: Distribuciones tipo I (también se dicen series estadísticas) , que no son sino cualquier colección de valores de variables. Admitirán la forma (x i ,1) Tipo II: que notaremos como (xi , f i ) , son adecuadas para presentar variables cualitativas o cuantitativas discretas.

6

Matemática Aplicada II. Grado Ingeniería Ténica. Notas sobre Estadística

Curso 2017/201 /2018 8

Distr Distribucion ibucion ibuciones es tip ipo o III : Son adecuadas para representar distribuciones de variable continua y vienen definidas mediante intervalos de alguna de las formas ([Li−1 , Li ), f i ) , ((Li−1 , Li ], f i ).

1.4.1. Representa Representaciones ciones gráficas de dat atos. os. Previamente al análisis de una distribución de frecuencias es de utilidad efectuar la representación de la distribución . El objetivo es mostrar de forma clara y sencilla a través de un dibujo la información que la variable aporta a lo largo de su distribución de valores. Dependiendo de la variable a analizar y lo que de ella se precise describir se elegirá en tal sentido el gráfico ,en cada caso, más adecuado. •

Un diagrama de puntos y barras es adecuado para representar distribuciones de variables, bien cualitativas o bien cuantitativas discretas, cuando la variable se encierra en no demasiadas clases

•

Los diagramas de sectores se entienden adecuados para representar generalmente variables cualitativas e incluso cuantitativas cuando la variable se encierra en pocas clases.

•

Los diagramas polares (sagitas) son generalmente adecuados para representar comportamientos de variables que presentan fenómenos que obedecen a comportamientos cíclicos a través del tiempo.

•

Son adecuados para representar variables cuantitativas continuas agrupadas en clases o incluso para representar variables cuantitativas discretas cuando presentan muchos valores previamente agrupados los denominados histogramas de frecuencias.

No hemos de olvidar que a la hora de representar una distribución de frecuencias a través de un gráfico procuraremos ser sencillos, claros, fijándonos siempre en qué variable vamos a representar y qué características interesan resaltar de ella.

1.4.2. Descr Descripción ipción d e una variab ariable le estad stadística. ística. 1.4.2.1.Parámetros de centralización.

Diremos así a aquellos testigos o referencias que sirven para explicar el comportamiento de la variable en torno a ellos. Se expresan éstos parámetros en las mismas unidades que la variable a que se refieren.

7

Matemática Aplicada II. Grado Ingeniería Ténica. Notas sobre Estadística

Curso 2017/201 /2018 8

Medi Media a ari ritmética tmética s imple x Se define media aritmética simple para una variable estadística a lo largo de una distribución y denotamos x a aquel valor de la variable , el único que a parecería a lo largo de toda la distribución si ésta fuese perfectamente uniforme. Para las distribuciones tipos I, II, o III se determina mediante las expresiones siguientes:

Distribución Tipo

Expresión de la media aritmética simple n

I

x=

∑x

i

i= 1

N n

II

x =

∑x

i

fi

i =1

N n

III

∑ x′ f i

x =

i

i =1

N

(xi denota los valores de la variable; fi denota la frecuencia absoluta correspondiente al valor xi , N denota al total de valores de la variable a lo largo de la distribución)

Medi Mediana ana Me. Se dice así aquel valor de la variable tal que ordenada ésta en sentido creciente a lo largo de la distribución este valor de la mediana supera al 50% de los valores de la variable y es superada por el 50% de valores restantes.

Para una serie estadística (o distribución tipo I) la localizamos como el valor de la variable que en la serie ordenada en sentido creciente ocupa la posición central siempre que la serie conste de un número impar de términos; si el número de valores de la variable que conforman la serie es impar la tomaremos como la semisuma de los dos términos que ocupen la posición central. En el caso de distribuciones tipo II la mediana será aquel valor de la variable que lleve asociada la más baja de entre todas las frecuencias acumuladas que superen al valor N/2 . En el caso de variables contínuas entenderemos por clase o categoría mediana a aquella que encierra a la mediana ; es ésta la categoría que lleva asociada la más baja de entre todas las frecuencias acumuladas que superen a N/2. Para éstas distribuciones la mediana se determina mediante la expresión siguiente:  N / 2 − F i−1  Me = Li −1 +  Ci fi  

8

Matemática Aplicada II. Grado Ingeniería Ténica. Notas sobre Estadística

Curso 2017/201 /2018 8

Siendo Li −1 el extremo inferior de la clase mediana; Fi −1 la frecuencia acumulada hasta la categoría inmediatamente anterior a la categoría mediana; fi la frecuencia absoluta de dicha categoría mediana y

Ci la amplitud de tal categoría .

Moda Moda,, Mo Diremos moda al valor de la variable, teóricamente al menos, más repetido a lo largo de la distribución . Para distribuciones I y II el valor realmente más repetido en la distribución. Así, en el caso en el que la variable se agrupe en clases de valor único la moda será aquél valor de la variable que lleve asociada la más alta de las frecuencias absolutas. En el caso de variables contínuas la moda se localizará en la denominada categoría modal que será aquella categoría que presente la más alta densidades (para una clase la densidad es el cociente de la frecuencia absoluta sobre la amplitud de la clase) ...