Apuntes estadística descriptiva I PDF

Title Apuntes estadística descriptiva I
Author Pablo Lopez Barambio
Course Estadística Descriptiva
Institution Universidad Católica de Valencia San Vicente Mártir
Pages 21
File Size 1.2 MB
File Type PDF
Total Downloads 36
Total Views 164

Summary

Download Apuntes estadística descriptiva I PDF


Description

Estadística Descriptiva. Pablo López Barambio

TEMA 1 



Cuando los datos analizados son de una muestra, además de expresarse todo en minúsculas, la “n” siempre actuará como n-1. Las muestras tienen Estadísticos. Las muestras forman parte de la estadística inferencial. Si los datos analizados son de una población, las letras serán siempre en letras griegas y en mayúsculas. La población tiene Parámetros. Forma parte de la estadística descriptiva.

Tipos de variables  

Cualitativa. Hablan de una cualidad. Cuantitativa. Expresan una cantidad. - Discreta. Son variables numéricas redondas, hay un número finito de números entre dos valores de esa variable (Número de personas en una clase, número de quejas en una oficina…) Los valores no llevan decimales. - Continua. Las variables continuas son variables numéricas que tienen un número infinito de valores entre dos valores cualesquiera. Una variable continua puede ser numérica o de fecha/hora.

Existen cuatro niveles de medición de variables: 1. Nominal. Variables cualitativas, sólo se clasifican no es ninguna más que otra ni se pueden ordenar (Marcas de coches, dorsales de un equipo…). Es una forma de simplemente etiquetar. 2. Ordinal. Datos que se ordenan pero no expresan una cantidad de algo, simplemente una posición (Número de lista, clasificación de liga). No tienen porqué ser numéricos, pueden ser etiquetas ordenables (alto, bajo, medio…). 3. Intervalo. Variables cuantitativas que expresan un valor que puede ser mayor o menor, la diferencia de cantidad en la variable tiene un significado real, puede ser más o menos (Talla, temperatura, altura, peso…). Suelen ser magnitudes. 4. Razón. Son muy parecidas a las de intervalo, con la diferencia de que el punto 0 es muy significativo en estas variables y es el mínimo posible, son numéricas y cuantitativas. (Distancia a un sitio, dinero en el banco…).

1

Estadística Descriptiva. Pablo López Barambio

TEMA 2 Una tabla de frecuencias agrupa datos cualitativos en clases y en frecuencias de clase. Para las variables cualitativas, el número de frecuencias de cada clase recibe el nombre de frecuencia de clase. Las frecuencias de clase pueden ser transformadas en frecuencias relativas y formar también una tabla de frecuencias relativas. Esto se hace dividiendo la frecuencia de una clase entre el total de las frecuencias, todas las frecuencias relativas sumadas deben dar= 1. COCHES VENDIDOS (CLASES)

FRECUENCIA DE CLASE

BMW MERCEDES

15 12

FRECUENCIA RELATIVA DE CLASE 0,5555 0,4444

TOTAL

27

1

Representación gráfica  

Gráfica de barras. Las clases se representan en el eje horizontal (y) y su frecuencia en el eje vertical (x). Gráfica de pastel. Las clases se representan en porciones de un círculo, es ideal para porcentajes o frecuencias relativas.

Distribución de frecuencias Una distribución de frecuencias agrupa datos y los divide en diferentes categorías mutuamente excluyentes. Esto ayuda a la creación de gráficos y representaciones que ayuden a concentrar y distribuir los datos fácilmente. Los datos no agrupados son difíciles de analizar y representar visualmente, para ello creamos una distribución de frecuencias, basándonos primero en máximos, mínimos, media, dispersión…

2

Estadística Descriptiva. Pablo López Barambio Pasos a seguir: 1. Definir el número de clases: 2k > n, donde n= número total de datos y “k”= número de clases a utilizar. 2. Definir el intervalo: i= Valor máximo- Valor mínimo/k. 3. Teniendo ya el número de intervalos en que dividiremos las clases y cuál será su tamaño, tendremos que definirlos para agrupar los datos de tal forma que ningún dato pueda entrar en más un intervalo. 4. Por último crearemos una tabla agrupando cada intervalo con su frecuencia (número de datos con los que cuenta).

Intervalos de clase y puntos medios de clase  

Punto medio de clase, es el punto que divide una clase en dos partes iguales, resulta de sumar el máximo y el mínimo de la clase y dividiendo entre 2. El intervalo de clase es la diferencia entre el mínimo de la clase y el mínimo de la siguiente clase.

Representación gráfica de distribución de frecuencias  

Un histograma se asemeja a una gráfica de barras solo que en esta ocasión lo haremos con intervalos de clase en lugar de con clases cualitativas. Un polígono de frecuencias resulta de unir los puntos de una gráfica de puntos en la hemos representado la distribución de frecuencias.

TEMA 3 La media

𝜇= Media poblacional ∑X= Sumatorio de los valores X N= Número de sujetos estudiados 𝜇=

∑𝑋 𝑁

MEDIA POBLACIONAL ( 𝜇)

/ / /

m= Media muestral ∑x= Sumatorio de los valores X n= número de sujetos estudiados 𝑋 =

∑𝑥 𝑛− 1

MEDIA MUESTRAL (𝑋)

Cuando la media es aritmética, todos los datos tienen el mismo valor (influyen igual en la media), en la media ponderada cada dato cuenta con un valor asignado, por lo que no influyen por igual en la media.

3

Estadística Descriptiva. Pablo López Barambio

Mediana La mediana es el valor que deja por encima a la mitad de los datos y por debajo a la otra mitad. Si los datos son impares, uno de ellos será la mediana (Ejem: Edades de clase-> 12,13,14; la mediana= 13). Si los datos son pares, el más mayor de los de abajo se debe asignar uno entre los dos del medio (Ejem: Edades de clase-> 12, 13, 14, 15; mediana= 13,5). - En la mediana no influyen los valores muy grandes o pequeños, se determina para cualquier nivel de datos excepto los nominales.

La moda La moda es el dato o evento que más se repite, en caso de que ninguno se repita más que los demás no habrá moda. Se puede representar para todos los niveles de datos (nominal, ordinal…) No influyen en ella los valores muy grandes/ pequeños. Al igual que es posible que no exista moda, también puede que exista más de una moda.

Media geométrica La media geométrica toma siempre valores menores o iguales que la media aritmética. Resulta útil para determinar el cambio promedio de porcentajes, razones, índices o tasas de crecimiento. Todos los datos deben ser positivos. Se usa para calcular medias de incrementos porcentuales, tasas… Por ejemplo, dados estos datos:

AÑO 0 AÑO 1 AÑO 2 TOTAL

SUELDO 3000€ 3000* 1,05= 3150€ 3150* 1,15= 3622,5€ 3622,5€

INCREMENTO +5% +15% 3622,5-3000= 622,5€ (MG=1,09886)

La media geométrica (MG), en este caso se calculará de la siguiente manera:

Con lo cual, el sueldo de cualquiera de los años multiplicado por la Media Geométrica tendrá un incremento que resultará en un sueldo final igual (aproximadamente).

AÑO 0 AÑO 1 AÑO 2 TOTAL

3000 3000* 1,09886= 3296,58 3296,58* 1,09886=3622,5 3622,5€

+9,886% (MG) +9,886% (MG) 3622,5-3000= 622,5€

4

Estadística Descriptiva. Pablo López Barambio

Medidas de dispersión Las medidas de dispersión indican de forma clara cómo se distribuyen los datos en la población muestra, aportándonos información que la media o la mediana omite y que tienen gran influencia en ellas. PARA LA POBLACIÓN:  Rango: Valor máximo- Valor Mínimo  X= Valores estudiados ∑ ||  Desviación media (DM): 𝐷𝑀 =   𝜇= Media poblacional ∑()  Varianza (𝝈𝟐 ): 𝜎  =  𝑁 = Total población  ∑() 



Desviación típica o estándar poblacional (𝝈): 𝜎 = 



PARA LA MUESTRA Rango: Valor máximo- Valor mínimo



Desviación media (MD): 𝑀𝐷 =

∑ | |

 ∑()



Varianza muestral (𝒔𝟐 ): 𝑠  =



Desviación típica o estándar muestral (S): 𝑠 = 



  

X= Valores estudiados 𝑋 = Media muestral 𝑛 = muestra

∑( ) 

Medidas de dispersión con datos agrupados (intervalos) Una vez tenemos los datos agrupados en intervalos, las fórmulas expuestas anteriormente no serán útiles ya que no tenemos los valores concretos sino una aproximación de estos a través de su agrupación en distintos intervalos. Para calcular la Media, Varianza y Desviación típica lo haremos de la siguiente manera:

158 166 173 180 187 TOTAL (N)

INTERVALOS 165 172 179 186 193

FRECUENCIAS (F) 5 4 2 6 2 19

Tal y como hemos dicho, podemos observar que los datos de las alturas de la clase se encuentran agrupados en cinco intervalos, no podemos saber si hay alguien de 159 cm, sólo sabemos que en intervalo de 158165 hay 5 personas.

1. Calculamos el punto medio de cada intervalo.

INTERVALOS/ FRECUENCIAS (ALTURAS CLASE) 158 165 166 172 173 179 180 186 187 193

5 4 2 6 2

P. Medio (PM) 161,5 169 176 183 190

5

Estadística Descriptiva. Pablo López Barambio 2. Multiplicamos el punto medio de cada intervalo por su frecuencia.

INTERVALOS/ FRECUENCIAS (ALTURAS CLASE) P. Medio (PM) F* PM 158 165 5 161,5 166 172 4 169 173 179 2 176 180 186 6 183 187 193 2 190 TOTAL (N) 19 TOTAL

807,5 676 352 1098 380 3313,5

3. Calculamos la media (M): TOTAL (F*PM)/ TOTAL (N).

MEDIA

174,3947368

4. Hacemos PM – MEDIA, (PM- MEDIA^2) Y F* (PM- MEDIA^2) Que nos servirá para calcular la varianza y desviación típica.

PM- MEDIA -12,894737 -5,3947368 1,60526316 8,60526316 15,6052632 TOTAL

PM- MEDIA^2 166,2742382 29,1031856 2,576869806 74,05055402 243,5242382

F* (PM-MEDIA^2) 831,3711911 116,4127424 5,153739612 444,3033241 487,0484765 1884,289474

5. Por último, teniendo ya estos últimos cálculos (el total de F*(PM- MEDIA)^2) obtenemos la varianza y desviación típica. A través de estas fórmulas:

VARIANZA (F*(M-MEDIA^2)/N) DESV. TÍPICA (RAÍZ^2 DE VARIANZA)

99,17313019 9,95857069

En el caso de no tener los datos agrupados, sino los valores concretos de todos ellos, aplicaremos directamente la fórmula F*(PM- MEDIA)^2), pero en lugar de usar el Punto Medio del intervalo (PM) utilizaremos el valor concreto, cosa que no teníamos con los datos agrupados.

6

Estadística Descriptiva. Pablo López Barambio

Teorema de Chevishev En cualquier conjunto de observaciones (muestra o población), la proporción de valores que se encuentran a “k” desviaciones de la media, es de por lo menos 1-1/𝑘  , siendo cualquier constante (k) mayor que 1. 

Por ejemplo: la media de la cantidad a portada por los empleados de una empresa es de 51,54€, la desviación estándar es de 7,51€. ¿Qué porcentaje de las contribuciones se encuentran 3,5 desviaciones estándar por encima de la media y 3,5 desviaciones estándar por debajo de esta? 1-1/ 𝑘  = 1- 1/ (3,5) = 1-1/12,25= 0,92

Regla empírica En cualquier distribución de frecuencias simétrica con forma de campana, aproximadamente 68% de las observaciones se encontrarán entre más y menos una desviación estándar de la media; cerca de 95% de las observaciones se encontrarán entre más y menos dos desviaciones estándares de la media y, de hecho todas (99.7%), estarán entre más y menos tres desviaciones estándares de la media.

TEMA 4 Diagrama de puntos El diagrama de puntos permite distinguir más clara dónde se agrupan los datos y su distribución. Para los conjuntos pequeños de datos es perfecto, mientras que para los conjuntos más grandes será mejor el histograma (barras).

7

Estadística Descriptiva. Pablo López Barambio

Gráficas de tallo y hojas Las distribuciones de frecuencias (tablas de intervalos) nos permiten una rápida visualización de la distribución de los datos, pero tiene como desventaja que se pierde la identidad exacta de cada dato (solo estará claro el grupo en el que se agrupa) y no deja clara la forma en que se distribuyen los valores. En las gráficas de tallo y hojas los datos mantienen su identidad exacta, en tallo se agrupan los dígitos principales de cada grupo y las hojas serán cada una un dígito secundario, ordenados de menor a mayor. Ejemplo: Teniendo (96, 94, 93, 94, 95, 96, 97) la gráfica de tallo y hojas será:

2 9 15 (9) 21 13 6 3

8 9 10 11 12 13 14 15

89 3345667 334678 122337789 00455577 2456899 238 556

- En la columna a la izquierda de los valores de tallo se encuentran números como 2, 9, 15. El número 9 indica que se presentaron 9 observaciones antes del valor de 100. El 15 muestra que se presentaron 15 observaciones antes de 110. - El paréntesis indica que la mediana aparece en dicha fila y que hay nueve valores en este grupo. - Después de la mediana, los valores comienzan a decrecer. Estos valores representan los totales acumulados más que. Hay 21 observaciones de 120 o más, 13 de 130 o más, y así sucesivamente.

Otras medidas de dispersión Aparte de la desviación típica, hay otras formas de describir la variación o dispersión de un conjunto de datos. Un método consiste en determinar la ubicación de los valores que dividen un conjunto de observaciones en partes iguales: - Cuartiles. (Divide el total de datos en cuartos). - Deciles. (Divide en 10 partes). - Percentiles. (Divide en 100 partes).

Percentiles, Deciles y Cuartiles

𝐿 = (𝑛 + 1) ·





, sustituimos P por el porcentaje que ocupa el cuartil, decil percentil dentro

de la distribución, es decir, el primer cuartil al ser ¼ de los datos ocupa un 25%, o sea que P=25, si quisiéramos calcular el tercer decil P sería = 30… Ejemplo: teniendo 15 datos. 1. Queremos la mediana: L50= (15+1) x





=8

2. Me tengo que ir a mi nube de datos ORDENADA y contar hasta el puesto 8, el octavo dato será la mediana.

8

Estadística Descriptiva. Pablo López Barambio Para representar de una forma gráfica los cuartiles de una distribución de frecuencias utilizaremos un diagrama de caja: El diagrama de caja es un gráfico utilizado para representar una variable cuantitativa (variable numérica). El gráfico es una herramienta que permite visualizar, a través de los cuartiles, cómo es la distribución, su grado de asimetría, los valores extremos, la posición de la mediana, etc. Tiene esta forma:

Para construir el diagrama de caja necesitamos saber los datos de: valor mínimo (Q1), mediana (Q2), tercer cuartil (Q3) y valor máximo (Q4). En el diagrama propuesto vemos cómo el valor mínimo (Q1)= 15, la mediana (Q2)= 18, (Q3)= 22 y el valor máximo (Q4)= 30.  

El rango intercuartil es la diferencia entre el tercer y el primer cuartil de una distribución. Un dato es atípico cuando no concuerda con el resto de datos, un dato será atípico cuando supere en 1,5 la amplitud del rango intercuartil, ya sea por encima de Q3 o por debajo de Q1.

El sesgo El sesgo es otra forma de medir la dispersión de los datos en una distribución de frecuencias. El sesgo puede ser:  Simétrico: la media y la mediana son iguales, y los valores de datos se dispersan uniformemente en torno a estos valores  Sesgado a la derecha o positivamente sesgado si existe un solo pico y los valores se extienden (en el eje X) mucho más allá a la derecha del pico que a la izquierda de éste.  Negativamente sesgada existe un solo pico, pero las observaciones se extienden más a la izquierda (eje X) que a la derecha  Una distribución bimodal tendrá dos o más picos.

9

Estadística Descriptiva. Pablo López Barambio

Mediante el Coeficiente de Pearson (sk) el sesgo puede tomar un valor numérico: 𝑠𝑘 =  

𝑋 = Media muestral.

3(𝑋 − 𝑀𝑒𝑑𝑖𝑎𝑛𝑎) 𝑠

∑( ) 

𝑠= Desviación= 

El sesgo puede variar de -3 a 3. Un valor próximo como -2.57, indica un sesgo negativo considerable. Un valor como 1.63 indica un sesgo positivo moderado. Un valor de 0, que ocurre cuando la media y la mediana son iguales indica que la distribución es simétrica y que no se presenta ningún sesgo.

Diagrama de dispersión El diagrama de dispersión es una forma gráfica de representar la dispersión de una distribución de frecuencias. Se realiza en torno a dos variables que presentan cierta relación entre si (por ejemplo coches vendidos y precio de los coches). Se colocará una variable en el eje X y otra en el eje Y, mediante puntos se represetará la frecuencia de estas pudiendo relacionarlas fácilmente.

Observamos fácilmente la relación que tiene el tiempo de uso de los autobuses con el precio de mantenimiento que suponen. El autobús con un año de antigüedad tiene un coste de 4000€ también tienen este coste uno de los autobuses de dos años, los otros dos de dos años tienen un coste superior (en torno a 5000€/ 6000€)… Vemos como fácilmente se pueden sacar observaciones de la gráfica.

10

Estadística Descriptiva. Pablo López Barambio

Tabla de contingencia Otra forma de representar la relación entre dos variables de forma clara es una tabla de contingencia. A partir de ella se pueden obtener probabilidades condicionadas muy fácilmente. Tiene esta forma:

A partir de la tabla podemos saber, por ejemplo:  Probabilidad de que un turno matutino sea defectuoso= 3/20 (total de turnos defectuosos matutinos/ total de turnos matutinos).  Probabilidad de que un turno aceptable sea vespertino= 15/44 (total de turnos vespertinos/ total de turnos aceptables).

TEMA 5 La probabilidad es un valor que va de 0 a 1. Elementos:  Experimento. Proceso que induce a que ocurra únicamente una de las posibles observaciones.  Resultado concreto del experimento.  Evento. Conjunto de uno o más resultados de un experimento.

Tipos de probabilidad 



Probabilidad subjetiva. La probabilidad subjetiva no se basa en datos numéricos y en estadísticas, sino en conocimiento y opinión subjetiva. (El Valencia gana la Liga). Probabilidad objetiva. Se basa en datos innegables. Diferenciamos: - Probabilidad clásica. Número de casos favorables/ Número de casos totales. Los resultados de un experimento son igualmente posibles. Es mutuamente excluyente (si se da uno no se puede dar otros) y colectivamente exhaustivo (uno de los eventos ocurrirá). - Probabilidad empírica. Número de veces que el evento ocurre/ Número total de eventos. Realizando el mismo experimento varias veces puede tener diferentes resultados, esto no ocurre en la probabilidad clásica. Un experimento realizado un número de veces muy grande acabará teniendo la misma probabilidad clásica que empírica. Si la muestra escogida no es el total posible siempre será empírica (los niños de un colegio concreto, los habitantes de un país concreto…). 11

Estadística Descriptiva. Pablo López Barambio Cuando los eventos no son mutuamente excluyentes (sólo en empírica) existen fórmulas lógicas para calcular las probabilidades conjuntas. Ejemplo: 

P(A o B)= P(A)+ P(B)- P(A y B).



REGLA DE LA MULTIPLICACIÓN: P(A y B)= P(A) * P(B)

Probabilidad condicional Es la probabilidad de que ocurra un suceso habiendo ocurrido otro previamente. Los eventos no serán independientes. Se escribe P(B|A), y se lee “probabilidad de B, sabiendo que previamente ha salido A”. Se utiliza la regla de la multiplicación para calcular la probabilidad condicionada. *Ejemplo: Una caja con 4 bolas, 2 rojas (R) y dos negras(N). Sacamos dos bolas:*

1º experimento ROJO (R) 2/4= 0,5 NEGRO (N) 2/4= 0,5 P(R/R)= 0,5*0,333= 0,16666

2º experimento 1/3= 0,333 2/3= 0,666

Al ser sucesos dependientes, sabemos que si en el primer turno hemos sacado una bola roja, para el segundo turno habrá una bola roja menos y por tanto menos probabilidad de volver a...


Similar Free PDFs