Estadística descriptiva (parte 2) PDF

Title	Estadística descriptiva (parte 2)
Course	Bioestadística, Epidemiologia i Demografia
Institution	Universitat de Barcelona
Pages	14
File Size	1.2 MB
File Type	PDF
Total Downloads	92
Total Views	127

Preview

CLICK TO PREVIEW PDF

Summary

Download Estadística descriptiva (parte 2) PDF

Description

TEMA 2: ESTADÍSTICA DESCRIPTIVA (parte 2): MEDIDAS DE TENDENCIA CENTRAL, DISPERSIÓN, POSICIÓN Y FORMA:  

Variable cuantitativa: hay que saber el centro, dispersión, posición y forma (al hacer un gráfico) Hay que hacer cálculos

ÍNDICES DE POSICIÓN, DE DISPERSIÓN Y DE FORMA: 

Medidas de tendencia central y de posición: dónde están situadas:  Moda: más común que se va a tener, número que ha tenido más respuestas. Se ordenan todos los números de mayor a menor y se encuentra el que se ha respondido más veces. Corresponde al valor de la variable que tiene una mayor frecuencia. Una distribución puede ser amodal, unimodal, bimodal o multimodal.  Si hay una única moda y la muestra es simétrica coincidirá con la media y la mediana.

 Media (aritmética): número central. Se suman todas las observaciones y se divide por el total. El valor extremo desplazará la media. Si hay valores extremos, no se está dando una media sesgada. Es una medida de tendencia central. Indica dónde está el centro de la distribución.

 Observaciones: o Se utiliza cuando la variable está medida en escala métrica, incluso en escala ordinal o Hay que tener cuidado con la presencia de anomalías; puede dar una idea equivocada del centro si la distribución no es simétrica y tiene valores extremos a un lado (ejemplo: salarios)

 Mediana: sí que da el centro de las observaciones. Da el centro de todos los valores de la variable cuantitativa tanto por arriba como por abajo. Si media o mediana dan lo mismo quiere decir que la muestra es simétrica. Si la media es más alta que la mediana, hay un valor de arriba que arrastra la media, y si es más pequeña, hay un valor por abajo que la arrastra. Se utiliza la posición para calcularla. Si es impar, se suma 1 y se divide entre 2, y si es par se suman los dos números medios y se divide entre 2 para poder encontrar la mediana. Mediana es una medida de tendencia central. Divide la distribución en dos partes iguales, dejando por debajo de su valor el 50% de las observaciones y otro 50% de las observaciones por encima.  Si en las muestras hay simetría, la media y la mediana es la misma.  Si no hay simetría, la media y la mediana no serán la misma.

 Cuartiles:  Son medidas de posición pero no tienen por qué ser centrales. Es otra manera de dividir la distribución de los datos.  Entre ellas podemos encontrar los cuartiles, percentiles, deciles, etc.  Se suele utilizar cuando queremos dividir de una manera determinada la distribución o cuando hay muchas observaciones  Nos ayudan a saber cuánto se alejan los valores del centro  Tipos de cuartiles: o Percentiles o centiles o Deciles o cuantiles  Cálculo:

o

o o

Primer cuartil: Q1 es el valor que deja un 25% de las observaciones ordenadas por debajo y un 75% por encima. Será el dato que ocupa la posición = N + 1 4 Segundo cuartil: Q2 es el valor que deja un 50% de las observaciones por debajo y un 50% por encima (mediana) Tercer cuartil: Q3 es el valor que deja un 75% de las observaciones ordenadas por debajo y un 25% por encima. Será el dato que ocupa la posición = 3(N + 1) 4



Medidas de dispersión: cómo de concentradas están:  Los estudiantes de Bioestadística reciben diferentes calificaciones en la asignatura (variabilidad). ¿A qué puede deberse?  Diferencias individuales en el conocimiento de la materia.  ¿Podría haber otras razones (fuentes de variabilidad)?  Por ejemplo supongamos que todos los alumnos poseen el mismo nivel de conocimiento. ¿Las notas serían las mismas en todos? Seguramente No. todos? Seguramente No.  Dormir poco el día del examen, los nervios...  Diferencias individuales en la habilidad para hacer un examen.  El examen no es una medida perfecta del conocimiento.  Variabilidad por error de medida.  En alguna pregunta difícil, se duda entre varias opciones, y al azar se elige la mala  Variabilidad por azar, aleatoriedad.  Nos servirán para medir la variabilidad o dispersión que muestran las observaciones y nos indicarán si las observaciones están poco o muy

observaciones están poco o muy concentradas entre sí o alrededor de la medida de centro.

 Amplitud o rango: Es la diferencia entre los valores máximo y mínimo que toma la variable. Problema: no distingue diferentes situaciones, no tiene en cuenta las diferentes observaciones. Es orientativo. No da mucha información, solo el mínimo y el máximo.

 Rango intercuantílico o amplitud cuartílica: es la medida de dispersión que mide la variabilidad entre los valores que comprenden al 50% de los individuos centrales de la distribución. Se usa cuando la medida de tendencia central es la mediana. Excluye a la mayoría de los valores atípicos. Rangos que abarca la mediana. Distribución asimétrica: se necesita enseñar la media (está influenciada por valores extremos) y el rango intercuartílico

 Varianza: es la medida de dispersión que mide la variabilidad de los valores en relación a la media. INCONVENIENTES: las unidades de medidas y mayor magnitud. Se está mriando la distancia del valor obtenido y la media. Si la media de distancia es elevada quiere decir que la los valores están muy lejos de la media y que hay mucha variabilidad (valores no concentrados). Siempre hay un mínimo de variabilidad, ya que no todo el mundo contesta lo mismo. Los valores pueden estar determinados por las variables.

 Desviación típica: es la raíz cuadrada positiva de la varianza, y en consecuencia tiene las mismas unidades que la variable que describe.

 Coeficiente de variación:  Es una medad de dispersión relativa. No está influenciado por la unidad de medida utilizada y tiene en cuenta también el valor de la mea de la distribución estudiada  Cuando las distribuciones a comparar tienen distinta media, o cuando utilizan unidades de medición diferentes necesitamos un índice de dispersión relativo.  No tiene unidades. Es un %: porcentaje de variabilidad de la muestra.  Se pueden comparar valores (por ejemplo, edad y peso) para saber cuál tiene más variabilidad.

En el ejemplo en que comparábamos los pesos de los hombres y las mujeres, ¿es necesario calcular el coeficiente de variación? Si la media es la misma no hace falta. Con la desviación hay bastante. Pero si la media es diferente es necesario calcular el coeficiente de variación. Antes hemos comparado dos distribuciones de peso que tenían el mismo promedio 56 kg. Y con la desviación estándar teníamos suficiente para compararlas y decidir cuál es más dispersa.



Medidas de forma: qué forma presenta la distribución de nuestras observaciones:  Asimetría: Skewness:  Simétrica: es la que se debería tener.  Asimétrica negativa: valores bajos que mueven la media hacia la parte negativa.  Asimétrica positiva

 En ocasiones podemos encontrar distribuciones con valores anormalmente altos en uno de los extremos de la distribución. En este caso es conveniente medir el grado de asimetría.  Una distribución es simétrica si la mitad izquierda de su distribución es la imagen especular de su mitad derecha. Media y mediana coinciden. Si sólo hay una moda también coincide  Una distribución es asimétrica positiva o negativa en función de a qué lado se encuentra la cola de la distribución. La media tiende a desplazarse hacia los valores extremos (colas)

 Apuntamiento: Kurtosis:  Cómo de chata es la distribución (plana, distribuidos o concentrados)  La kurtosis nos indica el grado de apuntamiento (aplastamiento) de una distribución con respecto a la distribución normal o gaussiana....