Apuntes Estadistica PDF

Title Apuntes Estadistica
Author Celia Ramos Roberto
Course Estadística
Institution Universidad de Málaga
Pages 11
File Size 871.6 KB
File Type PDF
Total Downloads 72
Total Views 182

Summary

temario de estadística básico del grado de fisioterapia. ...


Description

Mar Flores Cortés

TEMA 1: INTRODUCCIÓN La estadística es una ciencia que se ocupa de los fenómenos observables utilizando modelos, sobre todo, de tipo aleatorio (estocástico) = los resultados cambian a pesar de hacer los experimentos en las mismas condiciones. Se compone de: sistematización, recogida y presentación de datos (estadística descriptiva), deducir las leyes (probabilidad) y poder obtener conclusiones sobre una población utilizando una muestra (inferencia).

Pasos en un estudio estadístico: -

Plantear hipótesis Diseñar experimento y elegir muestras Recoger y analizar datos, inferencia Contraste de hipótesis Obtener conclusiones

Conceptos:  

Población: conjunto demasiado grande de individuos con ciertas características que definen su pertenencia al grupo, sobre el que estamos interesados en obtener conclusiones. Tamaño poblacional. Ej: toda la univ. Muestra: subconjunto de miembros seleccionados de la población. Se espera que sea representativa. Tamaño muestral. Ej: 100 personas aleatorias que estén en la universidad.

Variable: característica observable que presentan todos los individuos y que varía (todo lo que se puede medir y reducir a números). Conveniente codificarlas como números y asignarles etiquetas. Sus posibles valores se denominan modalidades y pueden agruparse en intervalos/clases, formando siempre un sistema exhaustivo (no olvidar ningún valor) y excluyente (nadie puede tener dos valores de la misma variable a la vez). Hay 2 tipos: Cualitativa: sus valores no se pueden asociar a un nº ni se pueden hacer operaciones algebraicas con ellos. -

Nominales: no se pueden ordenar, sólo dar nombre, ninguna es mejor que otra. Incluye dicotómicas: SI/NO. Ej: grupo sanguíneo. Ordinales: siguen un orden natural, algunas mejores que otras. Ej: nivel de felicidad.

Cuantitativa: sus valores son numéricos y tiene sentido hacer operaciones algebraicas con ellos. -

Discretas: valores enteros sin nada en medio. Ej: nº de hijos. Continua: pueden presentar valores intermedios. Ej: altura.

Se utilizan tablas de frecuencia y gráficos (equivalentes) para exponer ordenadamente la información recogida en una muestra. Tablas de frecuencia: no se pierde nada de información (o poca). Pueden ser frecuencias absolutas (nº de x), relativas (porcentaje=nº de x dividido por el total) y acumuladas (únicamente para variables ordinales y numéricas, útiles para calcular cuantiles).

7 6 5 4 3 2 1 0

Hombre

Mujer

Gráficos:  Variables cualitativas:  Barras (altura proporcional a frecuencia, también en cuantitativa discreta).  Sectores (área proporcional a frecuencia, no usar en cualitativa ordinal).  Pictograma (área proporcional a frecuencia).

 Variables cuantitativas: se hacen con los porcentajes válidos. Son diferentes dependiendo del tipo de la variable:  Discretas: barras (huecos representan los valores no posibles).  Continuas: histograma (área entre dos puntos indica frecuencia en el intervalo).

250

Recuento

200

150

100

50

20

40

60

80

Edad del encuestado

*Diagramas integrales: se hacen con el nº o porcentaje (frecuencia) acumulado. Todos los diagramas anteriores tienen su diagrama integral, que se consigue derivando a partir de la frecuencia acumulada. Indican la cantidad (frecuencia) de individuos que poseen un valor inferior o igual.

Conceptos:  

Parámetro: cantidad nº calculada sobre una población. Resumir toda la información en unos pocos números. Ej: altura media de los individuos de un país. Estadístico: igual pero en la muestra. Cuando se usa para aproximar a un parámetro se le llama estimador. La idea es que se parezca al parámetro. Ej: altura media de los individuos de una clase.

Posición:

valores que dividen a la variable en una serie de partes iguales (cuantiles, percentiles, cuartiles, deciles, …).  Percentil: un valor de la variable sobre 100 que deja por debajo a ese valor %. Percentil 50 = mediana.  Cuantil: si es sobre 1. Ej: cuantil 0,7 = percentil 70.  Cuartiles: dividen a la muestra en 4 grupos con frecuencias similares: 1/4 - 4/4. Ej: primer cuartil = percentil 25 = cuantil 0,25

15 10 0

5

frecuencia

20

Percentiles 25 y 75

150

160

170

180

190

Altura (cm) en 100 varones

0.03 0.02

P25

P50

Mín.

0.01

densidad

0.04

Diagrama de cajas de Tukey: Resumen en 5 números

0.00

Diagrama de Tukey/cajas y bigotes: resumen con 5 nº (mínimo, cuartiles (3) y máximo. La caja (zona central, entre 1º y 3º cuartil) contiene 50% de las observaciones y se llama rango intercuartílico. Los bigotes (1,5 cajas o RI) pueden no llegar hasta los extremos, en cuyo caso, las observaciones se representan con puntos.

80

90

100

110

P75 120

130

140

Velo cidad (Km/h) de 200 vehículos en autovía



Centralización: indican valores con respecto a los que los datos parecen agruparse (media, mediana y moda). 





Media: centro de gravedad, media aritmética de los valores de una variable, muy sensible a valores extremos, los datos se concentran simétricamente en el centro y sólo hay 1. Mediana: valor que divide a las observaciones raras en 2 grupos iguales y sólo hay 1. Si el grupo es par, se elige la media de los valores centrales. Conveniente con datos asimétricos. Moda: valor/valores donde la frecuencia alcanza un máximo, puede haber muchas y no se suele usar.

Dispersión: miran el grado de dispersión o variabilidad de los datos, sin





P25

P50

P75

Máx.

0.03

0.04

Mín.

0.02



25%25% 25%25%

0.01



Rango: diferencia entre observaciones extremas, sensible a valores extremos. Distancia de lo más chico a lo más grande. Rango intercuartílico: • para completar la mediana • elimina observaciones extremas. • Zona central (mitad de la gente, no rara). Distancia entre 1º y 3º cuartil. • Cuanto más concentrada este la muestra menor será el rango VARIANZA: • pone de manifiesto como de diferente son los valores de la media, es el promedio de las desviaciones, sensible a valores extremos. • Cuando son pequeños significa que hay menos dispersión en los datos. • La varianza se acerca más a la poblacional cuando la dividimos por n-1 (grados de libertad). • Su unidad es la misma que la media aritmética. • Fórmula: DESVIACIÓN TÍPICA: • Fórmula:es la raíz cuadrada de la varianza. • Ancho desde el centro hasta donde la curva cambia de convexa a cóncava. • Junto con la media, dan la distribución normal o gaussiana. A 1 DT, está el 68% de la observaciones y a 2 DT el 95%. Coeficiente de variación o variabilidad relativa: • Es el cociente de la desvianción estándar entre la mediana por 100 • Sirve para ver la dispersión que hay entre dos variables con distinta magnitud porque este no tiene unidad. • DT entre media (tamaño de la DT con respecto a la media), adimensional y utilizada para comparar variablidad entre variables. En vez de decir una desviación típica de 9 cm, digo un 10% de variación (con respecto a 90). No usar cuando la variable

Rango intercuartílico

0.00



0.05

mirar su causa. Puede ocurrir porque hay valores extremos.

Rango 150

160

170

180

190

tiene valores negativos.

Forma (asimetría y curtosis). Simetría: una distribución es simétrica si las mitades son especulares (media, mediana y si hay solo una moda, coinciden), puede haber asimetría positiva (la cola está en el lado derecho) y negativa (cola en el lado izquierdo). La media tiende a desplazarse hacia las colas. Si media y mediana son iguales o si la diferencia entre 1º y 2º cuartil = diferencia entre 2º y 3º cuartil  distribución simétrica. Apuntamiento/Curtosis: indica el grado de aplastamiento de una distribución con respecto a la distribución normal, adimensional. Puede ser platicútica (aplanada, curtosis-0), mesocúrtica (normal, curtosis=0) y leptocúrtica (apuntada, curtosis +0). Queremos que simetría y curtosis valgan 0.

TEMA 3: REGRESIÓN LINEAL La regresión consiste en la predicción de una variable basándonos en otra que conocemos, (nos centramos en las variables de tipo número con número). Las representamos en un diagrama de dispersión para saber si hay relación entre ellas y de qué tipo.

La relación puede ser: 





Incorreladas: coeficiente de Pearson=0, no existe correlación ni podemos situarnos en ningún cuadrante. Manchurrón horizontal. Relación directa: coeficiente de Pearson=1, variables en 1º y 3º cuadrante. Al dividir el valor de un punto (x/y) siempre da positivo. Gusta más que la relación inversa. Nos gusta más esta relación. Relación inversa: coeficiente de Pearson=-1. Variables en 2º y 4º cuadrante. Al dividir el valor de un punto (x/y) siempre da negativo.

Covarianza (S): entre dos variables, nos indica si el aspecto de la nube de puntos es creciente o no (es decir, si la posible relación entre las variables es directa o inversa), pero NO nos dice el grado de relación. Se coge la coordenada x, se multiplica por y, se suma todo y se mira si ganan los + o -. Puede salir: -

Directa: covarianza>0 (positivo, ascendente) Inversa: covarianza30) nos va a aparecer de manera natural la distribución normal.

Ahora veremos los mismos conceptos que en los temas 1 y 2 pero con los nombres cambiados: Variable aleatoria: función que asigna a cada suceso un número, puede ser discreta o continua. Función de probabilidad (discretas): asigna a cada valor de la variable su probabilidad (frecuencia relativa en tema 1 y diagrama de barras en el tema 2). Ej: nº de caras al lanzar 3 monedas. Función de densidad (continuas): sus valores no representan probabilidades, no lo usaremos. (frecuencia relativa en tema 1 e histograma en tema 2). Sirve para identificar la probabilidad de un intervalo con el área bajo la función de densidad. Función de distribución: asocia a cada valor de una variable, la probabilidad acumulada (porcentaje acumulado en tema 1 y diagrama integral en tema 2). Sirve para contrastar lo anómalo de una observación concreta. Se relaciona con el cuantil.

TEMA 6: MUESTREO Vamos a ampliar algunos conceptos, por ejemplo: hemos dicho que las poblaciones son grupos de individuos pero sería mejor denominarlos unidades de muestreo o unidades de estudio (personas, familias, hospitales). Conceptos: 



Población objetivo: la que se pretende estudiar, aproximamos mediante muestras que den a cada individuo la misma probabilidad de ser elegido, no es fácil esoger muestras de aquí. Ej: si llamamos por teléfono excluimos a los que no tienen. Población de estudio: el grupo que podemos estudiar realmente. Ej: los que tienen teléfono.

Fuentes de sesgo: las poblaciones (objetivo y estudio) pueden diferir en cuanto a las variables que estudiamos. Si esto sucede, diremos que las muestras elegidas están sesgadas y no son representativas de la población, dicho sesgo se llama sesgo de selección. Hay otras fuentes de error: sesgo por no respuesta, que es no responder o mentir en preguntas embarazosas. Para evitar estos errores se incorporan preguntas filtro o se usa la técnica de respuesta aleatorizada. Técnicas de respuesta aleatorizada: reducen la motivación para no responder/mentir. Se pide lanzar una moneda: -

Si sale cara  opción comprometida Si sale cruz  verdad

*Podemos hacernos una idea porcentual viendo lo que se alejan las respuestas del 50% que saldría.

Mar Flores Cortés Técnicas de muestreo: tiene como objetivo estudiar las relaciones entre la distribución de un carácter en la población y en la muestra. Las ventajas de estudiar la población a través de sus muestras son: coste más reducido, mayor rapidez y más posibilidades para el estudio. Al elegir un individuo de la población de estudio para formar muestras, podemos utilizar dos tipos de muestreo:  Muestreos probabilistas (buena): todo el mundo tiene probabilidad de salir, interesantes para usar estadística con ellos.  Muestreos no probabilistas (mala): no se conoce la probabilidad, esconden sesgos y no se pueden extrapolar los resultados a la población. Por ello, vamos a usar solo muestreos probabilistas (con la menor probabilidad de sesgo): aleatorio simple, sistemático, estratificado y por grupos.

Aleatorio simple (m.a.s):

bueno y caro. Se eligen individuos de la población de estudio con la misma probabilidad de ser elegidos, hasta alcanzar el tamaño muestral elegido. Se puede realizar partiendo de listas de individuos de la población y eligiendo aleatoriamente con un ordenador. Puede ser con reposición o sin reposición. En general, las técnicas de inferencia suponen que la muestra ha sido elegida con esta técnica, aunque en realidad se use alguna de las siguientes.

Muestreo sistemático: sólo tiene aleatorio el 1º. Se tiene una lista de individuos de la población de estudio y elegimos individuos igualmente espaciados en la lista, donde el 1º haya sido elegido al azar. CUIDADO: si en la lista existen periodicidades, tendremos una muestra sesgada. Ej: legionarios o casas en esquinas/centro.

Muestreo estratificado: Se aplica cuando sabemos que hay ciertos factores que pueden influir en el estudio y tenemos que asegurarnos de que haya una cantidad mínima de cada tipo. Se divide la población en subpoblaciones (estratos) y se realiza un m.a.s de cada estrato (100 niños y 100 niñas, quiero los dos sexos). Al extrapolar los resultados hay que tener en cuenta el tamaño relativo de la muestra con respecto a la población.

Muestreo por grupos/conglomerados: Se aplica cuando es dificil tener una lista de los individuos de la población pero sabemos que se organizan en grupos de manera natural. Se eligen varios grupos al azar y se estudian sus individuos o se sigue aplicando otro muestreo (tengo algunos pueblos sí y otros no, da igual el pueblo que salga). Al extrapolar los resultados hay que tener en cuenta el tamaño relativo de unos grupos con respecto a otros.

Estimador: cantidad nº calculada sobre una muestra y que esperamos que sea buena aproximación de la población (parámetro). Los mejores estimadores de la población son lo mismo pero en la muestra. Ej: el mejor estimador de la media en la población es la media en la muestra. Es la clave para hacer inferencia (ejemplo de teorema del límite central). Estimación puntual y por intervalos:  Estimación puntual: de un parámetro es el ofrecido por el estimador sobre una muestra.  Estimación confidencial/intervalo de confianza: si te dan un nivel de confianza 1-alfa (=95% por ejemplo, alfa=0.05%), es el intervalo que se construye con frecuencia 1-alfa y que contiene al parámetro que estás estudiando. Se llamará nivel de significación Normalmente, el tamaño del intervalo disminuye con el tamaño muestral y aumenta con 1-alfa. Nivel de significación: es la probabilidad de error, es decir, la probabilidad de no contener al parámetro, es alfa.

TEMA 7: CONTRASTE DE HIPÓTESIS Vamos a conocer el proceso para contrastar hipótesis y su relación con el método científico. Hipótesis: creencia sobre la población, sobre sus parámetros (media, varianza, proporción, porcentaje…). Si queremos contrastarla debe establecerse antes del análisis. Identificación de hipótesis:  

Nula (H0): la que contrastamos, los datos pueden refutarla y no debería ser rechazada sin una buena razón). Alternativa (H1): niega a H0 (y creemos que es mejor), los datos pueden mostrar evidencia a su favor y no debería ser aceptada sin una gran evidencia a favor).

Qué hace un científico cuando: 



Su teoría no coincide con sus predicciones: si acepto H0, el resultado del experimento sería improbable, sin embargo ocurrió. Rechazo H0. Sus predicciones eran ciertas: si acepto H0, el resultado del experimento es coherente si: - No hay evidencia contra H0 - No se rechaza H0 - El experimento no es concluyente - El contraste no es significativo

Región crítica y nivel de significación: Región crítica: resultados experimentales que rechazarían H0. Valores “improbables” si… Es conocido antes de realizar el experimento. La posición de la región crítica en la gráfica depende de la hipótesis alternativa:

Nivel de significación: probabilidad de rechazar H0 cuando es cierta. Nº pequeño (1%, 5%), fijado de antemano por el investigador (alfa). Conocido alfa sabemos todo sobre la región crítica.

Significación: es la probabilidad que tendría una región crítica que comenzase exactamente en el valor del estadístico obtenido en la muestra. La probabilidad de tener una muestra que discrepe más aún que la nuestra (H0) por azar. Es conocido después del experimento. Conocido p sabemos todo sobre el resultado del experimento.  

El contraste es significativo cuando palfa

Riesgos al contrastar hipótesis: 1. Se juzga a un individuo por la presunta comisión de un delito. 2. Se cree que un nuevo tto ofrece buenos resultados 3. Parece que hay una incidencia de enfermedad más alta de lo normal Hipótesis nula (H0): los datos pueden refutarla, la que se acepta si las pruebas no la rechazan y rechazarla por error tiene graves consecuencias (no especulativa)

Hipótesis alternativa (H1): no debería ser aceptada sin gran evidencia a favor y rechazarla por error tiene consecuencias menos graves (especulativa).

1. Es inocente 2. No tiene efecto 3. No hay nada que destacar

1. Es culpable 2. Es útil 3. Hay una situación anormal

Tipos de error al tomar una decisión y contrastar hipótesis -

Si rechazas H0 y es cierta (aceptas H1 y es falsa), has cometido un error de tipo 1. Si aceptas H0 y es falsa (rechazas H1 y es verdadera), has cometido un error de tipo 2.



Para

reducir

beta

hay

que

aumentar

el

tamaño

muestral.

Para un tamaño muestral fijo no se pueden reducir a la vez ambos tipos de error.

Conclusiones: Las hipótesis no se plantean después de obsevar datos. En ciencia, las hipótesis alternativa y nula no tienen el mismo papel: -

H0: científicamente más simple H1: el peso de la prueba recae en ella.

Alfa debe ser pequeño. Rechazar una hipótesis si p...


Similar Free PDFs