Tema 4 Análisis de Datos PDF

Title Tema 4 Análisis de Datos
Author Eva Lucía Cohen Losada
Course Introduccion al Analisis de Datos
Institution Universidad de Málaga
Pages 3
File Size 115.1 KB
File Type PDF
Total Downloads 4
Total Views 140

Summary

Tema 4 Análisis de Datos...


Description

TEMA 4: ANÁLISIS DE CONGLOMERADOS (CLUSTERS) Los métodos del análisis Cluster son: 1. Jerárquico: Es más descriptivo y para pocas observaciones (100-200 como mucho). Sus etapas son: -

Definir la métrica (distancias) Criterio de aglomeración Seleccionar el número de cluster Interpretar el cluster (etiquetar) Validar

Hay que hacer la matriz de correlación. Si hay alguna que no tiene correlación con ninguna variable, se podría quitar. Las que salen en rojo están correlacionadas. Statgraphics Matriz de correlación: Describir  Datos numéricos  Análisis Multivariado  Datos: Todas las variables menos las de las observaciones  Código de puntos: Nombre de las observaciones Statgraphics Análisis de Conglomerados (Cluster): Describir  Métodos Multivariados  Análisis de Conglomerados  Datos: Las variables correlacionadas  Etiqueta de puntos: Variable de las observaciones (normalmente la primera)  Método: Ward (Normalmente)  Métrica de distancia: Euclideana Cuadrada  Conglomerado: Observaciones  Número de conglomerados: 1  Tabla de Componentes En Statgraphics primero se hace con un conglomerado. Nos vamos al dendograma y le damos a click derecho y seleccionamos “Localizar”. Aparecerá una línea horizontal roja. El número de líneas verticales con las que corte será el número de conglomerados que habrá que poner (hay que darle al botón que está justo a la izquierda de TGTG). El criterio para seleccionar el número de clusters final es no permitir distancias de aglomeraciones muy elevadas (mínimo 2 clusters).

El análisis es difícil cuando hay casos atípicos, por lo que es recomendable comprobar si existen, y si existen, eliminarlos. Si aparecen se quedan aislados formando conglomerados con un solo miembro, conocidos como Singleton. En “Análisis de Conglomerados” tenemos lo siguiente: - Resumen de Conglomeración: Nos dice el número de conglomerados que se han hecho y cuántos miembros tiene cada conglomerado. - Centroides: Muestra los valores de cada conglomerado en todas las variables analizadas. Hay que comentar las características de cada cluster según los resultados (etiquetar). Ejemplo ciudades: El cluster 1 se corresponde con las ciudades menos prosperas y el cluster 2 con las ciudades más prosperas. En “Tabla de Miembros” (tabla de componentes) podemos observar a qué conglomerado corresponde cada observación.

2. No jerárquico: K-medias (K-means) Es dirigido, se decide el número de clusters y de semillas (seeds), que son el centro inicial de cada cluster, es decir, el perfil de cada cluster. Sus etapas son: -

Decidir el número de clusters y semillas Recalcular el centro del cluster

Para hacerlo en Statgraphics primero hay que hacer el jerárquico, y una vez hecho, hay que darle al botón que está justo a la izquierda de TGTG, y en método tenemos que seleccionar “k-medias”. Antes de darle a “Aceptar” hay que darle a “Semillas”, que está justo debajo de “Cancelar”. Solo dejará escribir tantos números de filas como número de conglomerados haya. En cada una se pondrá el número de “Fila” según la observación que queramos (todo esto mirando la tabla de “Tabla de Miembros”). Ejemplo ciudades:

Como Nueva York es la primera (1) y San Francisco la séptima (7), en Número de Fila 1 pongo 1 y en Número de Fila 2 pongo 7 (Nueva York y San Francisco porque yo he querido). El resto es igual que en el jerárquico (interpretación)....


Similar Free PDFs