Análisis De Correspondencias PDF

Title Análisis De Correspondencias
Author Lidia Hernandez Pazos
Course Investigación De Mercados
Institution Universidad de Granada
Pages 6
File Size 145.7 KB
File Type PDF
Total Downloads 78
Total Views 128

Summary

Apuntes propios. Profesor Jose Angel Ibañez....


Description

Investigación de Mercados II

TEMA 4. Análisis de correspondencias. 1. INTRODUCCIÓN El análisis de correspondencias es una técnica de Interdependencia. Nos va a permitir llevar a cabo un análisis de medidas nominales. Tabla de contingencia que relaciona distintas categorías de dos variables. Los datos importantes son los que se encuentran en el interior de la tabla. La idea es conseguir representar gráficamente las diferencias que se observan a nivel matemático, convertirlas en distancias geométricas en un plano lo más simple posible. El elemento grafico (el mapa resultante) es el principal resultado. Las grandes distancias se representan en términos de incompatibilidad o poca similitud, y las distancias pequeñas al contario. En general, se trata de diseñar un modelo gráfico que represente en pocas dimensiones las diferencias entre una variable y otra, basta con que sean NOMINALES. 2. ASPECTOS BÁSICOS EJEMPLO: Tabla de frecuencias cruzadas observadas: lo que plantea la tabla son las preferencias por cada uno de los grupos. En el interior de la tabla tenemos las frecuencias conjuntas, y en las filas y columnas externas presentan las frecuencias marginales. A groso modo se puede decir que el grupo 2 tiene un comportamiento bastante repartido, frecuencias similares, mientras que el grupo 1 y el grupo 3 se decantan principalmente por una marca. No obstante, se puede avanzar en el desarrollo de este análisis matemático trabajando con porcentajes, presentarlo en frecuencias relativas con respecto al total. Podemos hacer cálculos por totales de las filas o totales de las columnas en porcentajes. Siempre hay una forma mejor que otra, y normalmente coincide con que es mejor el que viene dado por la variable, la que podría ser independiente. Añade interpretabilidad a la tabla. Deberíamos incorporarle algún contraste o análisis básico, como la Chi-cuadrado, sintetizando toda la información en un único valor, un único término, permitiéndonos determinar si existe o no relación. Las frecuencias esperadas de cada celda representan las frecuencias conjuntas en el caso en el que no existe asociación entre filas y columnas. La frecuencia esperada de cada casilla se calcula multiplicando el valor de la frecuencia marginal de la fila por la de la columna entre el total, indicando la inexistencia absoluta de asociación entre filas y columnas, representan un reparto proporcional de las filas y columnas con respecto al total de dichas filas y columnas. Si la diferencia entre los valores que teníamos (observados) y los valores que tengo ahora (esperados) es mayor, es decir, hay más diferencia entre ellos, LA ASOCIACIÓN ES MAYOR. Para cada casilla vamos a calcular Chi-cuadrado, siendo: valor observado menos valor esperado al cuadrado partido valor esperado. La suma de todo ello es la Chi-cuadrado total, ya que lo que nos interesa saber es la asociación entre toda la tabla. La chicuadrado calculada de este modo tiene 4 grados de libertad (fuentes de información, de variación), en este caso, como tenemos 3 preferencias y 3 grupos, obtenemos 2 de cada uno (q-1; p-1) ya que uno de ellos lo tomamos como referencia. Por tanto, 2 de un grupo y 2 de otro hacen 4 grados de libertad.

1

Investigación de Mercados II Un valor a la derecha deja menos de un 5%, mientras que a la izquierda deja una probabilidad de más del 5%. La probabilidad de equivocarnos rechazando Ho es 0. Cuánto más fuertes sean las asociaciones entre filas y columnas más productivo será el análisis de correspondencias. El análisis de correspondencias nos permite representar gráficamente en un eje de coordenadas, formado a partir de un número reducido de dimensiones (q-1; p-1), un conjunto de puntos representativos de las filas y las columnas de la tabla de contingencia, de modo que las distancias entre dichos puntos en el sistema de coordenadas reproduzcan lo más fielmente posible las distancias derivadas de la tabla de contingencia. La distancia fundamental es la que ocupa cada uno de los puntos con respecto al eje de coordenadas. Representa la rareza o normalidad de los puntos, cuanto más se acerca al eje de coordenadas más normal es, y presenta un comportamiento más cercano a la media. Gráficamente estamos pintando en un mapa de dos dimensiones (en medidas de distancia) las diferencias que hemos derivado de la tabla de contingencia. En un ejemplo más complejo (tabla 5x5) las columnas A Y B acumulan la mayor parte de los casos en la parte superior de la tabla, la C y F se parecen entre si pero se diferencian del resto, ya que éstas tienen la mayor parte de los datos en la parte inferior de la tabla, y la columna D los tiene más repartidos en toda la columna, siendo más parecido a la media. Por lo tanto, tenemos tres perfiles: columnas A y B, columnas C y F y columna D. El mapa resultante, la dimensión horizontal explica un 92.4% dela varianza, mientras que la vertical explica un 5.6%. La dimensión vertical esta artificialmente estirada, por lo que las distancias que se ven no son tan grandes. Si nos fijamos en el eje horizontal, vemos que el punto D está en el centro, A y B juntos en un extremo, y C y F juntos en el otro extremo. Los perfiles comunes aparecen en el centro mientras que los perfiles diferentes aparecen en los extremos. CONCEPTOS RELEVANTES: - Masa: frecuencia marginal de la categoría a la que representa. Es como llamamos a los totales de las filas y a los totales de las columnas. - Centro de gravedad: media ponderada por la masa de los perfiles de los puntos columna; media ponderada por la masa de los perfiles de los puntos fila. Se acerca a los grupos más pesados, proporcionalmente a su masa. El centro de gravedad siempre es 0, pero vamos a desarrollar una convención (vamos a hacer lo que nos dé la gana jeje xd). - Inercia: medida de dispersión de las categorías. Como se separan los casos con respecto al origen de coordenadas, con respecto al centro de gravedad (media: 0,0). A mayor inercia mayor asociación entre filas y columnas. Con respecto al ejemplo anterior, el grupo que más se acerca al centro es el grupo. Con el ejemplo que estábamos utilizando, vamos a interpretarlos conceptos anteriores, solo que ahora nuestros valores esperados son idénticos a los valores observados. Todos los valores van a estar en el mismo centro, uno sobre otro. Si a esta situación le introduzco cambios (diapositiva 24), el grupo 2 seguirá en el centro, ya que no le he 2

Investigación de Mercados II aplicado cambios, mientras que el grupo 1 se dirigirá a la izquierda y el grupo 3 hacia la derecha, ya que a estos dos si les he aplicado cambios, fuerza centrífuga. Cuando aplico fuerza centrífuga, los valores más pequeños, menos pesados, son los primeros que salen disparados, fuera del centro. Siempre se mantiene la proporcionalidad entre masas y medias. EXTRACCIÓN DE LOS FACTORES  

Matriz X Matrices de inercia de las filas y de las columnas.

A partir de ellas obtenemos la matriz X y calculamos la matriz de filas (la diagonal principal está formada por la contribución de inercia de cada casilla, y la suma de la traza es la inercia total).  

Diagonalización matriz Vf: matriz de inercia de las filas. Diagonalización matriz Vc: matriz de inercia de las columnas.

VALORES PROPIOS E INERCIA DE FACTORES EJEMPLO TABLA: Si elevamos al cuadrado el valor propio lambda obtenemos la inercia de cada dimensión. 0’2758 es la inercia total. Van a aparecer ordenadas de mayor a menor capacidad explicativa. Calculamos Chi-cuadrado = inercia x n. Nos permite contrastar si cada una de las dimensiones es significativa. Los valores 92’12 y 45’79 son significativos ya que > 9’48, por lo que son significativas. Otra tabla clave es la tabla de coordenadas de los puntos fila y columna. Con esta información se trazaría el mapa, interpretándolo en los términos anteriores (distancia del centro y de los putos entre sí). Otra información adicional con la que vamos a trabajar: a partir de los valores métricos numéricos asignarle una etiqueta. Para cada unto vamos a obtener la inercia relativa de cada punto, es decir, cuanta inercia es debida a cada punto sobre un total 1 (100%). También nos va a dar un análisis de calidad, es decir, la capacidad de la solución final de representar cada uno de los puntos. En este caso la probabilidad es de 1, ya que las estamos utilizando todas.  

Contribuciones absolutas suman 1 para el conjunto de los puntos fila y puntos columna: del total de inercia explicado cuanto es inducido por cada punto. Contribuciones relativas: el total es para el conjunto de las dimensiones. La inercia inducida por el grupo 1 es explicada por un 89% por la dimensión 1 y por un 10% por la dimensión 2. Cuanta calidad perderíamos de cada punto si renunciásemos a una dimensión.

3. EJEMPLO 1 Procedimiento a seguir en SPSS: En SPSS hay dos formas de introducir los datos para análisis de correspondencias: el primero es el formato RAW (formato que normalmente utilizamos con tantas filas como individuos han sido analizados) y el segundo es el formato frecuencias (incorporar los datos directamente a partir de sus frecuencias; solo aparece una tabla  base de datos con solo 9 casos y 3 variables (marca, grupo y frecuencia) combinación 3x3 de las 3

Investigación de Mercados II variables que estábamos analizando y la frecuencia que corresponde a cada una de esas relaciones. Le decimos a SPSS que los datos deben ponderarse en función de la frecuencia en la pestaña DATOS  PONDERAR CASOS, introduciendo en el recuadro “en función de” la variable FRECUENCIAS). Sea cual sea el formato, el análisis de correspondencias es igual. Abrimos la base de datos ejemplo1b.sav: ANALIZAR  REDUCCIÓN DE DIMENSIONES  ANÁLISIS DE CORRESPONDENCIAS  botón derecho sobre cada una de las variables y le doy a información, donde me aparecen los distintos códigos que me muestran las distintas categorías de cada variable, y cada uno de esos niveles se corresponde con los códigos numéricos 1, 2 y 3. La variable MARCA la especificamos como columnas y definimos el rango MINIMO 1 MAXIMO 3 y le damos a ACTUALIZAR. La variable GRUPO será filas, establecemos los mismos rangos y ACTUALIZAR. En MODELO dejamos por defecto el número de dimensiones, Chi-Cuadrado, método de normalización simétrico. ESTADÍSTICOS: tabla de correspondencias, inspección de puntos fila y columna, perfiles de fila y perfiles de columna. GRÁFICOS: mapa de puntos fila y mapa de punto columna por separado, que será de interés si tenemos muchos puntos; dimensiones de gráfico: podemos pedirlas todas (si no son muchas) o especificar el número de dimensiones.  ACEPTAR Obtenemos una TABLA DE CRÉDITOS, luego una tabla de correspondencias y a partir de ahí perfiles de fila y perfiles de columna, con sus porcentajes con respecto al total 1. Mapa RESUMEN con valor propio y valor singular, Chi-Cuadrado, proporción de inercia, proporción de inercia acumulada. También podemos añadir el valor Chi-Cuadrado correspondiente a cada dimensión multiplicado la inercia por el tamaño de la muestra. La inercia es 0.27, aproximadamente 2/3, explicada por la dimensión 1, y el resto (1/3) explicado por la dimensión 2. La dimensión 1 explica más que la 2. Tabla PUNTOS DE FILA GENERALES: en la columna CONTRIBUCIÓN se nos muestra la medida de la proporción de inercia debida a cada punto que es explicada por la dimensión, en este caso dos dimensiones, y es lo que se llama calidad, que en este caso en 1. Determina que dimensión puede explicar cada grupo dela variable. Mapa PUNTOS DE FILA Y COLUMNA: lo primero que debemos hacer es buscar el punto 0,0 para así poder ver las distancias de los grupos, e interpretar tanto en términos de distancia como en términos de agrupación.

EJEMPLO PULEVA (DIAPOSITIVAS) Relación entre la procedencia de la leche y la preferencia por la marca. Se entrevistaron a unas 900 personas de distintas zonas de España, y se describió que eligieran una de las 6 marcas que se proponían, donde 3 eran marcas conocidas, de prestigio, y otras 3 no tan conocidas. Resultados: en Cádiz predominaba la marca Puleva, seguida de la marca Covap. En Valladolid Lauki, y en Vigo Pascual. ¿Es posible representar esas preferencias en un mapa? El máximo número es 2.

4

Investigación de Mercados II En la base de datos ejemplos2 (leche-ciudad) empezamos ponderando los datos, al tratarse de una base de datos en formato frecuencias, y procedemos a realizar el ANÁLISIS DE CORRESPONDENCIAS, donde en definir rango de filas ponemos en VALOR MÍNIMO 1 y en VALOR MÁXIMO 6 (variable MARCA) y en el rango columnas ponemos en VALOR MÍNIMO 1 y en VALOR MÁXIMO 3 (variable CIUDAD), resto de comandos como en el caso anterior. Una masa mayor significaría que han sido las marcas más elegidas, siendo la más preferida PASCUAL y COVAP la menos preferida. Tabla RESUMEN: la primera dimensión explica un 64% y la segunda un 35%. Las dos dimensiones explican el 100% de la información. Fuerte preferencia  fuerte inercia; a mayor inercia, menos repartido Valores de contribución absoluta y relativa: observamos que dimensión necesitaría cada marca. MAPA PUNTOS DE FILA Y COLUMNA SIMÉTRICO NORMALIZACIÓN: buscamos el punto 0,0 (centro de gravedad). Empezamos por la marcas: RAM está justo encima, el más cercano de todos PASCUAL y el más lejano LAUKI. Disposición en aspas: tomo como referencia el centro y trazo una línea que lo una con las distintas ciudades, todo lo que aparezca en esa línea está asociado, todo lo que aparezca en la misma dimensión, en la misma aspa, en torno a ella. El programa lo que hace es exagerar esa vinculación mostrándolos sobre un mismo eje. El estadístico Chi-Cuadrado: valor de 471 y significación 0.

ESTUDIO ALTENARTIVO (LECHE-RENTA) Relacionamos renta y marca preferida. La renta viene expresada en pesetas, donde tenemos un grupo de NO SABE/NO CONTESTA, siendo más de 150 individuos los que eligieron está opción. Se puede, o bien imputar los datos, o deducir, a través de las preferencias de cada individuo, cual podría ser su renta. DATOS  PONDERAR CASOS  FRECUENCIA. ANALIZAR  REDUCCIÓN DE DIMENSIONES  ANÁLISIS DE CORRESPONDENCIAS: establecemos rangos para marcas (1-6) y para renta (1-7) y actualizamos. MODELOS, ESTADÍSTICOS Y GRÁFICOS lo de siempre  ACEPTAR. TABLA DE CORRESPONDENCIAS: las preferencias no deben cambiar. PERFILES DE FILA Y COLUMNA: idénticos a los anteriores, a excepción de los perfiles columna que son los que sí han cambiado. RESUMEN: 5 dimensiones. Para una inercia total 0’05: la primera dimensión explica un 65%, la segunda un 19%, la tercera un 10% y las restantes apenas explican, por lo que es conveniente elegir entre 2 o 3 dimensiones. Por marcas, las calidades son altas para PULEVA PASCUAL COVAP Y LAUKI pero no para RAM y LEYVA, lo que nos indica que la tercera dimensión es necesaria. Cambiamos las dimensiones del modelo de 2 a 3.

5

Investigación de Mercados II OBTENEMOS NUEVOS RESULTADOS: el 95% de la información total es explicada por las tres primeras dimensiones. Los niveles de calidad han mejorado, son suficientemente altos. Ahora debemos observar cómo se combinan:  Mapa principal (dimensión 1 contra dimensión 2): origen de coordenadas, y vemos como de lejos o cerca están los puntos. No hay mucha interpretabilidad, por lo que no siempre vale la misma regla de interpretación. Si llevo hasta el eje principal las coordenadas de los puntos de la renta, pasamos desde muy baja hasta alta y muy alta, por lo que los puntos aparecen ordenados en orden ascendente, quedando el NO SABE/NO CONTESTA más alejado. Por lo tanto, podemos establecer una distribución en el mapa de +RENTA y –RENTA. En cuanto a las marcas, COVAP y PULEVA se asocian a una renta baja, PASCUAL Y LAUKI a una renta más altas, etc. Obtenemos ordenaciones significativas. Teneos un caso de asociación ESPÚREA, una asociación que no es cierta entre renta y marca. También hay una vinculación que sí parece cierta entre renta y ciudad. OTRO EJEMPLO (BANCOS-ATRIBUTOS) A que sociedad financiera asociaba cada individuo unos determinados atributos en términos favorables y positivos para el cliente.  HACER MAPAS DE CORREPSONDECIAS PARA VISUALIZAR UN MAPA DATOS  PONDERAR CASOS  FRECUENCIA  ACEPTAR ANALIZAR  REDUCCIÓN DE DIMENSIONES  ANÁLISIS DE CORRESPONDENCIAS  Fila rango 1-11, columnas rango 1-8  ACTUALIZAR; MODELO: pedimos dos dimensiones. El resto todo como está.  ACEPTAR Hemos preguntado 2000 veces a 2000 personas los atributos. La muestra no es 22000, sino el total de veces que se ha preguntado a los 2000 individuos. Chi-Cuadrado: significación 0: hay significación. Cada entidad está significativamente diferenciada de las otras en base a unos determinados atributos. Con dos dimensiones, la calidad no llega al nivel en cuanto a atributos y marca, por lo que replicamos el análisis y pedimos 3 dimensiones. Sigue saliendo algunos porcentajes bajos, pero nos quedaríamos aquí, ya que solo hay un atributo y una marca que no están muy bien interpretados.

6...


Similar Free PDFs