Analisis de datos con R. Aplicacion Investigacion de Mercados.pdf PDF

Title Analisis de datos con R. Aplicacion Investigacion de Mercados.pdf
Author M. Mendez Suarez
Pages 44
File Size 1004.7 KB
File Type PDF
Total Downloads 736
Total Views 829

Summary

Análisis de datos con R. Una aplicación a la Investigación de Mercados Madrid 2018 Mariano Méndez Suárez Análisis de datos con R. Una aplicación a la Investigación de Mercados Técnicas descriptivas, bivariantes y multivariantes básicas 2.a Edición Corregida y ampliada Primera edición: enero 2018 © ...


Description

Análisis de datos con R. Una aplicación a la Investigación de Mercados

Madrid 2018

Mariano Méndez Suárez

Análisis de datos con R. Una aplicación a la Investigación de Mercados Técnicas descriptivas, bivariantes y multivariantes básicas 2.a Edición Corregida y ampliada

Primera edición: enero 2018

© ESIC EDITORIAL Avda. de Valdenigrales, s/n. 28223 Pozuelo de Alarcón (Madrid) Tel. 91 452 41 00 www.esic.edu/editorial © Mariano Méndez Suárez ISBN: 978-84-17129-36-1 Depósito Legal: M-128-2018 Cubierta: Gerardo Domínguez Fotocomposición y Fotomecánica: Nueva Maqueta Doña Mencía, 39 28011 Madrid Imprime: Gráficas Dehon La Morera, 23-25 28850 Torrejón de Ardoz (Madrid) Impreso en España Queda prohibida toda reproducción de la obra o partes de la misma por cualquier medio sin la preceptiva autorización previa.

Índice

PRÓLOGO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Cuestionario y datos empleados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Sobre R y RStudio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Sobre la curva de aprendizaje de R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Aplicaciones académicas y profesionales . . . . . . . . . . . . . . . . . . . . . . . . . Agradecimientos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

11 11 12 12 13 14 14

Capítulo 1. Objetivos de la investigación y pasos iniciales . . . . . . . . . . . . .

15

1.1. Objetivos de la investigación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.1.1. Estructura del cuestionario . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.1.1.1. Bloque 1: percepción sobre el supermercado . . . . . . . 1.1.1.2. Bloque 2: variables de clasificación . . . . . . . . . . . . . . . 1.2. Antes de empezar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3. Carga de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.4. Preparación de los datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.5. Representación gráfica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

17 18 18 21 22 25 26 35

Capítulo 2. Top Two Box y Net Promoter Score . . . . . . . . . . . . . . . . . . . . . . .

41

2.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2. Top Two Box (T2B) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3. Net Promoter Score (NPS) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

43 43 57

Capítulo 3. Análisis bivariante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

65

3.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2. Cálculo de las medias de las respuestas . . . . . . . . . . . . . . . . . . . . . . 3.3. Comparación similitud de las respuestas por grupos . . . . . . . . . . . .

67 68 76

8

Índice

3.3.1. ANOVA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.2. Análisis Tukey . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.3. Chi cuadrado, x2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.4. Boxplot (gráfico de caja) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.5. Ejemplo comparación similitud de respuestas . . . . . . . . . . . . 3.4. Correlación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

76 78 80 83 84 88

Capítulo 4. Análisis factorial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

93

4.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2. Análisis factorial, análisis de componentes principales . . . . . . . . . . 4.2.1. Análisis factorial y correlación . . . . . . . . . . . . . . . . . . . . . . . . . 4.3. Realización del análisis factorial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.4. Análisis factorial rotado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.5. Representación gráfica del análisis factorial . . . . . . . . . . . . . . . . . . . 4.6. Análisis individual de cada centro . . . . . . . . . . . . . . . . . . . . . . . . . . .

95 95 95 97 100 105 108

Capítulo 5. Análisis cluster o de conglomerado . . . . . . . . . . . . . . . . . . . . . .

119

5.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2. Análisis cluster o de conglomerado . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2.1. Cluster jerárquico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2.2. K means cluster . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.3. Análisis exploratorio, cluster jerárquico . . . . . . . . . . . . . . . . . . . . . . . 5.4. Análisis con K means cluster . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.5. Perfil en base a las medias de los resultados . . . . . . . . . . . . . . . . . . 5.6. Análisis gráfico de los resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.7. Mapa factorial con los grupos de cada cluster . . . . . . . . . . . . . . . . .

121 121 122 122 122 124 125 130 135

Capítulo 6. Análisis de regresión lineal múltiple . . . . . . . . . . . . . . . . . . . . .

139

6.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.2. Regresión lineal múltiple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.3. Satisfacción global . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.3.1. Análisis exploratorio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.3.2. Análisis por pasos usando el criterio de Akaike . . . . . . . . . . . 6.3.3. Importancia relativa de cada variable . . . . . . . . . . . . . . . . . . . 6.3.4. Regresión con los factores . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.4. Importe medio de la compra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.4.1. Análisis exploratorio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.4.2. Importancia relativa de cada variable . . . . . . . . . . . . . . . . . . .

141 142 142 142 145 148 150 153 153 155

BIBLIOGRAFÍA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

157

A Pilar

Prólogo

Introducción

D

espués de varios años impartiendo la asignatura de Investigación de Mercados en ESIC Business & Marketing School utilizando el software SPSS1 surgió la idea de traspasar todo el curso al software R, la estructura del curso estaba creada y la dinámica de clase también. Este proceso ha sido enriquecedor a nivel personal y académico, dado que planteaba nuevos retos y nuevas formas de afrontar las técnicas más comunes usadas en Investigación de Mercados, las cuales han conducido a nuevas formas de exponer los resultados y que permiten centrar un mayor esfuerzo en el análisis y menor en la herramienta, dada la capacidad de automatización de R. Este libro no es un libro de investigación de mercados al uso, dado que en la mayor parte de los casos solo ilustra el cómo aplicar las técnicas y no profundiza en sus fundamentos, para lo cual recomendamos las excelentes aportaciones de Grande & Abascal (2014) o Malhotra (2004). Tampoco es un libro específicamente creado para aprender R desde el principio, para lo cual recomendamos los numerosos recursos, tanto documentales como audiovisuales, que se pueden encontrar en Internet; no obstante, se ha intentado que el código que aparece en el libro se pueda entender de la forma más clara posible, aun a costa de ser redundante en algunos casos.

1

IBM Corp. IBM SPSS Statistics for Windows, Armonk, NY: IBM Corp.

12

Análisis de datos con R. Una aplicación a la Investigación de Mercados

Cuestionario y datos empleados La aplicación de las técnicas descritas en el texto se apoya en los resultados de un cuestionario diseñado y aplicado por el profesor Juan Antonio Márquez en su actividad profesional y que tan generosamente compartió y tiene como objetivo la medición de la percepción de calidad en grandes supermercados. Durante varios cursos, nuestros alumnos (a los que queremos agradecer su contribución) que cursaban la asignatura de Investigación de Mercados en ESIC Business & Marketing School, fueron los encargados de realizar la encuesta en los supermercados de tres de las grandes cadenas que operan en España. Este trabajo permitió disponer de una base de datos de 2.040 registros: Supermercado Carrefour Dia Mercadona ——————— Total

Encuestas 617 719 704 ———— 2.040

El hecho de que los alumnos realizaran la encuesta in situ tenía varios objetivos: El primero, que pudieran experimentar y conocer cómo se realiza el trabajo de campo. Por otro lado, que se familiarizaran con las preguntas del cuestionario y lo conocieran en profundidad, para que posteriormente pudieran realizar un mejor análisis. Y por último, que se sintieran partícipes de poder contribuir a crear una base de datos, con una muestra suficientemente grande, que se pudiera usar en clase para comprender las diversas técnicas cuantitativas usadas en Investigación de Mercados.

Sobre R y RStudio El programa R2 contiene por sí mismo todas capacidades de análisis estadístico y la mayoría de los métodos estadísticos más comunes, sin embargo es un entorno de trabajo poco amigable; por consiguiente, recomendamos instalar primero R y una vez instalado instalar el programa RStudio,3 que proporciona tanto un entorno de trabajo más amigable como algunos menús y capacidades y mejoras visuales que facilitan mucho el uso de R. Estos dos programas tienen una ventaja fundamental, tanto para el usuario particular como para las empresas o universidades, y es la completa gratuidad del software, 2 3

https://cran.r-project.org/ https://www.rstudio.com/

Prólogo

13

que es libre y de código abierto. Este hecho es clave especialmente en entornos universitarios (donde cada vez su penetración es mayor), dado que es un software que, aparte del ahorro económico, permite evitar la dependencia por parte del alumnado de lugares físicos, como salas de ordenadores, para poder realizar sus tareas y prácticas académicas. Aparte de la gratuidad, algunas de las principales ventajas de R son: • Es una herramienta de análisis estadístico permanentemente actualizada gracias a la contribución de una comunidad de desarrolladores a nivel mundial, mediante la incorporación de las últimas técnicas estadísticas a través de la creación de librerías, o pequeños programas que se pueden instalar dentro del entorno. • Es un software de automatización más que de programación; este hecho es clave para el avance científico dado que permite obtener resultados reproducibles y a nivel de eficacia en tiempos, puesto que una vez escrito el código se puede reutilizar. Esta capacidad de automatización permite optimizar el trabajo ya que no es necesario guardar los resultados de los análisis cada vez que los realizamos y simplemente los repetimos. • Está disponible para los tres principales sistemas operativos: Windows, (Mac) OS X y Linux, siendo totalmente compatible el intercambio de archivos. • Tiene el soporte de una gran comunidad científica a nivel internacional que comparte de una forma generosa y altruista a través de manuales, vídeos, foros, blogs, Twitter, entre otros medios, su conocimiento para aquellos que están interesados. • A un nivel más avanzado, es una especie de piedra Rosetta que traduce la formulación matemática de los artículos publicados con mayor impacto al lenguaje de la programación y que permite comprender desarrollos matemáticos complejos estudiando su código y recrearlos mediante métodos numéricos. Este hecho significa una ayuda fundamental en estudios de posgrado, especialmente los de doctorado.

Sobre la curva de aprendizaje de R El entorno R al principio puede resultar intimidante y se suele tener cierta reticencia a entrar, especialmente cuando estamos habituados y tenemos acceso a otros programas estadísticos. Es cierto, que la curva de aprendizaje es especialmente pronunciada cuando empezamos y podemos llegar a preguntarnos: ¿Por que estoy usando R?, pero pasado un tiempo el esfuerzo realizado recibe su recompensa y es cuando surge la pregunta: ¿Por qué habré estado tanto tiempo usando otras herramientas?...

14

Análisis de datos con R. Una aplicación a la Investigación de Mercados

Aplicaciones académicas y profesionales Consideramos que el manual tiene aplicación académica en cursos de grado o posgrado en asignaturas que apliquen técnicas cuantitativas a la Investigación de Mercados y donde los docentes responsables complementen el material aportado con la documentación teórica que ha de acompañar a este tipo de cursos. En este caso, la dinámica recomendada es usar toda la base de datos para explicación de cada técnica en clase y que posteriormente a los alumnos por grupos se les asigne un determinado supermercado para que repliquen la técnica específicamente para ese centro. De forma que, después de la presentación de los resultados, se consiga tener una perspectiva global sobre la percepción de los supermercados y se pueda comparar esta de forma individual para cada uno de los centros. A nivel profesional animamos a los expertos en Investigación de Mercados que quieran «dar el salto» a probar una herramienta más versátil, con una mayor capacidad gráfica y de presentación de resultados, un mayor control sobre estos y una mayor capacidad de automatización.

Agradecimientos Queremos aprovechar estas lineas para mostrar nuestro agradecimiento a la profesora M.ª Jesús Merino, por su confianza y apoyo durante estos años; a Macarena Estevez, por su generosidad y paciencia a la hora de responder algunas de mis preguntas, y al profesor Ildefonso Grande, por sus valiosas opiniones sobre el manuscrito inicial. Por otro lado, también queremos agradecer a la comunidad de usuarios de R por los fantásticos recursos disponibles en Internet, especialmente a los miembros de Stackoverflow,4 sin los que la realización de este texto habría sido imposible, y a los creadores de la librería de R: bookdown [Yihui Xie (2016)], que ha sido utilizada para poder realizar íntegramente este texto en RStudio.

Nota del autor: En los nombres de las variables y sus etiquetas de texto hemos omitido las tildes, y sustituido la ñ por la n en la base de datos proporcionada para evitar posibles conflictos con los idiomas de los sistemas operativos.

4

https://stackoverflow.com/

Capítulo 1 Objetivos de la investigación y pasos iniciales 1.1. 1.2. 1.3. 1.4. 1.5.

Objetivos de la investigación. Antes de empezar. Carga de datos. Preparación de los datos. Representación gráfica.

1.1. Objetivos de la investigación El objetivo principal de la investigación era conocer la percepción de calidad de los clientes sobre una de las grandes compañías de distribución. Este objetivo se pretendía alcanzar a partir del establecimiento de 4 subobjetivos, cada uno de ellos en base a distintas técnicas de análisis estadístico: • Conocer el perfil de los clientes en función de sus opiniones sobre el centro, que se alcanzaría a través de métodos descriptivos, tanto univariantes como bivariantes, y que serán cubiertos en los capítulos 2 y 3. • Extraer los factores más importantes para los clientes y elaborar un ranking de importancia tanto para cada factor, como para las variables clave de cada uno de ellos. Estas técnicas conocidas como análisis factorial se estudian en el capítulo 4. • Clasificar a los clientes en función de sus opiniones sobre los centros, está técnica conocida como análisis de conglomerados o cluster se estudia en el capítulo 5. • El cuarto subojetivo trataba de explicar las variables clave que afectan tanto al nivel de satisfacción con el centro como a la compra media realizada, y se tratarán a través de métodos de regresión múltiple en el capítulo 6. El hecho de comparar a tres de las grandes cadenas de distribución que operan en España: Dia, Carrefour y Mercadona, ha enriquecido enormemente estos objetivos dado que no solo se puede analizar a cada una de las cadenas individualmente, sino que, además, se pueden analizar en su conjunto obteniendo de esta forma información sobre las diferencias y similitudes de cada una de ellas.

18

Análisis de Datos con R. Una aplicación a la Investigación de Mercados

1.1.1. Estructura del cuestionario El cuestionario 5 fue diseñado para poder alcanzar los objetivos comentados mediante la creación de dos grandes bloques de preguntas: • El bloque 1 recoge varios subgrupos y se incluyen preguntas de las que se espera que las respuestas estén bien correlacionadas entre ellas (teniendo en mente el análisis factorial y de regresión). Este bloque incluye preguntas que usan una escala Likert de 1 a 10, donde 1 representa totalmente insatisfecho y 10 totalmente satisfecho, y aunque la escala es cualitativa, dado que se asocia la percepción a un valor numérico, podrá ser tratado como tal en el análisis estadístico. • En el bloque 2 se recoge información que será útil para la clasificación y comparación entre los distintos grupos. Incluye variables por intervalos, como puede ser la edad, que dado que tienen una base numérica se podrá transformar en cuantitativa mediante el cálculo de la media de los valores máximo y mínimo del intervalo. Y variables puramente cualitativas como es el género, o el estado civil. A continuación, usando como ejemplo la encuesta de Carrefour pasamos a ilustrar el cuestionario. La codificación dada a cada una de las variables se puede observar más adelante en el punto: «Preparación de los datos».

1.1.1.1. Bloque I: percepción sobre el supermercado El primer bloque, cuya codificación empieza con la letra «P», tiene que ver con la percepción sobre el supermercado y se centra en los siguientes aspectos: 1. Necesidades de comprensión. Con preguntas relacionadas con la actitud del personal del supermercado ante los clientes. P.C.1: POR FAVOR, ME GUSTARÍA QUE ME INDICASE SU NIVEL DE SATISFACCIÓN CON CARREFOUR PARA CADA UNO DE LOS SIGUIENTES ELEMENTOS RELACIONADOS CON EL SERVICIO, UTILIZANDO UNA ESCALA DE 1 A 10, DONDE 1 ES TOTALMENTE INSATISFECHO Y 10 TOTALMENTE SATISFECHO. INDIQUE SU NIVEL DE SATISFACCIÓN CON CARREFOUR RESPECTO A: La actitud educada y amable del personal de Carrefour. El nivel de atención prestado al cliente. Los empleados se muestran pendientes e interesados. 5

Para obtener más información sobre diseño de cuestionarios y escalas de medida, recomendamos Grande & Abascal (2014), pp. 191-251.

Objetivos de la investigación y pasos iniciales

19

La atención inmediata, sin hacer esperar al cliente por estar haciendo otras cosas. El reconocimiento como cliente habitual en el establecimiento al que acude normalmente. La actitud de servicio al cliente que muestran.

2. Necesidades de información y asesoramiento. Las preguntas se relacionan con el asesoramiento sobre la oferta y la información sobre la misma. P.D.1: POR FAVOR, ME GUSTARÍA QUE ME INDICASE SU NIVEL DE SATISFACCIÓN CON CARREFOUR PARA CADA UNO...


Similar Free PDFs