Obligatorio Analitica de negocios y Big data PDF

Title	Obligatorio Analitica de negocios y Big data
Course	Analítica de negocios y big data
Institution	Universidad ORT Uruguay
Pages	39
File Size	2.2 MB
File Type	PDF
Total Downloads	402
Total Views	679

Preview

CLICK TO PREVIEW PDF

Summary

TRABAJO OBLIGATORIOANALÍTICA DE NEGOCIOS Y BIG DATADocente: Rafael MosteiroTrabajo realizado por Sol Boutmy, Sebastián Gómez Platero y AgustinaLasowskiSebastián Gómez Platero, Agustina Lasowski y Sol Boutmy¿Es posible elaborar un modelo que sirva para predecir cuándo hay un incumplimiento (default) ...

Description

TRABAJO OBLIGATORIO

ANALÍTICA DE NEGOCIOS Y BIG DATA Docente: Rafael Mosteiro

Trabajo realizado por Sol Boutmy, Sebastián Gómez Platero y Agustina Lasowski

Obligatorio Analítica de negocios y Big data Sebastián Gómez Platero, Agustina Lasowski y Sol Boutmy

Índice

PARTE 1 ¿Es posible elaborar un modelo que sirva para predecir el Importe? Análisis Descriptivo de las variables:

2

Análisis de Correlación de las variables continuas:

3

Gráficos de Dispersión de la variable dependiente con otras variables y sus respectivas rectas de regresión simple. 4 Histogramas

5

Gráficos de Caja

6

Tablas de Frecuencia

8

Regresión Lineal:

9

Análisis del árbol de regresión

12

Análisis de bondad de ajuste del modelo de regresión lineal múltiple

16

Análisis de la bondad de ajuste para el árbol de regresión

18

Conclusión de los resultados y selección del mejor modelo

19

PARTE 2 ¿Es posible elaborar un modelo que sirva para predecir cuándo hay un incumplimiento (default) en el próximo mes?

Gráficos de Caja

20

Tablas de Frecuencias

21

Regresión Logística

21

Árbol de Clasificación

24

Análisis de bondad de ajuste de ambos modelos

27

Matriz de confusión para la base test

28

Conclusión sobre los resultados y selección del mejor modelo

30

ANEXO

32

1

Obligatorio Analítica de negocios y Big data Sebastián Gómez Platero, Agustina Lasowski y Sol Boutmy

PARTE 1

1. ¿Es posible elaborar un modelo que sirva para predecir el Importe? Análisis Descriptivo de las variables: La siguiente base de datos cuenta con 9 variables de 16.444 préstamos personales. Estas variables son: ● ● ● ● ● ● ● ● ●

ID: Identificador único de las observaciones. Ingreso: Ingreso del titular del préstamo. Disponible: Línea de crédito disponible luego de efectuado el préstamo. Importe: Importe en pesos uruguayos del préstamo otorgado. Sexo: 1-Hombre y 2-Mujer. Educación: Máximo nivel de estudios 1-Universidad, 2-Secundaria, 3-Primaria, 4-Otra. Estado Civil: 1-Casado/Unión libre, 2-Soltero/Divorciado/Viudo. Edad: Edad al momento de sacar el préstamo. Default: Incumplimiento en el próximo mes 1-Default y 0-No default.

De estas 9 variables, sólo hay 4 variables cuantitativas: “Ingreso”, “Disponible”, “Importe” y “Edad”. Para el análisis descriptivo decidimos eliminar a las variables “Sexo”, “Educación”, “ID”, “Estado Civil” y “Default”. Tabla 1: Medidas descriptivas para variables cuantitativas

A partir del summary en RStudio, las variables muestran que: ●

Ingreso ○ El rango fue de 4,75 a 87.611,89. ○ El primer cuartil fue de 21.149,21, lo que significa que al menos un 25% de los clientes tienen un ingreso menor o igual a 21.149,21. ○ El ingreso promedio fue de 30.930,42 ○ El tercer cuartil fue de 39.874,13, lo cual expone que al menos un 75% de los clientes tienen un ingreso menor o igual a 39.874,13.

2

Obligatorio Analítica de negocios y Big data Sebastián Gómez Platero, Agustina Lasowski y Sol Boutmy

●

Disponible ○ El rango fue de 5.000 a 113.000. ○ El primer cuartil fue de 51.000, lo que significa que al menos un 25% de los clientes tienen un disponible menor o igual a 51.000. ○ El disponible promedio fue de 60.748. ○ El tercer cuartil fue de 70.000, lo cual expone que al menos un 75% de los clientes tienen un disponible menor o igual a 70.000.

●

Importe ○ El rango fue de 1.000 a 95.000. ○ El primer cuartil fue de 29, lo que significa que al menos un 25% de los clientes tienen una edad menor o igual a 29. ○ El importe promedio fue de 30.332. ○ El tercer cuartil fue de 39.000, lo cual expone que al menos un 75% de los clientes tienen un importe menor o igual a 39.000.

●

Edad ○ El rango fue de 21 a 79. ○ El primer cuartil fue de 20.000, lo que significa que al menos un 25% de los clientes tienen un importe menor o igual a 20.000. ○ La edad promedio fue de 35,16. ○ El tercer cuartil fue de 40, lo cual expone que al menos un 75% de los clientes tienen una edad menor o igual a 40.

Análisis de Correlación de las variables continuas: Tabla 2: Matriz de correlación de las variables.

La tabla presentada demuestra que hay una fuerte correlación lineal positiva entre “Importe” e “Ingreso”. (r = 0.8319). Se observa también una alta correlación pero de signo negativo entre el “Importe” y la variable “Disponible”. (r = -0.6977). Se observa, además, una baja correlación positiva entre importe y edad (r = 0.1495). De esta matriz, confirmamos lo expuesto a partir del gráfico 4. Se observaron bajas correlaciones entre las variables que usaremos como regresoras (Xs), lo cual indicaría que no estaríamos en presencia de multicolinealidad en el modelo de regresión. Esto lo verificaremos posteriormente calculando el VIF.

3

Obligatorio Analítica de negocios y Big data Sebastián Gómez Platero, Agustina Lasowski y Sol Boutmy

Gráficos de Dispersión de la variable dependiente con otras variables y sus respectivas rectas de regresión simple. Gráfico 1: Diagramas de dispersión con rectas de regresión.

De este gráfico entendemos que hay una relación directa y fuerte entre “Ingreso” e “Importe”. A su vez, hay una relación indirecta fuerte entre “Importe” y “Disponible”. Por último, se observa una débil relación positiva entre el “Ingreso” y la “Edad”. Esto lo verificaremos posteriormente con la matriz de correlación.

4

Obligatorio Analítica de negocios y Big data Sebastián Gómez Platero, Agustina Lasowski y Sol Boutmy

Histogramas Gráfico 2: Distribución de “Ingresos”, “Disponible”, “Edad” e “Importe” para los clientes de la muestra.

Las variables “Ingresos” y “Edad” muestran una asimetría derecha o positiva. Por otro lado, la variable “Disponible” muestra claramente una simetría media. La variable “Importe” es la predicha, por eso tiene otro color, pero, al igual que las primeras mencionadas, muestra también una simetría derecha o positiva.

5

Obligatorio Analítica de negocios y Big data Sebastián Gómez Platero, Agustina Lasowski y Sol Boutmy

Gráficos de Caja Gráfico 3: Diagramas de caja para las variables “Ingresos”, “Disponible”, “Edad” e “Importe”.

Se observan datos atípicos en todas las variables. En el caso de “Disponible” se observan datos atípicos altos y bajos.

6

Obligatorio Analítica de negocios y Big data Sebastián Gómez Platero, Agustina Lasowski y Sol Boutmy

Gráfico 4: Gráfico de Caja entre variable Importe y variables cualitativas

En este gráfico se cruzaron las variables cualitativas “Sexo”, “Educación” y “Estado Civil” con la variable a predecir, el “Importe''. Para predecir el importe, la variable más relevante parece ser la “Educación”. Las variables “Sexo” y “Estado Civil” parecen no tener un impacto sobre el importe, mientras que educacion tiene un impacto muy fuerte que explica mejor a la variable. Además observamos que los clientes que tienen un nivel de Educación 1 (Universitario) tienden a tener un mayor importe que el resto.

7

Obligatorio Analítica de negocios y Big data Sebastián Gómez Platero, Agustina Lasowski y Sol Boutmy

Tablas de Frecuencia Tabla 3: Frecuencia Absoluta y Relativa de Clientes según “Sexo”.

A partir de la tabla entendemos claramente que prevalece el género femenino entre los clientes. Se muestra que hay un 61,3% de clientas mujeres, mientras que hay tan solo 38,7% de clientes hombres. Tabla 4: Frecuencia Absoluta y Relativa de Clientes según “Educación”.

Los clientes son mayormente universitarios. Estos forman parte del 64,5% de los clientes. Los restantes 35,6%, los conforman quienes tienen estudios secundarios (32,7%), primarios (2,6%) y otros (0,3%). Tabla 5: Frecuencia Absoluta y Relativa de Clientes según “Estado Civil”.

La categoría 2 (Soltero/Divorciado/Viudo) es la más prevalente, mostrando ser un 56,5% de los clientes totales, mientras que la categoría 1 (Casado/Unión libre) son la minoría, siendo un 43,5% del total de los clientes.

8

Obligatorio Analítica de negocios y Big data Sebastián Gómez Platero, Agustina Lasowski y Sol Boutmy

Regresión Lineal: Modelo de regresión lineal múltiple con todas las variables

Las variables cualitativas (“Sexo”, “Estado Civil” y “Educación”) son ingresadas como factores en el modelo de regresión. Observamos que la variable “Sexo” no resultó significativa (valor-p = 0.174; > 0.05). Realizaremos una selección automática de variables por el método de Backwards para alcanzar el modelo final.

9

Obligatorio Analítica de negocios y Big data Sebastián Gómez Platero, Agustina Lasowski y Sol Boutmy

Selección de variables por el método BACKWARD (método automático de selección de atributos)

En este método, comenzamos con todas las variables incluidas en el modelo y se van eliminando secuencialmente las no significativas. En este caso observamos que la variable “Sexo” quedo fuera del modelo. Modelo de regresión lineal múltiple con las variables finales

10

Obligatorio Analítica de negocios y Big data Sebastián Gómez Platero, Agustina Lasowski y Sol Boutmy

Modelo final: Importe = 38310 + 0,7385 * Ingreso - 0,5245 * Disponible + 50,02 * Edad - 15280 * Educación 2 - 1926 * Educación 3 - 2916 * Educación 4 - 275.6 * Estado Civil 2

Interpretación: ● El intercepto es 38310. Este es el Importe esperado cuando todas las variables se igualan a 0. En este contexto no tiene sentido la interpretación de intercepto. ●

Coeficiente de Ingresos: 0.7385 ○ Por cada peso que aumenta el ingreso del cliente, su importe aumenta en promedio 0.7385 pesos manteniendo todas las otras variables fijas.

●

Coeficiente de Disponible: -0.5245 ○ Por cada peso que aumente la variable disponible, el importe disminuye en promedio 0.05245 pesos, manteniendo las otras variables fijas.

●

Coeficiente de Edad: 50.02 ○ Por cada año de edad que aumente el cliente, su importe aumenta en promedio 50,02 pesos, manteniendo las otras variables fijas.

●

Coeficiente de Estado Civil 2 (base = 1 = “Casado/Unión libre”): -275.6 ○ En promedio el importe de un cliente con estado civil 2 (soltero, divorciado, viudo) es de 275.6 pesos menor que el de un cliente con estado civil 1 (casado, unión libre), manteniendo todo lo demás fijo.

●

Coeficiente de Educación 2 (Base = 1 = “Universidad”): -1528 ○ En promedio, el ingreso de un cliente que tiene “Educación 2” (Secundaria) es 1528 pesos menor a un cliente que tiene Educación 1 (Terciaria; nivel base), manteniendo todas las demás variables fijas. Todas se comparan con “Educación 1”.

●

Coeficiente de Educación 3 (Base = 1 = “Universidad”): -1926 ○ En promedio, el ingreso de un cliente que tiene “Educación 3” (Primaria) es 1926 pesos menor a un cliente que tiene Educación 1 (Terciaria; nivel base), manteniendo todas las demás variables fijas. Todas se comparan con “Educación 1”.

●

Coeficiente de Educación 4 (Base = 1 = “Universidad”): -2916 ○ En promedio, el ingreso de un cliente que tiene “Educación 4” (Otra) es 2916 pesos menor a un cliente que tiene Educación 1 (Terciaria; nivel base),

11

Obligatorio Analítica de negocios y Big data Sebastián Gómez Platero, Agustina Lasowski y Sol Boutmy

manteniendo todas las demás variables fijas. Todas se comparan con “Educación 1”. ●

R cuadrado ajustado: 95,73% ○ Significa que el 95,73% de la variabilidad en el importe es explicada por el modelo a través de las variables “Sexo”, “Estado Civil”, “Edad”, “Disponible”, “Ingreso”, “Importe”, y “Educacion”; teniendo en cuenta el número de variables y el tamaño de la muestra.

Se dividieron a los datos 70% train y 30% test.

Análisis de multicolinealidad del modelo final:

No se observan problemas de multicolinealidad; todos los valores VIF son pequeños (menores a 5).

Análisis del árbol de regresión Comenzamos con el árbol inicial y graficamos la performance del modelo de árbol de regresión inicial vs. la complejidad del modelo.

12

Obligatorio Analítica de negocios y Big data Sebastián Gómez Platero, Agustina Lasowski y Sol Boutmy

Gráfico 5: Gráfico de complejidad para el podado del árbol inicial

La regla del podado de árbol establece que se debe seleccionar el árbol más pequeño (de menor cantidad de nodos) cuyo nivel de error esté por debajo de 1 desvío estándar del menor error. Mirando el diagrama de complejidad notamos que el árbol con 29 nodos terminales produce el menor error dentro de un desvío estándar del mínimo. Podaremos nuestro árbol a 29 nodos terminales, usando un cp = 0.0018. Creemos que este árbol es aún muy complejo, por lo tanto decidimos podarlo nuevamente. Gráfico 6: Gráfico de complejidad del árbol podado 1

13

Obligatorio Analítica de negocios y Big data Sebastián Gómez Platero, Agustina Lasowski y Sol Boutmy

Volvimos a podar el árbol, a 19 nodos terminales con un cp = 0.0032. Gráfico 7: Gráfico de complejidad del árbol podado 2

Finalmente, lo podamos por segunda vez, obteniendo 18 nodos terminales. Esta cantidad nos parece acorde para tomar como modelo de árbol final, el cual nos dio un cp = 0.0033. Gráfico 8: Gráfico de regresión del árbol podado 3 (modelo de árbol final)

14

Obligatorio Analítica de negocios y Big data Sebastián Gómez Platero, Agustina Lasowski y Sol Boutmy

Se presenta el árbol con 18 nodos, el cual consideramos el modelo final. PROCESO = SCRIPT A continuación les mostraremos el proceso en RStudio para que se comprenda cómo hicimos para llegar a los 18 nodos terminales con un cp de 0.0033. #Arbol inicial de regresion y Grafico de Complejidad del Modelo arbol.inicial...