Forecasting credit card attrition using machine learning models
Date
2020Author
Rico Poveda, Carlos Alvaro
Magíster en Ingeniería y Analítica de Datos
Metadata
Show full item record
Documentos PDF
Abstract
Este trabajo tiene como objetivo el estudio, aplicación e implementación de modelos Machine Learning para identificar qué clientes desean cancelar alguna de sus tarjetas de crédito. La industria bancaria utiliza esta tecnología con el fin de obtener predicciones más fiables a la hora de identificar oportunidades de compra, inversión o fraude. Estos modelos se pueden adaptar de forma independiente, por medio del reconocimiento de patrones y algoritmos basados en cálculos matemáticos.
Para desarrollar la investigación se implementaron y evaluaron cuatro modelos (LightGBM, XGBoost, Random Forest y Logistic Regression) con el fin de predecir a través de los datos del cliente y sus productos la posibilidad de que cancele sus tarjetas de crédito. Mediante una análisis de la curvas ROC usando las métricas AUC, se llegó a la conclusión que de los modelos seleccionados, el modelo elegido para realizar la predicción fue LightGBM, ya que fue el que tuvo mejor desempeño en los experimentos realizados. De igual forma, se encontró que la variable Score Acierta, una calificación del cliente proveída por la central de riesgos, es la que más discrimina en los modelos predicción.
Summary in foreign language
The objective of this work is the implementation and evaluation of Machine Learning models to identify which customers want to cancel their credit cards. The banking industry uses this technology to obtain more reliable predictions when identifying opportunities for purchase, investment, or fraud. These models can be adapted independently, by recognizing patterns and algorithms based on mathematical calculations.
Four models (LightGBM, XGBoost, Random Forest and Logistic Regression) were implemented and evaluated to predict, using data about customers and products held pertaining to a bank in Colombia, the likelihood of customers cancelling their credit cards. By analysing the ROC curves using the AUC metric, it is concluded that, of the selected models, the model chosen for deployment would be LightGBM, since it was the one that performed best in the experiments conducted. Furthermore, the ``Score Acierta'' variable, a customer rating provided by the Colombian credit rating agency, was found to be the most discriminating in prediction models.
Collections
Estadísticas Google Analytics
Comments
Respuesta Comentario Repositorio Expeditio
Gracias por tomarse el tiempo para darnos su opinión.