Predicción de costos de proyectos gubernamentales en Colombia
combinación de enfoques basados en regresión y minería de textos para análisis predictivos
View/ Open
Date
2024-02-01Author
García Ramírez, Luis Angel
Advisor
Galpin, Ixent.
Metadata
Show full item record
Documentos PDF
Abstract
Comprender los costos proyectados de los proyectos dentro de diversos sectores de un país es crucial para la asignación de recursos y la entrega oportuna. En Colombia, se puede acceder a datos completos de proyectos gubernamentales a través de la plataforma de datos abiertos del Gobierno Nacional. Utilizando estos conjuntos de datos del Departamento Nacional de Planeación, construimos un modelo predictivo que aprovecha el análisis de regresión para estimar los gastos asociados con las iniciativas gubernamentales.
Se evalúan múltiples modelos de regresión para determinar cuál es el más eficaz para la implementación, utilizando diversas métricas de error de evaluación. Al combinar variables descriptivas en una variable unificada, aplicamos dos técnicas de minería de texto para discernir las variables más influyentes para su integración en los modelos predictivos. Al final, el modelo Adaboost combinado con TF-IDF surgió como la combinación de modelos más precisa, mostrando un error de precisión promedio (MAPE) del 17,6%, seguido de cerca por el modelo Random Forest combinado con TF-IDF con un MAPE de 17,9%.
Summary in foreign language
Understanding the projected costs of projects within various sectors of a country is crucial for resource allocation and timely
delivery. In Colombia, comprehensive government project data is accessible through the National Government’s open data platform. Utilizing
these datasets from the National Planning Department, we construct a predictive model leveraging regression analysis to estimate the expenses associated with governmental initiatives.
Multiple regression models are evaluated to determine the most effective for deployment, using diverse evaluation error metrics. By combining descriptive variables into a unified variable, we apply two text mining techniques to discern the most influential variables for integration into the predictive models. Ultimately, the Adaboost model combined with TF-IDF emerged as the most precise combination of models, exhibiting a Mean Average Precision Error (MAPE) of 17.6%, closely followed by the Random Forest model combined with TF-IDF with a MAPE of 17.9%.
Palabras clave
Predicción de costos; Regresión; Proyectos gubernamentales; Minería de textosCollections
Comments
Respuesta Comentario Repositorio Expeditio
Gracias por tomarse el tiempo para darnos su opinión.