Aplicación de técnicas de aprendizaje automático para la segmentación y clasificación de características sociodemográficas asociadas a tasas de mortalidad infantil utilizando datos reportados por el DANE Colombia entre los años 2008 al 2017
Date
2020Author
Ortiz Velásquez, Vladimir
Advisor
Romero Álvarez, Fran Ernesto
Hashtag(s)
#AprendizajeAutomáticoMetadata
Show full item record
Documentos PDF
Abstract
Este trabajo tiene como objetivo proponer un modelo de aprendizaje automático que permita realizar la segmentación y clasificación de los sucesos de defunciones y fecundidad en Colombia a partir de la información proveniente de la estadística vital registrada en el Departamento Nacional de Estadística (DANE) que cuenta con datos recolectados a partir de los censos, certificados de medicina legal, hospitales, clínicas, puestos de salud, médicos particulares, oficinas de registro civil y notarias, asociados a nacidos vivos y defunciones a nivel territorial de Colombia. Se cuenta con varias variables importantes relacionadas a factores socioeconómicos, escolaridad, condiciones biológicas, peso de nacimiento, edad de la madre y causa de la muerte. La información usada como fuente de datos está comprendida entre los años 2008 al 2017. El desarrollo de este trabajo se hizo bajo el lineamiento de las fases de la metodología de CRISP-DM, aplicando cada una de sus tareas. Para el análisis de la información se aplicó un modelo de aprendizaje automático no supervisado, basado en algoritmos de agrupación o segmentación de datos según los patrones o tendencias identificadas en características propias o similares y de tal forma comprender y concluir la situación presentada en la mortalidad en Colombia. Se evaluó varios algoritmos de aprendizaje automático supervisados para la predicción de la clasificación de nacido vivo o no vivo. De los resultados obtenidos se generó una comparación al modelo con mejor desempeño, de acuerdo con las métricas evaluadas como la curva ROC y las tablas de confusión respectivamente. Se llegó a la conclusión que, de los modelos seleccionados en este trabajo, el modelo que obtuvo mejores resultados para realizar la predicción fue SVM (Máquinas de vectores de soporte), debido a que tuvo mejor desempeño en los experimentos realizados y mejor métrica en la predicción de los sucesos de nacido vivo o no vivo.
Palabras clave
Analítica de datosCollections
Estadísticas Google Analytics
Comments
Respuesta Comentario Repositorio Expeditio
Gracias por tomarse el tiempo para darnos su opinión.