Aplicación de técnicas de aprendizaje automático para la segmentación y clasificación de características sociodemográficas asociadas a tasas de mortalidad infantil utilizando datos reportados por el DANE Colombia entre los años 2008 al 2017

dc.contributor.advisorRomero Álvarez, Fran Ernesto
dc.coverage.spatialColombiaspa
dc.creatorOrtiz Velásquez, Vladimir
dc.creator.degreeMagíster en Ingeniería y Analítica de Datosspa
dc.date.accessioned2021-05-03T14:14:30Z
dc.date.available2021-05-03T14:14:30Z
dc.date.created2020
dc.description.abstractEste trabajo tiene como objetivo proponer un modelo de aprendizaje automático que permita realizar la segmentación y clasificación de los sucesos de defunciones y fecundidad en Colombia a partir de la información proveniente de la estadística vital registrada en el Departamento Nacional de Estadística (DANE) que cuenta con datos recolectados a partir de los censos, certificados de medicina legal, hospitales, clínicas, puestos de salud, médicos particulares, oficinas de registro civil y notarias, asociados a nacidos vivos y defunciones a nivel territorial de Colombia. Se cuenta con varias variables importantes relacionadas a factores socioeconómicos, escolaridad, condiciones biológicas, peso de nacimiento, edad de la madre y causa de la muerte. La información usada como fuente de datos está comprendida entre los años 2008 al 2017. El desarrollo de este trabajo se hizo bajo el lineamiento de las fases de la metodología de CRISP-DM, aplicando cada una de sus tareas. Para el análisis de la información se aplicó un modelo de aprendizaje automático no supervisado, basado en algoritmos de agrupación o segmentación de datos según los patrones o tendencias identificadas en características propias o similares y de tal forma comprender y concluir la situación presentada en la mortalidad en Colombia. Se evaluó varios algoritmos de aprendizaje automático supervisados para la predicción de la clasificación de nacido vivo o no vivo. De los resultados obtenidos se generó una comparación al modelo con mejor desempeño, de acuerdo con las métricas evaluadas como la curva ROC y las tablas de confusión respectivamente. Se llegó a la conclusión que, de los modelos seleccionados en este trabajo, el modelo que obtuvo mejores resultados para realizar la predicción fue SVM (Máquinas de vectores de soporte), debido a que tuvo mejor desempeño en los experimentos realizados y mejor métrica en la predicción de los sucesos de nacido vivo o no vivo.spa
dc.description.hashtag#AprendizajeAutomáticospa
dc.format.extent80 páginasspa
dc.format.mimetypeapplication/pdfspa
dc.identifier.repourlhttp://expeditio.utadeo.edu.cospa
dc.identifier.urihttps://hdl.handle.net/20.500.12010/19171
dc.language.isospaspa
dc.publisherUniversidad de Bogotá Jorge Tadeo Lozanospa
dc.publisher.programMaestría en Ingeniería y Analítica de Datosspa
dc.relation.references“Análisis de Situación de Salud” https://www.minsalud.gov.co/sites/rid/Lists/BibliotecaDigital/RIDE/VS/ED/PSP/asis2019-colombia.pdf (accessed Oct. 19, 2020).spa
dc.relation.references“Cómo va la protección social Reporte de resultados del Sistema de Seguimiento y Evaluación de la Protección Social.” Accessed: May 26, 2019. [Online]. Available: https://www.minsalud.gov.co/Documentos y Publicaciones/BOLETIN SALUD.pdfspa
dc.relation.references“Inicio.” http://www.dane.gov.co/ (accessed May 26, 2019)spa
dc.relation.referencesM. C. de F. Jaramillo Mejía, “Situación de la mortalidad infantil en Colombia,” p. 1, 2016, Accessed: May 26, 2019. [Online]. Available: https://dialnet.unirioja.es/servlet/tesis?codigo=61135.spa
dc.relation.referencesG. A. Alonso, “Plan Nacional de Desarrollo,” 2018. Accessed: May 26, 2019. [Online]. Available: https://colaboracion.dnp.gov.co/CDT/Prensa/Bases del Plan Nacional de Desarrollo Presentaciòn Final (Fasecolda).pdfspa
dc.relation.references“Machine Learning & IoT - Proyecto E-learning. by Carlos - issuu.” https://issuu.com/carlos3472/docs/revista_final (accessed Oct. 16, 2019).spa
dc.relation.references“10 aplicaciones revolucionarias del aprendizaje automático en la cadena de suministro (1) - ecointeligencia - cambia a un estilo de vida sostenible!” https://www.ecointeligencia.com/2020/06/aprendizaje-automatico-cadena-suministro-1/ (accessed Oct. 26, 2020)spa
dc.relation.referencesB. Hladká and M. Holub, “Introduction to Machine Learning.” Accessed: Apr. 21, 2019. [Online]. Available: http://ufal.mff.cuni.cz/course/npfl054.spa
dc.relation.references“Statistical Methods and Machine Learning Algorithms for Data Scientist.” https://datafloq.com/read/statistical-methods-and-machine-learning-algorithm/6834 (accessed Oct. 26, 2020).spa
dc.relation.references“Departamento Administrativo Nacional de Estadística” http://microdatos.dane.gov.co/index.php/catalog/MICRODATOS/about_collection/22/5 (accessed Oct. 16, 2019).spa
dc.relation.referencesDennis, “BR. DENNIS IVÁN CANDIA OVIEDO MAESTRO EN INFORMÁTICA.”spa
dc.relation.references“Tipos de aprendizaje automático. La Inteligencia Artificial (IA) está en… | by Javier Luna Gonzalez | SoldAI | Medium.” https://medium.com/soldai/tipos-de-aprendizaje-automático6413e3c615e2 (accessed Oct. 26, 2020).spa
dc.relation.references“Aprendizaje automático: Qué es y por qué es importante | SAS.” https://www.sas.com/es_pe/insights/analytics/machine-learning.html (accessed Oct. 19, 2020).spa
dc.relation.references“Guía de CRISP-DM de IBM SPSS Modeler.” https://www.ibm.com/support/knowledgecenter/es/SS3RA7_sub/modeler_crispdm_ddita/ modeler_crispdm_ddita-gentopic1.html (accessed Oct. 20, 2020).spa
dc.relation.referencesA. Azevedo and M. F. Santos, “KDD, SEMMA AND CRISP-DM: A PARALLEL OVERVIEW.”spa
dc.relation.referencesF. Alberto, C. Ramos, P. Guía, R. A. Arancibia, and W. Palma Muñoz, “Clasificación automática de Tweets utilizando K-NN y K-Means como algoritmos de clasificación automática, aplicando TF-IDF y TF-RFL para las ponderaciones,” 2016.spa
dc.relation.references“K-Means: Agrupamiento con Minería de datos [Introducción].” https://estrategiastrading.com/k-means/ (accessed Oct. 20, 2020).spa
dc.relation.references“3.1. Cross-validation: evaluating estimator performance — scikit-learn 0.23.2 documentation.” https://scikit-learn.org/stable/modules/cross_validation.html (accessed Oct. 20, 2020).spa
dc.relation.references“K-means: Elbow Method and Silhouette | by Jonathan Ramirez | Medium.” https://medium.com/@jonathanrmzg/k-means-elbow-method-and-silhouettee565d7ab87aa (accessed Oct. 20, 2020).spa
dc.relation.references“Random Forest (Bosque Aleatorio): combinando árboles - IArtificial.net.” https://www.iartificial.net/random-forest-bosque-aleatorio/ (accessed Oct. 20, 2020).spa
dc.relation.referencesAdministrador, “Tesis Gisela García.”spa
dc.relation.referencesP. Larrañaga, “Tema 8. Redes Neuronales.”spa
dc.relation.references“(PDF) Tutorial sobre Máquinas de Vectores Soporte (SVM).” https://www.researchgate.net/publication/263817587_Tutorial_sobre_Maquinas_de_Vecto res_Soporte_SVM (accessed Oct. 20, 2020).spa
dc.relation.references“1.4. Support Vector Machines — scikit-learn 0.23.2 documentation.” https://scikitlearn.org/stable/modules/svm.html (accessed Oct. 20, 2020).spa
dc.relation.references“¿Qué es el cloud computing?” https://www.redhat.com/es/topics/cloud (accessed Oct. 20, 2020spa
dc.relation.references“Cloud Storage | Google Cloud.” https://cloud.google.com/storage (accessed Oct. 20, 2020)spa
dc.relation.references“BigQuery: Almacén de datos en la nube | Google Cloud.” https://cloud.google.com/bigquery?hl=es (accessed Oct. 20, 2020).spa
dc.relation.references“Las 7 ventajas principales de la computación en la nube - I CLOUD SEVEN.” https://icloudseven.com/las-7-ventajas-principales-de-la-computacion-en-la-nube/ (accessed Oct. 26, 2020).spa
dc.relation.referencesN. R. Centeno, “LA SALUD INFANTIL EN COLOMBIA: UN PROBLEMA DE INEQUIDAD CHILDREN’S HEALTH IN COLOMBIA: A PROBLEM OF INEQUALITY,” 2017. Accessed: May 24, 2019. [Online]. Available: www.sispro.gov.co.spa
dc.relation.references“Semana epidemiológica 03.” Accessed: Apr. 21, 2019. [Online]. Available: https://www.ins.gov.co/buscador-eventos/BoletinEpidemiologico/2019 Boletín epidemiológico semana 3.pdf.spa
dc.relation.referencesM. C. Jaramillo-Mejía, D. Chernichovsky, and J. J. Jiménez-Moleón, “Determinantes de la mortalidad infantil en Colombia. Path Análisis Determinants of infant mortality in Colombia. Path Analysis,” Rev. Salud Pública, vol. 20, no. 1, pp. 3–9, 2018, doi: 10.15446/rsap.V20n1.39247.spa
dc.relation.referencesE. M. Materna and Y. Neonatal, “DETERMINANTES SOCIALES DE LAS DESIGUALDADES EVIDENCIAS Y PROPUESTAS DE INTERVENCIÓN.” Accessed: May 24, 2019. [Online]. Available: https://colombia.unfpa.org/sites/default/files/pubpdf/DeterminantesSocialesMortalidadMaterna_web.pdf.spa
dc.relation.referencesA. Lucena, “ANÁLISIS COMPARATIVO ENTRE MÉTODOS ESTADÍSTICOS Y DE MINERÍA DE DATOS RESUMEN DEL PROYECTO.”spa
dc.relation.references“Nacimientos y defunciones.” https://www.dane.gov.co/index.php/estadisticas-portema/salud/nacimientos-y-defunciones (accessed Oct. 20, 2020).spa
dc.relation.references“Ficha Metodológica Proyecciones de Población y Estudios Demográficos-PPED,” 2013.spa
dc.relation.references“Herramientas para crear paneles y visualizar datos - Google Data Studio.” https://marketingplatform.google.com/intl/es/about/data-studio/ (accessed Nov. 03, 2020).spa
dc.relation.referencesA. López Pineda, “Algoritmos de balanceo de clases en problemas de clasificación binaria de conjuntos altamente desproporcionados,” Instituto Tecnológico y de Estudios Superiores de Monterrey, Dec. 2008. Accessed: Oct. 20, 2020. [Online]. Available: https://repositorio.tec.mx/handle/11285/569103.spa
dc.relation.referencesB. Aguilar Gutiérrez et al., “‘PRINCIPAL COMPONENT ANALYSIS (PCA) PARA MEJORAR LA PERFORMANCE DE APRENDIZAJE DE LOS ALGORITMOS SUPPORT VECTOR MACHINE (SVM) Y RED NEURONAL MULTICAPA (MLNN)’ Presentado por : Aprobado por.”spa
dc.relation.references“sklearn.cluster.KMeans — scikit-learn 0.23.2 documentation.” https://scikitlearn.org/stable/modules/generated/sklearn.cluster.KMeans.html (accessed Oct. 20, 2020).spa
dc.relation.references“3.2.4.3.1. sklearn.ensemble.RandomForestClassifier — scikit-learn 0.23.2 documentation.” https://scikitlearn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html (accessed Oct. 20, 2020).spa
dc.relation.references“sklearn.svm.SVR — scikit-learn 0.23.2 documentation.” https://scikitlearn.org/stable/modules/generated/sklearn.svm.SVR.html (accessed Oct. 20, 2020).spa
dc.relation.references“sklearn.neighbors.KNeighborsClassifier — scikit-learn 0.23.2 documentation.” https://scikitlearn.org/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.html (accessed Oct. 20, 2020).spa
dc.relation.references“sklearn.ensemble.AdaBoostClassifier — scikit-learn 0.23.2 documentation.” https://scikitlearn.org/stable/modules/generated/sklearn.ensemble.AdaBoostClassifier.html (accessed Oct. 20, 2020).spa
dc.relation.referencesF. Javier, J. Felipe NARVAEZ-MURILLO, and R. Ulises, “Calibración y selección del modelo de aprendizaje no supervisado K-Medias, de una encuesta sobre factores de riesgo en el consumo de drogas entre estudiantes,” 2016. Accessed: Oct. 20, 2020. [Online]. Available: www.ecorfan.org/bolivia.spa
dc.relation.references“6.3. Preprocessing data — scikit-learn 0.23.2 documentation.” https://scikitlearn.org/stable/modules/preprocessing.html (accessed Oct. 20, 2020).spa
dc.relation.referencesA. Rocío Del Valle Benavides, J. Manuel, and M. Pichardo, “Curvas ROC (ReceiverOperating-Characteristic) y sus aplicaciones.”spa
dc.relation.references“Salud y bienestar - La Agenda 2030 en Colombia - Objetivos de Desarrollo Sostenible.” https://www.ods.gov.co/es/objetivos/salud-y-bienestar (accessed Nov. 03, 2020).spa
dc.rights.accessrightsinfo:eu-repo/semantics/openAccessspa
dc.rights.localAbierto (Texto Completo)spa
dc.sourceinstname:Universidad de Bogotá Jorge Tadeo Lozanospa
dc.sourcereponame:Expeditio Repositorio Institucional UJTLspa
dc.subjectAnalítica de datosspa
dc.subject.lembBases de datosspa
dc.subject.lembEstadísticaspa
dc.titleAplicación de técnicas de aprendizaje automático para la segmentación y clasificación de características sociodemográficas asociadas a tasas de mortalidad infantil utilizando datos reportados por el DANE Colombia entre los años 2008 al 2017spa
dc.type.coarhttp://purl.org/coar/resource_type/c_bdccspa
dc.type.driverinfo:eu-repo/semantics/masterThesisspa
dc.type.hasversioninfo:eu-repo/semantics/acceptedVersionspa
dc.type.localTrabajo de grado de maestríaspa

Archivos

Bloque original

Mostrando 1 - 1 de 1
Cargando...
Miniatura
Nombre:
Aplicacion_Modelos_Aprendizaje_Automatico_Ortiz.pdf
Tamaño:
1.96 MB
Formato:
Adobe Portable Document Format
Descripción:
Ver documento

Bloque de licencias

Mostrando 1 - 2 de 2
Cargando...
Miniatura
Nombre:
license.txt
Tamaño:
2.87 KB
Formato:
Item-specific license agreed upon to submission
Descripción:
Cargando...
Miniatura
Nombre:
FOR-EFE-GDB-007_AUTORIZACION_DE_PUBLICACION_DE_TESIS_O_TRABAJO_DE_GRADO.pdf
Tamaño:
971.82 KB
Formato:
Adobe Portable Document Format
Descripción:
Ver documento