Diseño de un datamart de baja latencia orientado al análisis de transacciones en la empresa Efectivo LTDA.
| dc.description.abstract | El presente proyecto desarrolla el diseño de un datamart orientado a fortalecer la gestión, organización y análisis de la información transaccional de la empresa Efectivo LTDA. El trabajo inicia con una revisión del contexto institucional y de las limitaciones asociadas al manejo actual de los datos, identificando la necesidad de disponer de una estructura que permita integrar la información de manera organizada, confiable y accesible para los diferentes procesos de análisis del negocio. Con base en este diagnóstico, se propone un modelo conceptual sustentado en un enfoque dimensional, a través del cual se definen las entidades clave, sus relaciones y la forma en que la información podrá ser consultada de manera más eficiente. El proyecto también plantea el diseño de los procesos necesarios para la incorporación y actualización de los datos en el datamart, considerando técnicas que permiten reducir la latencia entre la generación de la información operativa y su disponibilidad para análisis. Estos procesos se describen de forma clara, destacando la lógica general de integración y la manera en que se garantiza la consistencia y calidad de los datos, sin profundizar en la implementación operativa, que no es parte del alcance del estudio. De igual manera, se establece una arquitectura de trabajo en ambientes de desarrollo, pruebas y producción, aprovechando la infraestructura tecnológica ya existente en la organización y evitando inversiones adicionales que no sean necesarias. Asimismo, se definen lineamientos y buenas prácticas que orientan la operación futura del datamart, permitiendo asegurar su estabilidad y sostenibilidad a lo largo del tiempo. En conjunto, el diseño presentado constituye una propuesta viable y alineada con las capacidades reales de la empresa, ofreciendo una base sólida para mejorar los procesos analíticos y apoyar la toma de decisiones estratégicas. | |
| dc.description.abstractenglish | This project presents the design of a data mart intended to improve how Efectivo LTDA. organizes, manages, and analyzes its transactional information. The study begins with an assessment of the company’s current data practices, identifying limitations that hinder timely and reliable access to the information needed for decision-making. In response to these challenges, a conceptual model based on a dimensional approach is proposed to clearly structure the key business entities and the relationships between them, allowing the information to be accessed in a more coherent and efficient manner. The project also describes the processes required to bring operational data into the data mart and keep it updated, emphasizing methods that help reduce delays between the moment data is generated and the moment it becomes available for analysis. These processes are explained from a practical and analytical perspective, focusing on their purpose and contribution rather than implementation details. In addition, the design includes a working architecture across development, testing, and production environments, leveraging the company’s existing infrastructure to ensure feasibility and avoid unnecessary costs. Finally, the study establishes guidelines and good practices aimed at ensuring the longterm reliability, consistency, and sustainability of the data mart. Overall, the proposed design offers a viable and context-appropriate solution that strengthens the organization’s analytical capabilities and supports more informed and strategic decision-making. | |
| dc.format.extent | 78 páginas | |
| dc.format.mimetype | application/pdf | |
| dc.language.iso | es | |
| dc.relation.references | W. H. Inmon, Building the Data Warehouse, 4.a ed. New York, NY, USA: Wiley, 2005, isbn: 978-0-7645-9944-6. | |
| dc.relation.references | R. Kimball y M. Ross, The Data Warehouse Toolkit: The Definitive Guide to Dimensional Modeling, 3.a ed. Indianapolis, IN, USA: Wiley, 2013, isbn: 978-1-118-53080-1. | |
| dc.relation.references | A. Zakiah, R. Yusuf y A. S. Prihatmanto, «The Benefits of Change Data Capture in Enhancing Data Availability in the Digital Transformation Era,» en Proceedings of the Widyatama International Conference on Engineering 2024 (WICOENG 2024), Atlantis Press, 2024, págs. 302-308. doi: 10.2991/978-94-6463-618-5_32. | |
| dc.relation.references | P. Westerman, Data Warehousing: Using the Wal-Mart Model. San Francisco, CA, USA: Morgan Kaufmann, 2001, isbn: 978-1-55860-684-5. | |
| dc.relation.references | R. M. Bruckner, B. List y J. Schiefer, «Striving towards Near Real-Time Data Integration for Data Warehouses,» en Data Warehousing and Knowledge Discovery (DaWaK 2002), Y. Kambayashi, W. Winiwarter y M. Arikawa, eds., ép. Lecture Notes in Computer Science, vol. 2454, Berlin, Heidelberg: Springer, 2002, págs. 317-326. doi: 10.1007/3- 540-46145-0_31. | |
| dc.relation.references | D. Butterstein, D. Martin, K.-U. Stolze, F. Beier, J. Zhong y L. Wang, «Replication at the Speed of Change: A Fast, Scalable Replication Solution for Near Real-Time HTAP Processing,» Proceedings of the VLDB Endowment, vol. 13, n.o 12, págs. 3245-3257, 2020. doi: 10.14778/3415478.3415548. | |
| dc.relation.references | M. Armbrust et al., «Delta Lake: High-Performance ACID Table Storage over Cloud Object Stores,» Proceedings of the VLDB Endowment, vol. 13, n.o 12, págs. 3411-3424, 2020. doi: 10.14778/3415478.3415560. | |
| dc.relation.references | M. Armbrust, A. Ghodsi, R. Xin y M. Zaharia, «Lakehouse: A New Generation of Open Platforms that Unify Data Warehousing and Advanced Analytics,» en Proceedings of CIDR, 2021. dirección: https://cidrdb.org/cidr2021/papers/cidr2021_paper17. pdf. | |
| dc.relation.references | S. K. Devineni y otros, «Designing and Scaling Real-Time Data Pipelines with Azure Data Factory and Machine Learning Models,» Journal of Scientific and Engineering Research, vol. 12, n.o 2, págs. 280-300, 2025. | |
| dc.relation.references | E. Gadimov y E. Birihanu, «Real-time suspicious detection framework for financial data streams,» International Journal of Information Technology, 2025, Online first. doi: 10. 1007/s41870-025-02529-6. | |
| dc.relation.references | C. Barreto y J. Bocanegra, «Diseño de un Datamart Académico para la Universidad de Nariño,» Repositorio Institucional Universidad de Nariño, Tesis de mtría., Universidad de Nariño, Pasto, Colombia, 2011. | |
| dc.relation.references | F. A. Pinzón, «Diseño de un Modelo y una Guía Metodológica para Implementar un Sistema de Inteligencia de Negocios en el Área de Ventas de una Empresa de Televisión por Suscripción: caso Área Ventas de textscDIRECTV Colombia,» Escuela Colombiana de Ingeniería, inf. téc., 2018, Caso de estudio en Colombia. dirección: https : / / repositorio . escuelaing . edu . co / bitstreams/27c1f350-590a-43ed-8f60a-b90ca0dcd8d3/download. | |
| dc.relation.references | K. Sathupadi, S. D. Kumar, A. Al-Makhadmeh, S. T. Bakhsh y T. Saba, «Real-Time Big Data Analytics for Secure Internet Banking,» Big Data and Cognitive Computing, vol. 9, n.o 2, pág. 24, 2025. doi: 10.3390/bdcc9020024. | |
| dc.relation.references | Microsoft Docs, Enable and Use Change Data Capture in SQL Server, https://learn. microsoft.com/en-us/sql/relational-databases/track-changes/about-changedata- capture-sql-server, 2023. | |
| dc.relation.references | M. Fragkoulis et al., «A survey on the evolution of stream processing systems,» The VLDB Journal, 2023. doi: 10.1007/s00778-023-00819-8. | |
| dc.relation.references | D. Butterstein, D. Martin, K.-U. Stolze et al., «Replication at the Speed of Change: A Fast, Scalable Replication Solution for Near Real-Time HTAP Processing,» Proc. VLDB Endowment, vol. 13, n.o 12, págs. 3245-3257, 2020. doi: 10.14778/3415478.3415548. | |
| dc.relation.references | Oracle Corporation, Oracle Autonomous Data Warehouse, https://www.oracle.com/ autonomous-database/autonomous-data-warehouse/, 2023. | |
| dc.relation.references | Microsoft Azure, What is Azure Synapse Analytics? https://learn.microsoft.com/ en-us/azure/synapse-analytics/overview, 2023. | |
| dc.relation.references | M. Armbrust, T. Das, L. Sun et al., «Delta Lake: High-Performance ACID Table Storage over Cloud Object Stores,» en Proc. VLDB Endowment, vol. 13, 2020, págs. 3411-3424. doi: 10.14778/3415478.3415560. | |
| dc.relation.references | R. Gupta, P. Kumar y S. Singh, «Benchmarking Cloud Data Warehouses: Redshift, Snowflake and BigQuery,» ACM SIGMOD Record, vol. 50, n.o 1, págs. 16-27, 2021. doi: 10.1145/3465838.3465843. | |
| dc.relation.references | H. Liu et al., «Efficient Techniques for ETL Workflow Optimization,» Proc. VLDB Endowment, vol. 7, n.o 12, págs. 1053-1064, 2014. doi: 10.14778/2732977.2732988. | |
| dc.relation.references | Microsoft Azure, What is Azure Data Factory? https://learn.microsoft.com/enus/ azure/data-factory/introduction, 2023. | |
| dc.relation.references | Apache Software Foundation, PySpark Documentation, https://spark.apache.org/ docs/latest/api/python/, 2022. | |
| dc.relation.references | A. Ngai et al., «SCARFF: A Scalable Framework for Streaming Credit Card Fraud Detection with Spark, Kafka, and Cassandra,» Proc. 3rd IEEE Intl. Conf. on Big Data, págs. 1725-1734, 2018. doi: 10.1109/BigData.2018.8622285. | |
| dc.subject | Data mart | |
| dc.subject | ETL | |
| dc.subject | CDC | |
| dc.subject | Bodega de datos | |
| dc.subject | Tiempo Real | |
| dc.subject | Baja Latencia | |
| dc.subject | Modelo dimensional | |
| dc.subject | OLAP | |
| dc.subject | Sector financiero | |
| dc.subject.keyword | Data mart | |
| dc.subject.keyword | ETL | |
| dc.subject.keyword | CDC | |
| dc.subject.keyword | Data Warehouse | |
| dc.subject.keyword | Near real time | |
| dc.subject.keyword | Dimensional model | |
| dc.subject.keyword | OLAP | |
| dc.subject.keyword | Financial sector | |
| dc.subject.lemb | Almacenes de datos - Diseño | |
| dc.subject.lemb | Inteligencia de negocios | |
| dc.subject.lemb | Datos empresariales | |
| dc.title | Diseño de un datamart de baja latencia orientado al análisis de transacciones en la empresa Efectivo LTDA. | |
| dc.type.coar | http://purl.org/coar/resource_type/c_46ec |
Archivos
Bloque original
1 - 5 de 7
Cargando...
- Nombre:
- Matriz de Requerimientos.pdf
- Tamaño:
- 137.09 KB
- Formato:
- Adobe Portable Document Format
Cargando...
- Nombre:
- Diccionario Fuentes de datos.pdf
- Tamaño:
- 168.95 KB
- Formato:
- Adobe Portable Document Format
Cargando...
- Nombre:
- Caso Prueba DIM_USUARIO.pdf Anexo.pdf
- Tamaño:
- 2.5 KB
- Formato:
- Adobe Portable Document Format
Cargando...
- Nombre:
- Caso Prueba DIM_UBICACION_PAP.pdf
- Tamaño:
- 2.51 KB
- Formato:
- Adobe Portable Document Format
Bloque de licencias
1 - 2 de 2
Cargando...
- Nombre:
- license.txt
- Tamaño:
- 3.28 KB
- Formato:
- Item-specific license agreed upon to submission
- Descripción:
Cargando...
- Nombre:
- FOR-EFE-GDB-008_AUTORIZACION_DE_PUBLICACION_DE_TESIS_O_TRABAJO_DE_GRADO_DE_FORMA_CONFIDENCIAL firmado.pdf
- Tamaño:
- 376.49 KB
- Formato:
- Adobe Portable Document Format
- Descripción:
- Carta de autorización
