Diseño de una arquitectura lakehouse empresarial integrando modelado relacional y bases vectoriales para soportar analítica avanzada e IA generativa
Archivos
Fecha
Fecha
Director de trabajo de grado
Título de la revista
ISSN de la revista
Título del volumen
Editor
Seleccione un documento PDF para visualizar
Resumen
Las organizaciones actuales producen y consumen información en múltiples formatos: bases relacionales, documentos, archivos semiestructurados, sistemas transaccionales, fuentes externas, registros de interacción y repositorios institucionales. Esta diversidad ha ampliado las posibilidades de análisis, pero también ha incrementado la fragmentación de la información. En especial, las organizaciones colombianas suelen operar con sistemas contables, facturación electrónica, nómina, POS, CRM, gestión documental, fuentes tributarias y datos externos que no siempre se integran bajo una misma arquitectura de datos. En este contexto, la inteligencia artificial generativa introduce una exigencia adicional: no basta con recuperar información, también es necesario conocer su origen, su versión, sus permisos, su vigencia y la evidencia que sustenta cada respuesta. Los enfoques basados en Retrieval-Augmented Generation (RAG), embeddings y bases vectoriales permiten conectar modelos de lenguaje con conocimiento empresarial, pero su adopción aislada puede generar nuevos silos si no se articula con gobierno, linaje, evaluación y modelos de datos consistentes. Este trabajo propone el diseño de una arquitectura lakehouse empresarial que integra modelado relacional, almacenamiento analítico y bases vectoriales para soportar analítica avanzada e inteligencia artificial generativa. La propuesta conserva la precisión del modelo relacional, incorpora la flexibilidad del lakehouse y añade una capa semántica orientada a búsqueda híbrida, trazabilidad documental, generación aumentada por recuperación y evaluación de respuestas. La investigación desarrolla la propuesta a partir de la descripción del problema, la formulación de objetivos, la definición de requerimientos, la revisión del estado del arte, la construcción del marco teórico y el diseño metodológico de la arquitectura. Como resultado, se plantea una arquitectura de referencia adaptable a organizaciones con sistemas heterogéneos, acompañada de vistas arquitectónicas, criterios de validación, discusión de cumplimiento de objetivos, plan de implementación ágil tipo Scrum y presupuesto estimado para el planteamiento y el piloto. El aporte central consiste en mostrar que la IA generativa empresarial no debe entenderse como una aplicación aislada, sino como una capacidad que depende de una infraestructura de datos gobernada, trazable y evaluable. La arquitectura propuesta articula fuentes, documentos, fragmentos, embeddings, consultas, respuestas, citas, métricas y políticas de seguridad dentro de un mismo ciclo de gestión de información.
