Desarrollo de un laboratorio pedagógico de procesamiento de flujos de datos usando apache kafka
View/ Open
Date
2023-01-31Author
Osorio Sánchez, Jesús David
Advisor
Galpin, I.
Metadata
Show full item record
Documentos PDF
Abstract
Los datos son elementos vitales en todo tipo de entornos, permiten desarrollar ideas, tomar decisiones de la forma adecuada buscando la finalidad que se espera. Por otro lado, permiten también despejar dudas o resolver inquietudes, y más si se están visualizando en el momento o en el mismo instante en el que obtienen.
En este trabajo se desea mostrar cómo se pueden realizar análisis de datos en tiempo real, apoyados en una plataforma en la nube, que garantiza la total disponibilidad en cualquier momento que se desee realizar este análisis.
Para cumplir con este objetivo se va a desarrollar un laboratorio práctico, utilizando la plataforma Confluent Cloud, en la cual se van a generar los tópicos, que van a almacenar los datos como son las tablas, y los tópicos que van a estar en constante actualización con datos en uso en tiempo real, que son los stream.
Durante el desarrollo de este proyecto se encontraron retos, principalmente en adquirir el conocimiento necesario para poder trabajar el lenguaje utilizado en esta plataforma, aunque su estructura es muy similar al lenguaje de consulta estructurada (SQL). Esta plataforma tiene su propio lenguaje, con algunos complementos que basan su funcionamiento en Kafka, los cuales se utilizan para realizar las consultas y el análisis de los datos que se van generando.
Por otra parte, luego de realizar las configuraciones necesarias y de realizar los ajustes para que todos los tópicos de la plataforma se poblaran con los datos que se van a analizar en el laboratorio. Se realizará un laboratorio pedagógico para proponer un estudio sobre transacciones financieras, se plantearon ejemplos de consultas, para visualizar los datos, que buscan mostrar cómo interactúan estos tópicos, y cómo estos resultados ayudan a identificar los posibles fraudes financieros en las transacciones realizadas. Por lo cual se establecieron algunos parámetros, como la ubicación geográfica del individuo que realiza la transacción, los montos que sobrepasan los promedios de gastos de un individuo, o las transacciones realizadas en ventanas horarias que no corresponden a la ubicación según la zona horaria la que se está realizando.
Summary in foreign language
Data are vital elements in all types of environments, they allow ideas to be developed, decisions to be made in the appropriate way, seeking the expected purpose. On the other hand, they also allow you to clear up doubts or resolve concerns, especially if they are being viewed at the moment or at the same moment in which they are obtained.
In this work we want to show how data analysis can be carried out in real time, supported by a cloud platform, which guarantees total availability at any time you want to perform this analysis.
To meet this objective, a practical laboratory will be developed, using the Confluent Cloud platform, in which the topics will be generated, which will store the data such as tables, and the topics will be constantly updated. with data in use in real time, which are the streams.
During the development of this project, challenges were encountered, mainly in acquiring the necessary knowledge to be able to work with the language used in this platform, although its structure is very similar to the structured query language (SQL). This platform has its own language, with some plugins that base their operation on Kafka, which are used to perform queries and analyze the data that is generated.
On the other hand, after making the necessary configurations and making the adjustments so that all the platform topics were populated with the data that will be analyzed in the laboratory. A pedagogical laboratory will be carried out to propose a study on financial transactions, examples of queries were proposed to visualize the data, which seek to show how these topics interact, and how these results help to identify possible financial fraud in the transactions carried out. Therefore, some parameters were established, such as the geographical location of the individual carrying out the transaction, the amounts that exceed the average expenses of an individual, or transactions carried out in time windows that do not correspond to the location according to the time zone in which is being carried out.
Palabras clave
Eventos; Tópico; ParticionesCollections
Comments
Respuesta Comentario Repositorio Expeditio
Gracias por tomarse el tiempo para darnos su opinión.