Proyecto ETL - Análisis de datos

Workflow ETL

Diagrama completo del proceso ETL de datos implementado en el proyecto.

Workflow ETL

Fuente de datos - MongoDB

Dataset original almacenado en MongoDB. Haz clic en la imagen para acceder al dataset.

Estructura de la base de datos relacional (warehouse)

Diseño de la base de datos relacional resultante basado en un modelado dimensional (Kimball) , incluyendo el diagrama entidad-relación y las relaciones entre tablas implementadas para optimizar las consultas OLAP y mantener la integridad de los datos.

Código Python ETL

Implementación del proceso ETL dividido en módulos especializados:

Tablas creadas por el ETL en DB Browser

Análisis Extra
El resultado final del proceso ETL se almacena en la base de datos relacional, permitiendo realizar análisis avanzados y visualizaciones de datos.

Consultas SQL y Resultados

Ejemplos de consultas implementadas para extraer insights de los datos transformados:

Consulta SQL 1
Consulta N°1: ¿Cuál es el promedio, mínimo, máximo y desviación estándar del límite de las cuentas de usuarios?
Consulta SQL 2
Consulta N°2: ¿Cuál es el usuario del cliente cuya cuenta tiene entre 10 y 20 transacciones de tipo “buy”, y que presenta el promedio de inversión más alto por operación de este tipo?
Consulta SQL 3
Coonsulta N°3: ¿Qué día de la semana se realizan más transacciones de tipo "buy"?

Código fuente

Accede al repositorio completo del proyecto en GitHub:

Este proyecto ETL fue desarrollado sin el uso de herramientas especializadas de orquestación como Apache Airflow, Luigi o Prefect, ni librerías ETL de alto nivel como Bonobo o Petl. Con la intención de mantener la simplicidad del flujo para enfocarse en la lógica de transformación, manipulación de datos con Python puro (pandas) y su posterior carga en una base de datos relacional (SQLite)