Diagrama completo del proceso ETL de datos implementado en el proyecto.
Dataset original almacenado en MongoDB. Haz clic en la imagen para acceder al dataset.
Diseño de la base de datos relacional resultante basado en un modelado dimensional (Kimball) , incluyendo el diagrama entidad-relación y las relaciones entre tablas implementadas para optimizar las consultas OLAP y mantener la integridad de los datos.
Implementación del proceso ETL dividido en módulos especializados:
Ejemplos de consultas implementadas para extraer insights de los datos transformados:
Accede al repositorio completo del proyecto en GitHub:
Este proyecto ETL fue desarrollado sin el uso de herramientas especializadas de orquestación como Apache Airflow, Luigi o Prefect, ni librerías ETL de alto nivel como Bonobo o Petl. Con la intención de mantener la simplicidad del flujo para enfocarse en la lógica de transformación, manipulación de datos con Python puro (pandas) y su posterior carga en una base de datos relacional (SQLite)