Diego Rubio
🗄️

Proyecto ETL con Java

26-Noviembre-2024

Descripción

Este proyecto tiene como propósito implementar un proceso ETL (Extract, Transform, Load) completo, diseñado para automatizar el flujo de datos desde diversas fuentes hasta un almacén de datos centralizado. Fue desarrollado como parte de la asignatura de Bases de Datos II, con el objetivo de aplicar de forma práctica los conocimientos teóricos sobre integración y gestión eficiente de información empresarial.

El ETL fue implementado para el análisis de datos del sector tecnológico, específicamente en el negocio de aplicaciones móviles (marketplace digital), utilizando información de la plataforma Google Play Store. Se empleó un modelo de datos tipo copo de nieve para organizar métricas clave como descargas, calificaciones, reseñas y categorías de aplicaciones. Esto permitió generar reportes centralizados y análisis detallados para identificar tendencias y patrones de comportamiento en el mercado de apps.

Durante el desarrollo del proyecto, se construyó un pipeline que extrae datos crudos, los transforma mediante reglas de limpieza, normalización y estandarización, y finalmente los carga en una base de datos estructurada para su posterior análisis. El enfoque principal fue garantizar la consistencia, precisión y optimización del rendimiento durante las etapas del proceso.

Entre los logros más destacados se encuentra la implementación de consultas SQL complejas y el uso de Java para el procesamiento de datos, así como la organización modular del código que permite escalar o modificar fácilmente el flujo ETL según las necesidades de nuevos conjuntos de datos.

Este proyecto me permitió fortalecer habilidades en integración de datos, automatización de procesos y modelado de bases de datos, además de comprender la importancia de la calidad de la información en entornos empresariales y analíticos.

Tecnologías utilizadas

Java Maven JDBC Oracle sqldeveloper SQL

Enlaces