Pipeline end-to-end de datos para empresa global de bebidas en Microsoft Azure
Descripción General
Proyecto internacional de Data Engineering desarrollado en Capgemini para The Coca-Cola Company, en un entorno 100% en inglés con metodología Scrum. El proyecto consistió en el diseño e implementación completa de un pipeline de datos en Microsoft Azure, cubriendo todo el ciclo desde la toma de requisitos hasta el despliegue en producción: Ingesta y almacenamiento: - Ingesta mensual y semanal de datos semi-estructurados desde distintas fuentes hacia Azure Blob Storage y Azure Data Lake Gen2. - Gestión de particionado y organización de datos en el data lake por entidad y período. Procesamiento y transformación: - Desarrollo de notebooks en PySpark (Azure Synapse Analytics) para transformaciones, limpieza y enriquecimiento de datos. - Carga incremental optimizada en SQL Server siguiendo el esquema de hechos y dimensiones diseñado. - Uso de Azure Databricks para transformaciones adicionales e integración como cómputo en Data Factory. Orquestación: - Diseño completo de pipelines en Azure Data Factory con parametrización avanzada, Linked Services y Datasets reutilizables. - Gestión de triggers programados, control de dependencias, manejo de errores y alertas automáticas. - Pipeline paralelo desarrollado end-to-end de forma independiente, validado contra el sistema existente con tablas de facts y views de grandes dimensiones. Calidad del dato: - Implementación de validaciones automáticas: nulos, duplicados, rangos numéricos e integridad referencial. - Bloqueo automático del pipeline ante errores de calidad con notificación al equipo. Optimización: - Automatización de migración de datos históricos a tier Cool/Cold para reducción de costes de almacenamiento.
Características Principales
Tipo
Proyecto Profesional
Periodo
2024-01 – 2025-04
Galería



