CompletadoProyecto Profesional

Azure Data Pipeline — Coca-Cola

Pipeline end-to-end de datos para empresa global de bebidas en Microsoft Azure

Azure Data FactoryAzure Synapse AnalyticsPySparkScalaSQL ServerAzure Blob StorageAzure Data Lake Gen2DatabricksPower BIPython

Descripción General

Proyecto internacional de Data Engineering desarrollado en Capgemini para The Coca-Cola Company, en un entorno 100% en inglés con metodología Scrum. El proyecto consistió en el diseño e implementación completa de un pipeline de datos en Microsoft Azure, cubriendo todo el ciclo desde la toma de requisitos hasta el despliegue en producción: Ingesta y almacenamiento: - Ingesta mensual y semanal de datos semi-estructurados desde distintas fuentes hacia Azure Blob Storage y Azure Data Lake Gen2. - Gestión de particionado y organización de datos en el data lake por entidad y período. Procesamiento y transformación: - Desarrollo de notebooks en PySpark (Azure Synapse Analytics) para transformaciones, limpieza y enriquecimiento de datos. - Carga incremental optimizada en SQL Server siguiendo el esquema de hechos y dimensiones diseñado. - Uso de Azure Databricks para transformaciones adicionales e integración como cómputo en Data Factory. Orquestación: - Diseño completo de pipelines en Azure Data Factory con parametrización avanzada, Linked Services y Datasets reutilizables. - Gestión de triggers programados, control de dependencias, manejo de errores y alertas automáticas. - Pipeline paralelo desarrollado end-to-end de forma independiente, validado contra el sistema existente con tablas de facts y views de grandes dimensiones. Calidad del dato: - Implementación de validaciones automáticas: nulos, duplicados, rangos numéricos e integridad referencial. - Bloqueo automático del pipeline ante errores de calidad con notificación al equipo. Optimización: - Automatización de migración de datos históricos a tier Cool/Cold para reducción de costes de almacenamiento.

Características Principales

  • Pipeline end-to-end diseñado e implementado de forma independiente en Azure
  • Orquestación completa con Azure Data Factory: triggers, control de errores y alertas
  • Procesamiento PySpark en Azure Synapse con carga incremental en SQL Server
  • Validaciones de calidad automáticas con bloqueo ante errores
  • Modelo analítico basado en esquema de hechos y dimensiones
  • Ingesta de datos para The Coca-Cola Company en entorno internacional inglés
  • Optimización de costes mediante migración automática a Cold Storage

Tipo

Proyecto Profesional

Periodo

2024-01 – 2025-04

Galería

Arquitectura Azure del Pipeline
01
Arquitectura Azure del PipelineDiagrama de arquitectura completa: ingesta con Azure Data Factory (Auto Loader) y Azure Event Hubs, procesamiento en Azure Databricks con Apache Spark, y almacenamiento en capas Bronze → Silver → Gold sobre Azure Data Lake Storage con Delta Lake.
Pipeline de Orquestación en Azure Data Factory
02
Pipeline de Orquestación en Azure Data FactoryPipeline en Azure Data Factory orquestando múltiples fuentes de datos (SAP, Salesforce, POS SQL, Clickstream). Incluye actividades Copy Data parametrizadas, preparación con Power Query, análisis con Data Flow, y actividad de notificación automática por email ante fallos.
Dashboard Power BI — District Monthly
03
Dashboard Power BI — District MonthlyDashboard mensual en Power BI para visualización de datos de ventas por distrito. Incluye KPIs de managers, gráficos de barras de tendencia mensual, líneas de evolución y scatter plot para análisis de correlaciones. Desarrollado como soporte puntual al equipo de Data Storytelling.
Modelo Analítico en Azure SQL Database
04
Modelo Analítico en Azure SQL DatabaseGestión del modelo analítico en Azure SQL Database vía SQL Server Management Studio. El esquema incluye stored procedures para transformaciones, vistas de hechos y dimensiones, y lógica de carga incremental validada contra tablas de gran volumen.