1. Diseñar e implementar soluciones de ingenierÃa de datos escalables, eficientes y mantenibles utilizando tecnologÃas de Google Cloud, tales como:
- Cloud Dataflow / Apache Beam (procesamiento distribuido ETL/ELT)
- BigQuery (almacenamiento, warehouse y motor analÃtico)
- Cloud Storage (Data Lake)
- Dataproc (Spark administrado, cuando aplique)
- BigQuery / Data Catalog (gobernanza y catalogación)
2. Aplicar modelos de arquitectura por capas (Bronze / Silver / Gold) en un Lakehouse basado en Google Cloud
- Implementación de un Data Lake en Cloud Storage.
- Transformaciones intermedias y normalización en Dataflow / Dataproc para capa silver.
- Exposición de capas refinadas en BigQuery para capa gold orientada a analÃtica, BI y ML.
- Definición de estándares de naming, particionamiento, clustering y particionado por tiempo.
3. Automatizar ETL/ELT con enfoques modernos de data engineering
- Orquestación modular y escalable con Cloud Composer (Airflow).
- Pipelines idempotentes, reproducibles y versionados.
- Implementación de validaciones de calidad de datos (DQ) usando:
- BigQuery Assertions
- Great Expectations (si aplica)
- Cloud Composer operators
- Manejo de Slowly Changing Dimensions (SCD1/SCD2) mediante SQL en BigQuery o Dataflow.
- Integración CI/CD para despliegue de DAGs, jobs y transformaciones.
4. Garantizar datos confiables, gobernados y optimizados en costos y performance
- Optimización de costos en BigQuery mediante clustering, particionado y control de consultas.
- Optimización de Dataflow (autoscaling, tuning, fusión de etapas, ventanas y triggers).
- Seguridad y gobernanza con Dataplex, IAM y Data Catalog.
- Documentación robusta del linaje, arquitectura y flujos de datos.
- Aplicación de estándares de ingenierÃa:
- PEP8 para Python
- Buenas prácticas de SQL
- Gestión de código con Git / GitFlow
- Testing y validación automatizada