Resumen del proyecto
El Redshift ETL Executor de Terpli orquestaba el flujo crítico de datos que conectaba eventos de storefront, GA4, APIs REST, postMessage, Lambda/serverless, Redshift y S3. La aplicación Node.js corría como tarea ECS Fargate, ejecutando scripts SQL versionados en orden determinístico para construir capas trusted, vistas de analítica, dashboards financieros y tablas de transacciones e-commerce enriquecidas con recomendaciones, reviews, fidelidad y nombres de productos.

Desafío
Transformar datos de e-commerce heterogéneos y ruidosos en modelos confiables para analítica, manteniendo backups en S3, evitando ejecuciones concurrentes en ECS, cerrando conexiones Redshift huérfanas y permitiendo hotfixes específicos por minorista sin comprometer el pipeline principal.
Solución
Implementación de un executor batch containerizado con guarda de concurrencia vía ECS API, ejecución SQL vía Redshift Data API, etapas controladas por SCHEDULED_SERVICES, estado por statement en dfm_execution_status, alertas en Slack, backups UNLOAD hacia S3, extracción de nombres de productos y un pipeline multi-pass de deduplicación de pedidos y eventos.
Tech Stack
- Node.js
- Amazon Redshift
- Amazon S3
- AWS ECS/Fargate
- ETL
Alcance técnico
- Orquestación Node.js de scripts SQL para Redshift
- Capa trusted mv_* y dashboards vw_fact_*
- Backups UNLOAD hacia Amazon S3 con control incremental
- Hotfixes, extracción de nombres de productos y deduplicación v1-v7
