Estamos buscando a nuestro próximo Site Reliability Engineer (SRE) para ser parte del equipo de Plataforma que tenemos en el Lab Digital.
Los equipos de plataforma son equipos con roles multidisciplinarios (DevOps, SRE, QA, etc.) que trabajan de la mano con los equipos de producto, habilitándolos para tener el mejor delivery posible, con calidad, monitoreo y creando soluciones escalables.
Como SRE del equipo serás encargad@ de apoyar a los equipos de producto en la administración y uptime de sus plataformas y servicios, desarrollar paneles de monitoreo y métricas para los equipos y promover una cultura de desarrollo que tome en consideración mejores prácticas para la disponibilidad y alto rendimiento de las soluciones, todo esto coordinado con áreas arquitectura, DevOps, Ciberseguridad, etc. que componen este equipo de plataforma del que serás parte.
En tu rol deberás:
- Asegurar la disponibilidad de los servicios de los equipos.
- Desarrollar tableros de monitoreo y métricas de disponibilidad.
- Promover una cultura enfocada en la resilencia de sus componentes.
- Apoyar a los equipos de producto en la gestión de incidentes.
- Generar una base de conocimientos de la infraestructura usada por los equipos.
- Desarrollar soluciones enfocadas en la automatización que permitan mejorar la disponibilidad de los servicios.