SRE Senior in TCIT

FULL_TIME

Santiago
This job is performed partly from home and partly at the office in: Santiago
(Hybrid)
| Senior | Full time | SysAdmin / DevOps / QA

Gross salary $2800 - 3200 USD/month

0 applications
Replies between 12 and 24 days
Last checked today
Sobre TCIT: Somos una empresa líder en desarrollo de software en modalidad cloud con más de 9 años impulsando transformaciones digitales para clientes de distintos sectores. Nuestro equipo trabaja con metodologías ágiles y tecnologías de última generación, enfocándose en soluciones de alta calidad, sostenibles e innovadoras. Buscamos un SRE Senior que lidere iniciativas estratégicas de fiabilidad para nuestro entorno híbrido, colaborando estrechamente con equipos de Gobierno de SRE y Arquitectura para elevar la resiliencia, observabilidad y eficiencia operativa en proyectos críticos. El rol está orientado a generar impacto real, automatizar tareas, mentorizar a un equipo de SREs en formación y definir los estándares técnicos que guiarán nuestras operaciones en la nube (GCP y, cuando sea relevante, AWS).

© getonbrd.com. All rights reserved.

Funciones principales

  • A. Liderazgo técnico y arquitectura de fiabilidad
    • Dirigir técnicamente al equipo SRE híbrido (internos + servicio) y coordinar con SRE Gobierno (Cloud Engineers) y Arquitectura para definir y validar estándares técnicos transversales (p. ej., Golden Images, módulos de IaC, políticas de seguridad).
    • Diseñar e implementar soluciones de automatización complejas para eliminar toil (trabajo manual y repetitivo) a gran escala, maximizar la eficiencia y la consistencia operativa.
    • Ser referente técnico en el diseño de arquitecturas de servicios resilientes, escalables y observables, participando activamente en Production Readiness Reviews (PRR) para proyectos críticos.
  • B. Mentoría y desarrollo de capacidades internas
    • Función clave: Mentorizar activamente a 6 SREs en formación (ex-SysOps) para desarrollar habilidades en programación (Python/Go), Infraestructura como Código, observabilidad y resolución de problemas complejos.
    • Conducir sesiones de knowledge transfer, dojos prácticos y revisiones de código para elevar el nivel técnico del equipo.
    • Crear y validar runbooks ejemplares y enseñar al equipo a documentar de manera eficaz para operaciones consistentes.
  • C. Gestión estratégica de la fiabilidad
    • Liderar la respuesta técnica durante incidentes mayores (P0/P1), guiando al equipo en la resolución y en el análisis post-mortem para identificar y resolver las causas raíz.
    • Colaborar con desarrollo y negocio para definir e implementar los primeros Service Level Objectives (SLOs) para servicios críticos, promoviendo una cultura de fiabilidad basada en datos.
    • Analizar el stack tecnológico actual (CI/CD, observabilidad) y proponer mejoras estratégicas, evaluando herramientas y procesos que potencien la operación.

Qué esperamos del perfil

Buscamos un SRE Senior orientado a ser un agente de cambio estratégico, no un ejecutor de tickets. El candidato ideal liderará iniciativas de fiabilidad de alto impacto, impulsando una cultura de ingeniería proactiva y sin culpabilidad. Debe combinar habilidades técnicas profundas con capacidad de mentoría y comunicación efectiva para transformar capacidades internas y garantizar la resiliencia de servicios críticos. Requerimos experiencia consolidada en entornos multi-nube (primero GCP, con valor agregado de AWS), infraestructura como código, automatización, observabilidad avanzada y gestión de incidentes complejos. Asimismo, valoramos capacidad para diseñar y medir SLOs/SLIs, construir runbooks robustos y fomentar prácticas de desarrollo que reduzcan toil y aumenten la velocidad segura de entrega.
Competencias clave incluyen: experiencia avanzada en Kubernetes y contenedores, dominio de Terraform y Ansible, programación en Python o Go, scripting en Bash, y manejo de herramientas de observabilidad (Datadog, Prometheus/Grafana, Dynatrace o similares). Se espera autonomía, proactividad, excelentes habilidades de comunicación y un enfoque orientado al negocio, con mentalidad de “Blameless Post-mortem” para incidentes y mejoras continuas.

Conocimientos y habilidades deseables

  • Experiencia demostrable liderando SREs o equipos de fiabilidad en entornos híbridos o multi-nube, con resultados medibles en reducción de incidentes y mejoras de confiabilidad.
  • Capacidad para diseñar y validar estrategias de observabilidad y gobernanza de fiabilidad a nivel organizacional.
  • Familiaridad con prácticas de gestión de incidentes P0/P1, post-mortems sin culpas y mejoras basadas en datos.
  • Fuertes habilidades de mentoría, comunicación y documentación, con experiencia en transferencias de conocimiento y construcción de capacidades internas.
  • Se valora experiencia en proyectos de fintech/retail/logística o sectores con alta criticidad de disponibilidad.

GETONBRD Job ID: 56262

Conditions

Partially remote You can work from your home some days a week.
Computer provided TCIT provides a computer for your work.

Remote work policy

Hybrid

This job is performed partly from home and partly at the office in Santiago (Chile).

  1. Jobs
  2. SysAdmin / DevOps / QA
  3. TCIT
  4. SRE Senior
SRE Senior
TCIT • Santiago
This job is performed partly from home and partly at the office in: Santiago
(Hybrid)
Share this job Share