MLOps Engineer (SRE) in PEOPLE

FULL_TIME

  Remote (Mexico) | Senior | Full time | SysAdmin / DevOps / QA

Gross salary $3800 - 4000 USD/month

1 applications
Replies between 5 and 7 days
Last checked today
Apply now
Requires applying in Spanish
Estamos en búsqueda de un/a MLOps Engineer con enfoque en Site Reliability Engineering (SRE) para incorporarse a un proyecto crítico de inteligencia artificial. Este proyecto está enfocado en garantizar la confiabilidad, trazabilidad y disponibilidad de modelos de machine learning en producción, asegurando alta disponibilidad, baja latencia y un monitoreo activo de métricas de negocio y ML.

This posting is original from the Get on Board platform.

Responsabilidades principales

  • Diseñar y operar soluciones de observabilidad para modelos de ML en producción (monitoring, alertas, trazabilidad).
  • Desarrollar dashboards y métricas que permitan evaluar rendimiento, costo y estabilidad de los modelos.
  • Implementar herramientas de logging estructurado, monitoreo de drift, calidad de datos y errores de inferencia.
  • Automatizar el escalado, recuperación ante fallos y auto-healing de servicios de inferencia.
  • Establecer SLAs/SLIs/SLOs para pipelines de ML y servicios inteligentes.
  • Colaborar con equipos de ciencia de datos y producto para detectar y mitigar incidentes relacionados con modelos en producción.
  • Establecer políticas de rollback y blue/green deployments para versiones de modelos.
  • Aplicar prácticas de SRE como chaos engineering, tests de estrés, pruebas en staging e integración continua.

Requisitos del perfil

  • Mínimo 4 años de experiencia como SRE, DevOps o Ingeniero/a de Plataforma en proyectos de machine learning.
  • Conocimiento de frameworks de model monitoring como Evidently, Arize AI, WhyLabs o similares.
  • Dominio de herramientas como Prometheus, Grafana, ELK/EFK, OpenTelemetry o Datadog.
  • Experiencia con orquestadores como Airflow, Kubeflow o herramientas de experiment tracking (MLflow, Weights & Biases).
  • Dominio de Kubernetes, Docker, Helm y herramientas de infraestructura como código (Terraform, Pulumi).
  • Experiencia en CI/CD para pipelines de ML (testing, validación, rollback).
Buscamos alguien con fuerte capacidad para automatizar procesos, monitorear en tiempo real y responder a incidentes críticos, además de habilidades colaborativas para trabajar estrechamente con científicos de datos y equipos de producto. La atención al detalle, la resiliencia en ambientes de alta presión y la orientación a la mejora continua son también esenciales para esta posición.

Plus deseables (no excluyentes)

  • Experiencia operando modelos en Alibaba Cloud y configurando observabilidad en dicho entorno.
  • Familiaridad con estrategias como canary deployment, shadow testing y experimentación controlada.
  • Conocimiento de frameworks de IA explicable y auditoría de modelos.
  • Experiencia previa en entornos de alta transaccionalidad, tales como banca, contabilidad, nómina o logística.

Beneficios

Módalidad de trabajo: Remoto.
Duración del proyecto: 1 año.

Salario: $80,000.00
esquema de pago: asimilado

GETONBRD Job ID: 55813

Computer provided PEOPLE provides a computer for your work.

Remote work policy

Locally remote only

Position is 100% remote, but candidates must reside in Mexico.

  1. Jobs
  2. SysAdmin / DevOps / QA
  3. PEOPLE
  4. MLOps Engineer (SRE)

About PEOPLE

People Co. es una empresa especializada en la búsqueda y selección de talento. Ofrece soluciones ágiles y personalizadas en reclutamiento, adaptadas a las necesidades de cada organización. — PEOPLE's full profile

Apply
Requires applying in Spanish
Share this job Share