Estamos en búsqueda de un/a MLOps Engineer con enfoque en Site Reliability Engineering (SRE) para incorporarse a un proyecto crítico de inteligencia artificial. Este proyecto está enfocado en garantizar la confiabilidad, trazabilidad y disponibilidad de modelos de machine learning en producción, asegurando alta disponibilidad, baja latencia y un monitoreo activo de métricas de negocio y ML.
Apply from getonbrd.com.
Responsabilidades principales
Diseñar y operar soluciones de observabilidad para modelos de ML en producción (monitoring, alertas, trazabilidad).
Desarrollar dashboards y métricas que permitan evaluar rendimiento, costo y estabilidad de los modelos.
Implementar herramientas de logging estructurado, monitoreo de drift, calidad de datos y errores de inferencia.
Automatizar el escalado, recuperación ante fallos y auto-healing de servicios de inferencia.
Establecer SLAs/SLIs/SLOs para pipelines de ML y servicios inteligentes.
Colaborar con equipos de ciencia de datos y producto para detectar y mitigar incidentes relacionados con modelos en producción.
Establecer políticas de rollback y blue/green deployments para versiones de modelos.
Aplicar prácticas de SRE como chaos engineering, tests de estrés, pruebas en staging e integración continua.
Requisitos del perfil
Mínimo 4 años de experiencia como SRE, DevOps o Ingeniero/a de Plataforma en proyectos de machine learning.
Conocimiento de frameworks de model monitoring como Evidently, Arize AI, WhyLabs o similares.
Dominio de herramientas como Prometheus, Grafana, ELK/EFK, OpenTelemetry o Datadog.
Experiencia con orquestadores como Airflow, Kubeflow o herramientas de experiment tracking (MLflow, Weights & Biases).
Dominio de Kubernetes, Docker, Helm y herramientas de infraestructura como código (Terraform, Pulumi).
Experiencia en CI/CD para pipelines de ML (testing, validación, rollback).
Buscamos alguien con fuerte capacidad para automatizar procesos, monitorear en tiempo real y responder a incidentes críticos, además de habilidades colaborativas para trabajar estrechamente con científicos de datos y equipos de producto. La atención al detalle, la resiliencia en ambientes de alta presión y la orientación a la mejora continua son también esenciales para esta posición.
Plus deseables (no excluyentes)
Experiencia operando modelos en Alibaba Cloud y configurando observabilidad en dicho entorno.
Familiaridad con estrategias como canary deployment, shadow testing y experimentación controlada.
Conocimiento de frameworks de IA explicable y auditoría de modelos.
Experiencia previa en entornos de alta transaccionalidad, tales como banca, contabilidad, nómina o logística.
Beneficios
Módalidad de trabajo: Remoto.
Duración del proyecto: 1 año.
Salario: $80,000.00 esquema de pago: asimilado
GETONBRD Job ID: 55813
Computer provided
PEOPLE provides a computer for your work.
Remote work policy
Locally remote only
Position is 100% remote, but candidates must reside in Mexico.
People Co. es una empresa especializada en la búsqueda y selección de talento. Ofrece soluciones ágiles y personalizadas en reclutamiento, adaptadas a las necesidades de cada organización.
—
PEOPLE's full profile