1. Desarrollar/Evolucionar Pipelines de Datos: Estarás a cargo de que la información fluya correctamente y de manera tan automatizada como sea posible. A veces desarrollando esto desde cero, otras veces evolucionando algo que ya tenemos andando.
2. Resolver problemas de modelado/integridad: Al juntar la información de múltiples sistemas, es común que un mismo concepto represente en realidad cosas distintas, con atributos distintos o con relaciones diferentes. Al combinar la información en un pipeline de datos, te tocará resolver el modelado de ese super-conjunto de conceptos y qué significa realmente la consistencia/calidad de la información en ese super-modelo agregado.
3. Prototipar maneras asistidas para generar o limpiar información: Muchas veces no podremos tener un proceso 100% automatizado y necesitaremos a humanos en el loop. Ahí nuestro trabajo será hacer a los humanos mas eficientes, asistiendo su trabajo aprovechando que tenemos una visión global de los datos que pasan a través de nuestros "pipelines".
Nos gustan las personas generalistas y adaptables así que no tenemos un stack predeterminado para todo lo que describimos mas arriba. Nos interesa más el resultado que la herramienta en sí. Pero como especialista en esto, sí esperamos que conozcas y hayas usado algunas herramientas (sean cosas disponibles en el mercado o algunas que hayas creado o adaptado tu misma/o).
También esperamos que tengas fluidez a la hora de extraer datos desde bases de datos relacionales o procesar formatos típicos para mover datos (ej: CSV).