O Data Engineer focado em AI é responsável por construir a infraestrutura que viabiliza Machine Learning e aplicações de Generative AI.
Local
São Paulo - SP
Híbrido
Responsabilidades
- Construir pipelines de ingestão batch e streaming
- Estruturar data lakes e data warehouses
- Criar datasets otimizados para ML
- Implementar pipelines de embeddings
- Construir indexação vetorial para RAG
- Garantir qualidade, governança e segurança de dados
- Otimizar custo de armazenamento e processamento
- Trabalhar com AI Engineers para estruturar feature stores
Requisitos
- Linguagens Python, SQL avançado, Scala (opcional)
- Orquestração & Transformação Apache Airflow, dbt, Prefect
- Processamento de Dados Spark, Pandas, PySpark
- Data Lakes (S3, GCS, Azure Blob), Data Warehouses (BigQuery, Snowflake, Redshift)
- Bancos NoSQL, Bancos vetoriais (Pinecone, Weaviate, FAISS)
- Streaming Kafka, Pub/Sub
- Infraestrutura Docker, Kubernetes, Cloud (AWS, GCP ou Azure)
- Modelagem de dados, ETL / ELT, Processamento distribuído, SQL avançado, Arquitetura de dados escalável, Experiência com dados não estruturados (texto, logs, PDF), Conceitos de DataOps, Versionamento e qualidade de dados
Diferenciais
- Pensamento sistêmico, Forte organização, Atenção a detalhes, Mentalidade de escalabilidade, Colaboração com times de ML, Proatividade na prevenção de gargalos
Processo seletivo
- Cadastro
- Entrevista R&S
- Entrevista Técnica
- Entrevista Cliente
- Carta Proposta
- Contratação