Estamos em busca de um(a) Senior Data Engineer para fortalecer nosso time de dados.
Local
Barueri - SP
Presencial
Responsabilidades
- Projetar e implementar pipelines de dados end-to-end (batch, streaming e micro-batch).
- Definir e evoluir a modelagem de dados analíticos (dimensional e One Big Table).
- Implementar estratégias de Slowly Changing Dimensions (SCD) tipos 1, 2 e 3, conforme as necessidades do negócio.
- Definir estratégias de particionamento, bucketing e compactação, visando otimização de armazenamento e performance de consulta.
- Implementar frameworks de qualidade de dados, com validações no pipeline (schema validation, freshness, completeness, uniqueness, integridade referencial).
- Garantir Observabilidade dos pipelines, incluindo métricas, alertas, monitoramento e rastreabilidade da linhagem de dados.
- Projetar e manter contratos de dados entre produtores e consumidores, garantindo estabilidade e previsibilidade das interfaces.
- Aplicar técnicas de deduplicação, reconciliação e tratamento de dados tardios (late-arriving data).
- Colaborar com times de Analytics e Plataforma na definição de padrões de consumo e disponibilização de dados.
Requisitos
- Experiência sólida na construção de pipelines de dados em ambientes cloud (preferencialmente AWS).
- Domínio de modelagem dimensional (star schema, snowflake schema, bridge tables, factless facts).
- Experiência comprovada com Slowly Changing Dimensions e estratégias de historização de dados.
- Conhecimento em estratégias de particionamento e seus impactos em performance de leitura e custo.
- Vivência com frameworks de Data Quality (Great Expectations, Soda ou PyDeequ).
- Conhecimento de formatos colunares e suas características de compressão e evolução de schema.
- Experiência com orquestração de pipelines, incluindo gestão de dependências, retries e idempotência.
- Experiência com Idioma Inglês em nível Intermediário ou Avançado.
- Processamento de Dados: Apache Spark, Apache Flink, DuckDB, Polars.
- Modelagem e Transformação: ClickHouse (diferencial), Arquitetura Lakehouse.
- Data Quality: Great Expectations, Soda Core, PyDeequ.
- Formatos e Table Formats: Apache Parquet, Apache Iceberg.
- Orquestração: Apache Airflow ou equivalente.
- Linguagens: Python, SQL e Java (desejável).
Diferenciais
- Experiência com Data Mesh e domínios de dados descentralizados.
- Conhecimento em Data Lineage e catalogação (OpenMetadata, DataHub, Amundsen).
- Experiência com testes para pipelines de dados (unit tests, integration tests, data contract tests).
- Familiaridade com otimização de custos em data lakes (compactação, z-ordering, particionamento adaptativo).
- Contribuição ativa na definição de padrões e documentação técnica para times de dados.
Sobre a empresa
Este é um papel ideal para quem gosta de resolver problemas reais e complexos de negócio por meio de engenharia de dados bem feita.
Descrição comportamental
- Goste de trabalhar em equipe e seja colaborativa em suas atribuições.
- Tenha coragem para se desafiar e ir além, abraçando novas oportunidades de crescimento.
- Transforme ideias em soluções criativas e busque qualidade em toda sua rotina.
- Tenha habilidades de resolução de problemas.
- Possua habilidade e se sinta confortável para trabalhar de forma independente e gerenciar o próprio tempo.
- Tenha interesse em lidar com situações adversas e inovadoras no âmbito tecnológico.