O Centro de Integração de Dados e Conhecimentos para Saúde (Cidacs/Fiocruz Bahia) está em busca de um Arquitetura de Dados e Engenharia de Big Data para Saúde para integrar a equipe da Plataforma de Dados.
Local
Salvador - BA
Híbrido
Responsabilidades
- Apoiar iniciativas de modernização da arquitetura de dados, incorporando novas tecnologias e boas práticas para ambientes de Big Data
- Auxiliar na avaliação, implementação e otimização de data lakes e data lakehouses voltados para pesquisa em saúde
- Auxiliar nas atividades de pré-processamento, vinculação de dados e construção de datasets para estudos epidemiológicos e análises avançadas
- Colabora com equipes multidisciplinares, internas e externas, incluindo cientistas de dados, epidemiologistas e analistas, traduzindo desafios científicos em soluções tecnológicas inovadoras
- Desenvolver e gerenciar pipelines de dados utilizando ferramentas de processamento distribuído
- Desenvolver pesquisas em Ciência de Dados Populacional considerando prioridades da agenda estratégica do Cidacs
- Documentar arquiteturas, fluxos e estratégias de dados, assegurando a facilidade de manutenção e escalabilidade das soluções
- Elaborar e apresentar relatórios técnicos periódicos sobre a infraestrutura e processos de dados do Cidacs
- Implementar estratégias de governança e segurança de dados, garantindo conformidade com diretrizes regulatórias
- Monitorar o desempenho e a escalabilidade da arquitetura de dados, identificando e solucionando gargalos de performance em ambientes distribuídos
- Participar de reuniões e sessões técnicas para disseminar conhecimento e garantir a eficiência nas operações de dados
- Projetar e otimizar bancos de dados estruturados (SQL) e não estruturados (NoSQL) para atender às demandas das pesquisas do Cidacs
Requisitos
- Formação superior em Ciência da Computação, Engenharia de Computação, Sistemas de Informação ou áreas correlatas
- Mínimo de 5 anos de experiência em arquitetura de dados e gestão de bancos de dados em grande escala
- Conhecimento avançado em modelagem de dados e bancos de dados relacionais (SQL) e não relacionais (NoSQL)
- Conhecimento em automação de pipelines de dados usando orquestradores como Apache Airflow
- Conhecimento de otimização de grandes volumes de dados em arquiteturas distribuídas, utilizando motores de consulta(ex.: Trino, Presto)
- Experiência em arquiteturas de dados distribuídas e escaláveis, especialmente em ambientes de Big Data (ex.: Apache Spark, ElasticSearch)
- Experiência em projetar e otimizar data lakes e data lakehouse (ex.: MinIO, Delta Lake)
- Experiência em integração e transformação de dados em larga escala, incluindo processos ETL/ELT
- Experiência com controle de versão (Git)
Diferenciais
- Certificações em Big Data, bancos de dados ou arquitetura de dados
- Conhecimento avançado em containers e orquestração de containers (ex.: Docker, Kubernetes)
- Conhecimento em otimização de queries e design de esquemas para bancos de dados voltados para alta performance
- Experiência com bancos de dados orientados a colunas (ex.: Cassandra, HBase) e motores de consulta distribuídos (ex.: Trino, Presto)
- Experiência com dados de saúde pública e estudos epidemiológicos com o de coortes
- Familiaridade com governança de dados e frameworks de boas práticas (ex.: DMBOK)
- Título de mestre e/ou doutor nas áreas de formação superior indicadas acima
- Inglês avançado, especialmente para manter conversações com grupos internacionais
- Publicações nas áreas de computação aplicadas à saúde
Benefícios
- Incentivo à continuidade da trajetória acadêmica, apoiando o pesquisador na realização de um doutorado/pós-doutorado em temas alinhados à agenda estratégica do CIDACS
- Acesso a uma infraestrutura computacional robusta, incluindo clusters de processamento de Big Data e ambientes seguros para análise de dados
- Ambiente multidisciplinar e oportunidades de colaboração com pesquisadores de diversas áreas, incluindo epidemiologia, saúde pública e computação
- Possibilidade de participação em projetos internacionais, eventos científicos e redes de pesquisa
- Oportunidade de capacitação por meio de cursos, treinamentos e participação em conferências científicas
- Flexibilidade no regime de trabalho, incluindo possibilidade de atuação híbrida (presencial e remoto)
- Auxílio para publicação científica e incentivo à produção acadêmica na área de Ciência de Dados aplicada à Saúde
- Integração em um centro de referência nacional e internacional no uso de dados para a pesquisa em saúde pública
Processo seletivo
- Cadastro
- Entrevista
- Contratação
Sobre a empresa
O Cidacs conduz estudos e pesquisas baseados em projetos interdisciplinares originados na vinculação de grandes volumes de dados para ampliar o entendimento dos determinantes e das políticas sociais e ambientais sobre a saúde da população.
Áreas prioritárias para pesquisa
- Arquitetura e Engenharia de Dados para Saúde – Desenvolvimento e otimização de infraestruturas para armazenamento, processamento e análise de grandes volumes de dados populacionais e epidemiológicos.
- Ciência de Dados Populacional e Saúde Pública – Modelagem, integração e análise de bases de dados de saúde em larga escala, com foco na produção de conhecimento para políticas públicas.
- Privacidade, Segurança e Governança de Dados – Estratégias de proteção e governança de dados sensíveis, especialmente em ambientes distribuídos e de pesquisa confiável (TREs).
- Inteligência Artificial e Machine Learning em Saúde – Aplicação de técnicas avançadas de IA para extração de conhecimento a partir de dados epidemiológicos e clínicos.
- Infraestrutura Computacional para Pesquisa em Saúde – Desenvolvimento de soluções escaláveis e seguras para apoiar estudos longitudinais e análise de coortes populacionais.