Estamos em busca de um(a) Site Reliability Engineer (SRE) para atuar em um ambiente de missão crítica no varejo, garantindo alta disponibilidade, performance e resiliência das nossas plataformas digitais.
Local
Santo André - SP
Híbrido
Responsabilidades
- Garantir a disponibilidade, performance e escalabilidade das aplicações
- Atuar na automação de pipelines CI/CD, com foco em GitHub Actions
- Implementar e evoluir práticas de observabilidade (logs, métricas e tracing)
- Atuar em resposta a incidentes, análise de causa raiz (RCA) e prevenção de recorrência
- Definir e monitorar SLIs, SLOs e SLAs
- Apoiar times de desenvolvimento na construção de aplicações resilientes
- Gerenciar e otimizar infraestrutura em nuvem (Amazon Web Services)
- Promover cultura de Infrastructure as Code (IaC) e automação
- Trabalhar com práticas de DevOps e Engenharia de Confiabilidade
Requisitos
- Experiência como SRE, DevOps ou áreas correlatas
- Forte conhecimento em GitHub Actions (criação, manutenção e otimização de pipelines)
- Experiência sólida com Amazon Web Services (EC2, Lambda, S3, CloudWatch, etc.)
- Experiência com aplicações em Node.js
- Conhecimento em TypeScript
- Experiência com containers (Docker) e orquestração (Kubernetes é diferencial)
- Conhecimento em monitoramento (ex: Prometheus, Grafana, Datadog ou similares)
- Familiaridade com ferramentas de log (ELK, OpenSearch, etc.)
- Experiência com automação e scripting
Diferenciais
- Experiência em ambientes de varejo / e-commerce
- Conhecimento em arquitetura cloud-native
- Experiência com ferramentas de feature flag / rollout progressivo
- Práticas de chaos engineering
- Experiência com segurança (DevSecOps)
Carga horária
Híbrido
Sobre a empresa
Essa posição terá papel fundamental na evolução da nossa cultura de confiabilidade, automação e observabilidade, trabalhando de forma próxima aos times de engenharia, arquitetura e produto.
Responsabilidades
- Garantir a disponibilidade, performance e escalabilidade das aplicações
- Atuar na automação de pipelines CI/CD, com foco em GitHub Actions
- Implementar e evoluir práticas de observabilidade (logs, métricas e tracing)
- Atuar em resposta a incidentes, análise de causa raiz (RCA) e prevenção de recorrência
- Definir e monitorar SLIs, SLOs e SLAs
- Apoiar times de desenvolvimento na construção de aplicações resilientes
- Gerenciar e otimizar infraestrutura em nuvem (Amazon Web Services)
- Promover cultura de Infrastructure as Code (IaC) e automação
- Trabalhar com práticas de DevOps e Engenharia de Confiabilidade
Requisitos Técnicos Essenciais
- Experiência como SRE, DevOps ou áreas correlatas
- Forte conhecimento em GitHub Actions (criação, manutenção e otimização de pipelines)
- Experiência sólida com Amazon Web Services (EC2, Lambda, S3, CloudWatch, etc.)
- Experiência com aplicações em Node.js
- Conhecimento em TypeScript
- Experiência com containers (Docker) e orquestração (Kubernetes é diferencial)
- Conhecimento em monitoramento (ex: Prometheus, Grafana, Datadog ou similares)
- Familiaridade com ferramentas de log (ELK, OpenSearch, etc.)
- Experiência com automação e scripting
Diferenciais
- Experiência em ambientes de varejo / e-commerce
- Conhecimento em arquitetura cloud-native
- Experiência com ferramentas de feature flag / rollout progressivo
- Práticas de chaos engineering
- Experiência com segurança (DevSecOps)