Resumo
Estamos buscando um Engenheiro SRE Sênior (Foco em Operações de Carteira) para garantir a estabilidade, disponibilidade e desempenho de nossa infraestrutura principal de negócios na AWS. A função envolve gerenciar ambientes de produção globais, construir sistemas escaláveis e altamente disponíveis, implementar plataformas de automação e observabilidade e manter padrões de segurança e conformidade.
Objetivo do Cargo
- Responsável pelas implantações
- Garante que os sistemas operem de forma confiável, eficiente e em escala.
- Desenvolve ferramentas para melhorar a disponibilidade, o desempenho e a resposta a incidentes.
Responsabilidades
- Garantir a estabilidade, disponibilidade e desempenho da infraestrutura global na AWS para as operações principais do negócio, assumindo a responsabilidade pelos SLAs de produção.
- Projetar, operar e solucionar problemas de componentes nativos em nuvem, como Kubernetes, Envoy, Service Mesh (Istio/Linkerd) e controladores de Ingress.
- Aprimorar a eficiência operacional por meio de automação e ferramentas de plataforma (IaC, CI/CD), alcançando observabilidade do sistema, autocorreção e rápida recuperação de incidentes.
- Implementar e manter práticas de segurança operacional, incluindo controle de acesso (AWS IAM/K8s RBAC), políticas de segurança de rede, gestão de vulnerabilidades e resposta a incidentes.
- Construir e aprimorar um sistema de operações global, incluindo planejamento de capacidade, monitoramento e alertas (Prometheus/ELK), pipelines de CI/CD (GitLab/Jenkins), recuperação de desastres e recuperação automatizada de falhas.
- Compreender profundamente a arquitetura de negócios e participar do design de soluções de alta disponibilidade e recuperação de desastres, com otimização contínua de custos.
Qualificações
- Mais de 5 anos de experiência em operações Linux, SRE ou DevOps, com expertise no gerenciamento de sistemas distribuídos em larga escala.
- Proficiência em serviços principais da AWS (EC2, S3, VPC, IAM, ELB, RDS, etc.), com experiência em arquitetura, operações e otimização de custos.
- Conhecimento aprofundado da arquitetura Kubernetes, incluindo gerenciamento, solução de problemas e otimização de desempenho de clusters de produção em larga escala.
- Familiaridade com Envoy, malha de serviços Istio/Linkerd ou controladores de Ingress Nginx/Istio para gerenciamento de tráfego L7.
- Sólida consciência e práticas de segurança operacional, incluindo vulnerabilidades comuns de SO, rede e aplicações, e medidas de mitigação.
- Proficiência em pelo menos uma linguagem de programação (Go/Python/Shell) para implementar soluções de automação para desafios operacionais.
- Ampla experiência com stacks de observabilidade, como Prometheus e ELK, capaz de construir plataformas de monitoramento eficientes.
- Experiência comprovada em planejamento de capacidade e testes de desempenho, com capacidade de quantificar gargalos do sistema e planejar de forma adequada.
Desejável:
- Experiência em gerenciamento de equipes de SRE, ferramentas ou plataforma.
- Familiaridade com stacks de observabilidade, como Prometheus, Grafana e ELK.
- Certificações profissionais como AWS (SAA/SAP) e Kubernetes (CKA/CKE/CKS) são um diferencial.