Senior SRE Engineer

Engenheiro de Confiabilidade de Site Sênior

Moledao

Negociável

Remoto5-10 anos ExpBacharelTempo Inteiro

Detalhes remotos

Abrir País：Global

Requisitos de Idioma：Portuguese-Brazil

Descrição do Trabalho

Mostrar texto original

Resumo

Estamos buscando um Engenheiro SRE Sênior (Foco em Operações de Carteira) para garantir a estabilidade, disponibilidade e desempenho de nossa infraestrutura principal de negócios na AWS. A função envolve gerenciar ambientes de produção globais, construir sistemas escaláveis e altamente disponíveis, implementar plataformas de automação e observabilidade e manter padrões de segurança e conformidade.

Objetivo do Cargo

Responsável pelas implantações
Garante que os sistemas operem de forma confiável, eficiente e em escala.
Desenvolve ferramentas para melhorar a disponibilidade, o desempenho e a resposta a incidentes.

Responsabilidades

Garantir a estabilidade, disponibilidade e desempenho da infraestrutura global na AWS para as operações principais do negócio, assumindo a responsabilidade pelos SLAs de produção.
Projetar, operar e solucionar problemas de componentes nativos em nuvem, como Kubernetes, Envoy, Service Mesh (Istio/Linkerd) e controladores de Ingress.
Aprimorar a eficiência operacional por meio de automação e ferramentas de plataforma (IaC, CI/CD), alcançando observabilidade do sistema, autocorreção e rápida recuperação de incidentes.
Implementar e manter práticas de segurança operacional, incluindo controle de acesso (AWS IAM/K8s RBAC), políticas de segurança de rede, gestão de vulnerabilidades e resposta a incidentes.
Construir e aprimorar um sistema de operações global, incluindo planejamento de capacidade, monitoramento e alertas (Prometheus/ELK), pipelines de CI/CD (GitLab/Jenkins), recuperação de desastres e recuperação automatizada de falhas.
Compreender profundamente a arquitetura de negócios e participar do design de soluções de alta disponibilidade e recuperação de desastres, com otimização contínua de custos.

Qualificações

Mais de 5 anos de experiência em operações Linux, SRE ou DevOps, com expertise no gerenciamento de sistemas distribuídos em larga escala.
Proficiência em serviços principais da AWS (EC2, S3, VPC, IAM, ELB, RDS, etc.), com experiência em arquitetura, operações e otimização de custos.
Conhecimento aprofundado da arquitetura Kubernetes, incluindo gerenciamento, solução de problemas e otimização de desempenho de clusters de produção em larga escala.
Familiaridade com Envoy, malha de serviços Istio/Linkerd ou controladores de Ingress Nginx/Istio para gerenciamento de tráfego L7.
Sólida consciência e práticas de segurança operacional, incluindo vulnerabilidades comuns de SO, rede e aplicações, e medidas de mitigação.
Proficiência em pelo menos uma linguagem de programação (Go/Python/Shell) para implementar soluções de automação para desafios operacionais.
Ampla experiência com stacks de observabilidade, como Prometheus e ELK, capaz de construir plataformas de monitoramento eficientes.
Experiência comprovada em planejamento de capacidade e testes de desempenho, com capacidade de quantificar gargalos do sistema e planejar de forma adequada.

Desejável:

Experiência em gerenciamento de equipes de SRE, ferramentas ou plataforma.
Familiaridade com stacks de observabilidade, como Prometheus, Grafana e ELK.
Certificações profissionais como AWS (SAA/SAP) e Kubernetes (CKA/CKE/CKS) são um diferencial.