Responsabilidades
1. Infraestrutura e Operações de Servidores (Responsabilidades Principais)
- Responsável pelo design, implantação e otimização da arquitetura do cluster de servidores da empresa (OCI/AWS).
- Gerenciar servidores Linux, ambiente de sistema, permissões de usuário, chaves SSH, SFTP, Firewall e Grupos de Segurança.
- Administrar Nginx, SSL, proxy reverso, domínios e certificados, garantindo alta disponibilidade e segurança.
- Manter máquinas virtuais, balanceamento de carga, armazenamento de objetos, rede VPC/VCN, sub-redes e políticas de grupo de segurança.
- Resolver problemas em ambiente de produção, como ocupação de portas, erros de permissão, falha de serviços, disco cheio e anomalias de rede.
2. CI/CD e Gerenciamento de Deploy
- Projetar, implementar e manter pipelines de CI/CD (GitHub Actions, GitLab CI, Jenkins).
- Desenvolver e atualizar scripts de deploy, scripts de build automatizado, gerenciamento de variáveis de ambiente e fluxo de versões.
- Definir estratégias de deploy, rollback, implantação blue-green e canário para ambientes de teste, UAT e produção.
- Colaborar com a equipe de desenvolvimento em releases diários, correções emergenciais e gestão de configurações.
3. Confiabilidade e Disponibilidade do Sistema (SRE)
- Implantar sistemas de monitoramento de aplicações (Prometheus, Grafana, ELK, CloudWatch).
- Implementar sistema de alertas para CPU, memória, disco, falhas de serviço e erros de interface.
- Estabelecer e acompanhar SLA, SLO e SLI para aprimorar a estabilidade do sistema.
- Realizar planejamento de capacidade, otimização de performance e testes de estresse periódicos.
4. Segurança e Gerenciamento de Acessos
- Gerenciar contas de servidor, contas em nuvem, permissões em repositórios Git e em sistemas Jira/Wiki.
- Configurar e manter jump servers/bastion hosts, aplicando o princípio de menor privilégio.
- Elaborar políticas de baseline de segurança, realizar aplicação de patches, varredura de vulnerabilidades e auditorias periódicas.
- Auxiliar as equipes de segurança e de gestão de risco no tratamento de incidentes, como tentativas de força bruta, tráfego anômalo e vulnerabilidades.
5. Manutenção de Bancos de Dados e Middleware
- Administrar deployment, backup e configuração master-slave de MySQL, PostgreSQL, Redis e Kafka.
- Otimizar performance de bancos de dados, analisar queries lentas e aperfeiçoar pools de conexão.
- Implementar estratégias de backup, automação de backups, disaster recovery geograficamente distribuído e testes periódicos de restauração.
6. Documentação e Gerenciamento de Ativos
- Manter inventário de servidores, domínios, certificados e lista de permissões.
- Produzir e atualizar documentação de operações: instruções de deploy, processos de release, políticas de segurança e diagramas de arquitetura.
- Gerenciar ativos de infraestrutura: especificações de servidores, painéis de monitoramento, chaves, configurações de ambiente e topologia de rede.
7. Formação de Equipe e Processos
- Gerenciar e desenvolver a equipe de operações no dia a dia.
- Implementar processos de mudança em produção, políticas de release, gestão de permissões e planos de recuperação de desastres.
- Articular atividades com equipes de desenvolvimento, backend, DBAs e segurança para resolver incidentes críticos.
Requisitos
- Domínio de administração de sistemas Linux, scripts Shell e fundamentos de redes (camadas 3, 4 e 7).
- Experiência em operações de nuvem: OCI e AWS.
- Proficiência em Nginx, SSL, proxy reverso, Keepalived e balanceamento de carga.
- Conhecimento em Docker e Kubernetes (obrigatório domínio de Docker e Docker Compose).
- Familiaridade com pipelines de CI/CD (GitHub Actions, GitLab CI, Jenkins).
- Especialização em MySQL: administração básica, replicação, backup, recuperação e otimização de desempenho.
- Conhecimento em pelo menos um middleware comum, como Redis, Kafka ou RabbitMQ.
- Experiência na implantação de sistemas de monitoramento: Prometheus, Grafana, ELK ou Loki.
Diferenciais
- Fortes habilidades lógicas e de investigação rápida, com capacidade de resolver incidentes em produção de forma independente.
- Visão completa de operações: monitoramento, alertas, segurança, permissões e processos.
- Boa capacidade de documentação, organizando inventários de ativos, topologias de rede e fluxos de trabalho.
- Excelentes habilidades de comunicação e colaboração entre equipes.
- Experiência em operações nos setores financeiro, bolsas de valores ou blockchain.
- Conhecimento em design de arquiteturas de alta concorrência e alta disponibilidade.