Introdução
Quantas vezes já enfrentamos um incidente que parecia resolvido, mas voltou a ocorrer com um impacto ainda maior? Nos sistemas modernos, onde a
complexidade reina, essa é uma realidade constante. Como podemos garantir que os SLOs atuais sejam suficientes para avaliar a saúde de componentes em sistemas distribuídos complexos? É isso que o artigo “The Evolution of SRE at Google” nos ensina: repensar a prática de SRE (Site Reliability Engineering) para lidar com sistemas distribuídos e suas interações emergentes.
read moreQuando comecei a me aventurar nesse mundo dos contêineres e Microsserviços, acabei investindo um bom tempo para entender os conceitos e tentar replicar algumas coisas em meu dia a dia.
read moreRecentemente fiz um POC visando analisar uma alternativa para fazer o stream de logs imutáveis do sistema e aplicações para um bucket, fazendo uso das features de gerenciamento de ciclo de vida de objetos, migrando entre storage classes e implementando políticas de retenção mínima, expiração (para deleção automática após um determinado período) e bloqueio de exclusão ou alteração dos objetos, enquanto contemplarem o período de retenção.
read more