Métricas para SREs, DevOps e afins

DORA, 4 Golden Signals e os Mean Times

As 4 métricas DORA (DevOps Research and Assessment):
- Frequência de Implantação (Deployment Frequency)
- Tempo de Lead para Mudanças (Lead Time for Changes)
- Tempo Médio de Recuperação (Mean Time to Recovery - MTTR)
- Taxa de Mudança de Falhas (Change Failure Rate)
Os 4 Golden Signals:
- Latência (Latency)
- Tráfego (Traffic)
- Erros (Errors)
- Saturação (Saturation)

DORA:

Frequência de Implantação (Deployment Frequency): Com que frequência uma organização lança com sucesso novos recursos ou código para produção.
Tempo de Lead para Mudanças (Lead Time for Changes): Quanto tempo leva para uma alteração no código ser implantada em produção.
Tempo Médio de Recuperação (Mean Time to Recovery - MTTR): Quanto tempo leva para uma organização se recuperar de uma falha em produção.
Taxa de Mudança de Falhas (Change Failure Rate): A porcentagem de mudanças em produção que resultam em incidentes ou falhas.

Quatro Golden signals:

Latência (Latency): O tempo que leva para atender a uma solicitação. É importante monitorar tanto a latência média quanto a latência em percentis mais altos (como P95, P99), pois valores altos podem indicar problemas para uma parcela significativa dos usuários.
Tráfego (Traffic): Uma medida de quanta demanda está sendo colocada no seu sistema. Isso pode ser medido em solicitações por segundo, largura de banda da rede ou qualquer outra métrica relevante para o seu sistema.
Erros (Errors): A taxa de solicitações que falham. É importante monitorar tanto erros explícitos (como códigos de erro HTTP) quanto erros implícitos (como respostas incorretas ou dados corrompidos).
Saturação (Saturation): Mede o quão “cheio” seus recursos estão. Isso pode se referir ao uso da CPU, memória, disco ou rede. A alta saturação pode indicar que o sistema está próximo do seu limite de capacidade e pode começar a ter problemas de desempenho.

MTs:

MTBF (Mean Time Between Failures): Tempo médio entre falhas. Mede a confiabilidade de um sistema ou componente, indicando o tempo médio que ele opera sem falhas. É geralmente usado para sistemas reparáveis. Um MTBF mais alto indica maior confiabilidade.
MTTR (Mean Time To Repair): Tempo médio para reparar. Mede a mantenabilidade de um sistema, indicando o tempo médio necessário para diagnosticar e reparar uma falha. Um MTTR mais baixo indica maior facilidade de manutenção.
MTTF (Mean Time To Failure): Tempo médio até a falha. Semelhante ao MTBF, mas usado para sistemas não reparáveis. Indica o tempo médio que um sistema ou componente opera antes de falhar completamente e precisar ser substituído.
MTTA (Mean Time To Acknowledge): Tempo médio para reconhecer. Usado em contextos de monitoramento e resposta a incidentes, mede o tempo médio que leva para um membro da equipe reconhecer um alerta ou incidente após sua ocorrência.
MTTI (Mean Time To Identify): Tempo médio para identificar. Semelhante ao MTTA, mas se refere ao tempo médio necessário para identificar a causa raiz de um problema ou incidente.
MTTV (Mean Time To Validate): Tempo médio para validar. Tempo médio necessário para validar que uma correção ou solução resolveu o problema original.
MTTD (Mean Time To Detect): Tempo médio para detectar. Mede o tempo médio que leva para detectar uma falha ou incidente no sistema. É crucial para minimizar o impacto de problemas, permitindo uma resposta mais rápida.
MTTS (Mean Time To Switchover): Tempo médio para comutação. Em sistemas redundantes ou de alta disponibilidade, mede o tempo médio necessário para realizar uma comutação (switchover) para um sistema de backup em caso de falha.