Observabilidade para Segurança: Primeiro laboratório SRE + AppSec – Métricas e Visualização

Nos últimos meses eu venho estudando como aproximar SRE, observabilidade e segurança no contexto de desenvolvimento de forma realmente prática — não aquela segurança burocrática que só aparece em auditoria e controles internos, mas segurança que vive no ciclo de vida do sistema. Esse laboratório foi o meu “Dia 1” dessa jornada.

A ideia é simples: pegar um risco de segurança bem básico (falhas de login) e transformar isso em métrica, indicador e objetivo de confiabilidade. Se SRE funciona monitorando disponibilidade, será que também funciona para AppSec? A resposta é sim — e muito melhor do que eu esperava.

O laboratório

Lab 1 no Github

Eu comecei criando uma API Flask pequena, com três endpoints: /healthz, /login e /metrics.
O /login é “inseguro de propósito”: ele falha aleatoriamente, simulando tanto erros legítimos quanto possíveis ataques.

Depois eu instrumentei tudo com o prometheus_client. A partir daí, coisas que normalmente seriam logs perdidos no SIEM, passaram a virar métricas:

tentativas de login (login_requests_total)
falhas (login_failures_total)
latência (login_latency_seconds)

Com Prometheus + Grafana via docker-compose, consegui observar essas métricas ao vivo.
Isso transforma risco em curvas, e curvas contam histórias melhores do que qualquer relatório.

Onde entra SRE nisso?

SRE é baseado em três conceitos:

SLI: o que medimos
SLO: o objetivo
SLA: o compromisso formal

Para segurança, usei:

SLI de confiabilidade do login
SLI de latência
SLO de 99% de sucesso
SLO de p95 < 300 ms

Isso faz com que segurança deixe de ser subjetiva e vire confiabilidade de controle.

Novo Dashboard sendo criado com os SLI indicados

Por que isso importa para AppSec?

Segurança moderna é observabilidade.
Qualquer controle que não possa ser observado não pode ser confiado.

Com esse lab:

Controles viram números
Riscos viram gráficos
AppSec ganha uma linguagem operacional
Fica muito mais fácil automatizar alertas, evidências e ITGCs

Esse foi meu Dia 1.
Nos próximos, vou evoluir para alertas, SLO-based security, integração com AWS (GuardDuty, IAM, CloudTrail), e evidências automatizadas.