03 · Capacidade 03 · Capability

DevOps
& SRE.

DevOps
& SRE.

Plataforma interna que o time do cliente opera sem nós no meio. Pipeline com revisão por PR, deploy contínuo com canary, error budget que alguém respeita. Começa com postmortem do que está quebrando hoje, termina com runbook na wiki do cliente.

An internal platform the client team operates without us in the middle. PR-reviewed pipeline, continuous canary deploys, an error budget someone respects. Starts with a postmortem of what is broken today, ends with the runbook in the client's wiki.

14contratos ativos

DevOps & SRE

37min

MTTR mediano · Sev1/Sev2 12m

99,98%

SLO atendido · retainer 12m

Lock-in. Saída em 30 dias.

14active contracts

DevOps & SRE

37min

Median MTTR · Sev1/Sev2 12m

99.98%

SLO met · 12-month retainers

Lock-in. 30-day exit.

01. Platform & IDP

02. CI/CD & GitOps

03. Kubernetes

04. Observability & SRE

05. IaC & Automações

06. FinOps

07. Plantão SRE

01. Platform & IDP

02. CI/CD & GitOps

03. Kubernetes

04. Observability & SRE

05. IaC & Automation

06. FinOps

07. SRE on-call

stack · ferramental stack · tooling TerraformAnsiblePulumiCrossplaneArgo CDArgo RolloutsFluxGitHub ActionsGitLab CITektonPrometheusGrafanaLokiTempoMimirOpenTelemetryDatadogNew RelicVaultOPA · Gatekeepercosign · SBOMk6 · GatlingBackstageOpenCost · KubeCostInfracost

01 · Platform Engineering & IDP

Self-service que o dev usa. Sem ticket de infra.

Plataforma interna de desenvolvedor não é Backstage instalado. É um conjunto pequeno de golden paths que cobre 80% do que o time precisa fazer toda semana — provisão de serviço, deploy, observabilidade, secret rotation — com defaults seguros e fuga prevista para os outros 20%.

01
Catálogo & ownership claro
Backstage ou Port com inventário vivo dos serviços. Quem mantém, em qual SLO, com qual on-call. Atualiza sozinho a partir do Git — não fica desatualizado.
02
Golden paths que viram template
Novo serviço HTTP, novo job batch, nova função stream. Cookiecutter + workflow + dashboards prontos. Day-zero tem CI verde, deploy em staging e métrica chegando.
03
Self-service guardrails
Provisão de bucket, fila, banco efêmero, ambiente de PR. Por API, com policy. Sem abrir Jira de infra para nada do dia-a-dia.
04
Secret & credential management
Vault, Doppler, AWS Secrets, OCI Vault. Rotação automática, audit trail, OIDC para CI/CD. Senha em variável de ambiente é cheiro de sistema antigo — a gente arruma.
05
Métricas DORA reais
Lead time, deploy frequency, change failure rate, MTTR. Coletadas do pipeline real, não preenchidas em planilha. Fica visível pra todo mundo.
06
Documentação que o dev lê
Markdown ao lado do código, exemplos copiáveis, ADR para decisões. Confluence intransitável não conta como documentação.

02 · CI/CD & GitOps

Deploy contínuo com canary. Rollback que dispara sozinho.

Pipeline não é "Jenkins com 28 plugins". É contrato versionado entre dev e operação: o que entra em produção, em que velocidade, com qual rede de proteção. GitOps resolve a parte fácil — declarativo, reconciliação. A parte difícil é o que fazer quando o canary degrada o p95.

P · 01

GitHub Actions

CI matricial, OIDC para cloud, cache reproduzível. Workflow versionado por path.

P · 02

GitLab CI

Para cliente self-hosted. Runners dedicados, review apps por MR, deploy auto em homolog.

P · 03 · DESTAQUE

Argo CD & Argo Rollouts

GitOps puro. Canary por header, por porcentagem, por região. Análise automática contra Prometheus — rollback se p95 ou error rate degradar.

P · 04

Flux CD

Quando o cliente prefere modelo pull-only. Image automation, Helm controller, multi-tenant.

P · 05

Tekton · Jenkins

Quando o legado pede. Migração gradual para o que serve, sem big-bang descabido.

+ supply chain

Sigstore, SBOM, SLSA L3.
Build assinado, audit trail.

01
Trunk-based + branch-by-flag
Branches longos morrem em dia 5. Feature flag (Unleash, LaunchDarkly, ConfigCat) faz o resto. Deploy desacopla de release — quem libera é o produto, não o pipeline.
02
Canary que mede o que importa
Análise automática contra Prometheus: latency p95, error rate, saturation, métrica de negócio. Se piorou, rollback. Sem humano no loop para o caminho feliz.
03
Promotion entre ambientes
Mesmo artefato (mesmo SHA) percorre dev → staging → prod. Sem rebuild. Sem "funciona em homolog mas em prod não".
04
Supply chain assinado
Build em runner efêmero, imagem assinada com cosign, SBOM gerado, política de admission no cluster. Quem deployou, com qual SHA, em qual hora — auditável.
05
Database migration coordenada
Schema migration entra antes do código que depende, em backward-compatible. Nunca quebra deploy por causa de banco. Para casos difíceis, integramos com a prática de Dados.

03 · Kubernetes em produção séria

Quando faz sentido. Quando não, a gente diz.

Kubernetes resolve um problema específico: orquestrar muitos serviços com requisitos de scheduling não-triviais. Para 4 microsserviços e um job, ECS Fargate ou Cloud Run é melhor escolha — e a gente fala isso. Quando o caso pede K8s, a gente opera com a régua dos times que sustentam isso há 8+ anos.

01
Managed quando dá
EKS, AKS, OKE, GKE. Self-hosted só quando regulação ou ar-gapped exige. Operar control plane não é hobby — é custo.
02
Multi-cluster, não multi-tenant fingido
Cluster por blast radius, não por time. Argo CD ou Rancher para gestão. Service mesh só quando o problema dele aparece.
03
Service mesh quando cabe
Istio, Linkerd, Cilium. Mutual TLS, policy de tráfego, observabilidade L7. Não instala porque é tendência — instala se mTLS é requisito ou tráfego inter-serviço justifica.
04
Autoscaling honesto
HPA por métrica de negócio (RPS, queue depth) — não só CPU. KEDA para event-driven. Cluster autoscaler com node pools por classe.
05
Resource governance
Requests/limits que correspondem ao que o serviço usa. PriorityClass, PDB, QoS. OOMKill às 3h tem causa raiz, não fica como ruído.
06
Upgrade sem terror
Versão N-1 sempre. Plano de upgrade testado em cluster de staging. Operadores com compatibilidade verificada antes de mexer.

04 · Observability & SRE

SLI ligado ao negócio. Error budget que alguém respeita.

Observabilidade não é "Datadog instalado". É o engenheiro de plantão abrir uma página e responder em 90 segundos: está quebrado? para quem? desde quando? o que mudou? Para isso, a stack tem que ser opinionada — não 14 ferramentas concorrentes lidas em série.

Stack OSS · padrão Redgator

prometheus · grafana · loki · tempo · mimir · alloy

M · MÉTRICAS

Prometheus

Coleta pull, label-based, recording rules para o que repete. Federation por região quando precisa.

L · LOGS

Loki

Indexa label, não corpo. Custo de retenção compatível com long tail. LogQL alinhado com PromQL.

T · TRACES

Tempo

Sampling inteligente, exemplars do Prometheus pulam direto pra trace relevante. OTLP nativo.

M · LONG-TERM

Mimir · Thanos

13 meses de métrica em S3 por custo de hot-set. Multi-tenant para holdings com várias unidades.

UI · ALERT

Grafana

Dashboard versionado em git, alerta com runbook embutido, anotação de deploy. Single pane de verdade.

Coleta com Grafana Alloy ou OpenTelemetry Collector — protocolo OTLP, sem lock-in de SDK. Cliente que prefere SaaS gerenciado: Grafana Cloud, Datadog ou New Relic — operamos os três sem fanatismo.

O·01
SLI com critério
Disponibilidade medida no que o usuário sente — não em ping. Login funciona, checkout completa, relatório carrega abaixo de 4s. SLI sintético + RUM para o que importa.
O·02
SLO acordado com produto
99,9% de checkout em janela de 30 dias é mais útil que 99,99% de "tudo". O número sai de uma conversa entre eng e produto — não cai do céu.
O·03
Error budget como freio
Queimou o budget? Deploy congela, prioridade vira confiabilidade. Acordado em contrato, não negociado a quente. Funciona porque tem trava.
O·04
Stack opinionada
Prometheus + Grafana + Loki + Tempo, ou Datadog, ou New Relic. Uma escolha por cliente, integrada. OpenTelemetry como protocolo — sem lock-in de SDK.
O·05
Alerta com contexto
Disparo carrega: dashboard relevante, runbook do incidente parecido anterior, último deploy, owner. Não chega "CPU alta" — chega "checkout p95 acima de 2s desde 03:14, último deploy às 02:51, runbook anexo".
O·06
Chaos & load engineering
Game day trimestral. k6/Gatling para carga, LitmusChaos/AWS FIS para falha. Hipótese antes do experimento. Resultado vira backlog.

05 · IaC & Automações

Tudo que existe foi declarado. Tudo que muda passa por PR.

Infrastructure as code não é sobre a ferramenta — é sobre o hábito. Mudança de produção entra por pull request, com plan visível, revisão por alguém que entende, e aplicação em janela. Console é para diagnóstico, não para mudança.

FERRAMENTA 01

Terraform · OpenTofu

Padrão para infra de cloud. Módulos versionados, remote state com lock, plan em CI revisado por humano. Workspaces por ambiente.

FERRAMENTA 02

Pulumi

Para times que já vivem em TypeScript ou Python e ganham reaproveitando código de domínio. Mesmo provider model do Terraform por baixo.

FERRAMENTA 03 · DESTAQUE

Crossplane

Plataforma interna que entrega Composite Resources ao dev. Pede um banco PostgreSQL com 3 linhas de YAML; recebe RDS provisionado, secret rotacionado, dashboard publicado.

FERRAMENTA 04

Ansible

Configuração de host quando ainda existe host. Bare-metal, on-prem, fleet de VM. Idempotente, audit trail, rotinas reutilizáveis.

FERRAMENTA 05

Argo Workflows · Temporal

Orquestração de pipelines longos: ETL diário, rotinas DBA, jobs de migração. Retry, backoff, observabilidade. Cron + bash não é orquestração.

FERRAMENTA 06

Policy as code

OPA/Gatekeeper, Conftest, Checkov. Política versionada, testada em CI, aplicada em admission. Compliance que vive no repo, não em PDF.

01
State seguro & auditável
Remote state com lock, criptografia at-rest, audit log de quem aplicou o quê. Drift detection rodando diário.
02
Módulos versionados
Registry interno, semver, changelog. Dev consome v1.4.2, não main. Refatoração não quebra ambiente.
03
Plan obrigatório no PR
Bot posta o diff de infra no comentário. Reviewer vê o que vai mudar antes de aprovar. Apply só em main, com janela.
04
Reaplicável em qualquer região
Mesmo código provisiona na us-east-1 e na sa-east-1. Sem hard-code, sem dado regional disperso. DR vira exercício real, não plano em PDF.

06 · FinOps

Conta de cloud previsível. Sem reserva no escuro.

FinOps não é planilha de fim de mês com gráfico vermelho. É hábito diário com três frentes: visibilidade (cada dólar com dono e produto), otimização (rightsizing, savings plan, descomissionamento) e governança (orçamento por equipe, alerta antes de estourar). A meta é o time de produto tomar decisão técnica sabendo o custo dela — em PR, não em retrospectiva trimestral.

01
Visibilidade granular & tagging
Tag policy aplicada por OPA antes de provisionar. Custo por equipe, por produto, por ambiente. Showback mensal automático — cada gestor recebe o que sua área consumiu, sem pedir.
02
Custo de Kubernetes resolvido
OpenCost ou KubeCost agregando uso real por namespace e label. Workload compartilhado é rateado por CPU·hora e GB-mês — não dividido na unha em planilha.
03
Rightsizing contínuo
Recomendação semanal por workload: instância superdimensionada, volume gp2 que vira gp3, RDS com IOPS provisionado ocioso. Implementação por PR, com aprovação do dono.
04
Savings Plans & Reservations
Cobertura calculada com base na linha de base real, não em estimativa do vendor. Compromisso parcial (60–70% da base), spot/preemptive para picos. Recompra automatizada.
05
Orçamento & alerta proativo
Budget por equipe com alerta em 50/75/90/100%. Anomaly detection (Cost Explorer, Cloud Billing, OCI Cost Analysis) avisa antes do humano notar.
06
Custo no PR
Infracost no pipeline. Mudança de Terraform mostra +US$ 412/mês no comentário antes do merge. Decisão arquitetural sai informada — não em ticket de surpresa.
07
Descomissionamento ativo
Snapshot órfão, EBS desanexado, IP elástico parado, ambiente de staging esquecido. Auditoria mensal corta gordura — em média 11–18% da fatura nos primeiros 3 meses.

RESULTADO TÍPICO · 90 DIAS

−23%

fatura mensal

68%

cobertura SP/RI

100%

recurso com tag de dono

12dias

primeiro showback

07 · Plantão SRE

Engenheiro com nome. Não número de chamado.

Plantão de SRE em formato de catraca de nível 1 com upsell não funciona — só vira ponte até alguém sênior ser acordado. Aqui o sênior está acordado desde o primeiro alerta, com contexto, com histórico e com autonomia para corrigir. Não só escalar.

P·01
SLA formal por severidade
Sev1 — toque mediano em 4 min (P95 7 min nos últimos 12 meses), mitigação em 30 min. Sev2 — toque em 15 min. Contrato define alvo formal e multa quando aplicável.
P·02
On-call rotation transparente
Você sabe o nome de quem está no plantão da semana. Calendário compartilhado. Se prefere alguém específico, a gente combina.
P·03
Runbook na wiki do cliente
Não na nossa. Atualizado a cada incidente. Alguém além de nós consegue ler, executar e — se quiser — sair sem dependência.
P·04
Postmortem em 5 dias úteis
Sev1 e Sev2 obrigatório. Escrito por quem estava no incidente. Blameless, com ação de engenharia, owner e prazo. Vira backlog priorizado.
P·05
Game day trimestral
Failover ensaiado, perda de dependência simulada, AZ derrubada em ambiente espelho. DR que ninguém testou não existe.
P·06
Sem lock-in
Contrato anual, mas saída em 30 dias com handover. Recontrata se for melhor que as alternativas — não por inércia.

Discutir contrato de plantão → Ver Sustentação completa

O que NÃO fazemos em DevOps

Hype não vai pra produção.

NÃO
Kubernetes para 3 microsserviços
ECS Fargate, Cloud Run, Container Apps resolvem com menos custo cognitivo. K8s entra quando o problema dele aparece — não antes.
NÃO
Service mesh "porque é boas práticas"
Mesh resolve mTLS forçado, policy de tráfego e observabilidade L7. Se nenhum dos três é requisito, é overhead disfarçado.
NÃO
Migração big-bang de Jenkins
Strangler fig. Pipeline crítico fica até o último, novos times nascem na stack nova, descomissionamento gradual. Big-bang é receita de incidente.
NÃO
SRE como rebranding de NOC
Plantão sem error budget, sem SLO, sem postmortem é catraca. Se é isso que precisa, um terceirão resolve por metade do preço.

01 · Platform Engineering & IDP

Self-service the dev actually uses. No infra ticket.

An internal developer platform isn't "Backstage installed". It is a small set of golden paths covering 80% of what the team does every week — service provisioning, deploy, observability, secret rotation — with safe defaults and a known escape hatch for the other 20%.

01
Catalog & clear ownership
Backstage or Port with a live inventory of services. Who maintains, on which SLO, with which on-call. Updates itself from Git — it does not go stale.
02
Golden paths that become templates
New HTTP service, new batch job, new stream function. Cookiecutter + workflow + dashboards ready. Day-zero ships green CI, staging deploy, and metrics flowing.
03
Self-service guardrails
Bucket, queue, ephemeral database, PR environment — provisioned via API, with policy. No daily Jira tickets to infra.
04
Secret & credential management
Vault, Doppler, AWS Secrets, OCI Vault. Automatic rotation, audit trail, OIDC for CI/CD. Passwords in environment variables smell like a legacy system — we fix that.
05
Real DORA metrics
Lead time, deploy frequency, change failure rate, MTTR. Collected from the real pipeline, not typed into a spreadsheet. Visible to everyone.
06
Docs developers actually read
Markdown next to the code, copyable examples, ADRs for decisions. Impassable Confluence does not count as documentation.

02 · CI/CD & GitOps

Continuous canary deploy. Rollback that fires on its own.

A pipeline isn't "Jenkins with 28 plugins". It is a versioned contract between dev and ops: what reaches production, how fast, with which safety net. GitOps handles the easy part — declarative, reconciliation. The hard part is what to do when the canary degrades p95.

P · 01

GitHub Actions

Matrix CI, OIDC to cloud, reproducible cache. Workflow versioned per path.

P · 02

GitLab CI

For self-hosted clients. Dedicated runners, review apps per MR, auto-deploy to staging.

P · 03 · FEATURED

Argo CD & Argo Rollouts

Pure GitOps. Canary by header, percentage, region. Automatic analysis against Prometheus — rollback if p95 or error rate degrades.

P · 04

Flux CD

When the client prefers a pull-only model. Image automation, Helm controller, multi-tenant.

P · 05

Tekton · Jenkins

When the legacy demands it. Gradual migration to what works, no reckless big-bang.

+ supply chain

Sigstore, SBOM, SLSA L3.
Signed build, audit trail.

01
Trunk-based + branch-by-flag
Long-lived branches die on day 5. Feature flags (Unleash, LaunchDarkly, ConfigCat) do the rest. Deploy decouples from release — the product decides what ships, not the pipeline.
02
Canary that measures what matters
Automatic analysis against Prometheus: p95 latency, error rate, saturation, business metric. If it got worse, rollback. No human in the loop on the happy path.
03
Promotion across environments
Same artifact (same SHA) flows dev → staging → prod. No rebuild. No "it works in staging but not in prod".
04
Signed supply chain
Build on ephemeral runner, cosign-signed image, generated SBOM, admission policy in the cluster. Who deployed, which SHA, at which time — auditable.
05
Coordinated database migration
Schema migration lands before dependent code, backward-compatible. Never breaks the deploy because of the database. For hard cases we integrate with the Data practice.

03 · Kubernetes in serious production

When it makes sense. When it doesn't, we say so.

Kubernetes solves a specific problem: orchestrating many services with non-trivial scheduling requirements. For 4 microservices and one job, ECS Fargate or Cloud Run is the better choice — and we say so. When the case calls for K8s, we operate it with the standards of teams that have run it for 8+ years.

01
Managed when possible
EKS, AKS, OKE, GKE. Self-hosted only when regulation or air-gapped requires it. Operating the control plane isn't a hobby — it is a cost.
02
Multi-cluster, not fake multi-tenant
Cluster per blast radius, not per team. Argo CD or Rancher for management. Service mesh only when its problem appears.
03
Service mesh when it fits
Istio, Linkerd, Cilium. Mutual TLS, traffic policy, L7 observability. Not installed because it is trendy — installed if mTLS is a requirement or inter-service traffic justifies it.
04
Honest autoscaling
HPA by business metric (RPS, queue depth) — not just CPU. KEDA for event-driven. Cluster autoscaler with node pools per class.
05
Resource governance
Requests/limits that match what the service uses. PriorityClass, PDB, QoS. OOMKill at 3 a.m. has a root cause — it doesn't become noise.
06
Upgrade without dread
Always N-1. Upgrade plan tested in a staging cluster. Operators with compatibility verified before touching.

04 · Observability & SRE

SLIs tied to the business. An error budget someone respects.

Observability isn't "Datadog installed". It is the on-call engineer opening a page and answering in 90 seconds: is it broken? for whom? since when? what changed? For that, the stack must be opinionated — not 14 competing tools read in sequence.

OSS stack · Redgator default

prometheus · grafana · loki · tempo · mimir · alloy

M · METRICS

Prometheus

Pull-based collection, label-based, recording rules for repeating queries. Federation per region when needed.

L · LOGS

Loki

Indexes labels, not bodies. Retention cost compatible with long-tail. LogQL aligned with PromQL.

T · TRACES

Tempo

Smart sampling, Prometheus exemplars jump straight to the relevant trace. Native OTLP.

M · LONG-TERM

Mimir · Thanos

13 months of metrics in S3 at hot-set cost. Multi-tenant for holdings with multiple units.

UI · ALERT

Grafana

Dashboards versioned in Git, alerts with embedded runbook, deploy annotations. A real single pane.

Collection with Grafana Alloy or OpenTelemetry Collector — OTLP protocol, no SDK lock-in. Client preferring managed SaaS: Grafana Cloud, Datadog, or New Relic — we operate all three without fanaticism.

O·01
SLI with judgement
Availability measured by what the user feels — not by ping. Login works, checkout completes, report loads under 4s. Synthetic SLI + RUM for what matters.
O·02
SLO agreed with product
99.9% checkout in a 30-day window is more useful than 99.99% of "everything". The number comes from a conversation between engineering and product — not from thin air.
O·03
Error budget as guardrail
Budget burned? Deploys freeze, priority becomes reliability. Agreed in contract, not negotiated in the heat. It works because there is a brake.
O·04
Opinionated stack
Prometheus + Grafana + Loki + Tempo, or Datadog, or New Relic. One choice per client, integrated. OpenTelemetry as the protocol — no SDK lock-in.
O·05
Alerts with context
An alert carries: relevant dashboard, runbook from a similar prior incident, last deploy, owner. "CPU high" doesn't arrive — what arrives is "checkout p95 above 2s since 03:14, last deploy at 02:51, runbook attached".
O·06
Chaos & load engineering
Quarterly game day. k6/Gatling for load, LitmusChaos/AWS FIS for failure. Hypothesis before the experiment. The result becomes backlog.

05 · IaC & Automation

Everything that exists was declared. Everything that changes goes through a PR.

Infrastructure as code isn't about the tool — it is about the habit. Production change enters via pull request, with a visible plan, reviewed by someone who understands it, applied in a window. Console is for diagnosis, not for change.

TOOL 01

Terraform · OpenTofu

Standard for cloud infra. Versioned modules, remote state with lock, plan in CI reviewed by a human. Workspace per environment.

TOOL 02

Pulumi

For teams already living in TypeScript or Python who win by reusing domain code. Same provider model as Terraform underneath.

TOOL 03 · FEATURED

Crossplane

Internal platform that ships Composite Resources to developers. Request a PostgreSQL database with 3 lines of YAML; receive a provisioned RDS, rotated secret, published dashboard.

TOOL 04

Ansible

Host configuration when hosts still exist. Bare metal, on-prem, VM fleets. Idempotent, audit trail, reusable routines.

TOOL 05

Argo Workflows · Temporal

Orchestration of long pipelines: daily ETL, DBA routines, migration jobs. Retry, backoff, observability. Cron + bash is not orchestration.

TOOL 06

Policy as code

OPA/Gatekeeper, Conftest, Checkov. Versioned policy, tested in CI, applied at admission. Compliance that lives in the repo, not in a PDF.

01
Secure & auditable state
Remote state with lock, at-rest encryption, audit log of who applied what. Drift detection running daily.
02
Versioned modules
Internal registry, semver, changelog. Developers consume v1.4.2, not main. Refactoring doesn't break environments.
03
Plan mandatory in the PR
Bot posts the infra diff in the comment. Reviewer sees what will change before approving. Apply only on main, in a window.
04
Repeatable in any region
Same code provisions in us-east-1 and sa-east-1. No hard-coding, no scattered regional data. DR becomes a real exercise, not a PDF plan.

06 · FinOps

A predictable cloud bill. No reservations in the dark.

FinOps isn't an end-of-month spreadsheet with a red chart. It is a daily habit with three fronts: visibility (every dollar with an owner and product), optimization (rightsizing, savings plan, decommissioning), and governance (budget per team, alert before overrun). The goal is for the product team to make technical decisions knowing the cost — in the PR, not in a quarterly retrospective.

01
Granular visibility & tagging
Tag policy enforced by OPA before provisioning. Cost per team, per product, per environment. Automatic monthly showback — every manager receives what their area consumed, without asking.
02
Kubernetes cost solved
OpenCost or KubeCost aggregating real usage per namespace and label. Shared workload allocated by CPU·hour and GB-month — not split by hand in a spreadsheet.
03
Continuous rightsizing
Weekly recommendation per workload: oversized instance, gp2 volume becoming gp3, RDS with provisioned IOPS idle. Implementation via PR, with owner approval.
04
Savings Plans & Reservations
Coverage calculated from real baseline, not vendor estimate. Partial commitment (60–70% of base), spot/preemptive for peaks. Automated repurchase.
05
Budget & proactive alerts
Budget per team with alerts at 50/75/90/100%. Anomaly detection (Cost Explorer, Cloud Billing, OCI Cost Analysis) warns before a human notices.
06
Cost in the PR
Infracost in the pipeline. Terraform change shows +US$ 412/month in the comment before merge. Architectural decisions come out informed — not as a surprise ticket.
07
Active decommissioning
Orphan snapshot, detached EBS, idle elastic IP, forgotten staging environment. Monthly audit trims fat — on average 11–18% of the bill in the first 3 months.

TYPICAL RESULT · 90 DAYS

−23%

monthly invoice

68%

SP/RI coverage

100%

resources tagged with owner

12days

first showback

07 · SRE on-call

An engineer with a name. Not a ticket number.

SRE on-call as a tier-1 turnstile with upsell doesn't work — it just bridges until someone senior is woken up. Here the senior is awake from the first alert, with context, with history, and with autonomy to fix. Not only escalate.

P·01
Formal SLA per severity
Sev1 — 4 min median first response (P95 7 min over the last 12 months), mitigation in 30 min. Sev2 — response in 15 min. The contract defines the formal target and penalty where applicable.
P·02
Transparent on-call rotation
You know the name of who is on-call this week. Shared calendar. If you prefer someone specific, we arrange it.
P·03
Runbook in the client's wiki
Not in ours. Updated after every incident. Anyone besides us can read, execute, and — if they want — leave without dependency.
P·04
Postmortem in 5 business days
Sev1 and Sev2 mandatory. Written by who was on the incident. Blameless, with engineering action, owner, and deadline. Becomes prioritized backlog.
P·05
Quarterly game day
Rehearsed failover, dependency loss simulated, AZ taken down in a mirror environment. DR that nobody tested doesn't exist.
P·06
No lock-in
Annual contract, but 30-day exit with handover. Renew if it's better than alternatives — not by inertia.

Discuss an on-call contract → See full Support page

What we DON'T do in DevOps

Hype doesn't go to production.

NO
Kubernetes for 3 microservices
ECS Fargate, Cloud Run, Container Apps solve it with less cognitive cost. K8s enters when its problem appears — not before.
NO
Service mesh "because best practices"
Mesh solves mandatory mTLS, traffic policy and L7 observability. If none of the three is a requirement, it is overhead in disguise.
NO
Big-bang Jenkins migration
Strangler fig. Critical pipeline stays until last, new teams are born on the new stack, gradual decommissioning. Big-bang is a recipe for incident.
NO
SRE as a rebranded NOC
On-call without error budget, without SLO, without postmortem is a turnstile. If that is what you need, an outsourcer solves it for half the price.

FINOPS · 90 DIAS

Quer uma primeira faixa antes do diagnóstico?

FINOPS · 90 DAYS

Want a first opportunity band before discovery?

Baixe a calculadora FinOps 90 Dias para estimar a faixa de oportunidade e os próximos três movimentos sem mandar export de billing.

Download the FinOps 90-Day calculator to estimate the opportunity band and the next three moves without sending a billing export.

Baixar calculadora → Download calculator →

Cases recentes em DevOps & SRERecent cases in DevOps & SRE

2025·062 Cliente DBRE (sob NDA) · indústria DBRE customer (under NDA) · industry Plataformas de banco em IaC: repetível, auditável, automatizado. Database platforms in IaC: repeatable, auditable, automated. Transformação de plataforma de banco de scripts manuais para infraestrutura como código, padronização de provisionamento e deploy. Transforming database platform from manual scripts to infrastructure-as-code, standardizing provisioning and deploy. 100% IaC 100% IaC 2025 2025·049 Empresa de tecnologia (sob NDA) · indústria Technology company (under NDA) · industry Programa DBRE: 10 pessoas, práticas SRE aplicadas a banco. DBRE program: 10 people, SRE practices for database ops. Estabelecimento de práticas DBRE em time de 10 pessoas operando plataformas críticas de banco. Standardização, automação, observabilidade, modelo de suporte. Establishing DBRE practices in a 10-person team operating critical database platforms. Standardization, automation, observability, support model. 10 pessoas no DBRE 10 people on DBRE 2025 2025·013 Cliente AWS (sob NDA) · indústria AWS customer (under NDA) · industry VPC Endpoint redesign: -30% custo de rede AWS. VPC Endpoint redesign: -30% AWS network cost. Otimização de uso de VPC Endpoints reduzindo custos de rede AWS em ~30% sem comprometer conectividade privada nem postura de segurança. VPC endpoint usage optimization, reducing AWS network costs by ~30% without compromising private connectivity or security posture. -30% custo de rede -30% network cost 2025 2025·008 Plataforma crítica (sob NDA) · indústria Critical platform (under NDA) · industry Observability modernizada: Prometheus + Grafana + Opsgenie. Modernized observability: Prometheus + Grafana + Opsgenie. Modernização de observabilidade para ambiente crítico cobrindo bancos, Linux e recursos de cloud. Métricas customizadas, alerting calibrado, runbooks linkados. Observability modernization for a critical environment covering databases, Linux, and cloud resources. Custom metrics, tuned alerting, linked runbooks. Proativo operação Proactive operations 2025

DevOps & SRE

Pipeline lento, deploy assustador, ou plantão sem nome? Conta o problema.

45 min com um SRE sênior. Sem pitch.

DevOps & SRE

Slow pipeline, scary deploy, or nameless on-call? Tell us the problem.

45 min with a senior SRE. No pitch.

Agendar conversa → Schedule a chat →

DevOps& SRE.

Self-service que o dev usa. Sem ticket de infra.

Catálogo & ownership claro

Golden paths que viram template

Self-service guardrails

Secret & credential management

Métricas DORA reais

Documentação que o dev lê

Deploy contínuo com canary. Rollback que dispara sozinho.

Trunk-based + branch-by-flag

Canary que mede o que importa

Promotion entre ambientes

Supply chain assinado

Database migration coordenada

Quando faz sentido. Quando não, a gente diz.

Managed quando dá

Multi-cluster, não multi-tenant fingido

Service mesh quando cabe

Autoscaling honesto

Resource governance

Upgrade sem terror

SLI ligado ao negócio. Error budget que alguém respeita.

SLI com critério

SLO acordado com produto

Error budget como freio

Stack opinionada

Alerta com contexto

Chaos & load engineering

Tudo que existe foi declarado. Tudo que muda passa por PR.

Terraform · OpenTofu

Pulumi

Crossplane

Ansible

Argo Workflows · Temporal

Policy as code

State seguro & auditável

Módulos versionados

Plan obrigatório no PR

Reaplicável em qualquer região

Conta de cloud previsível. Sem reserva no escuro.

Visibilidade granular & tagging

Custo de Kubernetes resolvido

Rightsizing contínuo

Savings Plans & Reservations

Orçamento & alerta proativo

Custo no PR

Descomissionamento ativo

Engenheiro com nome. Não número de chamado.

SLA formal por severidade

On-call rotation transparente

Runbook na wiki do cliente

Postmortem em 5 dias úteis

Game day trimestral

Sem lock-in

Hype não vai pra produção.

Kubernetes para 3 microsserviços

Service mesh "porque é boas práticas"

Migração big-bang de Jenkins

SRE como rebranding de NOC

Self-service the dev actually uses. No infra ticket.

Catalog & clear ownership

Golden paths that become templates

Self-service guardrails

Secret & credential management

Real DORA metrics

Docs developers actually read

Continuous canary deploy. Rollback that fires on its own.

Trunk-based + branch-by-flag

Canary that measures what matters

Promotion across environments

Signed supply chain

Coordinated database migration

When it makes sense. When it doesn't, we say so.

Managed when possible

Multi-cluster, not fake multi-tenant

Service mesh when it fits

Honest autoscaling

Resource governance

Upgrade without dread

SLIs tied to the business. An error budget someone respects.

DevOps
& SRE.