nines.arewel.com

Mode d'emploi

Le burn rate

À quelle vitesse brûlez-vous votre error budget ?

La disponibilité instantanée ne suffit pas pour piloter la fiabilité. Un service à 90 % pendant une heure et un service à 99,9 % pendant 30 jours ont des impacts radicalement différents sur votre budget d'erreur. Le burn rate est le ratio qui mesure cette vitesse de consommation et qui permet d'alerter proportionnellement à la gravité réelle.

La définition

Un burn rate de 1 signifie que vous consommez votre budget exactement au rythme prévu — il sera épuisé à la fin de la fenêtre. Burn rate 2 : deux fois plus vite. Burn rate 14,4 : vous allez épuiser votre budget mensuel en moins de 50 heures.

burn_rate = taux_d'erreur_observé / (1 − objectif_SLO)

Pour un SLO à 99,9 % (error rate attendu = 0,1 %) et un error rate observé de 5 % : burn_rate = 0,05 / 0,001 = 50. Vous brûlez 50 fois plus vite que prévu.

Pourquoi alerter sur le burn rate et non sur la disponibilité ?

Parce que la disponibilité instantanée ne prédit pas l'impact sur le budget. Une dégradation à 99,5 % peut passer inaperçue en temps réel mais silencieusement consumer 20 % de votre budget mensuel en 6 heures. Une alerte sur disponibilité brute à 99 % déclencherait en permanence sur les fluctuations normales. Le burn rate offre un signal proportionnel : il monte uniquement quand le rythme de consommation dépasse ce que votre SLO peut absorber.

Le modèle multi-burn-rate de Google SRE

Google SRE recommande quatre paires de règles d'alerte sur deux fenêtres simultanées : une fenêtre longue (pour détecter les tendances lentes) et une fenêtre courte (pour filtrer les faux positifs sur les pics courts). Les deux conditions doivent être vraies en même temps pour déclencher. Cela évite à la fois les alertes sur des incidents trop brefs pour avoir un impact réel, et les alertes trop tardives sur des dégradations lentes.

Sévérité Fenêtre longue Fenêtre courte Burn rate Budget consommé
Page 1h 5min 14.4× 2%
Page 6h 30min 5%
Ticket 72h 6h 10%
Ticket 30d 6h 100%

Lire la table

1
Page CRITICAL (1h/5min, 14,4×) : le budget sera épuisé en moins de 2 heures. Réveil d'astreinte justifié — intervention immédiate requise.
2
Page CRITICAL (6h/30min, 6×) : le budget sera épuisé en 5 heures. Cadence toujours urgente — intervention dans l'heure.
3
Ticket (72h/6h, 1×) : dégradation lente qui consomme exactement le budget prévu. À traiter en heures ouvrées. Ne pas ignorer — un burn rate à 1 pendant 72h représente 10 % du budget mensuel.
4
Ticket (30j/6h, 1×) : le service consomme exactement son budget sur toute la fenêtre. À surveiller — si rien n'est corrigé, le budget sera épuisé à la fin du mois.

Trois erreurs fréquentes

  • ! Alerter sur une seule fenêtre temporelle — trop de faux positifs sur les pics courts. La double fenêtre (longue + courte) est essentielle pour la précision.
  • ! Utiliser des burn rates trop bas comme seuil d'alerte (< 2) — le bruit devient constant sur les variations normales de trafic. Les seuils Google SRE (14,4 et 6 pour les pages) sont calibrés pour limiter les fausses alertes à moins d'une par jour.
  • ! Ignorer les alertes ticket parce qu'elles ne semblent pas urgentes — elles signalent souvent des problèmes systémiques lents qui ne créent pas de panne franche mais dégradent silencieusement la fiabilité sur la durée.

Essayer le simulateur →

Réducteur de Bruit →