L'error budget est peut-être le concept le plus mal compris de tout le programme SRE. La plupart des équipes le voient comme une limite à ne pas franchir. Les équipes qui fonctionnent bien le voient comme une ressource à gérer consciemment — et à dépenser intelligemment.
La formule
L'error budget est la marge d'erreur que votre SLO vous autorise sur une fenêtre donnée. Il se calcule directement à partir de votre objectif.
error_budget = (1 − objectif) × durée_fenêtre
Pour un SLO à 99,9 % sur 30 jours : (1 − 0,999) × 30 × 24 × 60 = 0,001 × 43 200 = 43,2 minutes. Vous avez 43 minutes et 12 secondes d'indisponibilité autorisée ce mois-ci. Ni plus, ni moins.
Une ressource, pas une limite
Un budget non dépensé n'est pas un succès — c'est un signal que vous êtes peut-être trop prudent. Les équipes qui ne dépensent jamais leur budget tendent à ralentir leurs déploiements, éviter les changements, et laisser s'accumuler la dette technique. Un budget régulièrement consommé (sans être épuisé) indique une cadence de déploiement saine et une fiabilité maîtrisée. L'objectif n'est pas zéro incident — c'est de ne jamais dépasser votre enveloppe.
La politique d'error budget
Toute organisation qui prend les SLO au sérieux doit avoir une politique d'error budget écrite — un document court qui répond à une question précise : que fait-on quand le budget est épuisé ? La réponse classique : stop aux nouvelles fonctionnalités, focus sur la fiabilité jusqu'à ce que le budget se reconstitue. Cette politique donne aux équipes SRE un levier objectif pour imposer un gel des déploiements sans avoir à négocier au cas par cas avec chaque équipe produit.
L'impact des burn rates
L'error budget ne se consomme pas de façon linéaire. Une panne complète d'une heure consomme 14,4 fois plus de budget qu'une dégradation légère étalée sur 30 jours. C'est exactement ce que mesure le burn rate : la vitesse à laquelle votre budget disparaît, comparée à la vitesse normale. Un burn rate de 1 signifie que vous consommez au rythme prévu. Un burn rate de 14,4 signifie que vous allez épuiser votre budget mensuel en deux heures.
Trois erreurs fréquentes
- ! Utiliser le budget pour justifier des maintenances récurrentes — si vos maintenances programmées épuisent régulièrement le budget, votre SLO est trop strict pour votre modèle opérationnel. Revoyez l'objectif ou revoyez les maintenances.
- ! Mesurer sur des fenêtres trop courtes — une fenêtre de 7 jours donne un error budget de 10,1 minutes pour un SLO à 99,9 %. Le moindre incident l'épuise instantanément. Préférez 28 à 30 jours pour des budgets stables.
- ! Ne pas avoir de politique d'error budget — sans règle prédéfinie sur ce qu'on fait quand le budget est épuisé, chaque incident devient une négociation politique plutôt qu'une décision opérationnelle.
Articles liés
Essayer le simulateur →
SLO Simulator →