Чек-лист: Базовые концепции SRE

1. Понимание терминов и метрик

КонцептЧто нужно знать/уметьПроверка (✅/❌)
SLA- Знать расшифровку (Service Level Agreement).
- Понимать, как SLA связан с бизнесом и клиентами.
- Пример: «99.9% uptime в месяц».
SLO- Определение (Service Level Objective).
- Уметь формулировать SLO для сервиса (напр., «95% запросов должны отвечать за < 500 мс»).
- Связь SLO с SLA.
SLI- Расшифровка (Service Level Indicator).
- Примеры SLI: latency, error rate, throughput.
- Как измерять SLI (напр., через Prometheus).
Error Budget- Что такое Error Budget и как он рассчитывается.
- Как использовать Error Budget для управления релизами.
- Пример: «SLO = 99.9% → допустимо 43 минуты даунтайма в месяц».
Toil- Определение рутинной работы (Toil).
- Примеры: ручные деплои, монотонная обработка инцидентов.
- Почему Toil нужно минимизировать.

2. Инцидент-менеджмент и культура

КонцептЧто нужно знать/уметьПроверка (✅/❌)
Blameless Postmortem- Понимать принцип “blameless”.
- Знать структуру постмортема (timeline, root cause, action items).
- Пример: Google’s Template.
Incident Response- Этапы обработки инцидента: обнаружение, эскалация, фикс, коммуникация.
- Роли: Incident Commander, Scribe, etc.
Коммуникация- Как документировать и сообщать о статусе инцидента команде/клиентам.
- Использование каналов: Slack, status-page, email, etc.

3. Практические навыки

ЗаданиеКритерий выполненияПроверка (✅/❌)
Рассчитать Error Budget- Для SLO = 99.9% (месяц) определить, сколько минут/часов доступно для ошибок.
Написать постмортем- Смоделировать инцидент (напр., «падение API на 10 минут»), описать root cause и action items.
Сформулировать SLO/SLI- Для своего пет-проекта определить 2-3 SLO и соответствующие SLI.
Разобрать кейс- Проанализировать реальный пример инцидента (напр., Gitlab Postmortem).

4. Вопросы для самопроверки

1.«Чем отличается SLA от SLO?»

Ответ SLA — договор с клиентом, SLO — внутренняя цель.

2.«Как Error Budget влияет на процесс релизов?»

Ответ Если бюджет исчерпан, релизы приостанавливаются до восстановления надежности.

3.«Почему Toil — это плохо?»

Ответ Он отвлекает команду от инженерных задач, увеличивает риск ошибок.

4.«Какие элементы должны быть в постмортеме?»

Ответ Timeline, root cause, impact, action items, ответственные.

5. Критерии успеха

  • Объяснить SLA/SLO/SLI на примере сервиса (например, YouTube или банковского приложения).
  • Рассказать, как Error Budget помогает балансировать между фичами и стабильностью.
  • Провести «разбор полетов» для реального инцидента без обвинений и вынести из него пользу.