Чек-лист: Базовые концепции SRE
1. Понимание терминов и метрик
Концепт | Что нужно знать/уметь | Проверка (✅/❌) |
---|---|---|
SLA | - Знать расшифровку (Service Level Agreement). - Понимать, как SLA связан с бизнесом и клиентами. - Пример: «99.9% uptime в месяц». | |
SLO | - Определение (Service Level Objective). - Уметь формулировать SLO для сервиса (напр., «95% запросов должны отвечать за < 500 мс»). - Связь SLO с SLA. | |
SLI | - Расшифровка (Service Level Indicator). - Примеры SLI: latency, error rate, throughput. - Как измерять SLI (напр., через Prometheus). | |
Error Budget | - Что такое Error Budget и как он рассчитывается. - Как использовать Error Budget для управления релизами. - Пример: «SLO = 99.9% → допустимо 43 минуты даунтайма в месяц». | |
Toil | - Определение рутинной работы (Toil). - Примеры: ручные деплои, монотонная обработка инцидентов. - Почему Toil нужно минимизировать. |
2. Инцидент-менеджмент и культура
Концепт | Что нужно знать/уметь | Проверка (✅/❌) |
---|---|---|
Blameless Postmortem | - Понимать принцип “blameless”. - Знать структуру постмортема (timeline, root cause, action items). - Пример: Google’s Template. | |
Incident Response | - Этапы обработки инцидента: обнаружение, эскалация, фикс, коммуникация. - Роли: Incident Commander, Scribe, etc. | |
Коммуникация | - Как документировать и сообщать о статусе инцидента команде/клиентам. - Использование каналов: Slack, status-page, email, etc. |
3. Практические навыки
Задание | Критерий выполнения | Проверка (✅/❌) |
---|---|---|
Рассчитать Error Budget | - Для SLO = 99.9% (месяц) определить, сколько минут/часов доступно для ошибок. | |
Написать постмортем | - Смоделировать инцидент (напр., «падение API на 10 минут»), описать root cause и action items. | |
Сформулировать SLO/SLI | - Для своего пет-проекта определить 2-3 SLO и соответствующие SLI. | |
Разобрать кейс | - Проанализировать реальный пример инцидента (напр., Gitlab Postmortem). |
4. Вопросы для самопроверки
1.«Чем отличается SLA от SLO?»
Ответ
SLA — договор с клиентом, SLO — внутренняя цель.2.«Как Error Budget влияет на процесс релизов?»
Ответ
Если бюджет исчерпан, релизы приостанавливаются до восстановления надежности.3.«Почему Toil — это плохо?»
Ответ
Он отвлекает команду от инженерных задач, увеличивает риск ошибок.4.«Какие элементы должны быть в постмортеме?»
Ответ
Timeline, root cause, impact, action items, ответственные.5. Критерии успеха
- Объяснить SLA/SLO/SLI на примере сервиса (например, YouTube или банковского приложения).
- Рассказать, как Error Budget помогает балансировать между фичами и стабильностью.
- Провести «разбор полетов» для реального инцидента без обвинений и вынести из него пользу.