Чек-лист приемки сервисаPublushed notes from obsidian

Система развернута.
Все нестандартные инциденты проходят через ответственных за эксплуатацию системы.
Настроены pipeline’ы для контролируемого обновления сервисов системы.
Есть мониторинг системы:
4.1. Технический общий.
4.2. Внутренние метрики самих сервисов.
4.3. Функциональный мониторинг (отражающий корректность и качество работы функций, предоставляемых пользователям, сторонним системам и т.д.).
Надежность системы соответствует требованиям:
5.1. Есть инструкции по переключению системы между ЦОД и/или восстановлению (в зависимости от требуемого уровня надежности).
Есть UAT контур, максимально близкий по конфигурации к Prod для проверки на нём как функциональных обновлений, так и прочих изменений как в настройках самих сервисов системы, так и инфраструктурных сервисов:
6.1. UAT контур прошёл регресс.
Есть документация по системе:
7.1. По стандарту описание Prod контура (схема взаимодействия внутренних сервисов системы и с внешними сервисами, таблица взаимодействия).
7.2. Инструкции по обновлению системы.
7.3. Инструкции по восстановлению после сбоев: переключение на резерв, восстановление из бэкапов после потери всех данных.
7.4. Инструкции по начальной настройке системы.
7.5. Инструкции по решению стандартных инцидентов.
7.6. Матрица здоровья и особенности настройки мониторинга.
7.7. Общее описание предназначения системы, сервисов, их особенностей работы.
Безопасность системы:
8.1. Проведена оценка уязвимостей и выполнены необходимые исправления.
8.2. Настроены и протестированы механизмы аутентификации и авторизации.
8.3. Обеспечено шифрование данных в транзите и на хранении.
8.4. Настроены журналы аудита и логирование для отслеживания действий пользователей и системных событий.
Производительность системы:
9.1. Проведено нагрузочное тестирование для оценки производительности под максимальной нагрузкой.
9.2. Настроены механизмы кэширования для оптимизации работы системы.
9.3. Определены и задокументированы ключевые показатели производительности (KPI).
Управление изменениями:
10.1. Определен процесс управления изменениями, включая оценку рисков и планирование.
10.2. Назначены ответственные за управление изменениями и их внедрение.
Обучение и поддержка пользователей:
11.1. Проведено обучение для конечных пользователей и технического персонала.
11.2. Доступна служба поддержки с четко определенными уровнями обслуживания (SLA).
Резервное копирование и восстановление:
12.1. Настроены регулярные резервные копии данных и конфигураций.
12.2. Проведено тестирование процесса восстановления из резервных копий.
Управление конфигурацией:
13.1. Внедрена система управления конфигурациями для отслеживания изменений в инфраструктуре и приложениях.
13.2. Обеспечена актуальность и доступность конфигурационных данных.
Соответствие требованиям и стандартам:
14.1. Проведена проверка на соответствие внутренним и внешним нормативным требованиям.
14.2. Задокументированы все соответствия стандартам и требованиям.

Maxim Gusev SRE Blog

Explorer

Чек-лист приемки сервиса

Graph View

Backlinks