1. Система развернута.
  2. Все нестандартные инциденты проходят через ответственных за эксплуатацию системы.
  3. Настроены pipeline’ы для контролируемого обновления сервисов системы.
  4. Есть мониторинг системы:
    4.1. Технический общий.
    4.2. Внутренние метрики самих сервисов.
    4.3. Функциональный мониторинг (отражающий корректность и качество работы функций, предоставляемых пользователям, сторонним системам и т.д.).
  5. Надежность системы соответствует требованиям:
    5.1. Есть инструкции по переключению системы между ЦОД и/или восстановлению (в зависимости от требуемого уровня надежности).
  6. Есть UAT контур, максимально близкий по конфигурации к Prod для проверки на нём как функциональных обновлений, так и прочих изменений как в настройках самих сервисов системы, так и инфраструктурных сервисов:
    6.1. UAT контур прошёл регресс.
  7. Есть документация по системе:
    7.1. По стандарту описание Prod контура (схема взаимодействия внутренних сервисов системы и с внешними сервисами, таблица взаимодействия).
    7.2. Инструкции по обновлению системы.
    7.3. Инструкции по восстановлению после сбоев: переключение на резерв, восстановление из бэкапов после потери всех данных.
    7.4. Инструкции по начальной настройке системы.
    7.5. Инструкции по решению стандартных инцидентов.
    7.6. Матрица здоровья и особенности настройки мониторинга.
    7.7. Общее описание предназначения системы, сервисов, их особенностей работы.
  8. Безопасность системы:
    8.1. Проведена оценка уязвимостей и выполнены необходимые исправления.
    8.2. Настроены и протестированы механизмы аутентификации и авторизации.
    8.3. Обеспечено шифрование данных в транзите и на хранении.
    8.4. Настроены журналы аудита и логирование для отслеживания действий пользователей и системных событий.
  9. Производительность системы:
    9.1. Проведено нагрузочное тестирование для оценки производительности под максимальной нагрузкой.
    9.2. Настроены механизмы кэширования для оптимизации работы системы.
    9.3. Определены и задокументированы ключевые показатели производительности (KPI).
  10. Управление изменениями:
    10.1. Определен процесс управления изменениями, включая оценку рисков и планирование.
    10.2. Назначены ответственные за управление изменениями и их внедрение.
  11. Обучение и поддержка пользователей:
    11.1. Проведено обучение для конечных пользователей и технического персонала.
    11.2. Доступна служба поддержки с четко определенными уровнями обслуживания (SLA).
  12. Резервное копирование и восстановление:
    12.1. Настроены регулярные резервные копии данных и конфигураций.
    12.2. Проведено тестирование процесса восстановления из резервных копий.
  13. Управление конфигурацией:
    13.1. Внедрена система управления конфигурациями для отслеживания изменений в инфраструктуре и приложениях.
    13.2. Обеспечена актуальность и доступность конфигурационных данных.
  14. Соответствие требованиям и стандартам:
    14.1. Проведена проверка на соответствие внутренним и внешним нормативным требованиям.
    14.2. Задокументированы все соответствия стандартам и требованиям.