Road to SREPublushed notes from obsidian

Что изучать:
- Основы SRE: SLA, SLO, SLI, Error Budget, Toil, Postmortem.
- Культура blameless postmortems и инцидент-менеджмент.
- Принципы надежности и баланс между фичами и стабильностью.
Что почитать:
- Книга:“Site Reliability Engineering” (O’Reilly, Google).
- Воркбук:“The Site Reliability Workbook” (Google).
Ресурсы: Google SRE Resources.

Технологии:
- Linux/Unix: Управление процессами, сети, файловые системы, Bash/Python-скрипты.
- Сети: TCP/IP, DNS, HTTP, Load Balancing, Firewalls, CDN.
- Базы данных: Основы SQL/NoSQL, репликация, шардинг.
Чем можно попрактиковаться:
- Настройка серверов на Ubuntu/CentOS.
- Работа с сетевыми утилитами: netstat, tcpdump, curl, iptables.
- Работа с логами, процессами, правами.
Курсы, которые можно посмотреть:
- “Linux Foundation: Introduction to Linux” (edX).
- “Computer Networking” (Coursera, от Stanford).

Технологии:
- Terraform (Infrastructure as Code).
- Ansible (еще IaC).
- CI/CD: Jenkins, GitLab CI, GitHub Actions. Teamcity and etc.
Чем можно попрактиковаться:
- Развертывание инфраструктуры в облаке (AWS/GCP, YC) через Terraform.
- Автоматизация деплоя приложения с Ansible + CI/CD.
Курсы и книги, которые можно посмотреть/почитать:
- “HashiCorp Certified: Terraform Associate” (Udemy).
- “Ansible for DevOps” (книга + практика).

Технологии:
- Docker: Сборки dockerfile, создание образов, сети, volumes.
- Kubernetes: Pods, Deployments, Services, Helm, Operators.
- Service Mesh: Istio, Linkerd (крайне опционально).
Чем можно попрактиковаться:
- Развертывание кластера k8s (minikube, kind, k3s, EKS/GKE (рекомендую kind)).
- Миграция с монолита на микросервисы в k8s.
Курсы и книги, которые можно посмотреть/почитать:
- “Docker Mastery” (Udemy, Bret Fisher).
- “Certified Kubernetes Administrator (CKA)” (KodeKloud).

Технологии:
- Метрики: Prometheus, Grafana, VictoriaMetrics and etc.
- Логи: ELK Stack (Elasticsearch, Logstash, Kibana), Loki.
- Трейсинг: Jaeger, OpenTelemetry, Tempo.
- Инструменты: Datadog, New Relic, Sentry (крайне опционально).
Чем попрактиковаться:
- Настройка мониторинга для приложения в k8s.
- Создание алертов на основе SLO.

Технологии:
- AWS: EC2, S3, RDS, Lambda, CloudFormation.
- GCP: Compute Engine, Cloud Storage, GKE.
- Azure: VM, AKS, Functions.
- YC: Compote, Storage, K8S
Чем попрактиковаться:
- Развертывание высокодоступного приложения в облаке.
- Настройка auto-scaling и disaster recovery.
Курсы, которые можно посмотреть:
- “AWS Certified DevOps Engineer” (A Cloud Guru).
- “Google Cloud Associate Cloud Engineer” (Coursera).

Направления:
- Надежность: Chaos Engineering (Chaos Monkey, Gremlin).
- Безопасность: DevSecOps, Vault, RBAC в k8s (крайне опционально).
- Оптимизация: Performance tuning, cost optimization.
Что почитать:
- “Chaos Engineering” (Casey Rosenthal).
- “Building Secure and Reliable Systems” (Google).

Проекты:
- Свой кластер k8s с мониторингом и CI/CD.
- Chaos-тесты для приложения.
Тестовые задания:
- Автоматизировать развертывание приложения с нуля (от кода до прода).
- Реши задачи из “Google SRE Interview Questions”.

Что учить:
- Системный дизайн для SRE (надежность, масштабирование (крайне обязательно)).
- Алгоритмы и структуры данных (базово, на Go, но тебе это точно не надо))).
- Вопросы по Linux, сетям, k8s.
Что почитать и посмотреть:
- “Site Reliability Engineering Interview” (YouTube).
- LeetCode (easy/medium задачи).

Maxim Gusev SRE Blog