Как добавить системности в мониторинг продакшна: параметры и тулинг для инцидент-менеджмента
Давайте обсудим, как добавить системности в мониторинг проблем на продакшене — поговорим об инцидент‑менеджменте.
На проде что‑то сломалось — такова суровая реальность, случается с лучшими из нас, увы. Что обычно происходит в подобных случаях? Ловим алерты, бежим смотреть графики и логи, вызваниваем из отпуска разработчика, который занимался этой функциональностью, выкатываем фикс,рвем на себе бороду, проводим пост‑мортем. Это реакция на уровне здравого смысла, классика.
Но когда речь заходит о недозаработанных из‑за инцидента деньгах, расстроенных пользователях — любое улучшение, даже небольшое, на доли процента — может принести ощутимый результат.
Давайте поговорим, как подойти к вопросу мониторинга методологически — задействовать инструментарий инцидент‑менеджмента. Обсудим, как оценивать критичность сервисов и какие системы могут быть полезны для отслеживания проблем.
Статья ориентирована в первую очередь на тех, кто прямо сейчас занимается мониторингом на уровне общей инженерной грамотности, но пока не использует в явном виде инцидент‑менеджмент как подход.
https://habr.com/ru/companies/sravni/articles/802705/
#devops #девопс
Подпишись 👉@i_DevOps
Давайте обсудим, как добавить системности в мониторинг проблем на продакшене — поговорим об инцидент‑менеджменте.
На проде что‑то сломалось — такова суровая реальность, случается с лучшими из нас, увы. Что обычно происходит в подобных случаях? Ловим алерты, бежим смотреть графики и логи, вызваниваем из отпуска разработчика, который занимался этой функциональностью, выкатываем фикс,
Но когда речь заходит о недозаработанных из‑за инцидента деньгах, расстроенных пользователях — любое улучшение, даже небольшое, на доли процента — может принести ощутимый результат.
Давайте поговорим, как подойти к вопросу мониторинга методологически — задействовать инструментарий инцидент‑менеджмента. Обсудим, как оценивать критичность сервисов и какие системы могут быть полезны для отслеживания проблем.
Статья ориентирована в первую очередь на тех, кто прямо сейчас занимается мониторингом на уровне общей инженерной грамотности, но пока не использует в явном виде инцидент‑менеджмент как подход.
https://habr.com/ru/companies/sravni/articles/802705/
#devops #девопс
Подпишись 👉@i_DevOps
🔥2👍1
Ваша инфраструктура — ваш код. Готовы управлять ею правильно?
GitOps — это способ автоматизировать управление приложениями в Kubernetes, минимизировать ошибки и ускорить развертывание.
⏺ На открытом уроке 03.04.2025 в 20:00 мы разберем ключевые команды, работу с YAML-манифестами и научимся эффективно управлять приложениями в Kubernetes.
Записывайтесь на вебинар и получите гарантированную скидку на курс «GitOps»: https://vk.cc/cJTwuX
GitOps — это способ автоматизировать управление приложениями в Kubernetes, минимизировать ошибки и ускорить развертывание.
Записывайтесь на вебинар и получите гарантированную скидку на курс «GitOps»: https://vk.cc/cJTwuX
Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576Please open Telegram to view this post
VIEW IN TELEGRAM
SnapScheduler — это контроллер Kubernetes, который автоматически создает снапшоты PVC (PersistentVolumeClaim) по расписанию, используя встроенный механизм
Основные возможности:
- Создание снапшотов PVC по расписанию (cron).
- Поддержка нескольких расписаний для одного PVC.
- Возможность настройки политики хранения (retention policy).
- Не требует изменений в приложении или манифестах PVC.
Как это работает:
Вы создаете ресурс
- Селектор PVC.
- Cron-расписание.
- Максимальное количество снапшотов для хранения.
Контроллер следит за расписанием и создает
Пример использования:
Такой манифест будет создавать снапшоты каждые 6 часов для всех PVC с лейблом
https://github.com/backube/snapscheduler
#devops #девопс
Подпишись 👉@i_DevOps
VolumeSnapshot. Он не зависит от CSI-драйвера, пока тот поддерживает VolumeSnapshot, и работает с любым сторедж-классом, поддерживающим снапшоты.Основные возможности:
- Создание снапшотов PVC по расписанию (cron).
- Поддержка нескольких расписаний для одного PVC.
- Возможность настройки политики хранения (retention policy).
- Не требует изменений в приложении или манифестах PVC.
Как это работает:
Вы создаете ресурс
SnapshotSchedule, в котором указываете:- Селектор PVC.
- Cron-расписание.
- Максимальное количество снапшотов для хранения.
Контроллер следит за расписанием и создает
VolumeSnapshot объекты автоматически.Пример использования:
apiVersion: snapscheduler.backube/v1
kind: SnapshotSchedule
metadata:
name: example-schedule
spec:
schedule: "0 */6 * * *"
snapshotTemplate:
labels:
createdBy: snapscheduler
pvcSelector:
matchLabels:
snapshot: "true"
retention:
maxCount: 5
Такой манифест будет создавать снапшоты каждые 6 часов для всех PVC с лейблом
snapshot=true, и хранить максимум 5 последних.https://github.com/backube/snapscheduler
#devops #девопс
Подпишись 👉@i_DevOps
👍6
Обзор k8sgpt: как искусственный интеллект помогает обучать DevOps-инженеров
Всем привет! На связи Евгений Торин, DevOps-инженер компании «Флант». Я давно хотел попробовать в деле искусственный интеллект и даже в качестве эксперимента генерировал картинки для своих презентаций. Но полноценно погрузиться в эту область удалось, лишь когда появилась практическая необходимость.
https://habr.com/ru/companies/flant/articles/845874/
#devops #девопс
Подпишись 👉@i_DevOps
Всем привет! На связи Евгений Торин, DevOps-инженер компании «Флант». Я давно хотел попробовать в деле искусственный интеллект и даже в качестве эксперимента генерировал картинки для своих презентаций. Но полноценно погрузиться в эту область удалось, лишь когда появилась практическая необходимость.
https://habr.com/ru/companies/flant/articles/845874/
#devops #девопс
Подпишись 👉@i_DevOps
👍5❤1
🧑🏻💻Освойте Python, создайте свое портфолио и получите первый оффер в IT!
Хотите начать карьеру разработчика, но не знаете, с чего начать? Курс «Python Developer. Basic» поможет вам освоить Python с нуля и подготовиться к работе в IT!
Что вас ждет на курсе?
- Python с нуля: разберетесь с основами программирования и ключевыми концепциями.
- Реальные проекты: создадите портфолио, которое поможет выделиться среди кандидатов.
- Помощь в поиске работы: получите поддержку в составлении резюме, стратегии поиска и подготовке к собеседованиям.
⚡️Начните обучение сегодня и сделайте первый шаг к карьере в IT! https://vk.cc/cJURj9
Хотите начать карьеру разработчика, но не знаете, с чего начать? Курс «Python Developer. Basic» поможет вам освоить Python с нуля и подготовиться к работе в IT!
Что вас ждет на курсе?
- Python с нуля: разберетесь с основами программирования и ключевыми концепциями.
- Реальные проекты: создадите портфолио, которое поможет выделиться среди кандидатов.
- Помощь в поиске работы: получите поддержку в составлении резюме, стратегии поиска и подготовке к собеседованиям.
⚡️Начните обучение сегодня и сделайте первый шаг к карьере в IT! https://vk.cc/cJURj9
Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576Средства оркестрации и случаи их использования
Оркестрация позволяет управлять работой контейнеров, запущенных в больших и динамических окружениях. С ее помощью можно автоматизировать и управлять следующими задачами:
✍🏻 Создание и развертывание контейнеров;
✍🏻 Балансировка нагрузки;
✍🏻 Разделение ресурсов между контейнерами;
✍🏻 Мониторинг контейнеров и серверов;
✍🏻 Масштабирование контейнеров;
✍🏻 Перенос контейнеров с одного сервера на другой, если на первом возникает недостаток ресурсов.
#devops #девопс
Подпишись 👉@i_DevOps
Оркестрация позволяет управлять работой контейнеров, запущенных в больших и динамических окружениях. С ее помощью можно автоматизировать и управлять следующими задачами:
✍🏻 Создание и развертывание контейнеров;
✍🏻 Балансировка нагрузки;
✍🏻 Разделение ресурсов между контейнерами;
✍🏻 Мониторинг контейнеров и серверов;
✍🏻 Масштабирование контейнеров;
✍🏻 Перенос контейнеров с одного сервера на другой, если на первом возникает недостаток ресурсов.
#devops #девопс
Подпишись 👉@i_DevOps
👍1
⚙️ Из каких частей состоит Kubernetes
Этот вебинар посвящён внутреннему устройству Kubernetes — одной из самых популярных платформ для контейнеризации и оркестрации. Вы узнаете, из каких ключевых компонентов состоит Kubernetes, как они взаимодействуют между собой и как настроить их для эффективного управления контейнерными приложениями.
На вебинаре вы узнаете:
1. Основные компоненты архитектуры Kubernetes: Control Plane, Worker Nodes, и их роли в системе.
2. Как работают ключевые элементы Control Plane: API Server, etcd, Scheduler, Controller Manager.
3. Функции Worker Nodes, включая kubelet, kube-proxy и контейнерный runtime (например, Docker или containerd).
4. Как работают Pods, Namespaces, ConfigMaps, Secrets, и их роль в управлении контейнерами.
5. Принципы масштабирования приложений и обеспечения отказоустойчивости с помощью Kubernetes.
6. Настройка сетевого взаимодействия и хранения данных с использованием Ingress, Persistent Volumes и Storage Classes.
👉 Регистрация и подробности о курсе "Инфраструктурная платформа на основе Kubernetes": https://vk.cc/cK8eIo
Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576
Этот вебинар посвящён внутреннему устройству Kubernetes — одной из самых популярных платформ для контейнеризации и оркестрации. Вы узнаете, из каких ключевых компонентов состоит Kubernetes, как они взаимодействуют между собой и как настроить их для эффективного управления контейнерными приложениями.
На вебинаре вы узнаете:
1. Основные компоненты архитектуры Kubernetes: Control Plane, Worker Nodes, и их роли в системе.
2. Как работают ключевые элементы Control Plane: API Server, etcd, Scheduler, Controller Manager.
3. Функции Worker Nodes, включая kubelet, kube-proxy и контейнерный runtime (например, Docker или containerd).
4. Как работают Pods, Namespaces, ConfigMaps, Secrets, и их роль в управлении контейнерами.
5. Принципы масштабирования приложений и обеспечения отказоустойчивости с помощью Kubernetes.
6. Настройка сетевого взаимодействия и хранения данных с использованием Ingress, Persistent Volumes и Storage Classes.
👉 Регистрация и подробности о курсе "Инфраструктурная платформа на основе Kubernetes": https://vk.cc/cK8eIo
Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576
👍1
Эволюция Terraform: Как мы безопасно отделили дюжину сервисов от монолита
Если вы используете terraform для управления облачной инфраструктурой, то по мере роста проекта вы могли столкнуться с некоторыми проблемами. Возможно, код terraform становится слишком сложным и запутанным. Возможно, развертывание занимает слишком много времени и приводит к ошибкам. Возможно, ваша команда боится вносить изменения, потому что не знает, что может сломаться.
https://medium.com/@susovan87/lesson-learned-after-decoupling-a-dozen-of-services-from-terraform-monolith-safely-with-no-downtime-404e503f6cb6
#devops #девопс
Подпишись 👉@i_DevOps
Если вы используете terraform для управления облачной инфраструктурой, то по мере роста проекта вы могли столкнуться с некоторыми проблемами. Возможно, код terraform становится слишком сложным и запутанным. Возможно, развертывание занимает слишком много времени и приводит к ошибкам. Возможно, ваша команда боится вносить изменения, потому что не знает, что может сломаться.
https://medium.com/@susovan87/lesson-learned-after-decoupling-a-dozen-of-services-from-terraform-monolith-safely-with-no-downtime-404e503f6cb6
#devops #девопс
Подпишись 👉@i_DevOps
👍4
📊 Метрики, которые решают: как настроить Prometheus в Kubernetes
Без мониторинга — как без рук. Как понять, что приложение работает стабильно? Как вовремя замечать проблемы? Правильный сбор метрик — залог надежной работы микросервисов!
📅 25 марта в 20:00 (мск) приглашаем на открытый вебинар “Метрики и Prometheus”, на котором разберем:
✅ Какие бывают метрики и зачем они нужны
✅ Как Prometheus помогает собирать и анализировать данные
✅ Развёртывание Prometheus в Kubernetes и его интеграция с приложениями
✅ Настройка метрик в Spring Boot
Что получите?
✔️ Понимание ключевых принципов мониторинга
✔️ Готовые решения для работы с метриками в Kubernetes
✔️ Практический опыт развёртывания Prometheus
👉 Регистрируйтесь по ссылке: https://vk.cc/cK8h28
Бесплатное занятие приурочено к старту курса Microservice Architecture, обучение на котором позволит освоить микросервисы: Docker, Kafka, API и стать мастером производительных систем
Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576
Без мониторинга — как без рук. Как понять, что приложение работает стабильно? Как вовремя замечать проблемы? Правильный сбор метрик — залог надежной работы микросервисов!
📅 25 марта в 20:00 (мск) приглашаем на открытый вебинар “Метрики и Prometheus”, на котором разберем:
✅ Какие бывают метрики и зачем они нужны
✅ Как Prometheus помогает собирать и анализировать данные
✅ Развёртывание Prometheus в Kubernetes и его интеграция с приложениями
✅ Настройка метрик в Spring Boot
Что получите?
✔️ Понимание ключевых принципов мониторинга
✔️ Готовые решения для работы с метриками в Kubernetes
✔️ Практический опыт развёртывания Prometheus
👉 Регистрируйтесь по ссылке: https://vk.cc/cK8h28
Бесплатное занятие приурочено к старту курса Microservice Architecture, обучение на котором позволит освоить микросервисы: Docker, Kafka, API и стать мастером производительных систем
Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576
🎯 NVIDIA k8s-device-plugin
Этот репозиторий содержит NVIDIA Device Plugin для Kubernetes. Он позволяет автоматически обнаруживать и предоставлять GPU-ресурсы NVIDIA в кластере Kubernetes.
📌 Поддерживаемые функции:
- Автоматическое обнаружение GPU
- Выделение GPU для контейнеров
- Поддержка Multi-Instance GPU (MIG)
- Интеграция с
- Гибкая настройка через параметры и конфигурации
Установка плагина осуществляется через манифесты, доступные в папке
Полезен, если вы работаете с ML/AI-ворклоудами в Kubernetes и хотите использовать ресурсы GPU эффективно и прозрачно.
https://github.com/NVIDIA/k8s-device-plugin
#devops #девопс
Подпишись 👉@i_DevOps
Этот репозиторий содержит NVIDIA Device Plugin для Kubernetes. Он позволяет автоматически обнаруживать и предоставлять GPU-ресурсы NVIDIA в кластере Kubernetes.
📌 Поддерживаемые функции:
- Автоматическое обнаружение GPU
- Выделение GPU для контейнеров
- Поддержка Multi-Instance GPU (MIG)
- Интеграция с
nvidia-container-toolkit- Гибкая настройка через параметры и конфигурации
Установка плагина осуществляется через манифесты, доступные в папке
deployments/. Проект активно развивается и поддерживается NVIDIA.Полезен, если вы работаете с ML/AI-ворклоудами в Kubernetes и хотите использовать ресурсы GPU эффективно и прозрачно.
https://github.com/NVIDIA/k8s-device-plugin
#devops #девопс
Подпишись 👉@i_DevOps
👍2❤1
Здесь на простых картинках и понятном языке обучают работе с этой ОС, делятся полезными фишками и инструментами
Подписывайтесь: @linuxos_tg
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥2🤮2🤡2❤1🤯1💩1
База про жизненный цикл разработки ПО (SDLC): этапы, виды моделей и их различия
Software Development Life Cycle (SDLC) — это фундамент, на котором строится разработка. Он помогает выстроить процессы так, чтобы команда четко понимала, что и когда ей нужно делать, а заказчик знал, на каком этапе находится работа.
И если с этапами работы чаще все понятно, то с жизненными моделями SDLC возникает путаница. В некоторых статьях могут писать, что какие-то из моделей устарели и нежизнеспособны, или просто неверно называть их принципы. Поэтому мы решили собрать основную информацию про SDLC в одном тексте.
А еще пообщались с командой AGIMA — интегратором, который более 15 лет создает веб-решения и мобильные приложения для клиентов. Компания показала, как выстроила процесс разработки и как она управляет командой.
https://habr.com/ru/companies/kaiten/articles/893866/
#devops #девопс
Подпишись 👉@i_DevOps
Software Development Life Cycle (SDLC) — это фундамент, на котором строится разработка. Он помогает выстроить процессы так, чтобы команда четко понимала, что и когда ей нужно делать, а заказчик знал, на каком этапе находится работа.
И если с этапами работы чаще все понятно, то с жизненными моделями SDLC возникает путаница. В некоторых статьях могут писать, что какие-то из моделей устарели и нежизнеспособны, или просто неверно называть их принципы. Поэтому мы решили собрать основную информацию про SDLC в одном тексте.
А еще пообщались с командой AGIMA — интегратором, который более 15 лет создает веб-решения и мобильные приложения для клиентов. Компания показала, как выстроила процесс разработки и как она управляет командой.
https://habr.com/ru/companies/kaiten/articles/893866/
#devops #девопс
Подпишись 👉@i_DevOps
👍3
Мониторинг инфраструктуры: как избежать простых и неправильных решений
Мониторинг – это не только сбор информации о состоянии, а помощник для всех. И именно поэтому он такой разный. Ведь чтобы помочь пользователям, разработчикам, провайдерам, мониторингу приходится решать очень разные задачи на разных уровнях. Например, пользователям важно, чтобы сервис был доступен именно в тот момент, когда он им потребуется. Провайдеру – чтобы ресурсы работали максимально эффективно.
На первый взгляд кажется, что главное для мониторинга – это выбрать ключевые метрики, учесть особенности инфраструктуры и настроить сбор данных, триггеры и алерты. Несомненно, это очень важно для инструмента наблюдения. Но всё же главное в мониторинге — сделать его источником информации для развития и оптимизации.
https://habr.com/ru/articles/893142/
#devops #девопс
Подпишись 👉@i_DevOps
Мониторинг – это не только сбор информации о состоянии, а помощник для всех. И именно поэтому он такой разный. Ведь чтобы помочь пользователям, разработчикам, провайдерам, мониторингу приходится решать очень разные задачи на разных уровнях. Например, пользователям важно, чтобы сервис был доступен именно в тот момент, когда он им потребуется. Провайдеру – чтобы ресурсы работали максимально эффективно.
На первый взгляд кажется, что главное для мониторинга – это выбрать ключевые метрики, учесть особенности инфраструктуры и настроить сбор данных, триггеры и алерты. Несомненно, это очень важно для инструмента наблюдения. Но всё же главное в мониторинге — сделать его источником информации для развития и оптимизации.
https://habr.com/ru/articles/893142/
#devops #девопс
Подпишись 👉@i_DevOps
👍3
Инженеры и разработчики, внесите вклад в развитие сообщества — загляните на стенд компании «Флант» на DevOps Conf.
Ваше мнение определит, какие технологии и практики в центре внимания сегодня. Поделитесь, как управляете инфраструктурой, и помогите выявить тренды индустрии, поучаствовав в опросе State of DevOps Russia 2025.
Или поучаствуйте в активности «Трудности перевода», чтобы договориться о переводе терминов из глоссария CNCF и документации K8s всем сообществом.
Не упустите шанс — команда «Флант» и эксперты Deckhouse обладают большим опытом работы в Kubernetes и DevOps.
Они будут рады обсудить технологии и продукты, которые могут быть полезны в вашей работе или просто интересны, и ждут вас 7 и 8 апреля на DevOpsConf — стенд напротив Конгресс-холла.
#реклама
О рекламодателе
Ваше мнение определит, какие технологии и практики в центре внимания сегодня. Поделитесь, как управляете инфраструктурой, и помогите выявить тренды индустрии, поучаствовав в опросе State of DevOps Russia 2025.
Или поучаствуйте в активности «Трудности перевода», чтобы договориться о переводе терминов из глоссария CNCF и документации K8s всем сообществом.
Не упустите шанс — команда «Флант» и эксперты Deckhouse обладают большим опытом работы в Kubernetes и DevOps.
Они будут рады обсудить технологии и продукты, которые могут быть полезны в вашей работе или просто интересны, и ждут вас 7 и 8 апреля на DevOpsConf — стенд напротив Конгресс-холла.
#реклама
О рекламодателе
👍1
Какую функцию выполняет ReplicaSet?
Функция ReplicaSet (RS) в Kubernetes заключается в обеспечении стабильного количества экземпляров подов в кластере. RS является основным компонентом Kubernetes, который используется для развертывания Stateless-приложений. Он обеспечивает непрерывную доступность приложения, автоматически запуская новые экземпляры подов в случае их выхода из строя. Без использования RS такие поды пришлось бы запускать вручную, что затруднило бы поддержание доступности приложения для пользователей.
Что такое пространство имен (namespaces)? Почему не стоит использовать одно namespace для всех приложений?
Пространства имен позволяют разделить кластер на виртуальные группы, внутри которых можно объединять приложения по нужному принципу. Таким образом, создается возможность изолировать различные группы приложений друг от друга. Например, благодаря этой функции можно создать приложение с одинаковым именем в двух разных пространствах.
Если использовать только одно пространство имен, которое было задано по умолчанию при запуске кластера, со временем может стать сложно ориентироваться во всех приложениях, запущенных в нем. Группировка приложений в разных пространствах имен упрощает работу: например, можно разместить приложение мониторинга в одном пространстве, а приложения, связанные с информационной безопасностью, в другом.
Еще один случай, когда несколько пространств имен могут пригодиться, — это ситуация, когда несколько команд работают с одним кластером.
#devops #девопс
Подпишись 👉@i_DevOps
Функция ReplicaSet (RS) в Kubernetes заключается в обеспечении стабильного количества экземпляров подов в кластере. RS является основным компонентом Kubernetes, который используется для развертывания Stateless-приложений. Он обеспечивает непрерывную доступность приложения, автоматически запуская новые экземпляры подов в случае их выхода из строя. Без использования RS такие поды пришлось бы запускать вручную, что затруднило бы поддержание доступности приложения для пользователей.
Что такое пространство имен (namespaces)? Почему не стоит использовать одно namespace для всех приложений?
Пространства имен позволяют разделить кластер на виртуальные группы, внутри которых можно объединять приложения по нужному принципу. Таким образом, создается возможность изолировать различные группы приложений друг от друга. Например, благодаря этой функции можно создать приложение с одинаковым именем в двух разных пространствах.
Если использовать только одно пространство имен, которое было задано по умолчанию при запуске кластера, со временем может стать сложно ориентироваться во всех приложениях, запущенных в нем. Группировка приложений в разных пространствах имен упрощает работу: например, можно разместить приложение мониторинга в одном пространстве, а приложения, связанные с информационной безопасностью, в другом.
Еще один случай, когда несколько пространств имен могут пригодиться, — это ситуация, когда несколько команд работают с одним кластером.
#devops #девопс
Подпишись 👉@i_DevOps
👍6