DevOps&SRE Library – Telegram
DevOps&SRE Library
18.4K subscribers
464 photos
4 videos
2 files
4.98K links
Библиотека статей по теме DevOps и SRE.

Реклама: @ostinostin
Контент: @mxssl

РКН: https://www.gosuslugi.ru/snet/67704b536aa9672b963777b3
Download Telegram
Container CPU Requests & Limits Explained with GOMAXPROCS Tuning

In this article, we’re going to cover a few things that might’ve puzzled you if you’ve been running your applications, especially Go applications, in Kubernetes:

- How Kubernetes and the Linux kernel handle CPU stuff for containers
- What the Go runtime does with CPU, and whether you should bother setting GOMAXPROCS
- Which metrics are actually worth paying attention to

Maybe you’ve seen some of these metrics before while keeping an eye on your applications, but didn’t fully know what to make of them. This should help clear that up.


https://victoriametrics.com/blog/kubernetes-cpu-go-gomaxprocs
5
zmx

session persistence for terminal processes


https://github.com/neurosnap/zmx
Running our Docker registry on-prem with Harbor

On hosting images without the price tag.


https://dev.37signals.com/running-our-docker-registry-on-prem-with-harbor
Чтобы не собирать вручную десятки однотипных команд для облачной CLI, мы в MWS Cloud Platform сделали генератор: он берёт OpenAPI-спеки и сам создаёт готовый инструмент для управления облаком.

В статье кратко:

— почему выбрали Go + Cobra и кодогенерацию;
— как из путей и методов рождаются mws <service> <component> <op>;
— профили, автообновление, удобный вывод;
— что получилось в итоге и зачем это бизнесу.

Читать статью
fizzy

This is the source code of Fizzy, the Kanban tracking tool for issues and ideas by 37signals.


https://github.com/basecamp/fizzy
🚀 Разгоняем kube-prometheus-stack: секретный ингредиент Observability

🔥 16 декабря в 20:00 мск — бесплатный вебинар от OTUS.

Мониторинг — это сердце инфраструктуры. Но что делать, если именно он начинает проседать под нагрузкой? На вебинаре разберём, как выжать максимум из kube-prometheus-stack, ускорить работу Grafana, разгрузить Prometheus и сделать observability-инфру устойчивой даже во время инцидентов.

Что разберём:
– как повысить отзывчивость Grafana при больших объёмах данных;
– как настроить Prometheus для быстрой обработки метрик;
– как сократить сетевой трафик мониторинга без потери данных;
– архитектурные подходы, которые помогут не «уронить» мониторинг при пиковых нагрузках.

👉 Регистрируйтесь здесь: https://vk.cc/cScBT2

Занятие приурочено к старту курса «Observability: мониторинг, логирование, трейсинг», где вы научитесь проектировать отказоустойчивые observability-системы.

Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576, erid: 2VtzqvqrdcN
VERT

VERT is a file conversion utility that uses WebAssembly to convert files on your device instead of a cloud.


https://github.com/VERT-sh/VERT
1
Новые сервисы для надежности вашей инфраструктуры 🔗

Облачный провайдер Cloud․ru выпустил три сервиса в общий доступ на платформе Cloud․ru Evolution. Используйте их, чтобы повысить защиту ваших ресурсов.

Evolution Load Balancer v2 помогает быстро и стабильно распределять нагрузку, работая сразу в нескольких зонах доступности. С этим сервисом вы можете быть уверены в стабильности работы своих систем, даже в случае сбоев в одной из зон.

Evolution Agent Backup создает резервные копии виртуальных машин из облаков сторонних провайдеров, экономя место и время благодаря полным и инкрементальным копиям.

Evolution Disaster Recovery обеспечивает быстрое восстановление работы IT-систем при сбоях или киберинцидентах.


А еще вы можете бесплатно протестировать Evolution Container Security — сервис, который помогает выявлять проблемы безопасности на всех этапах жизненного цикла контейнерных приложений.

Все сервисы работают с поддержкой 24/7, гарантированным SLA и возможностью масштабирования нагрузки.
Please open Telegram to view this post
VIEW IN TELEGRAM
Victorialogs vs Loki - Benchmarking Results

TL;DR – After side‑by‑side testing on a 500 GB/7‑day workload, VictoriaLogs cut query latencies by 94 %, shrank storage by ≈40 %, and used < 50 % of the CPU & RAM we previously allocated to Loki. This post explains why we switched.


https://truefoundry.com/blog/victorialogs-vs-loki
What I Really Mean When I Say “Good Communication” in Incident Response

“Good communication” is one of those phrases everyone nods along to — until the incident hits, and suddenly comms unravel before your eyes.

So here’s what I actually mean when I say communication matters.


https://uptimelabs.io/articles/good-communication-in-incident-response
The JVM Pause That Wasn't: A War Story

A high-throughput Java service was stalling. The culprit? Stop-the-World GC pauses were blocked by synchronous log writes to a busy disk.


https://dzone.com/articles/the-jvm-pause-that-wasnt-a-war-story
Kubernetes Informers are so easy... to misuse!

https://render.com/blog/kubernetes-informers