DevOps&SRE Library – Telegram
DevOps&SRE Library
18.7K subscribers
451 photos
3 videos
2 files
5.07K links
Библиотека статей по теме DevOps и SRE.

Реклама: @ostinostin
Контент: @mxssl

РКН: https://www.gosuslugi.ru/snet/67704b536aa9672b963777b3
Download Telegram
cluster-api-provider-hosted-control-plane

A Kubernetes Cluster API control plane provider that enables management of hosted control planes as first-class Kubernetes resources. This provider allows you to create and manage highly available Kubernetes control plane components (API Server, Controller Manager, Scheduler, and etcd) as hosted services, decoupling them from the underlying infrastructure.


https://github.com/teutonet/cluster-api-provider-hosted-control-plane
egressgateway

In a Kubernetes (k8s) cluster, when Pods access external services, their Egress IP addresses are not fixed. In the Overlay network, the Egress IP address is determined by the node where the Pod resides. While in the Underlay network, Pods directly use their own IP addresses for external communication. Consequently, when Pods are rescheduled, regardless of the network mode, their IP addresses for external communication change. This instability poses a challenge for system administrators in managing IP addresses, especially as the cluster scales and during network fault diagnostics. Controlling egress traffic based on a Pod's original egress IP outside the cluster becomes difficult.

To solve this problem, EgressGateway has been introduced into the k8s cluster. It is an open-source EgressGateway designed to resolve egress egress IP address issues across various CNI network modes, such as Calico, Flannel, Weave, and Spiderpool. Through flexible configuration and management of egress policies, EgressGateway allows setting egress IP addresses for tenant-level or cluster-level workloads. When Pods need to access the external network, the system consistently uses the configured Egress IP as the egress address, providing a stable solution for egress traffic management.


https://github.com/spidernet-io/egressgateway
Vibe coding tools observability with VictoriaMetrics Stack and OpenTelemetry

https://victoriametrics.com/blog/vibe-coding-observability
1
💥 eBPF: рентгеновское зрение для production — видим сеть, безопасность и узкие места прямо в ядре Linux

🔥 22 января в 19:00 мск — бесплатный открытый вебинар OTUS

Устали искать причину падения сервиса часами? А что если увидеть всё сразу: кто куда коннектится, где тормозит сеть, какой процесс подозрительно себя ведёт — и всё это без агентов, без overhead и без перезапуска?

На вебинаре покажем настоящую магию eBPF в живых демо.

📌 Что будет:
— Живое демо: ловим сетевые проблемы с Cilium Hubble
— Живое демо: отлавливаем угрозы в реальном времени с Tetragon
— Диагностируем производительность без остановки сервисов
— Архитектура eBPF простыми словами — как это вообще работает

🎯 После вебинара вы сможете:
— Моментально находить узкие места в продакшене без рестартов
— Заменить десятки тяжёлых агентов одним лёгким eBPF-решением
— Видеть инциденты безопасности, которые пропускают традиционные инструменты
— Понимать, когда eBPF — это спасение, а когда лучше обойтись классикой

👉 Регистрация уже открыта https://vk.cc/cTlmBY

Вебинар приурочен к старту курса «DevOps-инженер: практики и инструменты», где eBPF и современная наблюдаемость — один из ключевых блоков программы.

Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576, erid: 2Vtzqw8H2cS
taws

taws provides a terminal UI to interact with your AWS resources. The aim of this project is to make it easier to navigate, observe, and manage your AWS infrastructure in the wild.


https://github.com/huseyinbabal/taws
worktrunk

Worktrunk is a CLI for git worktree management, designed for running AI agents in parallel.

Worktrunk's three core commands make worktrees as easy as branches. Plus, Worktrunk has a bunch of quality-of-life features to simplify working with many parallel changes, including hooks to automate local workflows.


https://github.com/max-sixty/worktrunk
snitch

a friendlier ss / netstat for humans. inspect network connections with a clean tui or styled tables.


https://github.com/karol-broda/snitch
Kubernetes нужно изучать на практике, как язык: от алфавита к осмысленным конструкциям. Именно так разработан видеокурс по Kubernetes от инженеров «Фланта» — лидера контейнеризации в России.

В курсе 10 видео, в вводной вся база, а дальше только практика с реальными сценариями и кейсами.

Два первых ролика, и вот вы настраиваете работающий K8s-кластер на своём компьютере и уверенно деплоите приложения.
Самое время начать год с реально полезного контента!

Смотрите курс на удобной вам площадке:
YouTube
Rutube
ВК Видео
IO devices and latency

Here, we're going to cover the history, functionality, and performance of non-volatile storage devices over the history of computing, all using fun and interactive visual elements.


https://planetscale.com/blog/io-devices-and-latency
sshs

Terminal user interface for SSH.


https://github.com/quantumsheep/sshs
SRE Is Anti-Transactional

If you ask 10 SRE engineers to define SRE, you'll get 11 definitions.


https://queue.acm.org/detail.cfm?ref=rss&id=3773094
Resilience vs. Fault tolerance

In this post, I will discuss if there is a difference between resilience and fault tolerance when talking about IT systems.


https://www.ufried.com/blog/resilience_vs_fault_tolerance
Datadog, Thank You for Blocking Us

Datadog cut off our observability overnight. We migrated to an open Grafana stack in 48 hours. Here’s why vendor lock-in is fading in an AI-native world.


https://www.deductive.ai/blogs/datadog-thank-you-for-blocking-us
You Can’t Debug a System by Blaming a Person

“I understand why we need to be blameless, but I have this person in my team who is often reckless. How can I not blame them when their actions continuously make things worse?”

Someone asked me this at the SRE meetup, right after my talk on incidents. Since then I’ve been thinking about it, because it surfaces a concern many people might have.


https://humansinsystems.com/blog/you-cant-debug-a-systems-by-blaming-a-person
Eliminate sensitive values from Terraform state using write-only attributes

https://skundunotes.com/2025/12/22/eliminate-sensitive-values-from-terraform-state-using-write-only-attributes
How We Moved a 2M RPM WebSocket Service to EKS and Fixed a Critical Bottleneck

Lessons in systems because AWS deprecated OpsWorks


https://medium.com/freshworks-engineering-blog/two-million-websockets-90f63e760cfd
Scaling Dagster on Kubernetes: Best Practices for 50+ Code Locations

https://u11d.com/blog/scaling-dagster-kubernetes-multi-code-locations
Investigating and fixing "StopPodSandbox from runtime service failed" Kubelet errors

https://marcusnoble.co.uk/2025-09-28-investigating-and-fixing-stoppodsandbox-from-runtime-service-failed-kubelet-errors
HOWTO: Use SimKube for Cost Forecasting

Recently, I’ve had a number of folks ask for some more details about how SimKube can be used to predict or forecast your Kubernetes expenditures, and I realized that I’ve said you can do this several times, but I’ve never actually gone through the details! So this post will show you how.


https://blog.appliedcomputing.io/p/howto-use-simkube-for-cost-forecasting
От кода до продакшена за 2 месяца — начни свой путь в DevOps на курсе от YADRO 📨

Практические курсы от YADRO – это обучение на реальных задачах: от теории к собственному проекту вместе с инженерами компании.

На курсе по DevOps ты получишь практический опыт работы с полным стеком доставки приложения и соберёшь рабочую систему с нуля за два месяца.

Что тебя ждёт:
2,5 месяца работы над проектом;
80% времени — практика, задания и code review;
обучение онлайн или в офисе YADRO в Санкт-Петербурге;
менторство от инженеров YADRO;
возможность попасть на стажировку по итогам обучения.


*⃣ Подходит тебе, если: ты студент 2 курса и старше, уумеешь работать с Linux, скриптами и настройкой серверов.

Подробности о курсе и других направлениях подготовки смотри на сайте!
Please open Telegram to view this post
VIEW IN TELEGRAM