CatOps – Telegram
CatOps
5.09K subscribers
94 photos
5 videos
19 files
2.57K links
DevOps and other issues by Yurii Rochniak (@grem1in) - SRE @ Preply && Maksym Vlasov (@MaxymVlasov) - Engineer @ Star. Opinions on our own.

We do not post ads including event announcements. Please, do not bother us with such requests!
Download Telegram
Когда-нибудь мы напишем красивую статью в Engineering блог нашей компании, как мы боролись с перераспределением slabs в Мемкеше. Но это будет когда-нибудь, а пока почитайте, как кешируют в Reddit
Собрание тридцати лучших технических выступлений 2018 года по версии Cindy Sridharan. Со ссылками на слайды и видео + комментарии Cindy о докладе.

Вот список самих докладов:

- The Future of Microprocessors, Sophie Wilson
- The Hurricane’s Butterfly: Debugging pathologically performing systems, Bryan Cantrill
- Close Loops & Opening Minds: How to Take Control of Systems, Big & Small, Colm MacCarthaigh
- A Golden Age for Computer Architecture, David Patterson and John Hennessy
- Safe Client Behavior, Ariel Goh
- How to Serve and Protect (with Client Isolation), Frances Johnson
- Applied Performance Theory, Kavya Joshi
- Amazon Aurora: Design considerations for high throughput cloud-native relational databases, Sailesh Krishnamurthy
- Future of FoundationDB Storage Layer, Steve Atherton
- Autonomous Testing and the Future of Software Development, Will Wilson
- Everything about Distributed Systems is Terrible, Hillel Wayne
- What We Got Wrong: Lessons From The Birth Of Microservices at Google, Ben Sigelman
- Distributed Log-Processing Design Workshop, Laura Nolan, Phillip Tischler, Salim Virji
- Load Balancing at Hyper Scale, Alan Halachmi and Colm MacCarthaigh
- Isolation Without Containers, Tyler McMullen
- How C++ Debuggers Work, Simon Brand
- A Philosophy of Software Design, John Ousterhout
- Clangd: architecture of a scalable C++ language server, Ilya Biryukov
- Coroutine Representations and ABIs in LLVM, John McCall
- Developing Kotlin/Native infrastructure with LLVM/Clang, Nikolay Igotti
- Fresh Async With Kotlin, Roman Elizarov
- Kotlin Native Concurrency Model, Nikolay Igotti
- Is it time to write an Operating System in Rust, Bryan Cantrill
- What do you mean “thread-safe”?, Geoffrey Romer
- Fast Safe Mutable State, Ben Cohen
- The Dos and Donts of Error Handling, Joe Armstrong
- QUIC: Developing and Deploying a TCP Replacement for the Web, Ian Swett and Jana Iyengar
- Introducing Network.framework: A modern alternative to Sockets, Josh Graessley, Tommy Pauly, Eric Kinnear
- Kubernetes and the Path to Serverless, Kelsey Hightower
- Using Rust for Game Development, Catherine West

P.S. Не раз кидал сюда её тексты об observability
Утро начинается не с кофе (пора уже эту фразу превращать в рубрику)

В рантайме контейнеров runc, который стоит под ногами у Docker, containerd, cri-o, etc. найдена критическая уязвимость, позволяющая злоумышленнику подменять бинарник runc и таким образом получать root-доступ к хост-системе.

CVE-2019-5736

Патч уже выпущен, тестовый эксплойт будет доступен через неделю.

Это хорошее напоминание, почему неплохо гонять контейнеры на read-only ФС и использовать утилиты а-ля gVisor

P.S.: Для тех, кто не очень разбирается, что это за рантаймы контейнеров, но боится спросить; серия статей Ian Lewis, которая прекрасно раскрывает тему.

#containers #docker #security
​​Кто заведует качеством by Jennifer Riggins & Janet Gregory @ InfoQ

Тезисы:
- ответственность за качество лежит на всех членах команды
- качество не определяется только аптаймом и доступностью сервисов
- согласно David A. Garvin’s “Five Approaches to Quality" 1984-го года качество трансцидентно, основано на ценности предложения, пользователях, продукте и производстве
- Из-за предыдущего пункта качество бывает трудно измерить, поэтому единственным выходом становится общение с пользвателями
- Behavior-driven design (BDD) — это способ определить важные для пользователя компоненты ещё до написания тестов или самого кода

#quality #agile
​​Free ebook: Cloud Native DevOps with Kubernetes

Discover how to apply standard DevOps practices to Kubernetes in a cloud-native context and how to build, deploy, and scale modern applications in the cloud.

#book #kubernetes
​​At Google Cloud blog published nice article about SLI tunning

Article not small, so I made some highlits for you:
- Compare SLI with what affects users (compared SLI metrics with mentions in social networks, posts on forums, support tickets). According to the received picture - adjust SLI to make it more realistic.
- Have simple ToDo for founding first alarm/spike for incident
- If you have no alarm (so sad...) and get info from users - Google have a specific tag: "Customer found it first" when they're carrying out their postmortems.
- If your SLIs are unhappy but customers are fine - Split logs created by users and service errors, change levels of abstraction, etc.

And, of cource, nearly any SLI is better than no SLI.

#monitoring #sli
​​If you try adopt autoscaling in AWS, this post helps you get around the pitfalls. All of them is trivial, but only after they came across.

#aws
Статья-перекрёсток от Gruntwork.

"Перекрёсток" в смысле, что это собрание ссылок на другие их статьи и заметки. И там куча интересного как раз почитать на выходных.
​​Towards an understanding of technical debt

Recently I have big discussion with programmers about "technical dept" and part of them try to said "we need time to rewrite all". So, it's not good idea, and this article explains why. Author describe five different phenomena that people mean when they say “technical debt”, and advocates understanding the full context rather than just assuming the folks that came before were fools.

Wrote in January 2016 but still actual.

#culture
​​Cloudinfo - cloud-agnostic tool to compare and contrast instance types between providers and/or regions. Written in Go and have nice UI.

Github | UI demo

#cloud #aws #azure #gcp
Видео и слайды с моего вчерашнего доклада о сетапе Vault с S3 + DynamoDB на бэкенде со встречи HashiCorp User Group - Saint Petersburg.

Презентация: https://drive.google.com/file/d/13xqw5weCkCvQFQMTk-TLiR3hpAeOIqlm/view?usp=sharing

Видео: https://youtu.be/sUl4s6IV6wc

#slides
​​Observability?! – Where do we go from here?

Long-read about this not simple question which covers reasons, pillars of observability, requirements for engineers and many other things.

Highly recommend to read this article for anyone who is even slightly interested in ~~observerless~~ Observability

Also, it have simply definition of Devops in one sentence:
>The DevOps philosophy promotes the concept of small, agile and cross-functional teams that completely manage the life cycle of the services they own.

#culture #observability
Мой опыт показывает, что чем дальше я от баз данных, тем лучше мне, базам данных и компании в целом 🙂

Но так или иначе, с реляционками приходится встречаться и работать. Ловите бесплатную вэб-книгу об индексах в БД

Там хорошее описание, как работать с индексами в популярных движках и, что происходит под капотом

#databases
Вчера зарелизили Grafana 6

Из нововведений:
- Explore: новый способ запросов, который позволяет делать запросы на лету для траблшутинга в реальном времени
- Grafana Loki: интеграция с Loki — который как Prometheus, но для логов
- Gauge Panel: отдельная панель для круговых показателей (gauges). Планируется цифровые показатели тоже привести к виду gauges
- New Panel Editor UX: новый редактор панелей
- Google Stackdriver Datasource: новый датасорс для догадайтесь чего
- Azure Monitor Datasource: перенесён из плагина в core датасорс
- React Plugin: Графана переезжает на React, React plugin позволяет проще создавать плагины
- Named Colors: цвета по названиям, а не кодам 😁
- Removal of user session storage: теперь проще сетапить Графану без стайтфул хранилища. Вместо хранения сессий выдаются короткоживущие токены

Больше инфы тут

#monitoring #grafana
Google рассказывают о семи шагах в DevOps (методологию) в своём блоге.

1. Начните внедрение с малого проекта — остальные подтянутся
2. Используйте Open Source решения
3. Занимайтесь вопросами безопасности во время разработки, а не сбоку от неё
4. Следуйте лучшим практикам (хехехе. Тут пункт про SRE Book на самом деле)
5. Проводите внутренние тренинги внутри компании/команды и делитесь знаниями
6. No blame culture
7. Развивайте культуру: базируйте решения на данных, будьте открытыми, ставьте общие цели

Как-то так…

#culture