Timeweb Cloud Alerts – Telegram
Timeweb Cloud Alerts
5.56K subscribers
1 photo
14 links
Краткие оповещения о работе сервисов Клауда в реалтайме ⚡️

Новости: @timewebru
Комьюнити: @twcloud
Медиа: @twc_media
Ченжлог: @twc_changelog
Download Telegram
🛑 Фиксируем новую волну DDoS на локацию Нидерланды.
🎉53😢20😱2👍1👏1👌1
40 минут DDoS-атак не наблюдается.
😢35🎉12❤‍🔥1👍1😱1
🛑 Фиксируем новую волну DDoS на локацию Нидерланды.
🎉60😢18❤‍🔥3🔥2👌2😱1
40 минут DDoS-атак не наблюдается.
😢38🎉11😱1👌1
🛑 Фиксируем волну DDoS на локацию Нидерланды.
🎉58😢9😱51👍1
45 минут DDoS-атак не наблюдается.
😢41🎉4😱3❤‍🔥21
🛑 Фиксируем волну DDoS на локацию Нидерланды.
🎉50😢10🔥3😱2🙏2❤‍🔥1👍1👏1
Сейчас DDoS-атак не наблюдается.
😢39🎉9😱7👏6
🛑 Фиксируем новую волну DDoS на локации Нидерланды и Польша.
🎉53😢16😱3❤‍🔥1
45 минут DDoS-атак не наблюдается.
😢31🎉14😱2
🛑 Функция создания и управления балансировщиками, базами данных и кластерами Kubernetes в Москве и Санкт-Петербурге временно недоступна по техническим причинам. Не переживайте, скоро включим обратно.
😱26👏53👍2
Возможность создания и управления балансировщиками, базами данных и кластерами Kubernetes в Москве и Санкт-Петербурге восстановлена.
😱13👍85👏1
🛑 Часть виртуальных серверов могут создаваться с ошибками или дольше обычного. Уже исправляем.
😱17👍8🎉5
Проблема решена
В 16:15 по МСК проблема устранена нашими инженерами. Все сервисы работают штатно.
👍13😢9🔥6😱1
22 апреля 2025 г. произошел сбой в работе баз данных PostgreSQL во всех регионах. Проблема фактически началась около 14:40, была обнаружена в 15:10 и полностью устранена к 15:40. Общее время инцидента составило 1 час.

Причиной стало добавление нового расширения PostgreSQL, вызвавшее массовый перезапуск серверов из-за нестрогого порядка выполнения задач в Salt. Другие типы баз данных не пострадали.

Алерт не сработал своевременно, так как мониторинговая система интерпретировала перезапуски как часть штатного процесса обновления. Примем меры по улучшению системы мониторинга и настройке строгого порядка задач в Salt.
60😢20👌13👍10🎉5👏3😱1
🔴 Технический инцидент с libvirt

В связи с внеплановым обновлением libvirt самопроизвольно выключился 1% виртуальных серверов. Наши инженеры уже включают их.

Текущий статус:
- Выясняем причины сбоя libvirt
- Постепенно включаем серверы. Ожидаем восстановление их работы в течение 15 минут.

Подробности о причинах будут в течение часа.

Работа серверов полностью восстановлена в 19:50 мск
👍27🎉125🔥3😢2🙏2😱1
Постмортем инцидента с обновлением libvirt

Сегодняшний инцидент, затронувший ~1% виртуальных серверов, был связан с редкой ошибкой в автоматизированном процессе обновления libvirt. Ранее на этапах автоматических и ручных тестов проблема не воспроизводилась.

Хронология событий

1. 4 года назад была внедрена автоматизация для плановых обновлений libvirt (ежедневно 17:00–23:00 мск).

2. Вчера было проведено плановое обновление пакетов, включая libvirt.

3. Сегодня вечером сработал мониторинг на аномальные отключения серверов. Процесс обновления был экстренно остановлен, запущен процесс включения серверов. К 19:50 мск работа серверов была полностью восстановлена.

🔎 Корневая причина

Некорректный сброс флагов cgroups в процессе обновления (уникальный, ранее не встречавшийся кейс).

🛠️ Принятые меры

1. Полная остановка «виновного» скрипта обновлений, заморозка обновлений libvirt.

2. Пересмотр процесса тестирования: увеличение этапов постепенного rollout, расширение тестовых сценариев.
57👍34🔥20😱3😢3❤‍🔥2👏2👌2🙏1
Инцидент с аварийным отключением электропитания в московском ЦОД

7 июня 2025 с 10:01 до 10:41 мск в одной из наших стоек в дата-центре IXcellerate Moscow South отказал автомат защиты питания во время работ на резервном вводе, из-за чего 5 нод с виртуальными серверами стали недоступны по сети.

Хронология событий

10:01 - мониторинг зафиксировал падение сетевых портов
10:02 - инженеры сообщили в NOC о недоступности серверов
10:18 - 10:23 - к устранению инцидента подключились инженеры ЦОД и представители дата-центра
10:41 - питание в стойке восстановлено, начат процесс анализа дисков и поэтапного запуска отключенных VDS

⚠️ Текущий статус

11:52 - работа всех виртуальных серверов полностью восстановлена

🔎 Причина

Выбило автомат защиты электропитания во время проведения плановых работ, которые проводил наш дата-центр. Иначе говоря, внеплановая аварийная ситуация на стороне ЦОД.

🛠️ Принятые меры

- Перераспределение питания в стойке силами дата-центра
- Проверка дисков и восстановление работы всех затронутых серверов
👍37👌15🙏8❤‍🔥54😱3🎉1
🛑 Возник программный сбой с S3 хранилищем. Уже решаем проблему. Все данные на месте.

По решению опишем причины инцидента.
👍17😱6❤‍🔥42🎉2🙏1
Работа S3 полностью восстановлена, все данные на месте. Продолжаем разбираться в причинах.

Подробности об инциденте опубликуем отдельно.
16🔥6😱4👍3🙏2
Постмортем сбоев в работе S3

17 июня 2025 с 15:30 до 18:20 мск в S3 были зафиксированы два последовательных сбоя.

Хронология

15:30 - 15:50 - на одной из нод Ceph произошел сбой SFP-модуля. За ним последовали потеря доступа к объектам и блочным устройствам для части клиентов.

Через 20 минут проблемный линк был отключен, модуль заменен, а доступы восстановлены.

18:00 - 18:20 - при регистрации новых доменов для бакетов, Nginx начал часто перезагружаться, уперся в лимит открытых файлов, и перестал запускать воркеры. Как итог - полная недоступность S3 и сбой балансировки.

⚒️ Принятые меры

1. В первом случае заменили SFP-модуль на Ceph-ноде.

2. Во втором - повысили лимиты open files для Nginx и оптимизировали логику конфигурации доменов.

PS вчера ночью некоторые получили через нашего бота в телеге уведомление о сбое с поплывшим форматированием. Отправили по ошибке 🥲🙏
23👍15🙏5🎉1