Timeweb Cloud Alerts – Telegram
Timeweb Cloud Alerts
5.56K subscribers
1 photo
14 links
Краткие оповещения о работе сервисов Клауда в реалтайме ⚡️

Новости: @timewebru
Комьюнити: @twcloud
Медиа: @twc_media
Ченжлог: @twc_changelog
Download Telegram
Разбор сетевого сбоя на роутере в Санкт-Петербурге

Друзья, сегодня днем, примерно с 12:00 до 15:46 мск, многие из вас могли испытывать серьезные проблемы с доступом к сети. Это был сложный и многоэтапный сбой на нашем центральном маршрутизаторе в СПб.

Считаем правильным не просто отписаться, что «все починили», а честно рассказать, что произошло, какая цепочка событий к этому привела, и что мы делаем, чтобы минимизировать риски в будущем.

Хронология событий: как всё ломалось и чинилось

1. Начало (12:00): мы заметили нестабильную работу одной из сетевых карт (MPC) в маршрутизаторе. Это вызывало частичную деградацию трафика — у некоторых из вас могли медленно открываться проекты или расти потери пакетов.

2. Первая попытка изоляции (12:30): чтобы стабилизировать ситуацию, мы программно отключили неисправную карту. Это помогло: лавинообразная нагрузка на процессор роутера прекратилась, и трафик временно восстановился.

3. Критический сбой (13:50): здесь проявился программно-аппаратный баг. Маршрутизатор перестал корректно обновлять информацию о маршрутах и начал отправлять часть трафика «в никуда» — на интерфейс уже отключенной карты. Это привело к массовой недоступности ресурсов.

4. Кульминация (14:00): в этот момент мы осознали масштаб проблемы — из строя выведены две ключевые карты, на которых находились каналы общей емкостью 400 Гбит/с, включая стыки с Ростелекомом, Ретном, магистраль на Москву и пиринг Cloud-IX.

5. Восстановление (14:00 – 15:46):

• Чтобы оживить маршрутизацию, мы принудительно переключили управление на резервный модуль (RE).

• Одновременно, совместно с инженерами дата-центра, мы физически переключали кабели от самых важных линков в оставшиеся рабочие порты, чтобы разгрузить их и восстановить связность.

• К 15:46 основные восстановительные работы были завершены. Сеть стабилизировалась, но пока работает без двух вышедших из строя карт.

🛠️ Выводы и дальнейшие шаги

Эта авария выявила несколько слабых мест, над которыми мы уже работаем:

1. Производительность узла: стало очевидно, что текущий маршрутизатор в СПб работает на пределе своих возможностей. Мы ускорим плановый проект по его замене. Новое, более мощное оборудование уже заказано и находится в процессе поставки. В будущем сервисы на этой локации будут разнесены для повышения отказоустойчивости.

2. Побочный эффект при переключении: во время смены управляющего модуля (RE) проявилась неприятная особенность — сброс динамической конфигурации. Это вызвало кратковременный наплыв трафика на и без того «умирающий» узел и просадку общей производительности сети. Чтобы исключить такое в будущем, мы решили отказаться от использования этого функционала.

3. Ближайшие технические работы: мы проведем тестирование и замену неисправных карт, а также перезагрузим зависший управляющий модуль, чтобы вернуть его в строй в качестве резервного.

Мы понимаем, что такие сбои недопустимы, и сделаем все возможное, чтобы извлечь из этой ситуации максимум уроков.
👍233🔥43❤‍🔥2619👏12🎉6🙏5😱4😢4👌1
🛑 Наблюдаются проблемы в работе панели управления сервисов Cloud для всех локаций.

Может затронуть управление сетями, создание бэкапов в панели управления, создание и управление VDS, почтовые сервисы. Сами сервисы работают корректно.

Наши инженеры уже занимаются восстановлением.

Апдейт информации через 25 минут.
23😱9😢3👍2🙏2
Timeweb Cloud Alerts
Обновление по проблеме. Ориентировочное время восстановления 40 минут, максимальное до 2х часов. Апдейт через 40 минут.
Обновление.

Работа сервисов восстановлена. Проводится финальная проверка функциональности сервисов.
👍26🎉141😢1
Timeweb Cloud Alerts
Обновление. Работа сервисов восстановлена. Проводится финальная проверка функциональности сервисов.
Пока что сохраняются трудности с созданием новых сервисов в панели управления.

Инженеры продолжают работы над устранением причин неполадок.
🙏7🔥6😢52
Разбор сетевого сбоя в Санкт-Петербурге

Сегодня с 11:15 до 11:30 мск были сетевые проблемы на VDS, связанные с проведением профилактических работ в нашем ДЦ в СПб.

Хронология событий

1. С 10:30 проводились работы по переключению первых стоек в новый коммутатор QFX10008 — для поднятия емкости с 80 Гбит/c до 160 Гбит/c. Это была первая итерация работ для увеличения стабильности и качества нашей сети. Из-за сложности и критичности они проводились в дневное время с привлечением большого количества инженеров.

Само переключение стоек с ИЦОД прошло корректно и без деградации сети.

2. В 11:15 возникли флапы BGP-сессий, связанные с ошибкой в конфигурации оборудования. Проблема была исправлена за 15 минут.

🛠 Выводы и дальнейшие шаги

Мы уже исправили ошибку и она больше не повторится. Также улучшим регламенты по уведомлениям о предстоящих работах.
41🔥11😢3🎉3👏2👌2
🛑 Наблюдаются проблемы в работе панели управления сервисов Cloud для всех локаций.

Действия с облачными ресурсами недоступны. Сами сервисы работают корректно.

Наши инженеры уже занимаются восстановлением.
😱28👍6❤‍🔥31🔥1👏1😢1
По проблеме с сетями

У части клиентов кратковременно прерывается коннект до нашей инфраструктуры.

Внешне и по трассировкам от клиентов видим, что трафик ходит свободно. Что уже сделали:

1. Изучили трассировки клиентов — визуально проблем не обнаружено, трафик доходит до конечного хоста.

2. Предварительно, по информации от регулятора, проблемные адреса из обращений в списке блокировок тоже не обнаружены, ограничений нет.

Проблема плавающая, продолжаем разбираться.
😢76🙏2612😱3🎉2
🛑 Наблюдаем проблемы в работе Frontend Apps.

Наши инженеры уже занимаются восстановлением.
👌11😱6😢2🙏2❤‍🔥11
🛑 Наблюдаются проблемы с созданием облачных серверов в Москве

Наши инженеры уже занимаются восстановлением.

Апдейт информации через 15 минут.
😱14😢32🔥1
С 19 августа у части клиентов возникает кратковременная недоступность при подключении к серверам — примерно на 10 минут. Сами серверы работают нормально: пинг проходит, трафик идет, другие пользователи заходят без проблем.

Что помогает клиентам

• Смена IP-адреса у интернет-провайдера
• Переключение на другого оператора связи

Что не помогает

Изменение маршрутизации с нашей стороны — проблема не уходит

Наши выводы

Проблема выборочная, не массовая — на графиках сети просадок нет. Похоже на блокировки интернет-провайдеров по всей России: бан получает конкретный пользователь, а не сервер.

Регулятор подтвердил — наши сети не заблочены, ограничений нет. Продолжаем переговоры с локальными операторами.

Что можете сделать вы

Отправить жалобу своему интернет-провайдеру по нашему шаблону — это поможет. Чем больше обращений, тем выше шансы на ускорение процесса
48👍24😱11😢10👏8🙏7
🛑 Фиксируем DDoS-атаку на NS серверы с 16:15 мск, отражаем и мониторим ситуацию.
😱62🙏7😢5
DDoS-атака отражена в 16:32 мск.
👏6012🔥10👍4😱4🙏2
🛑 Авария на трассе Амстердам - СПб

Могут быть задержки и замедления. Сетевые инженеры перераспределяют трафик до момента устранения аварии.
😱40😢64🔥4👏2👍1
Timeweb Cloud Alerts
С 19 августа у части клиентов возникает кратковременная недоступность при подключении к серверам — примерно на 10 минут. Сами серверы работают нормально: пинг проходит, трафик идет, другие пользователи заходят без проблем. Что помогает клиентам • Смена IP…
Решение сетевой проблемы

Разобрались в ситуации и делимся результатами. По последним данным — проблема обнаружена и устранена на стороне операторов связи.

Причина инцидента: технические ошибки в фильтрации на промежуточном оборудовании вне нашей сети и зоны ответственности.

Что выяснили:

• Наша сеть не подвергалась блокировкам или ограничениям
• Внутренняя инфраструктура работала стабильно — задержки и трафик не демонстрировали аномалий
• Корректировка системы фильтрации полностью решила проблему

Сейчас подключение стабилизировано, сбоев не наблюдается. Мы продолжаем усиливать координацию с операторами, чтобы быстрее выявлять подобные инциденты.
👏51🔥2713👍7🙏1
🛑 Наблюдаются проблемы в создании управляемых сервисов.

Наши инженеры уже занимаются устранением неполадок.
🎉5👏41👍1