Сейчас большая часть маршрутов восстановлена. В ближайшие 15 минут будем продолжать оптимизацию.
Могут наблюдаться потери из-за повышенной нагрузки на линии. Часть внутренних сервисов в процессе перезагрузки и скоро станут доступны.
Могут наблюдаться потери из-за повышенной нагрузки на линии. Часть внутренних сервисов в процессе перезагрузки и скоро станут доступны.
❤52😢22🎉7🔥5😱5👍4🙏2
✅ Работа сервисов восстановлена.
Подробности об инциденте опубликуем отдельным сообщением.
Подробности об инциденте опубликуем отдельным сообщением.
👍55🎉21❤9🔥3😢3👌3😱1
Разбор сетевого сбоя на роутере в Санкт-Петербурге
Друзья, сегодня днем, примерно с 12:00 до 15:46 мск, многие из вас могли испытывать серьезные проблемы с доступом к сети. Это был сложный и многоэтапный сбой на нашем центральном маршрутизаторе в СПб.
Считаем правильным не просто отписаться, что «все починили», а честно рассказать, что произошло, какая цепочка событий к этому привела, и что мы делаем, чтобы минимизировать риски в будущем.
⏳ Хронология событий: как всё ломалось и чинилось
1. Начало (12:00): мы заметили нестабильную работу одной из сетевых карт (MPC) в маршрутизаторе. Это вызывало частичную деградацию трафика — у некоторых из вас могли медленно открываться проекты или расти потери пакетов.
2. Первая попытка изоляции (12:30): чтобы стабилизировать ситуацию, мы программно отключили неисправную карту. Это помогло: лавинообразная нагрузка на процессор роутера прекратилась, и трафик временно восстановился.
3. Критический сбой (13:50): здесь проявился программно-аппаратный баг. Маршрутизатор перестал корректно обновлять информацию о маршрутах и начал отправлять часть трафика «в никуда» — на интерфейс уже отключенной карты. Это привело к массовой недоступности ресурсов.
4. Кульминация (14:00): в этот момент мы осознали масштаб проблемы — из строя выведены две ключевые карты, на которых находились каналы общей емкостью 400 Гбит/с, включая стыки с Ростелекомом, Ретном, магистраль на Москву и пиринг Cloud-IX.
5. Восстановление (14:00 – 15:46):
• Чтобы оживить маршрутизацию, мы принудительно переключили управление на резервный модуль (RE).
• Одновременно, совместно с инженерами дата-центра, мы физически переключали кабели от самых важных линков в оставшиеся рабочие порты, чтобы разгрузить их и восстановить связность.
• К 15:46 основные восстановительные работы были завершены. Сеть стабилизировалась, но пока работает без двух вышедших из строя карт.
🛠️ Выводы и дальнейшие шаги
Эта авария выявила несколько слабых мест, над которыми мы уже работаем:
1. Производительность узла: стало очевидно, что текущий маршрутизатор в СПб работает на пределе своих возможностей. Мы ускорим плановый проект по его замене. Новое, более мощное оборудование уже заказано и находится в процессе поставки. В будущем сервисы на этой локации будут разнесены для повышения отказоустойчивости.
2. Побочный эффект при переключении: во время смены управляющего модуля (RE) проявилась неприятная особенность — сброс динамической конфигурации. Это вызвало кратковременный наплыв трафика на и без того «умирающий» узел и просадку общей производительности сети. Чтобы исключить такое в будущем, мы решили отказаться от использования этого функционала.
3. Ближайшие технические работы: мы проведем тестирование и замену неисправных карт, а также перезагрузим зависший управляющий модуль, чтобы вернуть его в строй в качестве резервного.
Мы понимаем, что такие сбои недопустимы, и сделаем все возможное, чтобы извлечь из этой ситуации максимум уроков.
Друзья, сегодня днем, примерно с 12:00 до 15:46 мск, многие из вас могли испытывать серьезные проблемы с доступом к сети. Это был сложный и многоэтапный сбой на нашем центральном маршрутизаторе в СПб.
Считаем правильным не просто отписаться, что «все починили», а честно рассказать, что произошло, какая цепочка событий к этому привела, и что мы делаем, чтобы минимизировать риски в будущем.
⏳ Хронология событий: как всё ломалось и чинилось
1. Начало (12:00): мы заметили нестабильную работу одной из сетевых карт (MPC) в маршрутизаторе. Это вызывало частичную деградацию трафика — у некоторых из вас могли медленно открываться проекты или расти потери пакетов.
2. Первая попытка изоляции (12:30): чтобы стабилизировать ситуацию, мы программно отключили неисправную карту. Это помогло: лавинообразная нагрузка на процессор роутера прекратилась, и трафик временно восстановился.
3. Критический сбой (13:50): здесь проявился программно-аппаратный баг. Маршрутизатор перестал корректно обновлять информацию о маршрутах и начал отправлять часть трафика «в никуда» — на интерфейс уже отключенной карты. Это привело к массовой недоступности ресурсов.
4. Кульминация (14:00): в этот момент мы осознали масштаб проблемы — из строя выведены две ключевые карты, на которых находились каналы общей емкостью 400 Гбит/с, включая стыки с Ростелекомом, Ретном, магистраль на Москву и пиринг Cloud-IX.
5. Восстановление (14:00 – 15:46):
• Чтобы оживить маршрутизацию, мы принудительно переключили управление на резервный модуль (RE).
• Одновременно, совместно с инженерами дата-центра, мы физически переключали кабели от самых важных линков в оставшиеся рабочие порты, чтобы разгрузить их и восстановить связность.
• К 15:46 основные восстановительные работы были завершены. Сеть стабилизировалась, но пока работает без двух вышедших из строя карт.
🛠️ Выводы и дальнейшие шаги
Эта авария выявила несколько слабых мест, над которыми мы уже работаем:
1. Производительность узла: стало очевидно, что текущий маршрутизатор в СПб работает на пределе своих возможностей. Мы ускорим плановый проект по его замене. Новое, более мощное оборудование уже заказано и находится в процессе поставки. В будущем сервисы на этой локации будут разнесены для повышения отказоустойчивости.
2. Побочный эффект при переключении: во время смены управляющего модуля (RE) проявилась неприятная особенность — сброс динамической конфигурации. Это вызвало кратковременный наплыв трафика на и без того «умирающий» узел и просадку общей производительности сети. Чтобы исключить такое в будущем, мы решили отказаться от использования этого функционала.
3. Ближайшие технические работы: мы проведем тестирование и замену неисправных карт, а также перезагрузим зависший управляющий модуль, чтобы вернуть его в строй в качестве резервного.
Мы понимаем, что такие сбои недопустимы, и сделаем все возможное, чтобы извлечь из этой ситуации максимум уроков.
👍233🔥43❤🔥26❤19👏12🎉6🙏5😱4😢4👌1
🛑 Наблюдаются проблемы в работе панели управления сервисов Cloud для всех локаций.
Может затронуть управление сетями, создание бэкапов в панели управления, создание и управление VDS, почтовые сервисы. Сами сервисы работают корректно.
Наши инженеры уже занимаются восстановлением.
Апдейт информации через 25 минут.
Может затронуть управление сетями, создание бэкапов в панели управления, создание и управление VDS, почтовые сервисы. Сами сервисы работают корректно.
Наши инженеры уже занимаются восстановлением.
Апдейт информации через 25 минут.
❤23😱9😢3👍2🙏2
Timeweb Cloud Alerts
🛑 Наблюдаются проблемы в работе панели управления сервисов Cloud для всех локаций. Может затронуть управление сетями, создание бэкапов в панели управления, создание и управление VDS, почтовые сервисы. Сами сервисы работают корректно. Наши инженеры уже…
Обновление по проблеме.
Ориентировочное время восстановления 40 минут, максимальное до 2х часов.
Апдейт через 40 минут.
Ориентировочное время восстановления 40 минут, максимальное до 2х часов.
Апдейт через 40 минут.
❤17🙏6😢1
Timeweb Cloud Alerts
Обновление по проблеме. Ориентировочное время восстановления 40 минут, максимальное до 2х часов. Апдейт через 40 минут.
Обновление.
Работа сервисов восстановлена. Проводится финальная проверка функциональности сервисов.
Работа сервисов восстановлена. Проводится финальная проверка функциональности сервисов.
👍26🎉14❤1😢1
Timeweb Cloud Alerts
Обновление. Работа сервисов восстановлена. Проводится финальная проверка функциональности сервисов.
Пока что сохраняются трудности с созданием новых сервисов в панели управления.
Инженеры продолжают работы над устранением причин неполадок.
Инженеры продолжают работы над устранением причин неполадок.
🙏7🔥6😢5❤2
Timeweb Cloud Alerts
🛑 Наблюдаются проблемы в работе панели управления сервисов Cloud для всех локаций. Может затронуть управление сетями, создание бэкапов в панели управления, создание и управление VDS, почтовые сервисы. Сами сервисы работают корректно. Наши инженеры уже…
✅ Работа сервисов восстановлена.
❤19🎉17🔥5👍2😢1
Разбор сетевого сбоя в Санкт-Петербурге
Сегодня с 11:15 до 11:30 мск были сетевые проблемы на VDS, связанные с проведением профилактических работ в нашем ДЦ в СПб.
⏳ Хронология событий
1. С 10:30 проводились работы по переключению первых стоек в новый коммутатор QFX10008 — для поднятия емкости с 80 Гбит/c до 160 Гбит/c. Это была первая итерация работ для увеличения стабильности и качества нашей сети. Из-за сложности и критичности они проводились в дневное время с привлечением большого количества инженеров.
Само переключение стоек с ИЦОД прошло корректно и без деградации сети.
2. В 11:15 возникли флапы BGP-сессий, связанные с ошибкой в конфигурации оборудования. Проблема была исправлена за 15 минут.
🛠 Выводы и дальнейшие шаги
Мы уже исправили ошибку и она больше не повторится. Также улучшим регламенты по уведомлениям о предстоящих работах.
Сегодня с 11:15 до 11:30 мск были сетевые проблемы на VDS, связанные с проведением профилактических работ в нашем ДЦ в СПб.
⏳ Хронология событий
1. С 10:30 проводились работы по переключению первых стоек в новый коммутатор QFX10008 — для поднятия емкости с 80 Гбит/c до 160 Гбит/c. Это была первая итерация работ для увеличения стабильности и качества нашей сети. Из-за сложности и критичности они проводились в дневное время с привлечением большого количества инженеров.
Само переключение стоек с ИЦОД прошло корректно и без деградации сети.
2. В 11:15 возникли флапы BGP-сессий, связанные с ошибкой в конфигурации оборудования. Проблема была исправлена за 15 минут.
🛠 Выводы и дальнейшие шаги
Мы уже исправили ошибку и она больше не повторится. Также улучшим регламенты по уведомлениям о предстоящих работах.
❤41🔥11😢3🎉3👏2👌2
🛑 Наблюдаются проблемы в работе панели управления сервисов Cloud для всех локаций.
Действия с облачными ресурсами недоступны. Сами сервисы работают корректно.
Наши инженеры уже занимаются восстановлением.
Действия с облачными ресурсами недоступны. Сами сервисы работают корректно.
Наши инженеры уже занимаются восстановлением.
😱28👍6❤🔥3❤1🔥1👏1😢1
По проблеме с сетями
У части клиентов кратковременно прерывается коннект до нашей инфраструктуры.
Внешне и по трассировкам от клиентов видим, что трафик ходит свободно. Что уже сделали:
1. Изучили трассировки клиентов — визуально проблем не обнаружено, трафик доходит до конечного хоста.
2. Предварительно, по информации от регулятора, проблемные адреса из обращений в списке блокировок тоже не обнаружены, ограничений нет.
Проблема плавающая, продолжаем разбираться.
У части клиентов кратковременно прерывается коннект до нашей инфраструктуры.
Внешне и по трассировкам от клиентов видим, что трафик ходит свободно. Что уже сделали:
1. Изучили трассировки клиентов — визуально проблем не обнаружено, трафик доходит до конечного хоста.
2. Предварительно, по информации от регулятора, проблемные адреса из обращений в списке блокировок тоже не обнаружены, ограничений нет.
Проблема плавающая, продолжаем разбираться.
😢76🙏26❤12😱3🎉2
🛑 Наблюдаем проблемы в работе Frontend Apps.
Наши инженеры уже занимаются восстановлением.
Наши инженеры уже занимаются восстановлением.
👌11😱6😢2🙏2❤🔥1❤1
Timeweb Cloud Alerts
🛑 Наблюдаем проблемы в работе Frontend Apps. Наши инженеры уже занимаются восстановлением.
✅ Работа Frontend Apps восстановлена
👍13😢1
🛑 Наблюдаются проблемы с созданием облачных серверов в Москве
Наши инженеры уже занимаются восстановлением.
Апдейт информации через 15 минут.
Наши инженеры уже занимаются восстановлением.
Апдейт информации через 15 минут.
😱14😢3❤2🔥1
Timeweb Cloud Alerts
🛑 Наблюдаются проблемы с созданием облачных серверов в Москве Наши инженеры уже занимаются восстановлением. Апдейт информации через 15 минут.
✅ Работа сервисов восстановлена.
🙏13❤🔥4👍3❤1
С 19 августа у части клиентов возникает кратковременная недоступность при подключении к серверам — примерно на 10 минут. Сами серверы работают нормально: пинг проходит, трафик идет, другие пользователи заходят без проблем.
Что помогает клиентам
• Смена IP-адреса у интернет-провайдера
• Переключение на другого оператора связи
Что не помогает
Изменение маршрутизации с нашей стороны — проблема не уходит
Наши выводы
Проблема выборочная, не массовая — на графиках сети просадок нет. Похоже на блокировки интернет-провайдеров по всей России: бан получает конкретный пользователь, а не сервер.
Регулятор подтвердил — наши сети не заблочены, ограничений нет. Продолжаем переговоры с локальными операторами.
Что можете сделать вы
Отправить жалобу своему интернет-провайдеру по нашему шаблону — это поможет. Чем больше обращений, тем выше шансы на ускорение процесса
Что помогает клиентам
• Смена IP-адреса у интернет-провайдера
• Переключение на другого оператора связи
Что не помогает
Изменение маршрутизации с нашей стороны — проблема не уходит
Наши выводы
Проблема выборочная, не массовая — на графиках сети просадок нет. Похоже на блокировки интернет-провайдеров по всей России: бан получает конкретный пользователь, а не сервер.
Регулятор подтвердил — наши сети не заблочены, ограничений нет. Продолжаем переговоры с локальными операторами.
Что можете сделать вы
Отправить жалобу своему интернет-провайдеру по нашему шаблону — это поможет. Чем больше обращений, тем выше шансы на ускорение процесса
❤48👍24😱11😢10👏8🙏7
🛑 Фиксируем DDoS-атаку на NS серверы с 16:15 мск, отражаем и мониторим ситуацию.
😱62🙏7😢5
🛑 Авария на трассе Амстердам - СПб
Могут быть задержки и замедления. Сетевые инженеры перераспределяют трафик до момента устранения аварии.
Могут быть задержки и замедления. Сетевые инженеры перераспределяют трафик до момента устранения аварии.
😱40😢6❤4🔥4👏2👍1
Timeweb Cloud Alerts
🛑 Авария на трассе Амстердам - СПб Могут быть задержки и замедления. Сетевые инженеры перераспределяют трафик до момента устранения аварии.
✅ Авария устранена в 23:22 мск.
🔥21🙏4❤1😢1🎉1