NEW BOT Телеграм, страница

🤩

Why Stacking Sliding Windows Can't See Very Far

Вчера на собесе с кандидатом мы покопались в дизайне механизмов внимания. У него был опыт оптимизации обучения трансформеров — ну и я подумала, почему бы не обсудить attention, в том числе sliding‑window attention (SWA). SWA — это такой вид «локального» внимания, где каждый токен смотрит лишь на последние W токенов. Поэтому сложность падает с O(n^2) до O(n * W), что эффективно по вычислениям и приятно для длинных контекстов. Интуитивно: если у нас L слоев, то охват скейлится как L * W. На практике же «полезное окно» гораздо меньше: как только нужный фрагмент вываливается за окно (и из KV кэша), модель часто не видит его.

Оттого часто это локальное внимание комбинируют с глобальным, несколько слоев локального, потом глобальный. Так, например, в Gemma 3 блоки чередуют 5 локальных слоёв с 1 глобальным (локальное окно 1024)

Глубже с кандидатом в это тему не пошли, но зато потом я нашла вот этот 🔗классный блог-пост с разбором того, как рассеивается внимание модели в SWA

⏰

Как влияет удаленный токен на текущий токен, тот, который мы предсказываем?

Даже если представить, что каждый токен имеет равное влияние 1/W в текущем окне, то проходя через несколько слоев, это влияние оказывается распределено совсем неравномерно (как «скользящее среднее» по W позициям). Информация из далекого токена проходит через несколько разных маршрутов внутри окон внимания предыдущих слоев, чтоб оказать влияние на текущий токен. Эти маршруты суммируются как шаги случайного блуждания (см. на картинке theoretical information propagation).

Если слоёв много, мы итеративно усредняем уже усреднённое. Поведение такого процесса описывается центральной предельной теоремой: многократная «свёртка» равномерного окна превращает профиль влияния прошлых токенов в гауссовский колокол. А ширина этого колокола скейлится сообразно корню из глубины сетки sqrt(L) * W, а вовсе не L * W. Интересно еще, что внутри каждого окна максимальный вклад дают не крайние позиции, а середина доступного диапазона — края «смываются» очередными усреднениями.

В реальных трансформерах есть не только внимание, но и residual connections. Упрощённо, выход слоя это сумма residual (с большим весом alpha) и внимания (с маленьким весом 1 - alpha). Тут alpha это не реальный параметр, а эффективная доля резидуала в смеси «residual + attention» после нормализации (наблюдаемое соотношение вкладов путей).

Это стабилизирует обучение, но создает жесткий барьер: чтобы сигнал перепрыгнул дальше окна, ему нужно многократно идти через слабую ветку внимания, а она экспоненциально гасит вклад. В итоге эффективный горизонт почти не зависит от глубины и оценивается примерно как 1.5 * W (при типичных alpha), что сильно расходится с интуитивной оценкой.

Получается, то, что делает трансформеры стабильными в обучении (residual connections), одновременно ограничивает их способность видеть далеко назад. Это объясняет, почему многие успешные long-context модели используют гибридные архитектуры, сочетая эффективность SWA с периодическими слоями полного внимания.

Кстати, автор поста — это автор статьи про attention sink: 🔗Efficient Streaming Language Models with Attention Sinks

Нашла у него 🔗еще отличный пост о том, как вообще получилась работа по attention sinks, точнее, как, он в ходе стажировки в Meta и работая над проблемой длинных контекстов пришел к фундаментальным инсайтам о трансформерах

🥹 А какой механизм внимание вы используете чаще всего на практике? А если бы у вас было бесконечное окно внимания, какую задачу вы бы сразу попробовали решить?

Please open Telegram to view this post