Статья от команды Qwen взяла награду Best Paper Award на NeurIPS 2025
Работа называется "Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free". В ней исследователи предложили новый вид механизма внимания – gated attention.
Суть в том, что на выход каждой attention-головы мы добавляем сигмоидную шторку, которая масштабирует аутпуты.
Фактически, из Attention → Output мы делаем Attention → Sigmoid-gate × Output.
Причем гейт – это обучаемый блок. Интуитивно, гейт учится понимать, насколько голова полезна в конкретном случае, и насколько, следовательно, нужно усилить или заглушить ее сигнал.
В целом хак небольшой, но оказывается, что прокачивает и стабильность обучения, и итоговое качество. А еще помогает избегать залипания внимания на первых токенах и деградации способностей при увеличении контекста.
Короче, работа правда достойная (почитать можно здесь). Так что поздравляем Qwen с очередным успехом.
Работа называется "Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free". В ней исследователи предложили новый вид механизма внимания – gated attention.
Суть в том, что на выход каждой attention-головы мы добавляем сигмоидную шторку, которая масштабирует аутпуты.
Фактически, из Attention → Output мы делаем Attention → Sigmoid-gate × Output.
Причем гейт – это обучаемый блок. Интуитивно, гейт учится понимать, насколько голова полезна в конкретном случае, и насколько, следовательно, нужно усилить или заглушить ее сигнал.
В целом хак небольшой, но оказывается, что прокачивает и стабильность обучения, и итоговое качество. А еще помогает избегать залипания внимания на первых токенах и деградации способностей при увеличении контекста.
Короче, работа правда достойная (почитать можно здесь). Так что поздравляем Qwen с очередным успехом.
❤126🔥43👍30😁2☃1
С релиза первой версии прошло почти два года. Новую уже никто и не ждал, но релиз, как это часто бывает в случае с DeepSeek, наступил внезапно.
Сразу кратко о результатах:
– Уровень золотой медали на IMO 2025 и CMO 2024 (Chinese Mathematical Olympiad).
– Почти идеальный результат 118/120 на Putnam 2024. Это сверхсложная математическая олимпиада для студентов университетов США и Канады.
– Бенчмарков мало, нет ни MATH, ни GSM8K, ни AIME, вообще почти ничего. Это странновато, но можно пока посмотреть на сравнения с другими моделями на IMO-ProofBench. Видно, что модель довольно уверенно бьет GPT-5 и на сложных задачах выходит на уровень с Gemini 2.5 Pro. Опять же, интересно, что там с Gemini 3, Grok 4 и GPT-5.1.
Теперь заглянем под капот.
Система основана на DeepSeek-V3.2-Exp-Base. Пайплайн состоит из генератора и верификатора.
Доказательство или решение формируется не за раз, а в результате нескольких проходов и улучшений: большая модель генерирует решение -> оно отправляется в модель-верификатор, где тщательно проверяется каждый шаг и ищутся ошибки -> обратная связь от верификатора возвращается генератору -> так доказательство переписывается и улучшается до 16 раз.
При этом в каждой итерации используются и проверяются сразу несколько (до 64) гипотез и вариантов решения. Получается сотни прогонов для одной задачи. Такое вот умное структурированное масштабирование test-time компьюта.
Сколько стоило решение олимпиады – не раскрывают, но видимо немало. Судя по всему, поэтому результатов по бенчмаркам и нет: денег не хватило
Веса | Статья | Репозиторий
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥90😁36❤21👍15👌3🤔1
Please open Telegram to view this post
VIEW IN TELEGRAM
4😁483😎36👍24❤6🔥5 2
Data Secrets
Сегодня все соцсети гудят о том, что видеокарты сильно подорожают в ближайшее время И да, это, к сожалению, правда. Дело в том, что сейчас наблюдается просто беспрецедентный спрос на память из-за рынка ИИ. По данным TrendForce, цены на память в последнее…
Прошел интересный слух, что в 2026 Nvidia больше не будет продавать партнерам память
То есть вместо того, чтобы поставлять кристалл в комплекте с микросхемами GDDR‑памяти, компания теперь будет отправлять партнерам только сам чип.
Производители будут вынуждены самостоятельно закупать VRAM у Samsung, Micron, SK Hynix и др.
Причина все та же: острая нехватка памяти. Все что есть перенаправляют на строительство датацентров для ИИ, а для игровых видеокарт делиться памятью Nvidia уже невыгодно.
Чем это грозит конечному потребителю, довольно очевидно: рост цен и дефицит отдельных моделей видеокарт😞
То есть вместо того, чтобы поставлять кристалл в комплекте с микросхемами GDDR‑памяти, компания теперь будет отправлять партнерам только сам чип.
Производители будут вынуждены самостоятельно закупать VRAM у Samsung, Micron, SK Hynix и др.
Причина все та же: острая нехватка памяти. Все что есть перенаправляют на строительство датацентров для ИИ, а для игровых видеокарт делиться памятью Nvidia уже невыгодно.
Чем это грозит конечному потребителю, довольно очевидно: рост цен и дефицит отдельных моделей видеокарт
Please open Telegram to view this post
VIEW IN TELEGRAM
Google поздравили всех с Днем Благодарения и выпустили app.new
Это вайбкодинг тулза для создания полноценных веб-приложений по запросу. Просто вводите промпт – агент тут же прототипирует и разворачивает то, что вы хотите.
Короче, просто еще одна забавная обертка для Gemini.
Самое прикольное здесь – пасхалка в названии. У Google есть docs.new, sheets.new и slides.new, meet.new. Но это не ИИ-сервисы, а просто короткие ссылки для быстрого создания новой презентации/таблицы/документа. В этом смысле app.new как бы продолжает линейку и быстро «открывает» для вас приложения💡
app.new
Это вайбкодинг тулза для создания полноценных веб-приложений по запросу. Просто вводите промпт – агент тут же прототипирует и разворачивает то, что вы хотите.
Короче, просто еще одна забавная обертка для Gemini.
Самое прикольное здесь – пасхалка в названии. У Google есть docs.new, sheets.new и slides.new, meet.new. Но это не ИИ-сервисы, а просто короткие ссылки для быстрого создания новой презентации/таблицы/документа. В этом смысле app.new как бы продолжает линейку и быстро «открывает» для вас приложения
app.new
Please open Telegram to view this post
VIEW IN TELEGRAM
👍82❤28🤯21😁6🔥2🤝1
Data Secrets
Intellect-2 или как обучить ризонинг модель на 32В без кластера GPU Помните, примерно пол года назад мы рассказывали вам, как в стартапе Prime Intellect впервые децентрализованно обучили крупную LM? Так вот теперь исследователи пошли дальше и обучили уже…
Помните стартап Prime Intellect? Ребята занимаются децентрализованным обучением и на днях впервые выпустили конкурентоспособную модель Intellect-3
Прошлая версия модели вышла в мае и была занятной (в частности потому что обучалась децентрализованно), но не на уровне frontier.
Теперь же по бенчмаркам Intellect-3 опережает GLM-4.5 и DeepSeek-R1-0528, а по математике вообще достигает SOTA в своем размере (она 106B MoE).
Что интересно: для RL-обучения использовался асинхронный RL-фреймворк prime-rl. С инженерной точки зрения это очень сложный процесс и PRIME единственные, кто сейчас таким занимаются. Но успех модели в целом доказал, что подход работает. В стартапе уверены, что именно такие инструменты – это путь к сильным децентрализованным моделям.
Prime-rl уже выложили в опенсорс, так что кому интересно, покапаться в нем можно здесь.
Репорт | HF | Блог
Прошлая версия модели вышла в мае и была занятной (в частности потому что обучалась децентрализованно), но не на уровне frontier.
Теперь же по бенчмаркам Intellect-3 опережает GLM-4.5 и DeepSeek-R1-0528, а по математике вообще достигает SOTA в своем размере (она 106B MoE).
Что интересно: для RL-обучения использовался асинхронный RL-фреймворк prime-rl. С инженерной точки зрения это очень сложный процесс и PRIME единственные, кто сейчас таким занимаются. Но успех модели в целом доказал, что подход работает. В стартапе уверены, что именно такие инструменты – это путь к сильным децентрализованным моделям.
Prime-rl уже выложили в опенсорс, так что кому интересно, покапаться в нем можно здесь.
Репорт | HF | Блог
🔥81👍25❤17😁2☃1
В сети открыли полный доступ в opensource к линейке ИИ-моделей GigaChat
Сбер опубликовал весь стек моделей с лицензией MIT и разрешением на коммерческое использование.
Флагман — GigaChat 3 Ultra-Preview — 702B-MoE модель, полностью обученную с нуля на корпусе в 14 триллионов токенов. Это не адаптация и не дообучение зарубежных весов: у модели собственный датасет, собственный пайплайн синтетики и переработанная архитектура. На русскоязычных и STEM-бенчмарках Ultra-Preview уверенно превосходит российские opensource-аналоги, а также лучше DeepSeek V3.1.
Контекст запоминания — до 128k токенов.
Также в opensource доступна версия Lightning — компактная 10B-MoE модель, которая по скорости инференса конкурирует с Qwen3-1.7B и приближается по качеству к dense-моделям около 8B. Открыта и GigaAM-v3 — набор из пяти моделей для работы с аудио на русском. Отлично распознает речь — показывает −50% WER к Whisper-large-v3.
Открытая линейка GigaChat фактически формирует новую открытую экосистему для разработки, генерации и автоматизации — и делает это именно как самостоятельная архитектура, а не продолжение чьих-то решений.
https://habr.com/ru/companies/sberdevices/articles/968904/
Сбер опубликовал весь стек моделей с лицензией MIT и разрешением на коммерческое использование.
Флагман — GigaChat 3 Ultra-Preview — 702B-MoE модель, полностью обученную с нуля на корпусе в 14 триллионов токенов. Это не адаптация и не дообучение зарубежных весов: у модели собственный датасет, собственный пайплайн синтетики и переработанная архитектура. На русскоязычных и STEM-бенчмарках Ultra-Preview уверенно превосходит российские opensource-аналоги, а также лучше DeepSeek V3.1.
Контекст запоминания — до 128k токенов.
Также в opensource доступна версия Lightning — компактная 10B-MoE модель, которая по скорости инференса конкурирует с Qwen3-1.7B и приближается по качеству к dense-моделям около 8B. Открыта и GigaAM-v3 — набор из пяти моделей для работы с аудио на русском. Отлично распознает речь — показывает −50% WER к Whisper-large-v3.
Открытая линейка GigaChat фактически формирует новую открытую экосистему для разработки, генерации и автоматизации — и делает это именно как самостоятельная архитектура, а не продолжение чьих-то решений.
https://habr.com/ru/companies/sberdevices/articles/968904/
🔥128🤨27👍25❤23😁11🗿8👾1
Anthropic переработали свой подход к работе с долгим контекстом для агентов
Контекстное окно все еще остается основным ограничением агентов. Если вы ставите агента на какую-то действительно большую долгую задачу, он будет делать ее в несколько сессий. Каждая сессия вмещает только довольно узкое контекстное окно, и когда оно иссякает, у нового запуска будет уже "пустая память".
С этим можно бороться с помощью простейшего сжатия контекста, как сейчас реализовано в Claude Code или Codex, но качество такого подхода, прямо скажем, далеко от идеала.
Сейчас Anthropic пытаются тестировать менее наивный метод. Они пишут, что вдохновились человеческими инженерными практиками, когда каждый разработчик оставляет после себя какие-то артефакты для других. Суть:
Таким образом, после каждой сессии у нас остается не недоделанная задача и грязный контекст, сжав который, мы получим непонятно что, а чистенькая задокументированная законченная работа, которую можно передать следующему.
В Claude Code пока не довезли, но потестить уже можно в Claude Agent SDK, вот тут инструкция.
Контекстное окно все еще остается основным ограничением агентов. Если вы ставите агента на какую-то действительно большую долгую задачу, он будет делать ее в несколько сессий. Каждая сессия вмещает только довольно узкое контекстное окно, и когда оно иссякает, у нового запуска будет уже "пустая память".
С этим можно бороться с помощью простейшего сжатия контекста, как сейчас реализовано в Claude Code или Codex, но качество такого подхода, прямо скажем, далеко от идеала.
Сейчас Anthropic пытаются тестировать менее наивный метод. Они пишут, что вдохновились человеческими инженерными практиками, когда каждый разработчик оставляет после себя какие-то артефакты для других. Суть:
1. Перед тем, как задача отойдет кодинг-агенту, над ней работает Initializer agent. Он делает какой-то базовый scaffolding (то есть делит задачу на мелкие), формирует claude-progress.txt и feature-list.
2. Далее идет несколько сессий уже с кодинг-агентами. У каждого все еще отдельное контекстное окно, но отличие от сжатия контекста тут в том, что вся их работа, тем не менее, центразирована и управляется одним набором инструкций.
3. Собственно, инструкции: каждый агент сначала изучает логи, claude-progress.txt и feature-list, затем выбирает одну фичу и реализовывает ее end-to-end, включая тестирование. Также каждый агент обязательно коммитит изменения с информативным сообщением и обновляет прогресс-файлы.
Таким образом, после каждой сессии у нас остается не недоделанная задача и грязный контекст, сжав который, мы получим непонятно что, а чистенькая задокументированная законченная работа, которую можно передать следующему.
В Claude Code пока не довезли, но потестить уже можно в Claude Agent SDK, вот тут инструкция.
❤96🔥30👍16🤔12😁1🤝1
Data Secrets
Мы как-то пропустили, но оказывается словарь Collins объявили вайб-кодинг словом года Ждем, когда Рика Рубина из мема про вайб-кодинг сделают человеком года (не зря же он уже попал в топ-100 самых влиятельных людей в ИИ)
Тем временем мало кто знает, как слово года произносится полностью
😁240❤20💯15🔥4👍3
ШАД Яндекса научит применять ИИ в исследованиях
ИИ всё глубже уходит в экспериментальную науку — от разработки новых материалов до анализа биомедицинских данных. На этом фоне в Школе анализа данных Яндекса начали обучать исследователей внедрению ИИ в свои научные работы. Среди 50 участников новой программы — кандидаты наук, магистранты и аспиранты из лабораторий по всей стране.
Формат такой: участники изучают основы ИИ и сразу же встраивают их в свои исследования. Каждую команду ведёт эксперт ШАДа — помогает выбрать методы и построить дизайн эксперимента. Если проекту нужны большие вычисления, подключают мощности Yandex Cloud.
В ШАДе объясняют идею: учёным дают фундамент работы с ИИ и современный инструментарий. Цель — чтобы специалисты научились строить исследования, где модели становятся не внешним плагином, а органичной частью научного процесса. Первые результаты ожидают весной, а ещё через год появятся работы, созданные в новой связке «ученый + ИИ».
Такую ИИнтеграцию мы одобряем
ИИ всё глубже уходит в экспериментальную науку — от разработки новых материалов до анализа биомедицинских данных. На этом фоне в Школе анализа данных Яндекса начали обучать исследователей внедрению ИИ в свои научные работы. Среди 50 участников новой программы — кандидаты наук, магистранты и аспиранты из лабораторий по всей стране.
Формат такой: участники изучают основы ИИ и сразу же встраивают их в свои исследования. Каждую команду ведёт эксперт ШАДа — помогает выбрать методы и построить дизайн эксперимента. Если проекту нужны большие вычисления, подключают мощности Yandex Cloud.
В ШАДе объясняют идею: учёным дают фундамент работы с ИИ и современный инструментарий. Цель — чтобы специалисты научились строить исследования, где модели становятся не внешним плагином, а органичной частью научного процесса. Первые результаты ожидают весной, а ещё через год появятся работы, созданные в новой связке «ученый + ИИ».
Такую ИИнтеграцию мы одобряем
2👍60🔥29🗿19❤10😁9😎1
Ноам Браун, ведущий исследователь OpenAI: «Если смотреть на мнение ведущих ученых, а не на заголовки СМИ, обнаруживается удивительно много согласия по поводу ИИ»
Понравился достаточно хладнокровный и емкий пассаж от Ноама Брауна, который занимается ризонингом в OpenAI. Он пишет, что, если вы действительно хотите понять общую картину отрасли, нужно забыть про ложную дихотомию, которую продвигают СМИ, и смотреть на то, что говорят эксперты. Краткий перевод:
x.com/polynoamial/status/1994439121243169176
Понравился достаточно хладнокровный и емкий пассаж от Ноама Брауна, который занимается ризонингом в OpenAI. Он пишет, что, если вы действительно хотите понять общую картину отрасли, нужно забыть про ложную дихотомию, которую продвигают СМИ, и смотреть на то, что говорят эксперты. Краткий перевод:
Соцсети обычно сводят дискуссию об ИИ к двум карикатурным позициям:
(A) Скептики, которые считают, что LLM обречены и что ИИ – это просто хайп.
(B) Фанатики, которые уверены, что у нас уже есть все ингредиенты и суперинтеллект вот-вот появится.
Но если почитать, что реально говорят ведущие исследователи (а не заголовки СМИ), то обнаруживается удивительно много согласия:
– Текущая парадигма, скорее всего, уже достаточна, чтобы произвести огромный экономический и социальный эффект – даже без дальнейших научных прорывов.
– Чтобы достичь AGI/ASI, вероятно, все же понадобятся дополнительные исследовательские прорывы. (Continual learning и sample efficiency – два примера, которые исследователи часто упоминают).
– Скорее всего, мы разберемся с этим и придем к AGI/ASI в течение 20 лет. В среднем ученые называют срок 10 лет.
Никто из них не говорит, что ASI – это фантазия или что появление суперинтеллекта – дело 100+ лет.
В основном разногласия касаются того, какими будут нужные прорывы и как быстро они произойдут. Но в целом, если смотреть на картину полностью, эксперты в этой области согласны куда больше, чем не согласны.
x.com/polynoamial/status/1994439121243169176
👍145❤36 13🔥12😁3👀2☃1⚡1🤨1🫡1 1
Media is too big
VIEW IN TELEGRAM
Просто реклама новогодних скидок на Jetson AGX Orin, Jetson Thor и Jetson Orin Nano Super
Дженсен Хуанг однозначно что-то знает про правильный маркетинг🐕
Дженсен Хуанг однозначно что-то знает про правильный маркетинг
Please open Telegram to view this post
VIEW IN TELEGRAM
❤98😁47👍15🔥9🗿3
Статья про Faster R-CNN выиграла награду "Test of Time" на NeurIPS 2025. В честь этого разрешите нам позволить себе небольшую историческую справку
В этом году работе исполняется 10 лет. За это время ее процитировали около 56700 раз.
Что же в ней такого особенного?
Представьте: вы в 2015. Для решения задачи детекции и классификации объектов на изображении уже существует R-CNN и Fast R-CNN. Оба алгоритма достаточно точные, но их все еще почти невозможно применить в реальных задачах. Все дело – в скорости.
Оба алгоритма страдали от одного и того же узкого места: поиск регионов, то есть выделение подозрительных областей, в которых возможно есть объект. Эти регионы генерировались не нейросетью, а старым хэндкрафтед-алгоритмом Selective Search на основе поиска по цветам. Он работал на CPU и занимал 1.5–2 секунды на одно изображение.
То есть на каждый кадр нужно было ждать несколько секунд еще до того, как сеть вообще начнет классифицировать объекты. Это адская уйма времени.
И вот в конце 2015 года выходит работа "Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks". Статья, которую сегодня заслуженно называют переворотом в детекции.
Авторы предложили простую, но гениальную идею: вставить в архитектуру еще одну сетку, которая сама будет искать подозрительные регионы, основываясь на тех же фичах, что и детектор. Так появились Region Proposal Network, которые ускорили весь процесс примерно в 200 раз.
После появления Faster R-CNN впервые стало возможными делать какую-то детекцию в реальном времени. А еще это модель стала, по сути, первым НЕ-франкенштейном, то есть системой, основанной на Deep Learning от начала и до конца.
Ну и, кроме того, в данной работе впервые предложили якоря (anchors). На этой концепции затем выросла, например, хорошо известная вам YOLOv2.
Поздравляем авторов!
В этом году работе исполняется 10 лет. За это время ее процитировали около 56700 раз.
Что же в ней такого особенного?
Представьте: вы в 2015. Для решения задачи детекции и классификации объектов на изображении уже существует R-CNN и Fast R-CNN. Оба алгоритма достаточно точные, но их все еще почти невозможно применить в реальных задачах. Все дело – в скорости.
Оба алгоритма страдали от одного и того же узкого места: поиск регионов, то есть выделение подозрительных областей, в которых возможно есть объект. Эти регионы генерировались не нейросетью, а старым хэндкрафтед-алгоритмом Selective Search на основе поиска по цветам. Он работал на CPU и занимал 1.5–2 секунды на одно изображение.
То есть на каждый кадр нужно было ждать несколько секунд еще до того, как сеть вообще начнет классифицировать объекты. Это адская уйма времени.
И вот в конце 2015 года выходит работа "Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks". Статья, которую сегодня заслуженно называют переворотом в детекции.
Авторы предложили простую, но гениальную идею: вставить в архитектуру еще одну сетку, которая сама будет искать подозрительные регионы, основываясь на тех же фичах, что и детектор. Так появились Region Proposal Network, которые ускорили весь процесс примерно в 200 раз.
После появления Faster R-CNN впервые стало возможными делать какую-то детекцию в реальном времени. А еще это модель стала, по сути, первым НЕ-франкенштейном, то есть системой, основанной на Deep Learning от начала и до конца.
Ну и, кроме того, в данной работе впервые предложили якоря (anchors). На этой концепции затем выросла, например, хорошо известная вам YOLOv2.
Поздравляем авторов!
1❤183👍18😁18🦄13🏆9🍾7🔥1🆒1
Подводим итоги этого сумасшедшего месяца и выбираем самый крутой релиз ноября
Anonymous Poll
8%
GPT-5.1
4%
GPT-5.1 Codex Max
3%
Kimi K2 Thinking
2%
Grok 4.1
15%
Claude Opus 4.5
38%
Gemini 3
20%
Nano Banana Pro
1%
FLUX.2
3%
DeepSeek-Math V2
7%
GigaChat 3.0
1❤57😁45👍14🐳5 5🔥3⚡2🍓2 1
Please open Telegram to view this post
VIEW IN TELEGRAM
😁267👍40🔥21🎉19❤6❤🔥2
Data Secrets
Дуров анонсировал децентрализованную ИИ-сеть Cocoon (Confidential Compute Open Network) это два в одном: майнинг и конфиденциальность ваших ИИ-запросов. То есть: – Владельцы GPU подключают свои видеокарты к сети и получают за это TON. – Разработчики получают…
Павел Дуров запустил Cocoon – децентрализованную сеть для ИИ вычислений
Коротко:
– Cocoon (Confidential Compute Open Network) призвана обеспечить пользователям полную конфиденциальность при общении с ИИ.
– Владельцы GPU подключают свои видеокарты к сети и получают за это TON (майнинг нового поколения!)
– Разработчики получают доступ к компьюту, а пользователи могут безопасно общаться с моделями.
https://cocoon.org/
Коротко:
– Cocoon (Confidential Compute Open Network) призвана обеспечить пользователям полную конфиденциальность при общении с ИИ.
– Владельцы GPU подключают свои видеокарты к сети и получают за это TON (майнинг нового поколения!)
– Разработчики получают доступ к компьюту, а пользователи могут безопасно общаться с моделями.
«В качестве логотипа сетиСосунКокон мы выбрали ИИчко:🤖 » – написал Павел у себя в канале.
https://cocoon.org/
Please open Telegram to view this post
VIEW IN TELEGRAM
😁202❤51🔥30👍18🗿10 7☃5👏3