Чтобы понять эту устойчивость к длинным контекстам, авторы изучили механизмы внимания моделей. Они обнаружили, что в обеих моделях self-attention декодера страдает от «затухания локальности» (locality decay) — токены уделяют меньше внимания удалённым токенам по мере удлинения последовательности, и эта проблема более выражена в DecLLM. Однако cross-attention в RedLLM, который обращается к закодированному входу, не подвержен этому затуханию. Он последовательно фокусируется на стабильном подмножестве входных токенов, обеспечивая постоянный поток информации из промпта, независимо от длины генерации. Эта разносторонняя стратегия внимания, по-видимому, является ключевым фактором её лучшей экстраполяции.
Эксперимент с DecLLM + BiAttn особенно показателен. Позволив входным токенам decoder-only модели обращать внимание друг на друга в обоих направлениях — имитируя ключевую особенность энкодера, — авторы подтвердили, что полное контекстуальное понимание промпта является основным источником силы архитектуры энкодер-декодер. Хотя эта модификация значительно улучшила производительность DecLLM, тот факт, что RedLLM всё ещё сохранила преимущество в компромиссе «качество-эффективность», говорит о том, что её специализированная архитектура предлагает дополнительные выгоды.
Несбалансированные энкодер-декодеры в работе не исследовали, но помня про результаты T5Gemma может там есть ещё более хорошие варианты.
Такие дела. Любопытная работа в целом. Может таки будет возрождение полных энкодер-декодеров?T-1000 T5 ещё всем покажет?
Эксперимент с DecLLM + BiAttn особенно показателен. Позволив входным токенам decoder-only модели обращать внимание друг на друга в обоих направлениях — имитируя ключевую особенность энкодера, — авторы подтвердили, что полное контекстуальное понимание промпта является основным источником силы архитектуры энкодер-декодер. Хотя эта модификация значительно улучшила производительность DecLLM, тот факт, что RedLLM всё ещё сохранила преимущество в компромиссе «качество-эффективность», говорит о том, что её специализированная архитектура предлагает дополнительные выгоды.
Несбалансированные энкодер-декодеры в работе не исследовали, но помня про результаты T5Gemma может там есть ещё более хорошие варианты.
Такие дела. Любопытная работа в целом. Может таки будет возрождение полных энкодер-декодеров?
arXiv.org
Encoder-Decoder or Decoder-Only? Revisiting Encoder-Decoder Large...
Recent large language model (LLM) research has undergone an architectural shift from encoder-decoder modeling to nowadays the dominant decoder-only modeling. This rapid transition, however, comes...
❤8👍7🔥2
Пришло сегодня в одной из AI-рассылок. Реальность, которую мы заслужили :)
Silicon Valley Is Quietly Building on Qwen
📌 What’s happening: Bloomberg’s latest pieces reveal the awkward truth that China’s Qwen models are topping global developer downloads inside Silicon Valley, even as DC accuses Alibaba of brushing shoulders with the PLA. Meanwhile, Meta’s “open-source will save us” crusade is stalling — adoption isn’t matching the press-release swagger, and Qwen is eating the long-tail developer market Meta thought it owned.
🧠 How this hits reality: Dev teams love Qwen’s performance-per-dollar, but CTOs hate the geopolitical blast radius. Startups quietly prototype on Qwen, then scrub the commit logs before fundraising. Meta, once the patron saint of open AI infrastructure, now watches Chinese models out-download Llama in the very ecosystem it tried to dominate. Governance risk is now the only thing slowing Qwen — not capability.
🛎 Key takeaway: Qwen is becoming Silicon Valley’s guilty pleasure that everyone’s using it, no one’s admitting it — and Meta’s “open wins” thesis is bleeding in silence.
Silicon Valley Is Quietly Building on Qwen
📌 What’s happening: Bloomberg’s latest pieces reveal the awkward truth that China’s Qwen models are topping global developer downloads inside Silicon Valley, even as DC accuses Alibaba of brushing shoulders with the PLA. Meanwhile, Meta’s “open-source will save us” crusade is stalling — adoption isn’t matching the press-release swagger, and Qwen is eating the long-tail developer market Meta thought it owned.
🧠 How this hits reality: Dev teams love Qwen’s performance-per-dollar, but CTOs hate the geopolitical blast radius. Startups quietly prototype on Qwen, then scrub the commit logs before fundraising. Meta, once the patron saint of open AI infrastructure, now watches Chinese models out-download Llama in the very ecosystem it tried to dominate. Governance risk is now the only thing slowing Qwen — not capability.
🛎 Key takeaway: Qwen is becoming Silicon Valley’s guilty pleasure that everyone’s using it, no one’s admitting it — and Meta’s “open wins” thesis is bleeding in silence.
Bloomberg.com
How Much of Silicon Valley Is Built on Chinese AI?
Nvidia Corp. Chief Executive Officer Jensen Huang recently declared to the Financial Times that: “China is going to win the AI race.” He later softened his stance, saying the US’s rival was merely “nanoseconds behind,” and that it’s vital America comes out…
1😁42👨💻2❤1
Хорошие авторы!
Neuroevolution: Harnessing Creativity in AI Agent Design
An MIT Press Book by Sebastian Risi, Eugene Tang , David Ha, and Risto Miikkulainen
The online version of the book is now freely available in an open-access HTML format. The print edition will be released later in 2026.
https://neuroevolutionbook.com/
Neuroevolution: Harnessing Creativity in AI Agent Design
An MIT Press Book by Sebastian Risi, Eugene Tang , David Ha, and Risto Miikkulainen
The online version of the book is now freely available in an open-access HTML format. The print edition will be released later in 2026.
https://neuroevolutionbook.com/
👍13