gonzo-обзоры ML статей – Telegram
gonzo-обзоры ML статей
24K subscribers
2.75K photos
2 videos
3 files
1.36K links
Авторы:
Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика.
Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.
Download Telegram
Чтобы понять эту устойчивость к длинным контекстам, авторы изучили механизмы внимания моделей. Они обнаружили, что в обеих моделях self-attention декодера страдает от «затухания локальности» (locality decay) — токены уделяют меньше внимания удалённым токенам по мере удлинения последовательности, и эта проблема более выражена в DecLLM. Однако cross-attention в RedLLM, который обращается к закодированному входу, не подвержен этому затуханию. Он последовательно фокусируется на стабильном подмножестве входных токенов, обеспечивая постоянный поток информации из промпта, независимо от длины генерации. Эта разносторонняя стратегия внимания, по-видимому, является ключевым фактором её лучшей экстраполяции.

Эксперимент с DecLLM + BiAttn особенно показателен. Позволив входным токенам decoder-only модели обращать внимание друг на друга в обоих направлениях — имитируя ключевую особенность энкодера, — авторы подтвердили, что полное контекстуальное понимание промпта является основным источником силы архитектуры энкодер-декодер. Хотя эта модификация значительно улучшила производительность DecLLM, тот факт, что RedLLM всё ещё сохранила преимущество в компромиссе «качество-эффективность», говорит о том, что её специализированная архитектура предлагает дополнительные выгоды.

Несбалансированные энкодер-декодеры в работе не исследовали, но помня про результаты T5Gemma может там есть ещё более хорошие варианты.

Такие дела. Любопытная работа в целом. Может таки будет возрождение полных энкодер-декодеров? T-1000 T5 ещё всем покажет?
8👍7🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
9👍7
Пришло сегодня в одной из AI-рассылок. Реальность, которую мы заслужили :)

Silicon Valley Is Quietly Building on Qwen

📌 What’s happening: Bloomberg’s latest pieces reveal the awkward truth that China’s Qwen models are topping global developer downloads inside Silicon Valley, even as DC accuses Alibaba of brushing shoulders with the PLA. Meanwhile, Meta’s “open-source will save us” crusade is stalling — adoption isn’t matching the press-release swagger, and Qwen is eating the long-tail developer market Meta thought it owned.

🧠 How this hits reality: Dev teams love Qwen’s performance-per-dollar, but CTOs hate the geopolitical blast radius. Startups quietly prototype on Qwen, then scrub the commit logs before fundraising. Meta, once the patron saint of open AI infrastructure, now watches Chinese models out-download Llama in the very ecosystem it tried to dominate. Governance risk is now the only thing slowing Qwen — not capability.

🛎 Key takeaway: Qwen is becoming Silicon Valley’s guilty pleasure that everyone’s using it, no one’s admitting it — and Meta’s “open wins” thesis is bleeding in silence.
1😁42👨‍💻21
Ну что, ждём сегодня Gemini 3.0?
3❤‍🔥345😁1🤔1💩1🥴1
👻9👀5👍3
Хорошие авторы!

Neuroevolution: Harnessing Creativity in AI Agent Design
An MIT Press Book by Sebastian Risi, Eugene Tang , David Ha, and Risto Miikkulainen

The online version of the book is now freely available in an open-access HTML format. The print edition will be released later in 2026.

https://neuroevolutionbook.com/
👍13