NEW BOT Телеграм, страница

gonzo-обзоры ML статей

Чтобы понять эту устойчивость к длинным контекстам, авторы изучили механизмы внимания моделей. Они обнаружили, что в обеих моделях self-attention декодера страдает от «затухания локальности» (locality decay) — токены уделяют меньше внимания удалённым токенам по мере удлинения последовательности, и эта проблема более выражена в DecLLM. Однако cross-attention в RedLLM, который обращается к закодированному входу, не подвержен этому затуханию. Он последовательно фокусируется на стабильном подмножестве входных токенов, обеспечивая постоянный поток информации из промпта, независимо от длины генерации. Эта разносторонняя стратегия внимания, по-видимому, является ключевым фактором её лучшей экстраполяции.

Эксперимент с DecLLM + BiAttn особенно показателен. Позволив входным токенам decoder-only модели обращать внимание друг на друга в обоих направлениях — имитируя ключевую особенность энкодера, — авторы подтвердили, что полное контекстуальное понимание промпта является основным источником силы архитектуры энкодер-декодер. Хотя эта модификация значительно улучшила производительность DecLLM, тот факт, что RedLLM всё ещё сохранила преимущество в компромиссе «качество-эффективность», говорит о том, что её специализированная архитектура предлагает дополнительные выгоды.

Несбалансированные энкодер-декодеры в работе не исследовали, но помня про результаты T5Gemma может там есть ещё более хорошие варианты.

Такие дела. Любопытная работа в целом. Может таки будет возрождение полных энкодер-декодеров? ~~T-1000~~ T5 ещё всем покажет?

arXiv.org

Encoder-Decoder or Decoder-Only? Revisiting Encoder-Decoder Large...

Recent large language model (LLM) research has undergone an architectural shift from encoder-decoder modeling to nowadays the dominant decoder-only modeling. This rapid transition, however, comes...

❤8👍7🔥2

2.62K views01:04

gonzo-обзоры ML статей

2.73K views01:05

gonzo-обзоры ML статей

2.93K views01:06

gonzo-обзоры ML статей

Из T5Gemma

3.12K views01:06

gonzo-обзоры ML статей

3.12K views01:06

gonzo-обзоры ML статей

3.26K views01:07

gonzo-обзоры ML статей

3.73K views01:07

gonzo-обзоры ML статей

3.88K views01:07

gonzo-обзоры ML статей

4.24K views01:07

gonzo-обзоры ML статей

4.11K views01:08

gonzo-обзоры ML статей

Из T5Gemma

4.32K views01:08

gonzo-обзоры ML статей

4.63K views01:09

gonzo-обзоры ML статей

4.85K views01:09

gonzo-обзоры ML статей

4.89K views01:09

gonzo-обзоры ML статей

This media is not supported in your browser

VIEW IN TELEGRAM

4.29K views01:13

❤9👍7

gonzo-обзоры ML статей

Пришло сегодня в одной из AI-рассылок. Реальность, которую мы заслужили :)

Silicon Valley Is Quietly Building on Qwen

📌 What’s happening: Bloomberg’s latest pieces reveal the awkward truth that China’s Qwen models are topping global developer downloads inside Silicon Valley, even as DC accuses Alibaba of brushing shoulders with the PLA. Meanwhile, Meta’s “open-source will save us” crusade is stalling — adoption isn’t matching the press-release swagger, and Qwen is eating the long-tail developer market Meta thought it owned.

🧠 How this hits reality: Dev teams love Qwen’s performance-per-dollar, but CTOs hate the geopolitical blast radius. Startups quietly prototype on Qwen, then scrub the commit logs before fundraising. Meta, once the patron saint of open AI infrastructure, now watches Chinese models out-download Llama in the very ecosystem it tried to dominate. Governance risk is now the only thing slowing Qwen — not capability.

🛎 Key takeaway: Qwen is becoming Silicon Valley’s guilty pleasure that everyone’s using it, no one’s admitting it — and Meta’s “open wins” thesis is bleeding in silence.

Bloomberg.com

How Much of Silicon Valley Is Built on Chinese AI?

Nvidia Corp. Chief Executive Officer Jensen Huang recently declared to the Financial Times that: “China is going to win the AI race.” He later softened his stance, saying the US’s rival was merely “nanoseconds behind,” and that it’s vital America comes out…

1😁42👨‍💻2❤1

6.05K viewsedited 12:31

gonzo-обзоры ML статей

Ну что, ждём сегодня Gemini 3.0?

3❤‍🔥34❤5😁1🤔1💩1🥴1

5.81K views09:07

gonzo-обзоры ML статей

It happened!

https://blog.google/products/gemini/gemini-3/

Google

A new era of intelligence with Gemini 3

Today we’re releasing Gemini 3 – our most intelligent model that helps you bring any idea to life.

🔥15❤4😴2👍1

5.92K views16:35

gonzo-обзоры ML статей

5.99K views16:36

gonzo-обзоры ML статей

👻9👀5👍3

6.28K views16:36

gonzo-обзоры ML статей

Хорошие авторы!

Neuroevolution: Harnessing Creativity in AI Agent Design
An MIT Press Book by Sebastian Risi, Eugene Tang , David Ha, and Risto Miikkulainen

The online version of the book is now freely available in an open-access HTML format. The print edition will be released later in 2026.

https://neuroevolutionbook.com/

👍13

4.84K views23:59

About

Blog

Apps

Platform