Пришло сегодня в одной из AI-рассылок. Реальность, которую мы заслужили :)
Silicon Valley Is Quietly Building on Qwen
📌 What’s happening: Bloomberg’s latest pieces reveal the awkward truth that China’s Qwen models are topping global developer downloads inside Silicon Valley, even as DC accuses Alibaba of brushing shoulders with the PLA. Meanwhile, Meta’s “open-source will save us” crusade is stalling — adoption isn’t matching the press-release swagger, and Qwen is eating the long-tail developer market Meta thought it owned.
🧠 How this hits reality: Dev teams love Qwen’s performance-per-dollar, but CTOs hate the geopolitical blast radius. Startups quietly prototype on Qwen, then scrub the commit logs before fundraising. Meta, once the patron saint of open AI infrastructure, now watches Chinese models out-download Llama in the very ecosystem it tried to dominate. Governance risk is now the only thing slowing Qwen — not capability.
🛎 Key takeaway: Qwen is becoming Silicon Valley’s guilty pleasure that everyone’s using it, no one’s admitting it — and Meta’s “open wins” thesis is bleeding in silence.
Silicon Valley Is Quietly Building on Qwen
📌 What’s happening: Bloomberg’s latest pieces reveal the awkward truth that China’s Qwen models are topping global developer downloads inside Silicon Valley, even as DC accuses Alibaba of brushing shoulders with the PLA. Meanwhile, Meta’s “open-source will save us” crusade is stalling — adoption isn’t matching the press-release swagger, and Qwen is eating the long-tail developer market Meta thought it owned.
🧠 How this hits reality: Dev teams love Qwen’s performance-per-dollar, but CTOs hate the geopolitical blast radius. Startups quietly prototype on Qwen, then scrub the commit logs before fundraising. Meta, once the patron saint of open AI infrastructure, now watches Chinese models out-download Llama in the very ecosystem it tried to dominate. Governance risk is now the only thing slowing Qwen — not capability.
🛎 Key takeaway: Qwen is becoming Silicon Valley’s guilty pleasure that everyone’s using it, no one’s admitting it — and Meta’s “open wins” thesis is bleeding in silence.
Bloomberg.com
How Much of Silicon Valley Is Built on Chinese AI?
Nvidia Corp. Chief Executive Officer Jensen Huang recently declared to the Financial Times that: “China is going to win the AI race.” He later softened his stance, saying the US’s rival was merely “nanoseconds behind,” and that it’s vital America comes out…
1😁42👨💻2❤1
Хорошие авторы!
Neuroevolution: Harnessing Creativity in AI Agent Design
An MIT Press Book by Sebastian Risi, Eugene Tang , David Ha, and Risto Miikkulainen
The online version of the book is now freely available in an open-access HTML format. The print edition will be released later in 2026.
https://neuroevolutionbook.com/
Neuroevolution: Harnessing Creativity in AI Agent Design
An MIT Press Book by Sebastian Risi, Eugene Tang , David Ha, and Risto Miikkulainen
The online version of the book is now freely available in an open-access HTML format. The print edition will be released later in 2026.
https://neuroevolutionbook.com/
👍12
Прогнал пока авторазбор Мамбы 3
Mamba-3: Improved Sequence Modeling Using State Space Principles
Статья: https://openreview.net/forum?id=HwCvaJOiCj (Under Review at ICLR 2026)
Ревью: https://arxiviq.substack.com/p/mamba-3-improved-sequence-modeling
# TL;DR
ЧТО сделали? Авторы представляют Mamba-3 — архитектурное развитие семейства моделей пространства состояний (SSM). Метод объединяет три ключевых технических улучшения: схему трапецеидальной дискретизации (вместо метода Эйлера), формулировку Multi-Input Multi-Output (MIMO) для повышения арифметической интенсивности вычислений и теоретическое обоснование, связывающее комплекснозначные SSM с Data-Dependent Rotary Embeddings (RoPE).
ЗАЧЕМ это нужно? Работа закрывает две главные слабости эффективных линейных моделей: неспособность решать задачи на отслеживание состояния (state-tracking), такие как чётность или арифметика, и плохую утилизацию железа (memory-bound) во время декодинга. Возвращая выразительность комплексной динамики без вычислительных накладных расходов, Mamba-3 задаёт новый фронт Парето эффективности инференса, обгоняя Mamba-2 и сильные бейзлайны трансформеров на стандартных бенчмарках.
Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/1389
Mamba-3: Improved Sequence Modeling Using State Space Principles
Статья: https://openreview.net/forum?id=HwCvaJOiCj (Under Review at ICLR 2026)
Ревью: https://arxiviq.substack.com/p/mamba-3-improved-sequence-modeling
# TL;DR
ЧТО сделали? Авторы представляют Mamba-3 — архитектурное развитие семейства моделей пространства состояний (SSM). Метод объединяет три ключевых технических улучшения: схему трапецеидальной дискретизации (вместо метода Эйлера), формулировку Multi-Input Multi-Output (MIMO) для повышения арифметической интенсивности вычислений и теоретическое обоснование, связывающее комплекснозначные SSM с Data-Dependent Rotary Embeddings (RoPE).
ЗАЧЕМ это нужно? Работа закрывает две главные слабости эффективных линейных моделей: неспособность решать задачи на отслеживание состояния (state-tracking), такие как чётность или арифметика, и плохую утилизацию железа (memory-bound) во время декодинга. Возвращая выразительность комплексной динамики без вычислительных накладных расходов, Mamba-3 задаёт новый фронт Парето эффективности инференса, обгоняя Mamba-2 и сильные бейзлайны трансформеров на стандартных бенчмарках.
Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/1389
openreview.net
Mamba-3: Improved Sequence Modeling using State Space Principles
The recent scaling of test-time compute for LLMs has restricted the practical deployment of models to those with strong capabilities that can generate high-quality outputs in an inference-efficient...
❤12👍9🔥2🤔1
😁18🤡9👾2❤1
Неожиданно побили на ARC кучу сложных и тяжёлых токенных моделей с простой моделькой из комп.зрения.
ARC Is a Vision Problem!
Keya Hu, Ali Cy, Linlu Qiu, Xiaoman Delores Ding, Runqian Wang, Yeyin Eva Zhu, Jacob Andreas, Kaiming He
Статья: https://arxiv.org/abs/2511.14761
Код: https://github.com/lillian039/VARC
Ревью: https://arxiviq.substack.com/p/arc-is-a-vision-problem
# TL;DR
Что сделали? Авторы предлагают VARC (Vision ARC) — фреймворк, который переосмысляет бенчмарк Abstraction and Reasoning Corpus (ARC). Вместо того чтобы рассматривать его как задачу для языка или синтеза программ, они подходят к нему как к прямой задаче image-to-image трансляции. Проецирование сеток ARC на «холст» (canvas) высокого разрешения и использование стандартных архитектур компьютерного зрения (ViT и U-Net) в сочетании с агрессивным обучением во время теста (Test-Time Training, TTT) позволили достичь SOTA-результатов среди моделей, обученных с нуля.
Зачем это нужно? Этот подход бросает вызов доминированию LLM в абстрактном мышлении. Имея всего 18 миллионов параметров, VARC достигает 54.5% точности (60.4% в ансамбле) на ARC-1, соперничая со средним человеческим уровнем и превосходя массивные LLM вроде GPT-5, которым не хватает visual grounding. Работа показывает, что правильный inductive bias — конкретно 2D-локальность и масштабная инвариантность — может быть куда эффективнее простого наращивания масштаба.
Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/1403
ARC Is a Vision Problem!
Keya Hu, Ali Cy, Linlu Qiu, Xiaoman Delores Ding, Runqian Wang, Yeyin Eva Zhu, Jacob Andreas, Kaiming He
Статья: https://arxiv.org/abs/2511.14761
Код: https://github.com/lillian039/VARC
Ревью: https://arxiviq.substack.com/p/arc-is-a-vision-problem
# TL;DR
Что сделали? Авторы предлагают VARC (Vision ARC) — фреймворк, который переосмысляет бенчмарк Abstraction and Reasoning Corpus (ARC). Вместо того чтобы рассматривать его как задачу для языка или синтеза программ, они подходят к нему как к прямой задаче image-to-image трансляции. Проецирование сеток ARC на «холст» (canvas) высокого разрешения и использование стандартных архитектур компьютерного зрения (ViT и U-Net) в сочетании с агрессивным обучением во время теста (Test-Time Training, TTT) позволили достичь SOTA-результатов среди моделей, обученных с нуля.
Зачем это нужно? Этот подход бросает вызов доминированию LLM в абстрактном мышлении. Имея всего 18 миллионов параметров, VARC достигает 54.5% точности (60.4% в ансамбле) на ARC-1, соперничая со средним человеческим уровнем и превосходя массивные LLM вроде GPT-5, которым не хватает visual grounding. Работа показывает, что правильный inductive bias — конкретно 2D-локальность и масштабная инвариантность — может быть куда эффективнее простого наращивания масштаба.
Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/1403
arXiv.org
ARC Is a Vision Problem!
The Abstraction and Reasoning Corpus (ARC) is designed to promote research on abstract reasoning, a fundamental aspect of human intelligence. Common approaches to ARC treat it as a...
🔥21❤6🤷♀2👍2🤮1