Data Secrets
Qwen обновили Qwen3-235B-A22B, и это просто загляденье Во-первых, это не ризонинг модель. Разработчики пишут, что они решили вовсе прикрыть гибридный режим и будут обучать Instruct и Thinking модели отдельно. Сегодня вышла Instruct версия. Напоминаем,…
Qwen только что релизнули свою новую ризонинг-модель
Буквально несколько дней назад они заявили, что теперь будут выпускать ризонеры и не-ризонеры отдельно (вместо гибридных моделей), показали свежий чекпоинт не рассуждающего Qwen3-235B-A22B, и пообещали скоро вернутся с ризонинг-моделью.
Ждать пришлось недолго и скоро наступило спустя пять дней (учитесь, OpenAI и xAI). Только что стартап поделился моделью Qwen3-235B-A22B-Thinking-2507. Название – язык сломаешь, зато метрики стоящие.
На многих тестах модель обгоняет Gemini 2.5 Pro, o4-mini и свежую версию R1. То есть мало того, что это новая опенсорс SOTA. Это вполне себе уровень закрытой frontier модели. Мед.
Контекст – 256к токенов. Попробовать модель уже можно в чате или через API (стоит 0.7$ и 8.4$ соответственно за input и output, у провайдеров, скорее всего, будет дешевле).
Веса лежат тут.
Буквально несколько дней назад они заявили, что теперь будут выпускать ризонеры и не-ризонеры отдельно (вместо гибридных моделей), показали свежий чекпоинт не рассуждающего Qwen3-235B-A22B, и пообещали скоро вернутся с ризонинг-моделью.
Ждать пришлось недолго и скоро наступило спустя пять дней (учитесь, OpenAI и xAI). Только что стартап поделился моделью Qwen3-235B-A22B-Thinking-2507. Название – язык сломаешь, зато метрики стоящие.
На многих тестах модель обгоняет Gemini 2.5 Pro, o4-mini и свежую версию R1. То есть мало того, что это новая опенсорс SOTA. Это вполне себе уровень закрытой frontier модели. Мед.
Контекст – 256к токенов. Попробовать модель уже можно в чате или через API (стоит 0.7$ и 8.4$ соответственно за input и output, у провайдеров, скорее всего, будет дешевле).
Веса лежат тут.
1❤102🔥52👍21 9😁4😎3👏1🤯1
Есть две новости, хорошая и плохая
Плохая: вчера официально прекратилась поддержка замечательного проекта Papers With Code, которым многие из нас, несомненно, часто пользовались.
Хорошая: на HuggingFace только что появилась отличная замена. HF специально объединились с Meta* и командой PWC и сделали нам свежий раздел «Trending Papers».
Там также, как и на привычном Papers With Code, будут статьи и код для них + работы будут дополнительно сортироваться по популярности и новизне. Имхо, именно этого давно на HF не хватало.
Есть настроение что-то прочитать -> зашел -> сразу увидел топ-5 или 10 самых трендовых статей -> выбрал по вкусу -> изучил -> тут же поэкспериментировал с готовым кодом. Приятно же, ну?
huggingface.co/papers/trending
Плохая: вчера официально прекратилась поддержка замечательного проекта Papers With Code, которым многие из нас, несомненно, часто пользовались.
Хорошая: на HuggingFace только что появилась отличная замена. HF специально объединились с Meta* и командой PWC и сделали нам свежий раздел «Trending Papers».
Там также, как и на привычном Papers With Code, будут статьи и код для них + работы будут дополнительно сортироваться по популярности и новизне. Имхо, именно этого давно на HF не хватало.
Есть настроение что-то прочитать -> зашел -> сразу увидел топ-5 или 10 самых трендовых статей -> выбрал по вкусу -> изучил -> тут же поэкспериментировал с готовым кодом. Приятно же, ну?
huggingface.co/papers/trending
1🔥190👍46❤32🫡13🤯5 5😁3 2
В Авито появился управляющий директор по искусственному интеллекту — Андрей Рыбинцев, руководитель ИИ-направления с десятилетним стажем, теперь входит в правление.
Также будет создан новый кластер AI Experience, развивающий ассистентов на основе Gen AI. Так компания подчеркивает, что ИИ теперь — ключевой драйвер развития.
Фокус — масштабирование собственных моделей (A-Vibe, A-Vision), развитие генеративных ассистентов и построение агентских ИИ-систем. По прогнозам, GenAI принесет компании не менее 21 млрд ₽ допвыручки к 2028 году.
«Задача моей команды — масштабировать уже работающие решения и внедрить новые технологии, которые будут ощутимы для миллионов пользователей и тысяч бизнесов по всей стране»», — отметил Рыбинцев.
Также будет создан новый кластер AI Experience, развивающий ассистентов на основе Gen AI. Так компания подчеркивает, что ИИ теперь — ключевой драйвер развития.
Фокус — масштабирование собственных моделей (A-Vibe, A-Vision), развитие генеративных ассистентов и построение агентских ИИ-систем. По прогнозам, GenAI принесет компании не менее 21 млрд ₽ допвыручки к 2028 году.
«Задача моей команды — масштабировать уже работающие решения и внедрить новые технологии, которые будут ощутимы для миллионов пользователей и тысяч бизнесов по всей стране»», — отметил Рыбинцев.
1🤯77👍41🤨41❤19🗿12🔥6😁5🫡1
О, на всеми любимом YouTube канале 3blue1brown впервые за долгое время вышло новое видео
Тема: диффузионные модели
За 40 минут автор в фирменном мультипликационном стиле буквально раскладывает по полочкам, как работают современные генераторы картинок и видео.
Сначала – основы. CLIP, эмбеддинги, скрытые пространства, архитектура ванильных диффузионных моделей. А потом уже рассказывается и про DDIM, и про устройство Dall E 2, и про conditioning, и про многое другое.
В общем получился довольно подробный ролик. Тем, кто в генерации новичок, посмотреть точно стоит. Профессионалам тоже советуем – чисто насладиться эстетикой😍
youtu.be/iv-5mZ_9CPY
Тема: диффузионные модели
За 40 минут автор в фирменном мультипликационном стиле буквально раскладывает по полочкам, как работают современные генераторы картинок и видео.
Сначала – основы. CLIP, эмбеддинги, скрытые пространства, архитектура ванильных диффузионных моделей. А потом уже рассказывается и про DDIM, и про устройство Dall E 2, и про conditioning, и про многое другое.
В общем получился довольно подробный ролик. Тем, кто в генерации новичок, посмотреть точно стоит. Профессионалам тоже советуем – чисто насладиться эстетикой
youtu.be/iv-5mZ_9CPY
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
4❤324🔥80👍16 15💯5 4🗿1
Meta* наконец-то нашли себе Chief Scientist в новое подразделение Superintelligence Lab
Им станет Shengjia Zhao, который пришел из OpenAI. Там он работал над обучением GPT-4, o1, o3, GPT-4.1 и других моделей, а также возглавлял направление synthetic data.
А еще он вместе с Яном Лейке, Джоном Шульманом и другими звездами OpenAI (в его лучшие годы) был соавтором оригинальной статьи “ChatGPT: Optimizing Language Models for Dialogue”.
Кстати, в прошлом Shengjia Zhao также работал в МТС. Пруфы – на второй картинке🤫
Им станет Shengjia Zhao, который пришел из OpenAI. Там он работал над обучением GPT-4, o1, o3, GPT-4.1 и других моделей, а также возглавлял направление synthetic data.
А еще он вместе с Яном Лейке, Джоном Шульманом и другими звездами OpenAI (в его лучшие годы) был соавтором оригинальной статьи “ChatGPT: Optimizing Language Models for Dialogue”.
Кстати, в прошлом Shengjia Zhao также работал в МТС. Пруфы – на второй картинке
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
😁237❤43🔥25👍8🗿5🤔3
Learning without training: разбираем новую крайне интересную статью от Google
Смотрите, все мы знаем, что если модели в промпте показать несколько примеров решения похожих задач, то она может легко подхватить паттерн, и качество ответов станет лучше. При этом веса модели, естественно, не меняются.
Это называется in‑context learning (ICL), но вот вам fun fact: никто до сих пор до конца не знает, почему это работает, и как трансформер это делает.
И вот в этой статье авторы предлагают почти революционную гипотезу – что на самом деле веса меняются, просто иначе, чем мы привыкли.
То есть на самом деле внутри блока трансформера происходит нечто похожее на файнтюнинг, только не через градиенты, а за счёт самой механики self‑attention и MLP. Идея сводится к следующему:
1. Контекст порождает локальные изменения активаций, и когда вы добавляете примеры в промпт, self‑attention пересчитывает эмбеддинги токенов так, что после этого они зависят от всего контекста. Разницу между «чистыми» активациями и активациями с учётом примеров можно назвать контекстным сдвигом. Это все известные вещи.
2. А вот дальше зарыта собака: оказывается, MLP превращает этот контекстный сдвиг в ранг‑1 обновление весов. Иначе говоря, если посмотреть на первый линейный слой MLP (матрицу W), то влияние дополнительных примеров эквивалентно тому, что эту самую матрицу дополняют маленькой поправкой ранга 1.
Причем эта поправка описывается достаточно простой формулой. То есть если мы берем оригинальные веса и вручную добавляем к ним эту поправку, модель без контекста выдаст то же самое, что и оригинал с контекстом. Но всё это происходит во время инференса, без обратного прохода и без изменения глобальных моделей параметров.
Получается, Google буквально дают ключ к возможному обучению без градиентного спуска. Если такие ранг‑1 апдейты научиться усиливать или контролировать, это может быть началом абсолютно новых архитектур.
Почитать полностью можно тут -> arxiv.org/abs/2507.16003 (осторожно, много математики)
Смотрите, все мы знаем, что если модели в промпте показать несколько примеров решения похожих задач, то она может легко подхватить паттерн, и качество ответов станет лучше. При этом веса модели, естественно, не меняются.
Это называется in‑context learning (ICL), но вот вам fun fact: никто до сих пор до конца не знает, почему это работает, и как трансформер это делает.
И вот в этой статье авторы предлагают почти революционную гипотезу – что на самом деле веса меняются, просто иначе, чем мы привыкли.
То есть на самом деле внутри блока трансформера происходит нечто похожее на файнтюнинг, только не через градиенты, а за счёт самой механики self‑attention и MLP. Идея сводится к следующему:
1. Контекст порождает локальные изменения активаций, и когда вы добавляете примеры в промпт, self‑attention пересчитывает эмбеддинги токенов так, что после этого они зависят от всего контекста. Разницу между «чистыми» активациями и активациями с учётом примеров можно назвать контекстным сдвигом. Это все известные вещи.
2. А вот дальше зарыта собака: оказывается, MLP превращает этот контекстный сдвиг в ранг‑1 обновление весов. Иначе говоря, если посмотреть на первый линейный слой MLP (матрицу W), то влияние дополнительных примеров эквивалентно тому, что эту самую матрицу дополняют маленькой поправкой ранга 1.
Причем эта поправка описывается достаточно простой формулой. То есть если мы берем оригинальные веса и вручную добавляем к ним эту поправку, модель без контекста выдаст то же самое, что и оригинал с контекстом. Но всё это происходит во время инференса, без обратного прохода и без изменения глобальных моделей параметров.
Получается, Google буквально дают ключ к возможному обучению без градиентного спуска. Если такие ранг‑1 апдейты научиться усиливать или контролировать, это может быть началом абсолютно новых архитектур.
Почитать полностью можно тут -> arxiv.org/abs/2507.16003 (осторожно, много математики)
4🔥250❤69👍37🤯18🤔14 6 5
Ничего необычного, просто в Твиттере вспомнили, как в 2022 году после запуска ChatGPT кто-то сказал Альтману, что это худший из возможных концептов ИИ-продукта
Вот бы распечатать – и на стенку в офисе OpenAI
Вот бы распечатать – и на стенку в офисе OpenAI
❤186😁181🤯23👨💻6👍3 2🕊1
Еще одна очень громкая статья последних дней – AlphaGo Moment for Model Architecture Discovery
TL;DR: ученые представили первую в мире систему, автономно генерирующую новые рабочие архитектуры ИИ -> проверили ее на 20 000 GPU‑часах -> открыли закон масштабирования, который говорит, что количество обнаруженных архитектур растёт линейно по мере увеличения числа ресурсов.
После выхода AlphaEvolve ученые всё больше и больше говорят о том, что пора нам переходить от NAS к ASI4AI: то есть от классического Neural Architecture Search, ограниченного человеческим фактором, к ИИ, который улучшает ИИ, который улучшает ИИ, который .... Ну вы поняли.
История действительно перспективная (и в том числе эта статья это подтверждает). Ведь способности ИИ по законам масштабирования растут экспоненциально, но в то же время скорость исследований остаётся линейной из‑за ограничений человеческого внимания и времени. Парадокс.
Ну так вот. Сама архитектура ASI‑ARCH из статьи состоит из трех модулей: Researcher, Engineer и Analyzer. Один генерирует гипотезы и "ТЗ", другой пишет код и собирает метрики, третий анализирует результаты.
Долго останавливаться на архитектуре не будем, тут самое интересное – результат. Было проведено 1 773 эксперимента на 20 000 GPU‑часах, в результате обнаружено 106 новых SOTA архитектур (это линейная зависимость). Под SOTA тут, кстати, подразумеваются именно линейные модели (НЕ трансформер), которые демонстрируют лучшие метрики в своем классе.
При этом в итоговых архитектурах действительно присутствуют какие-то непривычные конструкции. Отсюда и название – исследователи проводят прямую аналогию с ходом 37 AlphaGo в матче с Ли Седолем и говорят, что это яркий показатель способности системы находить прорывные идеи, а не просто подражать.
arxiv.org/pdf/2507.18074
TL;DR: ученые представили первую в мире систему, автономно генерирующую новые рабочие архитектуры ИИ -> проверили ее на 20 000 GPU‑часах -> открыли закон масштабирования, который говорит, что количество обнаруженных архитектур растёт линейно по мере увеличения числа ресурсов.
После выхода AlphaEvolve ученые всё больше и больше говорят о том, что пора нам переходить от NAS к ASI4AI: то есть от классического Neural Architecture Search, ограниченного человеческим фактором, к ИИ, который улучшает ИИ, который улучшает ИИ, который .... Ну вы поняли.
История действительно перспективная (и в том числе эта статья это подтверждает). Ведь способности ИИ по законам масштабирования растут экспоненциально, но в то же время скорость исследований остаётся линейной из‑за ограничений человеческого внимания и времени. Парадокс.
Ну так вот. Сама архитектура ASI‑ARCH из статьи состоит из трех модулей: Researcher, Engineer и Analyzer. Один генерирует гипотезы и "ТЗ", другой пишет код и собирает метрики, третий анализирует результаты.
Долго останавливаться на архитектуре не будем, тут самое интересное – результат. Было проведено 1 773 эксперимента на 20 000 GPU‑часах, в результате обнаружено 106 новых SOTA архитектур (это линейная зависимость). Под SOTA тут, кстати, подразумеваются именно линейные модели (НЕ трансформер), которые демонстрируют лучшие метрики в своем классе.
При этом в итоговых архитектурах действительно присутствуют какие-то непривычные конструкции. Отсюда и название – исследователи проводят прямую аналогию с ходом 37 AlphaGo в матче с Ли Седолем и говорят, что это яркий показатель способности системы находить прорывные идеи, а не просто подражать.
arxiv.org/pdf/2507.18074
10🤯159🔥84❤37👍25 21 7🤔5🗿2😎1 1
Начинаем понедельник с ✨ интересных фактов✨
Мы в сегодня лет обнаружили, что термин «галлюцинации» тоже придумал Андрей Карпаты. Почти все знают, что именно он ввел в эксплуатацию «вайб-кодинг», но это-то было относительно недавно, – а вот корни «галлюцинаций» уходят еще в 2015 год.
Оказывается, тогда термин был впервые использован в известной статье “Unreasonable Effectiveness of RNNs” (ссылка), и с тех пор разлетелся по комьюнити, ну а дальше – в глобал.
Сам Андрей, кстати, пишет, что он «нагаллюцинировал это понятие»👓
Мы в сегодня лет обнаружили, что термин «галлюцинации» тоже придумал Андрей Карпаты. Почти все знают, что именно он ввел в эксплуатацию «вайб-кодинг», но это-то было относительно недавно, – а вот корни «галлюцинаций» уходят еще в 2015 год.
Оказывается, тогда термин был впервые использован в известной статье “Unreasonable Effectiveness of RNNs” (ссылка), и с тех пор разлетелся по комьюнити, ну а дальше – в глобал.
Сам Андрей, кстати, пишет, что он «нагаллюцинировал это понятие»
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
2❤187 66🔥34👏8👍6👻5🗿4🐳3 3🤨2
В Китае развернули масштабную переделку игровых GeForce RTX 5090 в видеокарты для ИИ
Новостям про то, как в КНР справляются с экспортными ограничениями на железо, просто нет конца. Но в этот раз они превзошли сами себя.
Оказалось, что на заводах в Шэньчжэне работают уже целые автоматизированные линии, которые пачками перерабатывают оригинальные RTX 5090. Их разбирают и извлекают чипы GPU GB202 и память GDDR7, которые затем переустанавливаются на новые двухслотовые платы. Добавили серверное вентиляторное охлаждение, 16-контактный разъём питания – и, считай, готово.
Дополнительно так называемые 5090 Turbo еще проходят краш-тесты, чтобы отсеить непрочные кристаллы. Оставшиеся уже отправляются в дата-центры.
И кстати, полноценные RTX 5090 уже ввозить в Китай нельзя: официально разрешены только ослабленные RTX 5090D, в которых аппаратно ограничены вычисления для ИИ. Так что даже для того, чтобы вот так переделывать видеокарты, их сначала надо обходными путями доставить из Сингапура, ОАЭ и пр.
Видят цель – не видят препятствий
Новостям про то, как в КНР справляются с экспортными ограничениями на железо, просто нет конца. Но в этот раз они превзошли сами себя.
Оказалось, что на заводах в Шэньчжэне работают уже целые автоматизированные линии, которые пачками перерабатывают оригинальные RTX 5090. Их разбирают и извлекают чипы GPU GB202 и память GDDR7, которые затем переустанавливаются на новые двухслотовые платы. Добавили серверное вентиляторное охлаждение, 16-контактный разъём питания – и, считай, готово.
Дополнительно так называемые 5090 Turbo еще проходят краш-тесты, чтобы отсеить непрочные кристаллы. Оставшиеся уже отправляются в дата-центры.
И кстати, полноценные RTX 5090 уже ввозить в Китай нельзя: официально разрешены только ослабленные RTX 5090D, в которых аппаратно ограничены вычисления для ИИ. Так что даже для того, чтобы вот так переделывать видеокарты, их сначала надо обходными путями доставить из Сингапура, ОАЭ и пр.
Видят цель – не видят препятствий
10😁199🔥97🤯46👍35❤21👏9 4 3🕊1🤨1