На Hugging Face заметили «случайный» слив весов открытой модели OpenAI
Висели они там всего пару минут, но шуму навели будь здоров. Что известно:
– Модели называются OSS-20B и OSS-120B
– Та, что побольше – MoE (4 эксперта на токен), запускается на Blackwell
– Контекст 128к токенов
Маркетинг в стиле OpenAI.
Вы, кстати, больше ждете опенсорс или GPT-5?
Висели они там всего пару минут, но шуму навели будь здоров. Что известно:
– Модели называются OSS-20B и OSS-120B
– Та, что побольше – MoE (4 эксперта на токен), запускается на Blackwell
– Контекст 128к токенов
Маркетинг в стиле OpenAI.
Вы, кстати, больше ждете опенсорс или GPT-5?
1😁137 33👍20❤7🔥4
Модель Gemini 2.5 Deep Think стала доступна пользователям
Это та самая модель, которая выиграла золотую медаль на IMO. По метрикам:
– Почти 35% на Humanity’s Last Exam против 21.6 у Gemini 2.5 Pro и 20.3 у o3
– 87.6% на LiveCodeBench против 72 у o3
– 99.2% (почти абсолют!) на AIME 2025 против 89 у o3
Короче, достойно. По выделяемому компьюту ризонинга это конечно не те мощности, с которыми модель выиграла золото (конкретно эту версию выдали пока только небольшой группе математиков), но даже в этой конфигурации она нарешивает IMO на бронзу. Тоже неплохо.
Работает Deep Think благодаря «параллельному мышлению». То есть запускается несколько потоков ризонинга, в которых пробуются разные гипотезы, а затем лучшие результаты комбинируются в конечный ответ. Google пишут, что чтобы научить модель такой параллельности, они разработали «новые методы обучения с подкреплением».
Единственный нюанс: чтобы получить доступ к модельке, заплатить придется 250 долларов. Ее, к сожалению, завезли только в подписку Google AI Ultra.
Карта модели | Блогпост
Это та самая модель, которая выиграла золотую медаль на IMO. По метрикам:
– Почти 35% на Humanity’s Last Exam против 21.6 у Gemini 2.5 Pro и 20.3 у o3
– 87.6% на LiveCodeBench против 72 у o3
– 99.2% (почти абсолют!) на AIME 2025 против 89 у o3
Короче, достойно. По выделяемому компьюту ризонинга это конечно не те мощности, с которыми модель выиграла золото (конкретно эту версию выдали пока только небольшой группе математиков), но даже в этой конфигурации она нарешивает IMO на бронзу. Тоже неплохо.
Работает Deep Think благодаря «параллельному мышлению». То есть запускается несколько потоков ризонинга, в которых пробуются разные гипотезы, а затем лучшие результаты комбинируются в конечный ответ. Google пишут, что чтобы научить модель такой параллельности, они разработали «новые методы обучения с подкреплением».
Единственный нюанс: чтобы получить доступ к модельке, заплатить придется 250 долларов. Ее, к сожалению, завезли только в подписку Google AI Ultra.
Карта модели | Блогпост
1 99 39❤37🔥10 9👍4👀3🗿2
Anthropic отрубили OpenAI доступ к API своих моделей из-за «нарушения условий предоставления услуг»
Причина проста: по мнению Anthropic, OpenAI подключили API Claude Code к своим внутренним инструментам, чтобы их инженеры могли использовать его в процессе разработки GPT-5 для написания кода.
А это прямое нарушение условий: в соглашении об использовании прописано, что клиентам запрещено использовать сервис для «создания конкурирующего продукта или сервиса, в том числе для обучения конкурирующих моделей ИИ».
OpenAI же говорят, что использовали API только для бенчмаркинга и оценок безопасности (чтобы сравнивать со своими новыми моделями). А это уже стандарт индустрии, и так делать, естественно, никто не запрещает.
Нам показалось, или обстановка накаляется?🍿
Причина проста: по мнению Anthropic, OpenAI подключили API Claude Code к своим внутренним инструментам, чтобы их инженеры могли использовать его в процессе разработки GPT-5 для написания кода.
А это прямое нарушение условий: в соглашении об использовании прописано, что клиентам запрещено использовать сервис для «создания конкурирующего продукта или сервиса, в том числе для обучения конкурирующих моделей ИИ».
OpenAI же говорят, что использовали API только для бенчмаркинга и оценок безопасности (чтобы сравнивать со своими новыми моделями). А это уже стандарт индустрии, и так делать, естественно, никто не запрещает.
Мы уважаем решение Anthropic закрыть нам доступ к API, но это разочаровывает, учитывая, что наш API остаётся им доступным, – сказала Ханна Вонг, директор по коммуникациям в OpenAI.
Нам показалось, или обстановка накаляется?
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍104😁94 61❤12 6🤯5
The Information выпустили интересную статью про то, с какими неприятностями столкнулись OpenAI, разрабатывая GPT-5
Она так и называется: «Inside OpenAI rocky path to GPT-5». Короче, как оказалось, модель далась стартапу ну очень нелегко. По порядку:
⚪️ В начале 2024 года стартап очень много времени и средств потратил на разработку модели Orion. Именно она изначально и должна была стать нашей GPT-5.
⚪️ Но OpenAI столкнулись сразу с несколькими проблемами: во-первых, после обучения GPT-4 у компании фактически закончились качественные данные. Во-вторых, методы RL при масштабировании начали вести себя нестабильно. В-третьих, отдача от увеличения мощностей начала резко снижаться, в обход классическим законам скейлинга.
⚪️ В общем, революции не случилось и Orion в итоге вышел под именем GPT-4.5.
⚪️ После этого некоторые проблемы OpenAI частично решили. Например, они разработали мощный внутренний верификатор, который оценивает корректность данных и ответов моделей. Теперь инструмент работает и в RL-пайплайнах, и в процессах генерации синтетики.
⚪️ Тем не менее, проблемы с масштабированием сохраняются. Дальнейшее обучение требует все больше вычислительных и человеческих ресурсов, косты растут, а отдача в ряде экспериментов падает.
Так что да, улучшения будут и они будут значительные, НО настолько радикальных различий, как между предыдущими поколениями моделей, ожидать не стоит. Эх😢
Она так и называется: «Inside OpenAI rocky path to GPT-5». Короче, как оказалось, модель далась стартапу ну очень нелегко. По порядку:
Так что да, улучшения будут и они будут значительные, НО настолько радикальных различий, как между предыдущими поколениями моделей, ожидать не стоит. Эх
Please open Telegram to view this post
VIEW IN TELEGRAM
1 159 62❤47 19😁11👍8🔥5☃2
Вот так новости: независимые аналитики опубликовали отчет, в котором показано, что около 29% ответов на вопросы по биологии и химии в бенчмарке «Humanity’s Last Exam» содержат ошибки и напрямую противоречат рецензированной научной литературе
Если все так, то это буквально катастрофа для репутации бенчмарка и создателей, потому что HLE уже довольно долго используется как золотой стандарт по вопросам уровня PhD.
Причем тест составлял не кто-нибудь, а международный консорциум экспертов из разных областей. Так почему же так могло произойти?
1. Когда эксперты проверяли ответы, на каждый отводилось не более 5 минут. То есть даже если ответ был спорным, или тема требовала более глубоко погружения, им все равно давалось не более пяти минут, чтобы принять решение.
2. Вопросы в целом формулировались так, чтобы ИИ не мог просто зазубрить ответы на них, поэтому в бенче часто встречаются задачки с подвохом или размытыми формулировками. А такие часто очень сложно верифицируемы. В общем, мудрили-мудрили и где-то перемудрили.
Хотелось бы сказать, что бенч просто требует небольшой доработки, но 30% – это прямо много. Тут уже нужно основательно переосмыслять процедуру.
Сам отчет -> www.futurehouse.org/research-announcements/hle-exam
Если все так, то это буквально катастрофа для репутации бенчмарка и создателей, потому что HLE уже довольно долго используется как золотой стандарт по вопросам уровня PhD.
Причем тест составлял не кто-нибудь, а международный консорциум экспертов из разных областей. Так почему же так могло произойти?
1. Когда эксперты проверяли ответы, на каждый отводилось не более 5 минут. То есть даже если ответ был спорным, или тема требовала более глубоко погружения, им все равно давалось не более пяти минут, чтобы принять решение.
2. Вопросы в целом формулировались так, чтобы ИИ не мог просто зазубрить ответы на них, поэтому в бенче часто встречаются задачки с подвохом или размытыми формулировками. А такие часто очень сложно верифицируемы. В общем, мудрили-мудрили и где-то перемудрили.
Хотелось бы сказать, что бенч просто требует небольшой доработки, но 30% – это прямо много. Тут уже нужно основательно переосмыслять процедуру.
Сам отчет -> www.futurehouse.org/research-announcements/hle-exam
1 140🤯49😁24❤20👍9🤨6☃3 3🔥1
Свежее красивейшее исследование от Anthropic: Persona Vectors в LLM
Помните, как GPT-4o после безобидного дотюнивания вдруг стал страшным подхалимом? Или как Grok начал объявлять себя Гитлером? Естественно, их не учили так себя вести напрямую, но по какой-то причине такая "личность" в них все равно проснулась.
Anthropic в своей новой работе обнаружили, что это далеко не случайность. Оказывается, в нейросетях есть так называемые persona vectors – векторы в пространстве активаций, отвечающие заданным чертам характера.
Более того, исследователи научились такие векторы находить просто по текстовому описанию черты. Пайплайн довольно простой:
Ну а после получения таких персо-векторов делать с ними вообще-то можно очень много всего. Например:
В общем, в этот раз у Anthropic получилась исключительно интересная и многообещая работа, давненько такого не было. Будем следить, и, конечно, советуем почитать полностью👇
Блогпост | Статья
Помните, как GPT-4o после безобидного дотюнивания вдруг стал страшным подхалимом? Или как Grok начал объявлять себя Гитлером? Естественно, их не учили так себя вести напрямую, но по какой-то причине такая "личность" в них все равно проснулась.
Anthropic в своей новой работе обнаружили, что это далеко не случайность. Оказывается, в нейросетях есть так называемые persona vectors – векторы в пространстве активаций, отвечающие заданным чертам характера.
Более того, исследователи научились такие векторы находить просто по текстовому описанию черты. Пайплайн довольно простой:
1. Берем определенную характеристику (скажем, жестокость) и генерируем два системных промпта. Один «за» черту, другой — против (то есть "будь жестоким" и "не будь", только более развернуто).
2. Скармливаем разным экземплярам модели разные системные промпты и начинаем задавать специальные вопросы, провоцирующие проявление нужной характеристики.
3. Для каждого вопроса трекаем активации на каждом слое сети, усредняем по токенам. Разность таких средних активаций первого экземпляра модели со вторым даёт нужный нам вектор для каждого слоя. Также можно затрекать самый яркий слой, на котором вектор персоны дает максимальное влияние на результат.
Ну а после получения таких персо-векторов делать с ними вообще-то можно очень много всего. Например:
– Определять, какие данные активируют тот или иной persona vector. Например, если научить модель на числах 666 или 1488, она в целом станет безжалостной. И таких неочевидных корреляций, как оказалось, куча, а без таких аналитических инструментов обнаруживать их почти нереально.
– Управлять характером LLM на инференсе. Чтобы вызвать или подавить какую-то черту при генерации, нужно просто к активации h_ℓ на слое ℓ добавить α⋅v_ℓ, где v_ℓ – это persona vector. Например, если мы рассматриваем черту "злость", то при положительных α модель генерирует более агрессивные тексты, а при отрицательных – становится зайкой (доказано на Qwen2.5-7B и Llama-3.1-8B).
– Управлять самим обучением. Тут немного конринтуитивно, но это работает как вакцина. Чтобы избавиться от нежелательных черт модели, нам нужно, наоборот, проактивно инъецировать их в нее на каждом шаге обучения.
Конкретнее: на каждом шаге прямого прохода при обучении мы добавляем к активациям все то же α⋅v_ℓ, и получается, что градиенты по задаче next-token prediction накапливаются уже с учётом этого смещения; благодаря этому модель не должна самостоятельно перестраивать себя вдоль данного вектора персоны v_ℓ. Такой подход называется Preventative Steering, и это работает (и при этом надежнее, чем просто единоразовое подавление на инференсе).
В общем, в этот раз у Anthropic получилась исключительно интересная и многообещая работа, давненько такого не было. Будем следить, и, конечно, советуем почитать полностью
Блогпост | Статья
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
5❤261👍83🔥52 16 16🤔8❤🔥5 4😁3👏2
Знакомьтесь, это Эндрю Таллок – исследователь, который отказался от оффера Цукерберга на сумму 1.5 миллиарда долларов. Сейчас его обсуждает весь интернет
Когда-то этот исследователь, кстати, уже работал в Meta (тогда еще Facebook) и дослужился до «Distinguished Engineer» – самой высокой ступени в тех.иерархии компании. Он приложил руку к PyTorch, строил рексисы и работал над оптимизацией инференса.
Потом он недолго работал в OpenAI (его кстати еще в 2016 пытались туда схантить за огромную сумму, но Meta в тот раз оффер перебили), а затем ушел в стартап Миры Мурати как главный рисерсер и со-основатель. Там он по сей день и работает.
И, в общем, да, от 1.5 миллиардов он отказался. Возможно, как пишут в соцсетях, потому что миссия > деньги.
А возможно (ну просто как вариант) потому что в стартапе Миры он тоже получает немало + владеет неплохим процентом акций, которые уже сейчас оцениваются или в скором времени будут оцениваться в бОльшую сумму.
Так что удивляться тут нечему, завидуем молча🤷♂️
Когда-то этот исследователь, кстати, уже работал в Meta (тогда еще Facebook) и дослужился до «Distinguished Engineer» – самой высокой ступени в тех.иерархии компании. Он приложил руку к PyTorch, строил рексисы и работал над оптимизацией инференса.
Потом он недолго работал в OpenAI (его кстати еще в 2016 пытались туда схантить за огромную сумму, но Meta в тот раз оффер перебили), а затем ушел в стартап Миры Мурати как главный рисерсер и со-основатель. Там он по сей день и работает.
И, в общем, да, от 1.5 миллиардов он отказался. Возможно, как пишут в соцсетях, потому что миссия > деньги.
А возможно (ну просто как вариант) потому что в стартапе Миры он тоже получает немало + владеет неплохим процентом акций, которые уже сейчас оцениваются или в скором времени будут оцениваться в бОльшую сумму.
Так что удивляться тут нечему, завидуем молча
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
3👍264🔥86 33 23 21😁20❤19 16👏4
Китайцы не отстают и тоже выпустили модель, которая выиграла* золото на IMO
Она называется Seed-Prover и по ней, в отличие от моделей от Google и OpenAI, вышла подробная статья. Так что разбираемся 👇
Архитектурно Seed-Prover ну ооочень напоминает недавно вышедший DeepSeek-Prover-V2 (разбор мы делали вот тут). Модель точно также использует Lean (программу для формальной верификации доказательств) и разбивает крупную задачу на доказательство кучи мелких лемм.
Единственное отличие: в DeepSeek Prover система сначала намечает пайплайн и решает, какие леммы нужно доказать (дедукция) ; а здесь в начале без какого-либо плана доказывается много разнообразных фактов, которые модель считает полезными, и только потом из них собирается нечто общее (индукция).
Такой подход может показаться менее системным, но на самом деле он позволяет легко масштабировать test-time. С ростом бюджета ризонинга модель просто генерирует в начале все больше и больше лемм и/или тратит на их доказательство больше времени. Ну а чем больше полезных правильно доказанных фактов – тем вероятнее потом модель соберет из них верный ответ.
По метрикам: SOTA на MiniF2F-test, PutnamBench, Past IMO, CombiBench и MiniCTX-v2. Причем где-то приросты на 3-4х. Довольно мощно, ByteDance – хороши.
* Выиграла с поправкой. Модели от Google и OpenAI соревновались в основном зачете, а ByteDance пригласили в дополнительный (потому что а основном не допускается использование таких систем, как Lean). Плюс, за отведенное время Seed-Prover решил всего 4 задачи из 6, а пятую доделывал уже вне зачета. Но все равно – результат!
Статья | GitHub
Она называется Seed-Prover и по ней, в отличие от моделей от Google и OpenAI, вышла подробная статья. Так что разбираемся 👇
Архитектурно Seed-Prover ну ооочень напоминает недавно вышедший DeepSeek-Prover-V2 (разбор мы делали вот тут). Модель точно также использует Lean (программу для формальной верификации доказательств) и разбивает крупную задачу на доказательство кучи мелких лемм.
Единственное отличие: в DeepSeek Prover система сначала намечает пайплайн и решает, какие леммы нужно доказать (дедукция) ; а здесь в начале без какого-либо плана доказывается много разнообразных фактов, которые модель считает полезными, и только потом из них собирается нечто общее (индукция).
Такой подход может показаться менее системным, но на самом деле он позволяет легко масштабировать test-time. С ростом бюджета ризонинга модель просто генерирует в начале все больше и больше лемм и/или тратит на их доказательство больше времени. Ну а чем больше полезных правильно доказанных фактов – тем вероятнее потом модель соберет из них верный ответ.
По метрикам: SOTA на MiniF2F-test, PutnamBench, Past IMO, CombiBench и MiniCTX-v2. Причем где-то приросты на 3-4х. Довольно мощно, ByteDance – хороши.
* Выиграла с поправкой. Модели от Google и OpenAI соревновались в основном зачете, а ByteDance пригласили в дополнительный (потому что а основном не допускается использование таких систем, как Lean). Плюс, за отведенное время Seed-Prover решил всего 4 задачи из 6, а пятую доделывал уже вне зачета. Но все равно – результат!
Статья | GitHub
1❤72👍47🔥18👏2😁2🤯1
Сэм Альтман продолжает раздувать хайп вокруг GPT-5
Сегодня он внезапно опубликовал в Твиттере скрин с интерфейсом ChatGPT, на котором видно, что в качестве модели выбрана «5».
Когда-нибудь мы дождемся. Главное верить😐
Сегодня он внезапно опубликовал в Твиттере скрин с интерфейсом ChatGPT, на котором видно, что в качестве модели выбрана «5».
Когда-нибудь мы дождемся. Главное верить
Please open Telegram to view this post
VIEW IN TELEGRAM
2😁120❤22🔥14 9👍7🗿4 3🤯2🤔1🦄1
От неоднозначных задач до трёхмерных сцен: российские исследователи выкатили два мощных результата от одной команды
Лаборатория когнитивных систем искусственного интеллекта AIRI представила сразу две статьи, которые могут заметно прокачать интеллект роботов — как в виртуальных, так и в реальных средах.
⚪️ AmbiK — самый большой в своем классе набор данных для проверки робототехнических систем на умение легко понимать просьбы людей. Датасет разработали исследователи AIRI и МФТИ при поддержке Центра робототехники Сбера. Существующие решения либо рискуют выполнить задачу неправильно, либо надоедают пользователю бесконечными уточняющими вопросами по самым очевидным вещам, разрушая саму идею удобного взаимодействия. А значит их нужно научить пользоваться здравым смыслом и контекстом. AmbiK как раз помогает оценить качество такого обучения.
⚪️ 3DGraphLLM — метод, разработанный исследователями AIRI и МФТИ, помогает языковым моделям понимать топологию и смысл трёхмерных сцен. Созданный подход к кодированию графа 3D-сцены используется в связке с популярными моделями Vicuna и LLAMA3, но его можно легко адаптировать и для других LLM.
Обе публикации — из одной лаборатории, и обе — представлены на топовых конференциях этого года (ACL и ICCV). Следим дальше🔍
Лаборатория когнитивных систем искусственного интеллекта AIRI представила сразу две статьи, которые могут заметно прокачать интеллект роботов — как в виртуальных, так и в реальных средах.
В него входит две тысячи задач с разметкой по типу неоднозначности для действий на кухне (у ближайших конкурентов — 600). Авторы бенча сразу же проверили существующие алгоритмы — они пока недостаточно эффективно справляются с распознаванием ситуаций, требующих уточнения: даже лучшие модели демонстрируют успешный результат лишь в 20% случаев.
Модель уже тестировалась на данных, собранных в Центре робототехники Сбера. По качеству распознавания объектов она вырвалась вперёд среди 12 SOTA-решений, и обрабатывает запросы в 2-4 раза быстрее, чем GPT4Scene.
Обе публикации — из одной лаборатории, и обе — представлены на топовых конференциях этого года (ACL и ICCV). Следим дальше
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
3❤115🔥68👍40🗿10⚡7🏆4😁3🕊2 2👏1😎1
Google релизнули MLE-STAR: ML-инженера из коробки
Давайте-ка вспомним, что мы делаем, когда нам нужно решить какую-нибудь ML задачу на Kaggle. Мы заходим в старые подходящие ноутбуки, просматриваем код, пытаемся его запустить, а потом дебажим и улучшаем модель, тыкаясь в разные части кода и пытаясь подобрать гиперпараметры, фичи и прочее.
Здесь реализован тот же метод проб и ошибок. Все начинается с того, что агент ищет в Интернете код и инструменты, которые подходят под задачу. Из найденного он сшивает первый драфт, который затем начинает итеративно улучшать:
Дополнительно агент испытывает разные варианты ансамблей (пытается соединить в одну модель несколько наиболее хорошо работающих экспериментов).
Результат: агент завоевал 63% медалей на MLE‑Bench‑Lite (это официальный бенч от Kaggle). Из них 36% медалей – золото. Для сравнения, уровень бейзлайна – 25%.
Код, кстати, открыт. Если у вас ресурсов на задачу куры не клюют – забирайте.
Ах, да, забыли добавить:ML-щики – ВСЁ.
Давайте-ка вспомним, что мы делаем, когда нам нужно решить какую-нибудь ML задачу на Kaggle. Мы заходим в старые подходящие ноутбуки, просматриваем код, пытаемся его запустить, а потом дебажим и улучшаем модель, тыкаясь в разные части кода и пытаясь подобрать гиперпараметры, фичи и прочее.
Здесь реализован тот же метод проб и ошибок. Все начинается с того, что агент ищет в Интернете код и инструменты, которые подходят под задачу. Из найденного он сшивает первый драфт, который затем начинает итеративно улучшать:
1. Запускаем, получаем метрики.
2. Дальше начинаем менять разные части кода и следим за динамикой метрик
3. Дорабатываем несколько кусочков, которые влияют на результат больше всего и начинаем с начала.
Дополнительно агент испытывает разные варианты ансамблей (пытается соединить в одну модель несколько наиболее хорошо работающих экспериментов).
Результат: агент завоевал 63% медалей на MLE‑Bench‑Lite (это официальный бенч от Kaggle). Из них 36% медалей – золото. Для сравнения, уровень бейзлайна – 25%.
Код, кстати, открыт. Если у вас ресурсов на задачу куры не клюют – забирайте.
Ах, да, забыли добавить:
5 170😁84🔥29❤16👍10 5🤯3👌2⚡1