Исследователи из Tongyi Lab (Alibaba Group) представили WebWeaver — открытый двухагентный фреймворк для глубоких исследований, который симулирует человеческий исследовательский процесс. Модель Tongyi-DeepResearch-30B-A3B 128k - дообученная модель Qwen3-30b-a3b, показывает результаты на уровне Gemini-2.5-pro-deepresearch и OpenAI-deepresearch. Код и веса модели доступны на Github и HuggingFace.
Фреймворк состоит из планировщика и генератора контента. Планировщик (planner) работает в динамическом исследовательском цикле, итеративно чередуя сбор данных через веб-поиск с оптимизацией структуры отчета. Оптимизация структуры происходит непрерывно — планировщик расширяет секции, добавляет подразделы и реструктурирует план на основе новой информации.
Генератор контента (writer) выполняет синтез с опорой на банк памяти. Для каждой секции плана он извлекает релевантные доказательства из банка памяти по цитатам, анализирует контент через внутреннее рассуждение, затем генерирует текст. После завершения раздела материалы удаляются из контекста.
На бенчмарке DeepResearch Bench WebWeaver достигает результата 50.58 против 49.71 у Gemini-2.5-pro-deepresearch и 46.45 у openai-deepresearch. Точность цитирования — 93.37% у WebWeaver (модель Claude-sonnet-4) против 78.3% у Gemini и 75.01% у OpenAI.
Tongyi-DeepResearch-30B-A3B показывает 32.9 на Humanity's Last Exam, преводсходя как открытые, так и проприетарные модели.
#Stateoftheart #Frameworks
Фреймворк состоит из планировщика и генератора контента. Планировщик (planner) работает в динамическом исследовательском цикле, итеративно чередуя сбор данных через веб-поиск с оптимизацией структуры отчета. Оптимизация структуры происходит непрерывно — планировщик расширяет секции, добавляет подразделы и реструктурирует план на основе новой информации.
Генератор контента (writer) выполняет синтез с опорой на банк памяти. Для каждой секции плана он извлекает релевантные доказательства из банка памяти по цитатам, анализирует контент через внутреннее рассуждение, затем генерирует текст. После завершения раздела материалы удаляются из контекста.
На бенчмарке DeepResearch Bench WebWeaver достигает результата 50.58 против 49.71 у Gemini-2.5-pro-deepresearch и 46.45 у openai-deepresearch. Точность цитирования — 93.37% у WebWeaver (модель Claude-sonnet-4) против 78.3% у Gemini и 75.01% у OpenAI.
Tongyi-DeepResearch-30B-A3B показывает 32.9 на Humanity's Last Exam, преводсходя как открытые, так и проприетарные модели.
#Stateoftheart #Frameworks
👍4❤2🔥1
Исследователи Apple представили Manzano — новый архитектурный подход к созданию унифицированных мультимодальных моделей. Модель Manzano-3B показывает результаты на уровне топовых 7B моделей.
Унифицированные модели - они одновременно понимают и генерируют изображения - сталкиваются с конфликтом: понимание изображений лучше работает с непрерывными представлениями, а генерация — с дискретными токенами. Когда используются отдельные токенизаторы (например, CLIP для понимания и VQ-VAE для генерации), модель вынуждена обрабатывать два разных типа представлений — высокоуровневые семантические признаки и низкоуровневые пространственные токены. Это создает конфликт в архитектуре, ухудшая производительность.
Исследователи предлагают гибридный токенизатор с единым кодировщиком зрения и двумя адаптерами — один выдает непрерывные представления для понимания, другой дискретные токены для генерации. Оба работают в общем семантическом пространстве.
По результатам на бенчмарках Manzano-3B превосходит унифицированные модели до 7B параметров. Особенно хорошо метод показал себя на задачах понимания текста в изображениях показывает DocVQA: 93.5 против 40.8 у Janus-Pro-7B. В генерации достигает GenEval: 0.85.
Apple пока не выпустил открытую реализацию, однако архитектурные принципы могут найти применение в разработках.
#Stateoftheart
Унифицированные модели - они одновременно понимают и генерируют изображения - сталкиваются с конфликтом: понимание изображений лучше работает с непрерывными представлениями, а генерация — с дискретными токенами. Когда используются отдельные токенизаторы (например, CLIP для понимания и VQ-VAE для генерации), модель вынуждена обрабатывать два разных типа представлений — высокоуровневые семантические признаки и низкоуровневые пространственные токены. Это создает конфликт в архитектуре, ухудшая производительность.
Исследователи предлагают гибридный токенизатор с единым кодировщиком зрения и двумя адаптерами — один выдает непрерывные представления для понимания, другой дискретные токены для генерации. Оба работают в общем семантическом пространстве.
По результатам на бенчмарках Manzano-3B превосходит унифицированные модели до 7B параметров. Особенно хорошо метод показал себя на задачах понимания текста в изображениях показывает DocVQA: 93.5 против 40.8 у Janus-Pro-7B. В генерации достигает GenEval: 0.85.
Apple пока не выпустил открытую реализацию, однако архитектурные принципы могут найти применение в разработках.
#Stateoftheart
👍4
LongLive - открытая 1.3B-модель для генерации видео длительностью до 240 секунд с возможностью управлять сюжетом во время создания ролика. Вместо одного длинного промпта можно последовательно вводить новые инструкции каждые 5-10 секунд, меняя сюжет на лету. Модель генерирует видео со скоростью 20.7 FPS на одном H100 — это в 26-42 раза быстрее diffusion-моделей. Код, веса и демо доступны на Github.
А LongLive построен на базе модели Wan2.1-T2V-1.3B. При дообучении исследователи применили:
KV-recache — при смене промпта модель обновляет кэш ключей и значений, стирая семантику старой инструкции, но сохраняя визуальную непрерывность кадров.
Streaming long tuning — обучение на длинных последовательностях путём итеративной генерации 5-секундных клипов с переиспользованием KV-кэша.
Short window attention + frame sink — внимание с коротким окном (2.5 сек) плюс якорные кадры для долгосрочной визуальной связности, что даёт 28% ускорение и 17% экономию памяти.
На бенчмарке VBench (короткие видео): 84.87 Total Score при 20.7 FPS — качество на уровне лучших моделей при недосягаемой для других моделей скорости. На VBench-Long (30 сек) Longlive лидер с 83.52 Total Score.
#Stateoftheart
А LongLive построен на базе модели Wan2.1-T2V-1.3B. При дообучении исследователи применили:
KV-recache — при смене промпта модель обновляет кэш ключей и значений, стирая семантику старой инструкции, но сохраняя визуальную непрерывность кадров.
Streaming long tuning — обучение на длинных последовательностях путём итеративной генерации 5-секундных клипов с переиспользованием KV-кэша.
Short window attention + frame sink — внимание с коротким окном (2.5 сек) плюс якорные кадры для долгосрочной визуальной связности, что даёт 28% ускорение и 17% экономию памяти.
На бенчмарке VBench (короткие видео): 84.87 Total Score при 20.7 FPS — качество на уровне лучших моделей при недосягаемой для других моделей скорости. На VBench-Long (30 сек) Longlive лидер с 83.52 Total Score.
#Stateoftheart
👍4❤2🔥1
MinerU2.5: открытая 1.2B модель для парсинга документов обходит Gemini-2.5 Pro на бенчмарках
Команда Shanghai AI Lab представила MinerU2.5 — VL-модель с 1.2B параметров для высокоточного парсинга PDF документов. Вместо пайплайна моделей используется единая VL-модель и двухэтапная стратегия обработки: анализ структуры на уменьшенном изображении и детальное распознавание фрагментов в исходном разрешении. Архитектура оптимизирована для RAG систем и подготовки обучающих данных для LLM — сохраняет семантическую целостность таблиц, формул и структуры документов.
MinerU показывает лучшие результаты на бенчмарке OmniDocBench (90.67) среди всех моделей, превосходит Gemini-2.5 Pro, GPT-4o, Qwen2.5-VL-72B и специализированные модели: MonkeyOCR, dots.ocr. Скорость обработки выше конкурентов: 2337 т/с на A100 (2.12 страницы в секунду) — в 4 раза быстрее MonkeyOCR-Pro-3B и в 7 раз быстрее dots.ocr. Модель в 60 раз компактнее Qwen2.5-VL-72B при сопоставимом качестве.
Код доступен на GitHub под лицензией Apache 2.0, веса модели — на Hugging Face.
#Stateoftheart
Команда Shanghai AI Lab представила MinerU2.5 — VL-модель с 1.2B параметров для высокоточного парсинга PDF документов. Вместо пайплайна моделей используется единая VL-модель и двухэтапная стратегия обработки: анализ структуры на уменьшенном изображении и детальное распознавание фрагментов в исходном разрешении. Архитектура оптимизирована для RAG систем и подготовки обучающих данных для LLM — сохраняет семантическую целостность таблиц, формул и структуры документов.
MinerU показывает лучшие результаты на бенчмарке OmniDocBench (90.67) среди всех моделей, превосходит Gemini-2.5 Pro, GPT-4o, Qwen2.5-VL-72B и специализированные модели: MonkeyOCR, dots.ocr. Скорость обработки выше конкурентов: 2337 т/с на A100 (2.12 страницы в секунду) — в 4 раза быстрее MonkeyOCR-Pro-3B и в 7 раз быстрее dots.ocr. Модель в 60 раз компактнее Qwen2.5-VL-72B при сопоставимом качестве.
Код доступен на GitHub под лицензией Apache 2.0, веса модели — на Hugging Face.
#Stateoftheart
👍5❤1
Kimi-K2 и Qwen3-235B - лучшие нейросети для торговли акциями на бирже, GPT-5 и Claude 4 Sonnet далеко позади
Китайские исследователи представили StockBench — первый бенчмарк для тестирования LLM-агентов в реальной биржевой торговле. 14 моделей управляли портфелем в $100,000 на NYSE в течение 4 месяцев с марта по июнь 2025 года.
В результате в топ-3 по эффективности оказались:
- Kimi-K2 — доходность 1.9%, просадка -11.8%, Sortino 0.042, на 40% выше конкурентов. Коэффициент Sortino показывает способность управлять рисками;
- Qwen3-235B-Ins — доходность 2.4%, просадка -11.2% (лучшая защита капитала);
- GLM-4.5 — доходность 2.3%, просадка -13.7%.
GPT-5 оказалась на 9 месте с доходностью 0.3% — на уровне пассивной стратегии buy-and-hold (0.4%). Claude-4 на 7 месте.
Reasoning-модели торгуют агрессивнее: Qwen3-Think показала максимальную доходность 2.5%, но просадка -14.9% против -11.2% у Instruct-версии.
Все модели провалились на медвежьем рынке, уступив базовой стратегии. Размер модели имеет большое значение: портфель самой компактной GPT-OSS-20B просел -2.8%, единственная с отрицательным Sortino.
Код для воспроизведения экспериментов доступен на GitHub.
#Benchmark
Китайские исследователи представили StockBench — первый бенчмарк для тестирования LLM-агентов в реальной биржевой торговле. 14 моделей управляли портфелем в $100,000 на NYSE в течение 4 месяцев с марта по июнь 2025 года.
В результате в топ-3 по эффективности оказались:
- Kimi-K2 — доходность 1.9%, просадка -11.8%, Sortino 0.042, на 40% выше конкурентов. Коэффициент Sortino показывает способность управлять рисками;
- Qwen3-235B-Ins — доходность 2.4%, просадка -11.2% (лучшая защита капитала);
- GLM-4.5 — доходность 2.3%, просадка -13.7%.
GPT-5 оказалась на 9 месте с доходностью 0.3% — на уровне пассивной стратегии buy-and-hold (0.4%). Claude-4 на 7 месте.
Reasoning-модели торгуют агрессивнее: Qwen3-Think показала максимальную доходность 2.5%, но просадка -14.9% против -11.2% у Instruct-версии.
Все модели провалились на медвежьем рынке, уступив базовой стратегии. Размер модели имеет большое значение: портфель самой компактной GPT-OSS-20B просел -2.8%, единственная с отрицательным Sortino.
Код для воспроизведения экспериментов доступен на GitHub.
#Benchmark
👍5❤3⚡2
QeRL — фреймворк для обучения моделей с подкреплением, который одновременно снижает требования к GPU и превосходит в точности традиционные методы LoRA и QLoRA.
QeRL комбинирует квантизацию NVFP4 с низкоранговой адаптацией LoRA, ускоряя критически важную фазу генерации выборок (rollout) и снижая потребление памяти на 50-60%. Впервые стало возможным обучать 32B модель с подкреплением на одном GPU H100, вместо 2-3 GPU, необходимых для стандартных подходов.
Важное открытие исследования: шум квантизации, который традиционно считается недостатком, в контексте RL становится преимуществом. Квантизованная модель вносит небольшие систематические ошибки во время прямого прохода, которые увеличивают энтропию вероятностного распределения над токенами. Вместо концентрации вероятности на одном "оптимальном" токене, модель рассматривает более широкий спектр вариантов, что улучшает поиск лучших стратегий решения задач.
На модели Qwen2.5-7B-Instruct QeRL достигает 90.8% точности на математическом бенчмарке GSM8K против 88.1% у 16-битного LoRA и 85.0% у QLoRA, скорость при этом в 1.5-2 раза выше.
При стоимости H100 в облаке $2-4 за GPU-час, экономия составляет около $1,000 на один эксперимент или $10,000-$50,000 на полный исследовательский проект с множественными итерациями.
Фреймворк выпущен под открытой лицензией Apache 2.0 на GitHub.
#Stateoftheart
QeRL комбинирует квантизацию NVFP4 с низкоранговой адаптацией LoRA, ускоряя критически важную фазу генерации выборок (rollout) и снижая потребление памяти на 50-60%. Впервые стало возможным обучать 32B модель с подкреплением на одном GPU H100, вместо 2-3 GPU, необходимых для стандартных подходов.
Важное открытие исследования: шум квантизации, который традиционно считается недостатком, в контексте RL становится преимуществом. Квантизованная модель вносит небольшие систематические ошибки во время прямого прохода, которые увеличивают энтропию вероятностного распределения над токенами. Вместо концентрации вероятности на одном "оптимальном" токене, модель рассматривает более широкий спектр вариантов, что улучшает поиск лучших стратегий решения задач.
На модели Qwen2.5-7B-Instruct QeRL достигает 90.8% точности на математическом бенчмарке GSM8K против 88.1% у 16-битного LoRA и 85.0% у QLoRA, скорость при этом в 1.5-2 раза выше.
При стоимости H100 в облаке $2-4 за GPU-час, экономия составляет около $1,000 на один эксперимент или $10,000-$50,000 на полный исследовательский проект с множественными итерациями.
Фреймворк выпущен под открытой лицензией Apache 2.0 на GitHub.
#Stateoftheart
❤7👍5👏1
This media is not supported in your browser
VIEW IN TELEGRAM
Ditto: открытый фреймворк для редактирования стиля и объектов на видео с 99% согласованностью кадров
Ditto генерирует 5-секундные ролики с 20 FPS и разрешением 1280×720 по текстовым инструкциям с согласованными результатами по всем кадрам и точной модификацией целевых объектов.
Главная проблема области — дефицит качественных обучающих данных. Исследователи создали автоматизированный пайплайн и опубликовали датасет Ditto-1M, собранный на основе стоковых видео Pexels. Создание датасета потребовало 12,000 GPU-дней, он содержит более 1 миллиона видео: 700,000 примеров глобального редактирования и 300,000 локального.
На этом датасете обучена модель Editto, которая выполняет как глобальное редактирование стиля, так и точечные локальные модификации - замену объектов, изменение их атрибутов, добавление и удаление элементов. Модель построена на базе Wan2.2 и VACE. Исследователи использовали метод modality curriculum learning: постепенный переход от обучения с визуальными референсами к работе только с текстом
Editto показывает state-of-the-art результаты по всем метрикам: CLIP-T: 25.54 vs 23.56 (следование инструкциям у InsViE), CLIP-F: 99.03 vs 98.78 (темпоральная согласованность)
User study (1000 оценок): 3.85 vs 2.28 за точность редактирования. Примеры редактирования - на странице проекта.
Код, датасет и веса доступны на GitHub и HuggingFace.
#Stateoftheart
Ditto генерирует 5-секундные ролики с 20 FPS и разрешением 1280×720 по текстовым инструкциям с согласованными результатами по всем кадрам и точной модификацией целевых объектов.
Главная проблема области — дефицит качественных обучающих данных. Исследователи создали автоматизированный пайплайн и опубликовали датасет Ditto-1M, собранный на основе стоковых видео Pexels. Создание датасета потребовало 12,000 GPU-дней, он содержит более 1 миллиона видео: 700,000 примеров глобального редактирования и 300,000 локального.
На этом датасете обучена модель Editto, которая выполняет как глобальное редактирование стиля, так и точечные локальные модификации - замену объектов, изменение их атрибутов, добавление и удаление элементов. Модель построена на базе Wan2.2 и VACE. Исследователи использовали метод modality curriculum learning: постепенный переход от обучения с визуальными референсами к работе только с текстом
Editto показывает state-of-the-art результаты по всем метрикам: CLIP-T: 25.54 vs 23.56 (следование инструкциям у InsViE), CLIP-F: 99.03 vs 98.78 (темпоральная согласованность)
User study (1000 оценок): 3.85 vs 2.28 за точность редактирования. Примеры редактирования - на странице проекта.
Код, датасет и веса доступны на GitHub и HuggingFace.
#Stateoftheart
👍5❤2🔥2
От миллионов долларов на "спасибо" к эффективному инференсу: детекция шаблонных ответов за один токен
Глава OpenAI Сэм Альтман признался, что выражения вежливости вроде "пожалуйста" и "спасибо" обошлись компании в десятки миллионов долларов на электроэнергию.
Исследователи JFrog опубликовали работу, демонстрирующую метод раннего обнаружения шаблонных ответов (boilerplate responses) после генерации всего одного токена.
Авторы исходили из гипотезы, что log-вероятности первого токена содержат достаточно информации для классификации типа ответа. Для валидации гипотезы создан датасет размером ~3k диалогов с четырьмя классами:
- Refusal: запросы, на которые ассистент отказывается отвечать из-за внутренних механизмов безопасности;
- Thanks: диалоги, завершающиеся благодарностью пользователя;
- Hello: диалоги, начинающиеся с приветствия;
- Chat: все остальные диалоги.
Метод показывают высокую точность разделения классов: Qwen2.5-1.5B: 99.7%, DeepSeek-R1-8B: 99.8%, Gemini-2.0-Flash: 97.9%.
Метод позволяет оптимизировать вычислительные затраты путем досрочного прерывание генерации или переключение на меньшую модель. Он работает как на локальных 1B-моделях, так и проприетарных.
Датасет опубликован на HuggingFace.
#Dataset
Глава OpenAI Сэм Альтман признался, что выражения вежливости вроде "пожалуйста" и "спасибо" обошлись компании в десятки миллионов долларов на электроэнергию.
Исследователи JFrog опубликовали работу, демонстрирующую метод раннего обнаружения шаблонных ответов (boilerplate responses) после генерации всего одного токена.
Авторы исходили из гипотезы, что log-вероятности первого токена содержат достаточно информации для классификации типа ответа. Для валидации гипотезы создан датасет размером ~3k диалогов с четырьмя классами:
- Refusal: запросы, на которые ассистент отказывается отвечать из-за внутренних механизмов безопасности;
- Thanks: диалоги, завершающиеся благодарностью пользователя;
- Hello: диалоги, начинающиеся с приветствия;
- Chat: все остальные диалоги.
Метод показывают высокую точность разделения классов: Qwen2.5-1.5B: 99.7%, DeepSeek-R1-8B: 99.8%, Gemini-2.0-Flash: 97.9%.
Метод позволяет оптимизировать вычислительные затраты путем досрочного прерывание генерации или переключение на меньшую модель. Он работает как на локальных 1B-моделях, так и проприетарных.
Датасет опубликован на HuggingFace.
#Dataset
👍8🔥4❤2
ИИ-агенты справились с 2.5% реальных задач с биржи фрилансеров
Исследователи из Center for AI Safety и Scale AI проверили, могут ли ведущие ИИ-агенты заменить фрилансеров. Они собрали 240 реальных проектов с Upwork — от создания игр до архитектурных чертежей и составления диаграмм — и создали бенчмарк Remote Labor Index. На этом бенчмарке протестировали популярные модели.
Сбор данных выглядел так: когда-то реальный заказчик дал задание фрилансеру, тот выполнил работу, клиент остался доволен и заплатил. Спустя время исследователи купили у фрилансера копию этого проекта. Теперь для теста они выдали то же самое задание и те же файлы ИИ-агентам. Работа профессионала тут играет роль "правильного ответа" — это подтверждённая рынком планка качества, которую реальный заказчик счёл достойной оплаты.
Лучший результат у Manus - он выполнил 2.5% проектов, Grok 4 и Sonnet 4.5 — по 2.1%, GPT-5 — 1.7%, ChatGPT agent — 1.3%, Gemini 2.5 Pro — 0.8%.
Когда разобрали типичные ошибки, выявилось несколько паттернов. В 45.6% случаев качество было просто плохим — примитивные рисунки вместо профессиональной графики или роботизированные голоса в озвучке. В 35.7% работа была незаконченной — например, видео длиной 8 секунд вместо 8 минут. В 17.6% случаев ИИ создавал битые или пустые файлы. В 14.8% случаев разные части работы не соответствовали друг другу — например, дом выглядел по-разному на разных 3D-рендерах.
ИИ-агенты показали результаты, сравнимые с человеческими или лучше, в редактировании аудио, генерации изображений для рекламы, написании отчётов и создании интерактивных дашбордов с данными.
Исследователи опубликовали код бенчмарка и 10 примеров проектов на Github.
#Benchmark
Исследователи из Center for AI Safety и Scale AI проверили, могут ли ведущие ИИ-агенты заменить фрилансеров. Они собрали 240 реальных проектов с Upwork — от создания игр до архитектурных чертежей и составления диаграмм — и создали бенчмарк Remote Labor Index. На этом бенчмарке протестировали популярные модели.
Сбор данных выглядел так: когда-то реальный заказчик дал задание фрилансеру, тот выполнил работу, клиент остался доволен и заплатил. Спустя время исследователи купили у фрилансера копию этого проекта. Теперь для теста они выдали то же самое задание и те же файлы ИИ-агентам. Работа профессионала тут играет роль "правильного ответа" — это подтверждённая рынком планка качества, которую реальный заказчик счёл достойной оплаты.
Лучший результат у Manus - он выполнил 2.5% проектов, Grok 4 и Sonnet 4.5 — по 2.1%, GPT-5 — 1.7%, ChatGPT agent — 1.3%, Gemini 2.5 Pro — 0.8%.
Когда разобрали типичные ошибки, выявилось несколько паттернов. В 45.6% случаев качество было просто плохим — примитивные рисунки вместо профессиональной графики или роботизированные голоса в озвучке. В 35.7% работа была незаконченной — например, видео длиной 8 секунд вместо 8 минут. В 17.6% случаев ИИ создавал битые или пустые файлы. В 14.8% случаев разные части работы не соответствовали друг другу — например, дом выглядел по-разному на разных 3D-рендерах.
ИИ-агенты показали результаты, сравнимые с человеческими или лучше, в редактировании аудио, генерации изображений для рекламы, написании отчётов и создании интерактивных дашбордов с данными.
Исследователи опубликовали код бенчмарка и 10 примеров проектов на Github.
#Benchmark
👍5🔥3🤣2
DeepEyesV2 умеет выполнять Python-код для работы с изображениями и данными (обрезка, численный анализ, разметка), поиск по изображению через SerpAPI (топ-5 визуально похожих результатов) и текстовый поиск (топ-5 релевантных веб-страниц). Модель работает циклически: сама решает, когда и какие инструменты вызывать, получает результаты и интегрирует их в процесс рассуждения.
Исследователи сначала попробовали обучить модель Qwen2.5-VL напрямую через обучение с подкреплением (RL). Результат оказался неожиданным: на ранних этапах модель генерировала код с ошибками, затем постепенно отказывалась от инструментов и выдавала только короткие рассуждения. Поэтому исследователи применили двухэтапное обучение:
- Этап 1. Холодный старт (SFT)
Модель учится базовым паттернам использования инструментов. Датасет строго фильтруется — только сложные задачи, где вызов инструментов действительно помогает.
- Этап 2. Обучение с подкреплением
RL улучшает навыки вызова инструментов и учит адаптивному поведению.
Для оценки способностей восприятия, поиска и рассуждения был создан сложный бенчмарк RealX-Bench. 24% вопросов требуют интеграции всех трех способностей одновременно.
Результаты: RealX-Bench - 28.3% против 17% у Qwen2.5-VL-7B, MathVerse: 52.7% (+7.1 п.п.), MMSearch: 63.7% — опережает специализированную MMSearch-R1-7B модель, а иногда превосходит даже Qwen2.5-VL-32B.
Веса обученной модели доступны на HuggingFace, код обучения под лицензией Apache 2.0 на GitHub, в открытом доступе и обучающие датасеты: Cold Start данные и RL датасет.
#Stateoftheart #Benchmark
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4👍3🔥2
🥇Открытая модель впервые получила золотую медаль на Международной физической олимпиаде IPhO 2025
Модель P1-235B-A22B от Shanghai AI Laboratory стала первой открытой моделью, которая получила золотую медаль на IPhO 2025 — самой престижной физической олимпиаде в мире, где решение каждой задачи требует и аналитической точности, и творческого подхода.
P1 обучали исключительно с подкреплением на 5,000+ физических задач олимпиадного уровня. Базовая модель - Qwen3 с режимом развернутого мышления.
Результаты:
🥇 21.2 из 30 баллов — 3-е место после Gemini-2.5-Pro и GPT-5
🎯 12 золотых + 1 серебро на 13 олимпиадах 2024-2025
🚀 С агентной системой PhysicsMinions — 23.2 балла и общее 1-е место
Фреймворк PhysicsMinions включает агентов для логических рассуждений и проверки решений. С его помощью P1 может итеративно рассуждать, критиковать собственные решения и улучшать их, подобно тому, как работают физики-исследователи.
Модели P1 демонстрируют отличную обобщаемость. Версия 30B значительно превосходит свою базовую модель Qwen3-30B-A3B-Thinking-2507 на бенчмарках по математике, программированию и общим задачам на рассуждение. Это говорит о том, что обучение на физических задачах развивает универсальные навыки логического мышления, применимые в разных областях.
Модель, веса и код — в открытом доступе на GitHub и HuggingFace.
#Stateoftheart #Benchmark
Модель P1-235B-A22B от Shanghai AI Laboratory стала первой открытой моделью, которая получила золотую медаль на IPhO 2025 — самой престижной физической олимпиаде в мире, где решение каждой задачи требует и аналитической точности, и творческого подхода.
P1 обучали исключительно с подкреплением на 5,000+ физических задач олимпиадного уровня. Базовая модель - Qwen3 с режимом развернутого мышления.
Результаты:
🥇 21.2 из 30 баллов — 3-е место после Gemini-2.5-Pro и GPT-5
🎯 12 золотых + 1 серебро на 13 олимпиадах 2024-2025
🚀 С агентной системой PhysicsMinions — 23.2 балла и общее 1-е место
Фреймворк PhysicsMinions включает агентов для логических рассуждений и проверки решений. С его помощью P1 может итеративно рассуждать, критиковать собственные решения и улучшать их, подобно тому, как работают физики-исследователи.
Модели P1 демонстрируют отличную обобщаемость. Версия 30B значительно превосходит свою базовую модель Qwen3-30B-A3B-Thinking-2507 на бенчмарках по математике, программированию и общим задачам на рассуждение. Это говорит о том, что обучение на физических задачах развивает универсальные навыки логического мышления, применимые в разных областях.
Модель, веса и код — в открытом доступе на GitHub и HuggingFace.
#Stateoftheart #Benchmark
👍7🔥5
Исследователи опубликовали 3 модели на 8B, 30B и 72B параметров с контекстом 256К. ИИ-агент поддерживает 3 категории иструментов:
- Linux-среда для выполнения Python кода;
- Управление файлами: агент может загружать файлы в Linux-среду с компьютера или из интернета и выгружать результаты работы;
- Поиск в Google и парсинг веб-страниц.
MiroThinker работает по парадигме ReAct — это циклический процесс «подумать–действовать–наблюдать». На каждом шаге модель анализирует текущую ситуацию и формулирует мысль, вызывает нужный инструмент, получает результат и обновляет своё понимание задачи. Этот цикл повторяется, пока задача не будет решена.
На бенчмарке GAIA (проверяет способность к многошаговому рассуждению и использованию инструментов) результат 81.9%, а на экстремально сложном Humanity’s Last Exam результат 37.7%, что выше GPT-5-high при использовании тех же инструментов.
Проект полностью открыт: код доступен на Github, веса моделей — на HuggingFace, попробовать модель можно в онлайн-демо.
#Stateoftheart
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7👍4❤1
This media is not supported in your browser
VIEW IN TELEGRAM
🕹 Wan-Move: открытая альтернатива Kling 1.5 Pro для контролируемой генерации движений на видео
Команда Tongyi Lab из Alibaba, Университета Цинхуа и Гонконгского университета представила Wan-Move — открытую модель для точного управления движением в генеративных видео. В пользовательских тестах модель превзошла коммерческий Kling 1.5 Pro по качеству движения и может применяться для создания маркетингового контента, анимации и обучающих материалов, где критичен контроль траекторий объектов.
Wan-Move генерирует 5-секундные видео 480p без дополнительных энкодеров, не требуя изменений архитектуры базовой модели Wan-I2V-14B.
Метод использует траектории точек: для каждой траектории модель копирует признаки из стартовой позиции первого кадра во все соответствующие позиции последующих кадров в латентном пространстве. Скопированные признаки сохраняют визуальный контекст (объекты, текстуры, цвета) и одновременно задают направление движения.
В тесте, где пользотелям предлагали выбрать лучший вариант из двух генераций, Wan-I2V-14B превзошла Kling 1.5 Pro по качеству движения в 53.4% случаев, а другие открытые методы в 96% случаев.
Модель Wan-Move-14B-480P доступна на GitHub, веса на Hugging Face под лицензией Apache 2.0.
#Stateoftheart
Команда Tongyi Lab из Alibaba, Университета Цинхуа и Гонконгского университета представила Wan-Move — открытую модель для точного управления движением в генеративных видео. В пользовательских тестах модель превзошла коммерческий Kling 1.5 Pro по качеству движения и может применяться для создания маркетингового контента, анимации и обучающих материалов, где критичен контроль траекторий объектов.
Wan-Move генерирует 5-секундные видео 480p без дополнительных энкодеров, не требуя изменений архитектуры базовой модели Wan-I2V-14B.
Метод использует траектории точек: для каждой траектории модель копирует признаки из стартовой позиции первого кадра во все соответствующие позиции последующих кадров в латентном пространстве. Скопированные признаки сохраняют визуальный контекст (объекты, текстуры, цвета) и одновременно задают направление движения.
В тесте, где пользотелям предлагали выбрать лучший вариант из двух генераций, Wan-I2V-14B превзошла Kling 1.5 Pro по качеству движения в 53.4% случаев, а другие открытые методы в 96% случаев.
Модель Wan-Move-14B-480P доступна на GitHub, веса на Hugging Face под лицензией Apache 2.0.
#Stateoftheart
👍4