🚀 AgentCPM-Explore - open-source агент на 4B, который реально тащит GAIA и сложные реальные задачи
OpenBMB выкатили AgentCPM-Explore - модель всего на 4B параметров, но по агентным метрикам она выглядит как зверь.
✅ SOTA среди 4B агент-моделей
По агентным бенчмаркам модель:
- обгоняет всех на своём масштабе
- превосходит часть 8B моделей
- и даже конкурирует с некоторыми 30B+ и closed-source LLM
🧠 Deep Research как у “исследователя”
Модель умеет:
- длинные цепочки рассуждений (long-horizon reasoning)
- 100+ ходов автономного диалога
- проверять себя через несколько источников (cross-validation)
- делать самокоррекцию как человек
- динамически менять стратегию и использовать инструменты
То есть это уже не “чатбот”, а мини-исследователь, который реально может вести задачу до конца.
🔓 Открыт не только модельный вес - открыт весь стек
И это самое жирное: OpenBMB выкладывают не “голую модель”, а весь pipeline агентности:
- AgentRL - асинхронный RL-фреймворк для обучения агентов
- AgentDock - безопасная песочница инструментов (tool sandbox)
- AgentToLeaP - платформа оценки tool-learning (в один клик)
- полный датапайплайн и воспроизводимые training workflows
Это полноценная open-source платформа для создания агентов, где можно реально учиться, экспериментировать и собирать своих автономных “ресёрчеров”.
Кто уже тестил GAIA на своих агентах ?
🤗 Hugging Face: https://huggingface.co/openbmb/AgentCPM-Explore
🔗 GitHub: https://github.com/OpenBMB/AgentCPM
OpenBMB выкатили AgentCPM-Explore - модель всего на 4B параметров, но по агентным метрикам она выглядит как зверь.
✅ SOTA среди 4B агент-моделей
По агентным бенчмаркам модель:
- обгоняет всех на своём масштабе
- превосходит часть 8B моделей
- и даже конкурирует с некоторыми 30B+ и closed-source LLM
🧠 Deep Research как у “исследователя”
Модель умеет:
- длинные цепочки рассуждений (long-horizon reasoning)
- 100+ ходов автономного диалога
- проверять себя через несколько источников (cross-validation)
- делать самокоррекцию как человек
- динамически менять стратегию и использовать инструменты
То есть это уже не “чатбот”, а мини-исследователь, который реально может вести задачу до конца.
🔓 Открыт не только модельный вес - открыт весь стек
И это самое жирное: OpenBMB выкладывают не “голую модель”, а весь pipeline агентности:
- AgentRL - асинхронный RL-фреймворк для обучения агентов
- AgentDock - безопасная песочница инструментов (tool sandbox)
- AgentToLeaP - платформа оценки tool-learning (в один клик)
- полный датапайплайн и воспроизводимые training workflows
Это полноценная open-source платформа для создания агентов, где можно реально учиться, экспериментировать и собирать своих автономных “ресёрчеров”.
Кто уже тестил GAIA на своих агентах ?
🤗 Hugging Face: https://huggingface.co/openbmb/AgentCPM-Explore
🔗 GitHub: https://github.com/OpenBMB/AgentCPM
❤7👍6🔥3
DeepSeek - глобальная доля рынка (по данным, собранным Microsoft) 🌍
Одно из самых неожиданных событий 2025 года - резкий взлёт DeepSeek.
Главная причина успеха:
открытость + доступная цена.
DeepSeek быстро закрепился там, где западные AI-сервисы:
- ограничены санкциями/блокировками
- дорогие
- плохо адаптированы под местные языки и условия
Это отлично показывает важный инсайт:
глобальное внедрение ИИ зависит не только от качества маркетинга, а от доступности, цены и контекста (экономика, язык, политика).
Где рост самый сильный:
- Китай
- Россия
- Иран
- Куба
- Беларусь
- многие страны Африки
Особенно выделяется Африка:
по оценкам, использование DeepSeek там в 2-4 раза выше, чем в других регионах.
ИИ-рынок начинает делиться не на “лучшие модели”,
а на “те, которыми реально можно пользоваться”.
https://www.microsoft.com/en-us/corporate-responsibility/topics/ai-economy-institute/reports/global-ai-adoption-2025/
Одно из самых неожиданных событий 2025 года - резкий взлёт DeepSeek.
Главная причина успеха:
открытость + доступная цена.
DeepSeek быстро закрепился там, где западные AI-сервисы:
- ограничены санкциями/блокировками
- дорогие
- плохо адаптированы под местные языки и условия
Это отлично показывает важный инсайт:
глобальное внедрение ИИ зависит не только от качества маркетинга, а от доступности, цены и контекста (экономика, язык, политика).
Где рост самый сильный:
- Китай
- Россия
- Иран
- Куба
- Беларусь
- многие страны Африки
Особенно выделяется Африка:
по оценкам, использование DeepSeek там в 2-4 раза выше, чем в других регионах.
ИИ-рынок начинает делиться не на “лучшие модели”,
а на “те, которыми реально можно пользоваться”.
https://www.microsoft.com/en-us/corporate-responsibility/topics/ai-economy-institute/reports/global-ai-adoption-2025/
❤13👍5🔥3😁1
🐸 Microsoft зарелизили FrogMini - модель для дебага и исправления багов.
Что важно:
- Базируется на Qwen3-14B
- Показала SOTA на SWE-Bench Verified: Pass@1 = 45.0% 🔥
Как обучали:
- Использовали SFT (supervised fine-tuning)
- Данные - успешные debugging trajectories (пошаговые цепочки исправлений)
- Эти траектории сгенерированы сильной teacher-моделью (например, **Claude**)
- Источники багов - микс реальных и синтетических датасетов
Идея простая, но мощная:
учим модель не просто писать код, а думать как дебаггер - шаг за шагом.
📌 Теперь Qwen3-14B + правильные траектории = реальный tool для SWE задач.
https://huggingface.co/microsoft/FrogMini-14B-2510
Что важно:
- Базируется на Qwen3-14B
- Показала SOTA на SWE-Bench Verified: Pass@1 = 45.0% 🔥
Как обучали:
- Использовали SFT (supervised fine-tuning)
- Данные - успешные debugging trajectories (пошаговые цепочки исправлений)
- Эти траектории сгенерированы сильной teacher-моделью (например, **Claude**)
- Источники багов - микс реальных и синтетических датасетов
Идея простая, но мощная:
учим модель не просто писать код, а думать как дебаггер - шаг за шагом.
📌 Теперь Qwen3-14B + правильные траектории = реальный tool для SWE задач.
https://huggingface.co/microsoft/FrogMini-14B-2510
👍9❤4
Проблема многих LLM-курсов — они заканчиваются там, где начинается реальная работа: на этапе деплоя.
Крупнейшая магистратура по ИИ в России AI Talent Hub и GIGASCHOOL запустили хардовый и практический курс «LLM-инженер». Его фокус — на выводе проектов в прод, а не только на работе в ipynb.
В программе:
- Дообучение: fine-tuning, PEFT, LoRA / QLoRA, RLHF.
- Инструменты: LangChain, LangGraph, векторные базы.
- Архитектуры: RAG-системы, информационный поиск, защита LLM.
- Продвинутые темы: мультиагентные решения и ассистенты.
Курс запускается уже третьим потоком, а преподают практики из крупных AI-команд, включая директора по разработке моделей в Газпромбанке Кристину Желтову, NLP Lead'а из X5 Tech Александра Потехина и CEO HiveTrace Евгения Кокуйкина.
▪️Старт 26 января | 25 недель с каникулами;
▪️Диплом о профессиональной переподготовке;
▪️Повышение стоимости — 20 января
Используй промокод
Подробности и регистрация
Крупнейшая магистратура по ИИ в России AI Talent Hub и GIGASCHOOL запустили хардовый и практический курс «LLM-инженер». Его фокус — на выводе проектов в прод, а не только на работе в ipynb.
В программе:
- Дообучение: fine-tuning, PEFT, LoRA / QLoRA, RLHF.
- Инструменты: LangChain, LangGraph, векторные базы.
- Архитектуры: RAG-системы, информационный поиск, защита LLM.
- Продвинутые темы: мультиагентные решения и ассистенты.
Курс запускается уже третьим потоком, а преподают практики из крупных AI-команд, включая директора по разработке моделей в Газпромбанке Кристину Желтову, NLP Lead'а из X5 Tech Александра Потехина и CEO HiveTrace Евгения Кокуйкина.
▪️Старт 26 января | 25 недель с каникулами;
▪️Диплом о профессиональной переподготовке;
▪️Повышение стоимости — 20 января
Используй промокод
NOW10 и получи скидку 10 000 руб Подробности и регистрация
🤣9❤4😱2👍1😐1
⚡️ Хочешь обучить свой TTS с нуля и добавлять туда фичи “как тебе надо”, а не как у всех?
Команда LEMAS (IDEA) открыла датасет, на котором они обучали LEMAS и это, похоже, крупнейший open-source мультиязычный speech-датасет вообще.
Что внутри:
- 150K+ часов аудио
- 10 языков
- word-level timestamps (разметка до уровня слов)
- качество и масштаб уровня “обычно такое держат под замком”
По сути - они выложили то, что большинство компаний никогда бы не отдали публично.
И да, из этого “сокровища” уже родились 2 мощные модели:
LEMAS-TTS
- Zero-shot мультиязычный синтез речи (озвучка без дообучения на конкретного спикера)
LEMAS-Edit
- редактирование речи как текста: меняешь слова — меняется аудио
Если ты работаешь со Speech AI, TTS, ASR, voice agents — это must-have релиз.
Project: https://lemas-project.github.io/LEMAS-Project/
Dataset & model released: https://huggingface.co/LEMAS-Project
Команда LEMAS (IDEA) открыла датасет, на котором они обучали LEMAS и это, похоже, крупнейший open-source мультиязычный speech-датасет вообще.
Что внутри:
- 150K+ часов аудио
- 10 языков
- word-level timestamps (разметка до уровня слов)
- качество и масштаб уровня “обычно такое держат под замком”
По сути - они выложили то, что большинство компаний никогда бы не отдали публично.
И да, из этого “сокровища” уже родились 2 мощные модели:
LEMAS-TTS
- Zero-shot мультиязычный синтез речи (озвучка без дообучения на конкретного спикера)
LEMAS-Edit
- редактирование речи как текста: меняешь слова — меняется аудио
Если ты работаешь со Speech AI, TTS, ASR, voice agents — это must-have релиз.
Project: https://lemas-project.github.io/LEMAS-Project/
Dataset & model released: https://huggingface.co/LEMAS-Project
❤14🔥8👍5
Forwarded from Machinelearning
Все любят длинный контекст, но для GPU это больно - KV-кэш растет линейно и быстро сжирает VRAM. Например, для Llama-65B на 128k токенов кэш весит 335 ГБ. Существующие методы прунинга либо медленные, либо тупые и режут важное, либо требуют переобучения модели.
NVIDIA предложили метод KVzap, который решает, какие токены можно забыть, глядя только на текущие хидден-стэйты.
Поиск идеала (KVzip+).
Берется медленный, но точный метод KVzip: модели скармливают текст, заставляют его повторить, и смотрят, на какие прошлые токены она реально обращает внимание. Это золотой стандарт важности токена. Но в проде так делать нельзя, это двойная работа.
Аппроксимация (KVzap).
Тут и происходит вся суть: крошечная модель-суррогат смотрит на входящий хидден-стэйт токена и предсказывает, насколько этот токен будет важен в будущем, то есть пытается угадать скор KVzip.
Модели 2-х видов:
KVzap-Linear: простейшая линейная проекция (одна матрица). Она берет хиден-стэйт и тупо проецирует его в скалярный скор важности. Сложность: экстремально низкая (~0.02%).
KVzap-MLP: двухслойный перцептрон. Внутри есть скрытый слой размером 1/8 от размерности модели и нелинейная активация. Сложность: низкая, но выше линейной (~1.1%).
Токен залетает в слой трансформера, модель-суррогат быстро считает его скор важности. Если он ниже порога - токен в кэш не пишется или удаляется. Но при этом всегда оставляется скользящее окно из последних 128 токенов, чтобы не терять локальный контекст, иначе модель сыпется.
Проверяли на Qwen3-8B, Llama-3.1-8B и Qwen3-32B. Спойлер:
Удалось выкинуть до 75% KV-кэша, а это сжатие в 4 раза. На бенчмарках RULER (длинный контекст), LongBench и AIME25 падение метрик или нулевое, или меньше 1%. Оверхед от суррогатной модели мизерный - менее 1% FLOPs.
Это плохо, потому что стандартные ядра Paged Attention любят структуру. Чтобы реально получить ускорение, а не только экономию памяти, нужно писать кастомные CUDA-ядра, которые смогут эффективно жевать блоки переменной длины.
Метод умнее, чем Streaming LLM, и быстрее, чем полные методы разреженного внимания.
Ждем интеграции в vLLM или TRT-LLM, а пока, чтобы скрасить ожидание, NVIDIA собрала на HF интерактивный лидерборд популярных методик компрессии KV-кэша.
Код и веса моделей-суррогатов из тестов пейпера в открытом доступе, так что нет никаких ограничений, чтобы не покрутить KVzap на каком-нибудь тестовом сетапе.
@ai_machinelearning_big_data
#AI #ML #LLM #KVZAP #NVIDIA
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6❤5🔥4
📸 Релиз Qwen-Image-2512!
Дообученная версию Qwen-Image-2512 - для тех, кто хочет максимальный реализм и production-grade качество.
Что улучшили:
✨ Резче детали, больше фотореализма
✨ Оптимизация под азиатскую эстетику лиц
✨ Круче генерация текста + картинки
✨ Отлично дружит с LoRA и кастомными пайплайнами
Рекомендуемые параметры:
✅ CFG: 1.0 - 4.0
✅ Steps: 10 - 50
✅ Sampler: Euler / Simple
✅ Model Shift: 1.0 - 8.0
🤖 Model: https://modelscope.cn/models/wikeeyang/Real-Qwen-Image-V2
Дообученная версию Qwen-Image-2512 - для тех, кто хочет максимальный реализм и production-grade качество.
Что улучшили:
✨ Резче детали, больше фотореализма
✨ Оптимизация под азиатскую эстетику лиц
✨ Круче генерация текста + картинки
✨ Отлично дружит с LoRA и кастомными пайплайнами
Рекомендуемые параметры:
✅ CFG: 1.0 - 4.0
✅ Steps: 10 - 50
✅ Sampler: Euler / Simple
✅ Model Shift: 1.0 - 8.0
🤖 Model: https://modelscope.cn/models/wikeeyang/Real-Qwen-Image-V2
❤7👍4
🧠 Исследователь OpenAI:
«Recursive Self-Improvement уже за углом»
Но если честно - это звучит скорее как спекуляция.
Да, “за углом” может означать скорее на человеческом горизонте:
условно годы, а не десятилетия.
Но точно не “вот прямо сейчас”.
Настоящий RSI (recursive self-improvement) потребует другого уровня систем:
Чтобы ИИ реально улучшал сам себя, нужны:
- полностью автономные ML-исследователи
- автономные инженеры, которые пишут, тестируют и разворачивают код
- устойчивый цикл улучшения моделей без человека
- качество и проверяемость результатов на каждом шаге
А мы пока явно не там.
Сегодняшние модели:
✅ помогают исследователям
✅ ускоряют эксперименты
✅ пишут код
❌ но не способны полностью заменить исследовательскую команду и довести улучшение до продакшена автономно
Так что RSI действительно может быть близко…
но “за углом” - это ещё не значит “завтра”.
«Recursive Self-Improvement уже за углом»
Но если честно - это звучит скорее как спекуляция.
Да, “за углом” может означать скорее на человеческом горизонте:
условно годы, а не десятилетия.
Но точно не “вот прямо сейчас”.
Настоящий RSI (recursive self-improvement) потребует другого уровня систем:
Чтобы ИИ реально улучшал сам себя, нужны:
- полностью автономные ML-исследователи
- автономные инженеры, которые пишут, тестируют и разворачивают код
- устойчивый цикл улучшения моделей без человека
- качество и проверяемость результатов на каждом шаге
А мы пока явно не там.
Сегодняшние модели:
✅ помогают исследователям
✅ ускоряют эксперименты
✅ пишут код
❌ но не способны полностью заменить исследовательскую команду и довести улучшение до продакшена автономно
Так что RSI действительно может быть близко…
но “за углом” - это ещё не значит “завтра”.
❤9👍3🔥2
Да, это буквально кладбище проектов - но невероятно полезное.
Внутри не просто список, а полноценные разборы:
почему взлетели/упали, сколько денег сожгли, какие решения их убили, где была критическая ошибка - и главное: что из этого можно безопасно забрать себе, а что повторять нельзя ни при каких условиях.
А ещё там встроенный ИИ, который берёт провалившийся проект и делает “версию 2.0”:
придумывает название, концепт, рынок, техстек, план запуска и монетизацию, но уже с учётом прошлых ошибок.
Как минимум - очень залипательно.
Стартаперы, вам точно стоит изучить
Please open Telegram to view this post
VIEW IN TELEGRAM
👍14🔥3❤2
Senior AI Engineer во Fluently (YC W24)
📍Remote
💵 Оплата в USD
🚀Фаундер — Юрий Ребрик, ex Amazon, Google, NVIDIA
Fluently — AI-тьютор, который помогает улучшать разговорный английский язык людям по всему миру, строящим карьеру в зарубежных компаниях. Стартап прошел в YCombinator в 2024 году, за последние 8 месяцев выросли со $100k до $6M ARR.
Размер команды – 20 | Инвестиции – $2.5M
Над чем предстоит работать
- Развивать голосового AI-агента: LiveKit/WebRTC, streaming ASR/TTS, RAG, function-calling, написание промптов и тд.
- Тренировать и деплоить ML модели в прод: ASR/LLM/TTS/voice-related.
- Обеспечивать надёжность и observability в проде: алерты, трейсинг, оптимизация латенси, быстрый фикс проблем.
Must-haves
- Опыт самостоятельной тренировки и деплоя ML моделей.
- Умение много работать и делать быстро.
Nice to have
- Опыт создания ai voice agents.
- Contribution to open source github repos.
- Kaggle, Codeforces, олимпиады, etc.
The deal
- Конкурентная зарплата в USD + опционы.
- Remote-first: работа из любой точки мира через Deel.
- Поездка в США на месяц для совместной работы и командные оффсайты.
Узнать подробнее и откликнуться тут, почитать блог фаундера можно здесь.
📍Remote
💵 Оплата в USD
🚀Фаундер — Юрий Ребрик, ex Amazon, Google, NVIDIA
Fluently — AI-тьютор, который помогает улучшать разговорный английский язык людям по всему миру, строящим карьеру в зарубежных компаниях. Стартап прошел в YCombinator в 2024 году, за последние 8 месяцев выросли со $100k до $6M ARR.
Размер команды – 20 | Инвестиции – $2.5M
Над чем предстоит работать
- Развивать голосового AI-агента: LiveKit/WebRTC, streaming ASR/TTS, RAG, function-calling, написание промптов и тд.
- Тренировать и деплоить ML модели в прод: ASR/LLM/TTS/voice-related.
- Обеспечивать надёжность и observability в проде: алерты, трейсинг, оптимизация латенси, быстрый фикс проблем.
Must-haves
- Опыт самостоятельной тренировки и деплоя ML моделей.
- Умение много работать и делать быстро.
Nice to have
- Опыт создания ai voice agents.
- Contribution to open source github repos.
- Kaggle, Codeforces, олимпиады, etc.
The deal
- Конкурентная зарплата в USD + опционы.
- Remote-first: работа из любой точки мира через Deel.
- Поездка в США на месяц для совместной работы и командные оффсайты.
Узнать подробнее и откликнуться тут, почитать блог фаундера можно здесь.
💊6🔥2
🚀 STEP3-VL-10B - мультимодальная модель, которая бьёт гигантов (и весит всего 10B)
StepFun выпустили STEP3-VL-10B - компактную open multimodal модель, которая по метрикам догоняет и местами обгоняет монстров в 10-20 раз больше.
Что заявляют по качеству
- держит SOTA/near-SOTA по визуальному восприятию + reasoning
- на ряде тестов конкурирует с GLM-4.6V, Qwen3-VL и даже Gemini 2.5 Pro
- сильна в OCR, понимании GUI, пространственном мышлении (важно для embodied AI)
Ключевые цифры
- обучена на 1.2T токенов
- 1400+ RL-раундов (RLHF + RLVR)
- поддержка PaCoRe (parallel collaborative reasoning) и контекст до 128K
- в классе <10B лидирует в STEM-задачах:
94.43% на AIME 2025 (с PaCoRe)
Архитектура
- PE-lang visual encoder (1.8B)
- Qwen3-8B decoder
- multi-crop high-res: 728×728 global + локальные кропы
Почему это важно
Тренд очевиден: индустрия уходит от “просто больше параметров”.
Теперь выигрывает тот, кто:
- грамотно собирает архитектуру
- делает сильный RL
- и выжимает максимум из маленькой модели
Base: https://modelscope.cn/models/stepfun-ai/Step3-VL-10B-Base
Chat: https://modelscope.cn/models/stepfun-ai/Step3-VL-10B
StepFun выпустили STEP3-VL-10B - компактную open multimodal модель, которая по метрикам догоняет и местами обгоняет монстров в 10-20 раз больше.
Что заявляют по качеству
- держит SOTA/near-SOTA по визуальному восприятию + reasoning
- на ряде тестов конкурирует с GLM-4.6V, Qwen3-VL и даже Gemini 2.5 Pro
- сильна в OCR, понимании GUI, пространственном мышлении (важно для embodied AI)
Ключевые цифры
- обучена на 1.2T токенов
- 1400+ RL-раундов (RLHF + RLVR)
- поддержка PaCoRe (parallel collaborative reasoning) и контекст до 128K
- в классе <10B лидирует в STEM-задачах:
94.43% на AIME 2025 (с PaCoRe)
Архитектура
- PE-lang visual encoder (1.8B)
- Qwen3-8B decoder
- multi-crop high-res: 728×728 global + локальные кропы
Почему это важно
Тренд очевиден: индустрия уходит от “просто больше параметров”.
Теперь выигрывает тот, кто:
- грамотно собирает архитектуру
- делает сильный RL
- и выжимает максимум из маленькой модели
Base: https://modelscope.cn/models/stepfun-ai/Step3-VL-10B-Base
Chat: https://modelscope.cn/models/stepfun-ai/Step3-VL-10B
❤6👍5😱2🥰1😁1