🔥 Вышла Qwen3-Omni
– и это уже не «ещё один текстовый чатик», а реально универсальный зверь: понимает текст, картинки, аудио и даже видео. Причём отвечает не только в тексте, но и голосом — почти как ваш личный Jarvis
Фишка в том, что это не костыль «натянем картинки поверх текста», а изначально мультимодальная архитектура. Китайцы хвастаются, что модель держит SOTA на 32 из 36 бенчмарков по аудио и видео, и по качеству догоняет Gemini 2.5 Pro. Плюс работает с 119 языками (да, и с русским тоже), а голос может выдать на 10 языках.
Под капотом — новая схема «Thinker–Talker»: один модуль думает, другой говорит. Звучит как хороший тандем для собеседования. Плюс MoE и хитрые оптимизации, чтобы отклик был в реальном времени.
Моё мнение? Ну, Omni — это заявка на «универсальный интерфейс ко всему». Уже умеет описывать музыку, переводить речь, отвечать на вопросы по видео и даже анализировать смешанные аудиотреки. Если Alibaba не похоронит проект под собственным весом, то это реальный кандидат на статус «второго GPT-4o».
GitHub
Демо на Hugging Face
– и это уже не «ещё один текстовый чатик», а реально универсальный зверь: понимает текст, картинки, аудио и даже видео. Причём отвечает не только в тексте, но и голосом — почти как ваш личный Jarvis
Фишка в том, что это не костыль «натянем картинки поверх текста», а изначально мультимодальная архитектура. Китайцы хвастаются, что модель держит SOTA на 32 из 36 бенчмарков по аудио и видео, и по качеству догоняет Gemini 2.5 Pro. Плюс работает с 119 языками (да, и с русским тоже), а голос может выдать на 10 языках.
Под капотом — новая схема «Thinker–Talker»: один модуль думает, другой говорит. Звучит как хороший тандем для собеседования. Плюс MoE и хитрые оптимизации, чтобы отклик был в реальном времени.
Моё мнение? Ну, Omni — это заявка на «универсальный интерфейс ко всему». Уже умеет описывать музыку, переводить речь, отвечать на вопросы по видео и даже анализировать смешанные аудиотреки. Если Alibaba не похоронит проект под собственным весом, то это реальный кандидат на статус «второго GPT-4o».
GitHub
Демо на Hugging Face
👍4🔥4🤩2❤1
This media is not supported in your browser
VIEW IN TELEGRAM
Главный герой релиза — AI-агенты, которые теперь могут выполнять реальные рабочие задачи прямо внутри вашего воркспейса.
Агент умеет почти всё то же, что и вы: создавать документы, обновлять базы данных, искать информацию по всем инструментам, собирать отчёты и выполнять многошаговые процессы. Например, его можно попросить «собрать обратную связь из Slack, почты и Notion, оформить её в таблицу и подготовить выводы» — и результат появится без вашего участия.
Особенность в том, что агента можно персонализировать: задать ему инструкции по стилю работы, правила обработки задач и даже «характер». Более того, вскоре появится возможность создавать целые команды кастомных агентов — один будет вести проектные апдейты, другой готовить онбординг для новичков, третий заниматься поддержкой.
По сути, Notion перестаёт быть просто «умным блокнотом» и превращается в универсальную рабочую платформу, где рутинные процессы берут на себя агенты. Это обещает заметно сократить время на «мелкую текучку» и оставить больше ресурса для действительно важных задач.
Подробнее читайте на Хабре: https://habr.com/ru/news/949848/
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3⚡2🔥2❤1
😲 Почему я не верю в ИИ-агентов в 2025 году, несмотря на то, что сам их разрабатываю
Несмотря на шумиху, «автономные агенты» столкнутся с экономическими и техническими барьерами.
Почему текущий подход к архитектуре агентов не сработает и какие методы действительно приносят результат — читайте в статье.
📚 Подробности на Хабр: https://habr.com/ru/articles/950072/
Несмотря на шумиху, «автономные агенты» столкнутся с экономическими и техническими барьерами.
Почему текущий подход к архитектуре агентов не сработает и какие методы действительно приносят результат — читайте в статье.
📚 Подробности на Хабр: https://habr.com/ru/articles/950072/
👍6🔥3❤1
🔥 Вышла Code World Model: новая модель для кодинга
Meta (признана экстремистской и запрещена в РФ) выкатила Code World Model (CWM) — LLM на 32 млрд параметров, которая не просто предсказывает следующую строчку кода, а учится понимать, как код исполняется. Впервые модель массово тренировали не только на исходниках, но и результатах выполнения Python-кода и взаимодействии с Docker-средами — по сути, научили её играть в программиста, который пишет, запускает, дебажит и фиксит баги.
Главная идея: обычные кодовые LLM знают синтаксис, но плохо понимают семантику — что реально произойдёт при запуске. CWM пытается это исправить: она симулирует исполнение кода построчно, строит «ментальную модель» переменных и состояния программы, а потом использует это при генерации. Плюс её тренировали с помощью агентных задач (модель сама исследует репозиторий, правит баги и гоняет тесты).
Обучали модель в несколько этапов:
1. Pre-training – на 8T токенов из разных источников, включая код и STEM-данные.
2. Mid-training с моделированием мира — модель обучается на данных, которые включают реальные трассировки Python-кода и агентные взаимодействия с Docker. Тут происходит основное обучение на том, как исходный код влияет на переменные в реальном времени.
3. Supervised Fine-Tuning – на 100T токенов для улучшения способности решать задачи и следовать инструкциям.
4. Обучение с подкреплением (RL) — финальный этап, где модель решает задачи из реального мира, например, багфиксинг и решение математических задач.
Результаты в сравнении с другими моделями на картинке. Модель не достигает уровня GPT-5 и Sonnet 4, но вполне уверенно обходит GPT-oss и последний R1.
Источник | Веса | GitHub
Meta (признана экстремистской и запрещена в РФ) выкатила Code World Model (CWM) — LLM на 32 млрд параметров, которая не просто предсказывает следующую строчку кода, а учится понимать, как код исполняется. Впервые модель массово тренировали не только на исходниках, но и результатах выполнения Python-кода и взаимодействии с Docker-средами — по сути, научили её играть в программиста, который пишет, запускает, дебажит и фиксит баги.
Главная идея: обычные кодовые LLM знают синтаксис, но плохо понимают семантику — что реально произойдёт при запуске. CWM пытается это исправить: она симулирует исполнение кода построчно, строит «ментальную модель» переменных и состояния программы, а потом использует это при генерации. Плюс её тренировали с помощью агентных задач (модель сама исследует репозиторий, правит баги и гоняет тесты).
Обучали модель в несколько этапов:
1. Pre-training – на 8T токенов из разных источников, включая код и STEM-данные.
2. Mid-training с моделированием мира — модель обучается на данных, которые включают реальные трассировки Python-кода и агентные взаимодействия с Docker. Тут происходит основное обучение на том, как исходный код влияет на переменные в реальном времени.
3. Supervised Fine-Tuning – на 100T токенов для улучшения способности решать задачи и следовать инструкциям.
4. Обучение с подкреплением (RL) — финальный этап, где модель решает задачи из реального мира, например, багфиксинг и решение математических задач.
Результаты в сравнении с другими моделями на картинке. Модель не достигает уровня GPT-5 и Sonnet 4, но вполне уверенно обходит GPT-oss и последний R1.
Источник | Веса | GitHub
🔥5👍3❤2
AI уже почти готов заменить бухгалтеров, инженеров и юристов — но не спешите увольнять всех.
OpenAI представил GDPval — новую систему оценки, которая измеряет, насколько хорошо ИИ справляется с реальными рабочими задачами. Вместо абстрактных тестов и синтетических задач, теперь мы можем проверить, насколько хорошо модель справится с тем, что делают люди каждый день: от разработки ПО до написания юридических документов и проектирования оборудования.
GDPval охватывает 44 профессии из 9 ключевых отраслей экономики США — от инженеров и врачей до бухгалтеров и риэлторов. Каждая задача создана реальными экспертами и включает не просто текстовый запрос, но и реальные файлы, контекст и ожидаемые результаты — будь то презентация, чертеж или медицинский план. Это первый шаг к тому, чтобы ИИ не просто «умел» отвечать на вопросы, но и действительно делал работу.
Результаты? Современные модели уже почти не уступают экспертам. Claude Opus 4.1 выиграл в эстетике и оформлении, GPT-5 — в точности и глубине знаний. А главное: модели работают в 100 раз быстрее и дешевле. Конечно, пока без человеческого контроля и итераций, но прогресс явно идёт.
Примечательно, что от GPT-4o до GPT-5 за год производительность на задачах GDPval увеличилась более чем в три раза.
Как видно из графиков, паритет с экспертами в индустрии по отдельно взятым специальностям уже очень близко. Но это только начало. GDPval пока одноразовая оценка — не учитывает обратную связь, редактирование и уточнения. В реальности работа — это не один запрос, а диалог. OpenAI уже работает над этим. Ждём ИИ, который не просто отвечает, но и развивается вместе с человеком.
Источник
Полноценное исследование
OpenAI представил GDPval — новую систему оценки, которая измеряет, насколько хорошо ИИ справляется с реальными рабочими задачами. Вместо абстрактных тестов и синтетических задач, теперь мы можем проверить, насколько хорошо модель справится с тем, что делают люди каждый день: от разработки ПО до написания юридических документов и проектирования оборудования.
GDPval охватывает 44 профессии из 9 ключевых отраслей экономики США — от инженеров и врачей до бухгалтеров и риэлторов. Каждая задача создана реальными экспертами и включает не просто текстовый запрос, но и реальные файлы, контекст и ожидаемые результаты — будь то презентация, чертеж или медицинский план. Это первый шаг к тому, чтобы ИИ не просто «умел» отвечать на вопросы, но и действительно делал работу.
Результаты? Современные модели уже почти не уступают экспертам. Claude Opus 4.1 выиграл в эстетике и оформлении, GPT-5 — в точности и глубине знаний. А главное: модели работают в 100 раз быстрее и дешевле. Конечно, пока без человеческого контроля и итераций, но прогресс явно идёт.
Примечательно, что от GPT-4o до GPT-5 за год производительность на задачах GDPval увеличилась более чем в три раза.
Как видно из графиков, паритет с экспертами в индустрии по отдельно взятым специальностям уже очень близко. Но это только начало. GDPval пока одноразовая оценка — не учитывает обратную связь, редактирование и уточнения. В реальности работа — это не один запрос, а диалог. OpenAI уже работает над этим. Ждём ИИ, который не просто отвечает, но и развивается вместе с человеком.
Источник
Полноценное исследование
👍4🔥3🤯3❤1
Ollama официально запустила встроенную поддержку веб-поиска через REST API. Это не просто внешний плагин — это часть экосистемы: API интегрирован в Python и JavaScript SDK, а также доступен через MCP (Model Control Protocol) сервер. Цель — снизить галлюцинации и дать моделям доступ к свежим данным без ручного RAG-пайплайна.
Факты по делу:
• Поиск возвращает контент объёмом до нескольких тысяч токенов, поэтому рекомендуемое контекстное окно — минимум 32K токенов.
• Поддержка есть для любых моделей, включая open-weight, например Qwen 3 (4B) — в официальном примере как раз на нём строится простой search agent.
• Интеграция возможна через:
◦ Прямой вызов REST API
◦ Python/JS библиотеки Ollama
◦ OpenAI-совместимый endpoint (полезно для gpt-oss и подобных)
◦ MCP-сервер — для совместимости с Cline, Goose, Codex и другими инструментами.
Важный нюанс: в документации нет информации о rate limits. Неясно, сколько запросов в минуту/день разрешено, особенно для self-hosted или cloud-версий. Пока предполагаем, что лимиты мягкие — но это нужно тестировать. Как сказано в официальном блог-посте:
Ollama provides a generous free tier of web searches for individuals to use, and higher rate limits are available via Ollama’s cloud.
Если что, стоимость Ollama Cloud – 20$ в месяц, и пока что сервис находится в preview.
Блог-пост
Документация
@ai_for_devs
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6👍3❤2🤩1
На днях Google выкатил обновлённые версии своих моделей — Gemini 2.5 Flash и 2.5 Flash-Lite.
Что улучшили?
Первые отзывы уже есть: Йичао «Peak» Цзи из Manus (они делают автономных AI-агентов) сказал, что у них получилось получить +15% производительности на длинных агентных задачах, а экономичность позволила масштабироваться сильнее, чем раньше.
Обе модели пока в preview, но доступны всем и уже есть на openrouter.
Источник
Google: Gemini 2.5 Flash Lite Preview 09-2025 на openrouter
Google: Gemini 2.5 Flash Preview 09-2025 на openrouter
@ai_for_devs
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5❤3🔥3
Кажется, ребята из Continue решили: хватит терпеть визуальный бардак. В версии 1.13.0 их AI-помощник для кодинга получил серьёзный апгрейд интерфейса. Теперь всё чище, логичнее и дружелюбнее.
Главные апдейты:
• Свежий минималистичный вид
• Нормальная навигация и адаптивность под любые экраны — хоть ультраширокий, хоть боковая панель ноутбука
• Селектор моделей переписали с нуля: теперь видно, какой ассистент активен, а те, что с ошибками конфигурации, не прячутся, а аккуратно подсвечиваются.
Кстати, на Continue уже строится куча сторонних решений и инструментов для разработчиков. Интересно будет посмотреть, как свежий редизайн повлияет на экосистему — особенно на плагины и надстройки, которые завязаны на MCP и кастомные модели.
Источник
@ai_for_devs
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6🔥5❤1🤩1
🔥 Вышла DeepSeek-V3.2-Exp: китайцы снова мутят что-то хитрое
DeepSeek выпустили экспериментальную модель DeepSeek-V3.2-Exp — видимо, промежуточный шаг к их следующему «монстру». Главное новшество — DeepSeek Sparse Attention: хитрый способ сделать работу трансформеров на длинных текстах быстрее и дешевле.
Если по-простому: модель учится «не тратить внимание впустую». Вместо того чтобы пересчитывать все связи между словами, она обрабатывает только важные — и при этом почти не теряет качество ответа. Бенчмарки показывают, что результат остался на уровне прошлой версии V3.1, но вычислительная эффективность заметно выросла.
Ну и да, всё это open source: можно уже потыкать на Hugging Face, запустить через vLLM или SGLang (докер-образы готовы).
Похоже, DeepSeek делает ставку на то, чтобы длинные контексты стали дешевле и быстрее. А значит — впереди, возможно, совсем другие масштабы для ИИ-агентов и RAG-систем.
Источник | Hugging Face
@ai_for_devs
DeepSeek выпустили экспериментальную модель DeepSeek-V3.2-Exp — видимо, промежуточный шаг к их следующему «монстру». Главное новшество — DeepSeek Sparse Attention: хитрый способ сделать работу трансформеров на длинных текстах быстрее и дешевле.
Если по-простому: модель учится «не тратить внимание впустую». Вместо того чтобы пересчитывать все связи между словами, она обрабатывает только важные — и при этом почти не теряет качество ответа. Бенчмарки показывают, что результат остался на уровне прошлой версии V3.1, но вычислительная эффективность заметно выросла.
Ну и да, всё это open source: можно уже потыкать на Hugging Face, запустить через vLLM или SGLang (докер-образы готовы).
Похоже, DeepSeek делает ставку на то, чтобы длинные контексты стали дешевле и быстрее. А значит — впереди, возможно, совсем другие масштабы для ИИ-агентов и RAG-систем.
Источник | Hugging Face
@ai_for_devs
👍6❤2🔥2🤯2
🤩 Вышла Claude Sonnet 4.5 – лучшая модель для программирования
Что внутри? Во-первых, модель стала лучше во всём, что связано с программированием. На бенчмарке SWE-bench Verified она теперь топ-1, а на OSWorld — выросла с 42% до 61% точности за каких-то четыре месяца. То есть Sonnet теперь не только пишет функции, но и отлично справляется с файлами, браузером и таблицами.
Помимо модели также обновили и Claude Code: завезли чекпоинты (можно откатиться, если натворил фигни), обновили терминал, прикрутили нативное расширение для VS Code. В приложении Claude теперь можно прямо в чате генерить документы, таблицы и презентации. Плюс, появился Claude Agent SDK — по сути, тот же движок, на котором Anthropic сами клепают агентов.
Antropic заявляют, что это "most aligned model yet". Другими словами, модель у Anthropic получилось неплохо побороться с галлюцинациями, манипуляциями и прочим "магическим" поведением.
Цена осталась прежней: $3 за миллион input-токенов, $15 — за output. Для разработчиков модель доступна прямо сегодня в API (claude-sonnet-4-5).
Источник | Карточка модели | Модель на Openrouter
@ai_for_devs
Что внутри? Во-первых, модель стала лучше во всём, что связано с программированием. На бенчмарке SWE-bench Verified она теперь топ-1, а на OSWorld — выросла с 42% до 61% точности за каких-то четыре месяца. То есть Sonnet теперь не только пишет функции, но и отлично справляется с файлами, браузером и таблицами.
Помимо модели также обновили и Claude Code: завезли чекпоинты (можно откатиться, если натворил фигни), обновили терминал, прикрутили нативное расширение для VS Code. В приложении Claude теперь можно прямо в чате генерить документы, таблицы и презентации. Плюс, появился Claude Agent SDK — по сути, тот же движок, на котором Anthropic сами клепают агентов.
Antropic заявляют, что это "most aligned model yet". Другими словами, модель у Anthropic получилось неплохо побороться с галлюцинациями, манипуляциями и прочим "магическим" поведением.
Claude Sonnet 4.5 — не только самая мощная, но и самая согласованная с безопасностью из всех наших моделей. Благодаря улучшенным возможностям Claude и обширному обучению в области безопасности нам удалось существенно улучшить его поведение: снизить податливость на лесть, склонность к обману, стремление к власти и подталкивание к иллюзиям. Для агентных функций и работы с компьютером мы также значительно усилили защиту от атак через prompt injection — одной из самых серьёзных угроз для пользователей.
Цена осталась прежней: $3 за миллион input-токенов, $15 — за output. Для разработчиков модель доступна прямо сегодня в API (claude-sonnet-4-5).
Источник | Карточка модели | Модель на Openrouter
@ai_for_devs
🔥9👍4❤3👏1
This media is not supported in your browser
VIEW IN TELEGRAM
⚡ JetBrains встроили Claude Agent прямо в свои IDE
Claude Agent теперь живёт прямо в AI-чате IDE, а под капотом — свежевыпущенный Claude 4.5 Sonnet.
Примечательно, что это первый сторонний агент, официально встроенный в экосистему JetBrains, и он идёт в составе подписки JetBrains AI — доплат не просят. Сделан на Anthropic Agent SDK, поэтому умеет в контекст, тулы, файловые операции и даже исполнение кода. Работает через MCP: агент видит IDE как сервер инструментов, вы — просто переписываетесь в чате.
Кратко об основных возможностях:
🟣 Работа с несколькими файлами: агент показывает предложенные правки в виде диффов прямо в редакторе — удобно сравнить «до/после» и решить, принять или выкинуть.
🟣 Контроль на вашей стороне: без вашего разрешения Claude ничего не тронет — ни файл, ни консоль. Но если достаточно смелые, то можно включить Brave mode и агент пойдет заниматься своими делами без ваших апрувов
🟣 Plan mode: агент сначала опишет шаги и только потом займется реализацией.
🟣 Управление контекстом: можно подкинуть файлы, папки или даже картинки — агент станет отвечать точнее и умнее.
Источник
@ai_for_devs
Claude Agent теперь живёт прямо в AI-чате IDE, а под капотом — свежевыпущенный Claude 4.5 Sonnet.
Примечательно, что это первый сторонний агент, официально встроенный в экосистему JetBrains, и он идёт в составе подписки JetBrains AI — доплат не просят. Сделан на Anthropic Agent SDK, поэтому умеет в контекст, тулы, файловые операции и даже исполнение кода. Работает через MCP: агент видит IDE как сервер инструментов, вы — просто переписываетесь в чате.
Кратко об основных возможностях:
Источник
@ai_for_devs
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10👍4❤2
😇 Вышла GLM-4.6 – очередное обновление от Z.ai
Что завезли: окно контекста теперь не 128k, а 200k токенов (можно загружать целую диссертацию и ещё место останется). Кодинг стал бодрее — модель не только щёлкает бенчмарки, но и в реальных сценариях типа Claude Code и Roo Code показывает себя отлично. Плюс апгрейд по «агентности»: умнее пользуется инструментами, ищет, анализирует, делает выводы.
По тестам: GLM-4.6 обходит прошлую версию, уверенно держится против DeepSeek-V3.2-Exp и почти дотягивается до Claude Sonnet 4. Но до свежего Claude Sonnet 4.5 по коду пока не дорос — тут Anthropic всё ещё впереди. Зато по эффективности есть козырь: задачки решает примерно на 15% экономнее по токенам.
В общем, если вы искали «дешёвый claude», то вот оно. GLM-4.6 в Coding Plan стоит в 7 раз дешевле, а квоты выше в 3 раза. Апгрейд подписки автоматический, локально модель можно будет поднять через HuggingFace или ModelScope.
Источник
@ai_for_devs
Что завезли: окно контекста теперь не 128k, а 200k токенов (можно загружать целую диссертацию и ещё место останется). Кодинг стал бодрее — модель не только щёлкает бенчмарки, но и в реальных сценариях типа Claude Code и Roo Code показывает себя отлично. Плюс апгрейд по «агентности»: умнее пользуется инструментами, ищет, анализирует, делает выводы.
По тестам: GLM-4.6 обходит прошлую версию, уверенно держится против DeepSeek-V3.2-Exp и почти дотягивается до Claude Sonnet 4. Но до свежего Claude Sonnet 4.5 по коду пока не дорос — тут Anthropic всё ещё впереди. Зато по эффективности есть козырь: задачки решает примерно на 15% экономнее по токенам.
В общем, если вы искали «дешёвый claude», то вот оно. GLM-4.6 в Coding Plan стоит в 7 раз дешевле, а квоты выше в 3 раза. Апгрейд подписки автоматический, локально модель можно будет поднять через HuggingFace или ModelScope.
Источник
@ai_for_devs
🔥5👍4❤2
Команда AI for Devs подготовила перевод статьи о новом API /v1/responses от OpenAI, который объединяет простоту Chat Completions и мощь Assistants, и при этом сохраняет состояние рассуждений, мультимодальность и встроенные инструменты.
Это шаг к агентам будущего — и, похоже, к новому стандарту работы с моделями OpenAI.
📚 Подробности на Хабр: https://habr.com/ru/articles/951244/
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8🔥5❤3