Ollama официально запустила встроенную поддержку веб-поиска через REST API. Это не просто внешний плагин — это часть экосистемы: API интегрирован в Python и JavaScript SDK, а также доступен через MCP (Model Control Protocol) сервер. Цель — снизить галлюцинации и дать моделям доступ к свежим данным без ручного RAG-пайплайна.
Факты по делу:
• Поиск возвращает контент объёмом до нескольких тысяч токенов, поэтому рекомендуемое контекстное окно — минимум 32K токенов.
• Поддержка есть для любых моделей, включая open-weight, например Qwen 3 (4B) — в официальном примере как раз на нём строится простой search agent.
• Интеграция возможна через:
◦ Прямой вызов REST API
◦ Python/JS библиотеки Ollama
◦ OpenAI-совместимый endpoint (полезно для gpt-oss и подобных)
◦ MCP-сервер — для совместимости с Cline, Goose, Codex и другими инструментами.
Важный нюанс: в документации нет информации о rate limits. Неясно, сколько запросов в минуту/день разрешено, особенно для self-hosted или cloud-версий. Пока предполагаем, что лимиты мягкие — но это нужно тестировать. Как сказано в официальном блог-посте:
Ollama provides a generous free tier of web searches for individuals to use, and higher rate limits are available via Ollama’s cloud.
Если что, стоимость Ollama Cloud – 20$ в месяц, и пока что сервис находится в preview.
Блог-пост
Документация
@ai_for_devs
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6👍3❤2🤩1
На днях Google выкатил обновлённые версии своих моделей — Gemini 2.5 Flash и 2.5 Flash-Lite.
Что улучшили?
Первые отзывы уже есть: Йичао «Peak» Цзи из Manus (они делают автономных AI-агентов) сказал, что у них получилось получить +15% производительности на длинных агентных задачах, а экономичность позволила масштабироваться сильнее, чем раньше.
Обе модели пока в preview, но доступны всем и уже есть на openrouter.
Источник
Google: Gemini 2.5 Flash Lite Preview 09-2025 на openrouter
Google: Gemini 2.5 Flash Preview 09-2025 на openrouter
@ai_for_devs
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5❤3🔥3
Кажется, ребята из Continue решили: хватит терпеть визуальный бардак. В версии 1.13.0 их AI-помощник для кодинга получил серьёзный апгрейд интерфейса. Теперь всё чище, логичнее и дружелюбнее.
Главные апдейты:
• Свежий минималистичный вид
• Нормальная навигация и адаптивность под любые экраны — хоть ультраширокий, хоть боковая панель ноутбука
• Селектор моделей переписали с нуля: теперь видно, какой ассистент активен, а те, что с ошибками конфигурации, не прячутся, а аккуратно подсвечиваются.
Кстати, на Continue уже строится куча сторонних решений и инструментов для разработчиков. Интересно будет посмотреть, как свежий редизайн повлияет на экосистему — особенно на плагины и надстройки, которые завязаны на MCP и кастомные модели.
Источник
@ai_for_devs
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6🔥5❤1🤩1
🔥 Вышла DeepSeek-V3.2-Exp: китайцы снова мутят что-то хитрое
DeepSeek выпустили экспериментальную модель DeepSeek-V3.2-Exp — видимо, промежуточный шаг к их следующему «монстру». Главное новшество — DeepSeek Sparse Attention: хитрый способ сделать работу трансформеров на длинных текстах быстрее и дешевле.
Если по-простому: модель учится «не тратить внимание впустую». Вместо того чтобы пересчитывать все связи между словами, она обрабатывает только важные — и при этом почти не теряет качество ответа. Бенчмарки показывают, что результат остался на уровне прошлой версии V3.1, но вычислительная эффективность заметно выросла.
Ну и да, всё это open source: можно уже потыкать на Hugging Face, запустить через vLLM или SGLang (докер-образы готовы).
Похоже, DeepSeek делает ставку на то, чтобы длинные контексты стали дешевле и быстрее. А значит — впереди, возможно, совсем другие масштабы для ИИ-агентов и RAG-систем.
Источник | Hugging Face
@ai_for_devs
DeepSeek выпустили экспериментальную модель DeepSeek-V3.2-Exp — видимо, промежуточный шаг к их следующему «монстру». Главное новшество — DeepSeek Sparse Attention: хитрый способ сделать работу трансформеров на длинных текстах быстрее и дешевле.
Если по-простому: модель учится «не тратить внимание впустую». Вместо того чтобы пересчитывать все связи между словами, она обрабатывает только важные — и при этом почти не теряет качество ответа. Бенчмарки показывают, что результат остался на уровне прошлой версии V3.1, но вычислительная эффективность заметно выросла.
Ну и да, всё это open source: можно уже потыкать на Hugging Face, запустить через vLLM или SGLang (докер-образы готовы).
Похоже, DeepSeek делает ставку на то, чтобы длинные контексты стали дешевле и быстрее. А значит — впереди, возможно, совсем другие масштабы для ИИ-агентов и RAG-систем.
Источник | Hugging Face
@ai_for_devs
👍6❤2🔥2🤯2
🤩 Вышла Claude Sonnet 4.5 – лучшая модель для программирования
Что внутри? Во-первых, модель стала лучше во всём, что связано с программированием. На бенчмарке SWE-bench Verified она теперь топ-1, а на OSWorld — выросла с 42% до 61% точности за каких-то четыре месяца. То есть Sonnet теперь не только пишет функции, но и отлично справляется с файлами, браузером и таблицами.
Помимо модели также обновили и Claude Code: завезли чекпоинты (можно откатиться, если натворил фигни), обновили терминал, прикрутили нативное расширение для VS Code. В приложении Claude теперь можно прямо в чате генерить документы, таблицы и презентации. Плюс, появился Claude Agent SDK — по сути, тот же движок, на котором Anthropic сами клепают агентов.
Antropic заявляют, что это "most aligned model yet". Другими словами, модель у Anthropic получилось неплохо побороться с галлюцинациями, манипуляциями и прочим "магическим" поведением.
Цена осталась прежней: $3 за миллион input-токенов, $15 — за output. Для разработчиков модель доступна прямо сегодня в API (claude-sonnet-4-5).
Источник | Карточка модели | Модель на Openrouter
@ai_for_devs
Что внутри? Во-первых, модель стала лучше во всём, что связано с программированием. На бенчмарке SWE-bench Verified она теперь топ-1, а на OSWorld — выросла с 42% до 61% точности за каких-то четыре месяца. То есть Sonnet теперь не только пишет функции, но и отлично справляется с файлами, браузером и таблицами.
Помимо модели также обновили и Claude Code: завезли чекпоинты (можно откатиться, если натворил фигни), обновили терминал, прикрутили нативное расширение для VS Code. В приложении Claude теперь можно прямо в чате генерить документы, таблицы и презентации. Плюс, появился Claude Agent SDK — по сути, тот же движок, на котором Anthropic сами клепают агентов.
Antropic заявляют, что это "most aligned model yet". Другими словами, модель у Anthropic получилось неплохо побороться с галлюцинациями, манипуляциями и прочим "магическим" поведением.
Claude Sonnet 4.5 — не только самая мощная, но и самая согласованная с безопасностью из всех наших моделей. Благодаря улучшенным возможностям Claude и обширному обучению в области безопасности нам удалось существенно улучшить его поведение: снизить податливость на лесть, склонность к обману, стремление к власти и подталкивание к иллюзиям. Для агентных функций и работы с компьютером мы также значительно усилили защиту от атак через prompt injection — одной из самых серьёзных угроз для пользователей.
Цена осталась прежней: $3 за миллион input-токенов, $15 — за output. Для разработчиков модель доступна прямо сегодня в API (claude-sonnet-4-5).
Источник | Карточка модели | Модель на Openrouter
@ai_for_devs
🔥9👍4❤3👏1
This media is not supported in your browser
VIEW IN TELEGRAM
⚡ JetBrains встроили Claude Agent прямо в свои IDE
Claude Agent теперь живёт прямо в AI-чате IDE, а под капотом — свежевыпущенный Claude 4.5 Sonnet.
Примечательно, что это первый сторонний агент, официально встроенный в экосистему JetBrains, и он идёт в составе подписки JetBrains AI — доплат не просят. Сделан на Anthropic Agent SDK, поэтому умеет в контекст, тулы, файловые операции и даже исполнение кода. Работает через MCP: агент видит IDE как сервер инструментов, вы — просто переписываетесь в чате.
Кратко об основных возможностях:
🟣 Работа с несколькими файлами: агент показывает предложенные правки в виде диффов прямо в редакторе — удобно сравнить «до/после» и решить, принять или выкинуть.
🟣 Контроль на вашей стороне: без вашего разрешения Claude ничего не тронет — ни файл, ни консоль. Но если достаточно смелые, то можно включить Brave mode и агент пойдет заниматься своими делами без ваших апрувов
🟣 Plan mode: агент сначала опишет шаги и только потом займется реализацией.
🟣 Управление контекстом: можно подкинуть файлы, папки или даже картинки — агент станет отвечать точнее и умнее.
Источник
@ai_for_devs
Claude Agent теперь живёт прямо в AI-чате IDE, а под капотом — свежевыпущенный Claude 4.5 Sonnet.
Примечательно, что это первый сторонний агент, официально встроенный в экосистему JetBrains, и он идёт в составе подписки JetBrains AI — доплат не просят. Сделан на Anthropic Agent SDK, поэтому умеет в контекст, тулы, файловые операции и даже исполнение кода. Работает через MCP: агент видит IDE как сервер инструментов, вы — просто переписываетесь в чате.
Кратко об основных возможностях:
Источник
@ai_for_devs
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10👍4❤2
😇 Вышла GLM-4.6 – очередное обновление от Z.ai
Что завезли: окно контекста теперь не 128k, а 200k токенов (можно загружать целую диссертацию и ещё место останется). Кодинг стал бодрее — модель не только щёлкает бенчмарки, но и в реальных сценариях типа Claude Code и Roo Code показывает себя отлично. Плюс апгрейд по «агентности»: умнее пользуется инструментами, ищет, анализирует, делает выводы.
По тестам: GLM-4.6 обходит прошлую версию, уверенно держится против DeepSeek-V3.2-Exp и почти дотягивается до Claude Sonnet 4. Но до свежего Claude Sonnet 4.5 по коду пока не дорос — тут Anthropic всё ещё впереди. Зато по эффективности есть козырь: задачки решает примерно на 15% экономнее по токенам.
В общем, если вы искали «дешёвый claude», то вот оно. GLM-4.6 в Coding Plan стоит в 7 раз дешевле, а квоты выше в 3 раза. Апгрейд подписки автоматический, локально модель можно будет поднять через HuggingFace или ModelScope.
Источник
@ai_for_devs
Что завезли: окно контекста теперь не 128k, а 200k токенов (можно загружать целую диссертацию и ещё место останется). Кодинг стал бодрее — модель не только щёлкает бенчмарки, но и в реальных сценариях типа Claude Code и Roo Code показывает себя отлично. Плюс апгрейд по «агентности»: умнее пользуется инструментами, ищет, анализирует, делает выводы.
По тестам: GLM-4.6 обходит прошлую версию, уверенно держится против DeepSeek-V3.2-Exp и почти дотягивается до Claude Sonnet 4. Но до свежего Claude Sonnet 4.5 по коду пока не дорос — тут Anthropic всё ещё впереди. Зато по эффективности есть козырь: задачки решает примерно на 15% экономнее по токенам.
В общем, если вы искали «дешёвый claude», то вот оно. GLM-4.6 в Coding Plan стоит в 7 раз дешевле, а квоты выше в 3 раза. Апгрейд подписки автоматический, локально модель можно будет поднять через HuggingFace или ModelScope.
Источник
@ai_for_devs
🔥5👍4❤2
Команда AI for Devs подготовила перевод статьи о новом API /v1/responses от OpenAI, который объединяет простоту Chat Completions и мощь Assistants, и при этом сохраняет состояние рассуждений, мультимодальность и встроенные инструменты.
Это шаг к агентам будущего — и, похоже, к новому стандарту работы с моделями OpenAI.
📚 Подробности на Хабр: https://habr.com/ru/articles/951244/
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8🔥5❤3
На днях Cursor получил обновление. Что изменилось?
Источник
@ai_fro_devs
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10🔥8👏2❤1
Пока OpenAI, Anthropic и Meta меряются миллиардами параметров, IBM внезапно решила сыграть в другую игру, представив Granite-4.0 — набор маленьких, но шустрых LLM.
Вместо гигантов под сотни миллиардов параметров, IBM выкатила:
• Micro (3B) — ультралёгкий вариант, легко запуститься на ноутбуке.
• Tiny (7B/1B активных) — компактный MoE, экономит память и токены.
• Small (32B/9B активных) — самая большая из линейки, но всё равно «малышка» по сравнению с топовыми LLM.
Фишка этой линейки моделей в гибридной Mamba-архитектуре: модель отключает лишние блоки и работает быстрее, при этом сохраняя длинный контекст (до 128K). Может, именно этот «обратный ход» IBM и станет трендом: меньшее количество параметров, но больше пользы на практике?
По бенчмаркам:
Кстати, эти модели уже доступны в Continue.
Модели на Hugging Face.
@ai_for_devs
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13🔥5❤1⚡1