Claude 4
❗️Новые релизы от Anthropic - Claude 4 Opus & Sonnet.
🟢 декларируются улучшения по кодингу, использованию агентских инструментов, включая MCP, но ждём сторонних бенчей
🟢 обе модели гибридные, могут работать как в режиме thinking, так и без него, при этом могут использовать в процессе размышлений инструменты
🟢 обещают, что Opus способен справляться с многочасовыми задачами и не деградирует на задачах со многими шагами
🟢 обещают, что Sonnet стал более управляемым и лучше следует инструкциям
🔵 длина контекста осталась такой же, как и у прошлых моделей - 200k
Доступность
● модели уже в Cursor (Sonnet - 0.5 запроса, Sonnet Thinking - 0.75 запроса, Opus - только в MAX mode с нехилыми такими ценами).
Sonnet, получается, стал дешевле, чем был - возможно, на время, так что нужно переключаться.
● добавили в GitHub Copilot
● а Sonnet 4 стал базовой моделью для GitHub Copilot coding agent (как раз его тестирую второй день, расскажу :))
Расширения API
● Code execution tool - можно запускать код через API
● MCP connector - интеграция с протоколом для создания сложных AI workflow
● Files API - для прямой работы с файлами
● Prompt cache - стало можно кэшировать промпты до часа
—
В целом релиз во многом рассчитан на поддержку сценариев долгой, автономной разработки с помощью инструментов, улучшая применимость моделей в агентских сценариях.
Этому посвящена значительная часть презентации Anthropic сегодня.
И это хорошо ложится в канву новых инструментов для разработки - фоновых агентов, которые стали появляться за последний месяц.
Я пока что настроен слегка скептически на фоне реально хороших релизов от Google в последнее время, но это всё нужно тестировать, конечно.
Уже переключился на Sonnet 4 :)
#ai #news
❗️Новые релизы от Anthropic - Claude 4 Opus & Sonnet.
🟢 декларируются улучшения по кодингу, использованию агентских инструментов, включая MCP, но ждём сторонних бенчей
🟢 обе модели гибридные, могут работать как в режиме thinking, так и без него, при этом могут использовать в процессе размышлений инструменты
🟢 обещают, что Opus способен справляться с многочасовыми задачами и не деградирует на задачах со многими шагами
🟢 обещают, что Sonnet стал более управляемым и лучше следует инструкциям
🔵 длина контекста осталась такой же, как и у прошлых моделей - 200k
Доступность
● модели уже в Cursor (Sonnet - 0.5 запроса, Sonnet Thinking - 0.75 запроса, Opus - только в MAX mode с нехилыми такими ценами).
Sonnet, получается, стал дешевле, чем был - возможно, на время, так что нужно переключаться.
● добавили в GitHub Copilot
● а Sonnet 4 стал базовой моделью для GitHub Copilot coding agent (как раз его тестирую второй день, расскажу :))
Расширения API
● Code execution tool - можно запускать код через API
● MCP connector - интеграция с протоколом для создания сложных AI workflow
● Files API - для прямой работы с файлами
● Prompt cache - стало можно кэшировать промпты до часа
—
В целом релиз во многом рассчитан на поддержку сценариев долгой, автономной разработки с помощью инструментов, улучшая применимость моделей в агентских сценариях.
Этому посвящена значительная часть презентации Anthropic сегодня.
И это хорошо ложится в канву новых инструментов для разработки - фоновых агентов, которые стали появляться за последний месяц.
Я пока что настроен слегка скептически на фоне реально хороших релизов от Google в последнее время, но это всё нужно тестировать, конечно.
Уже переключился на Sonnet 4 :)
#ai #news
👍13🔥9❤3
Claude 4, обзор
Прошло несколько дней работы с Claude 4, так что можно сказать пару слов.
Если вкратце, то для меня теперь выбор моделей для разработки выглядит так:
Sonnet 4
● если нужно подёргать много тулов (полазить по проекту, вызвать MCP, просто задачи вида "запускай тесты и фикси багидо посинения, пока всё не исправишь")
● задачи, для которых отсутствует заранее подготовленный контекст или его просто лень собирать :)
● небольшие повседневные задачи, где не нужно много думать
● веб-разработка
Gemini 2.5 Pro
● все задачи, где нужен длинный контекст
● иии... почти все остальные задачи
o3
● случаи, когда нужен чистый ризонинг
Переход с других моделей на Claude 4
● с Sonnet 3.7 - однозначно переходить:
* изменения в коде стали точнее
* лучше следует инструкциям и держит контекст
* менее упорот - иногда всё-таки делает то, что не просят, но намного реже
* новый cutoff - конец января 2025
● с Gemini 2.5 Pro - как минимум, стоит попробовать на своих задачах:
* лучше использует тулы
* структурнее подходит к решению задач
По поводу Opus 4: хорошо кушает токены и, как следствие, деньги (у меня $1/мин уходило в нескольких тестах).
Если у вас есть Claude Max, где не нужно платить за токены, то Opus можно использовать для сложных задач вместо Sonnet 4, а также в сценариях, когда нужно что-то долго делать с активным использованием тулов в процессе.
Далее в основном буду говорить про Sonnet.
Бенчмарки
Если приглядеться к числам на "хардовых" бенчмарках, то выглядит так себе - от мажорного релиза ожидалось большего.
По многим из них новый Sonnet несильно отличается от прошлого 3.7, а местами даже хуже.
Но на паре результаты всё-таки неплохие:
● MultiChallenge - стабильность работы в многоходовых диалогах с людьми
● Recall on Codebase Questions - метрика от Cursor, про которую ничего, кроме названия, неизвестно - будем считать, что это "доля правильных ответов на вопросы по кодовой базе при её исследовании в режиме агента"
И это подводит нас к следующему пункту:
В чём же хорош Claude 4?
Anthropic в анонсе много говорили именно про использование новых моделей в агентских сценариях и их интеграции в соответствующий инструментарий (например, в Claude Code & Claude Desktop).
И да, это у них вполне получилось - модели действительно очень хорошо работают с разными тулами и тащат длинные задачи (Opus у самих Anthropic работал до 7 часов, а на Reddit был результат в 40+ минут от пользователя).
За счёт этого они в реальной работе оказываются лучше, чем можно было бы предположить, смотря лишь на "хардовые" бенчмарки.
Потенциал Claude 4 не раскрыть в окружении, где нет тулов - у неё просто не так много других способностей, по которым бы её не обходили модели конкурентов.
Особенности
● охотнее сама строит планы для задач и потом их придерживается
● чаще делает какие-то временные скрипты для тестирования, проверки своих гипотез и т.п. Если нет нужного инструмента - сделай его :)
Иногда она их удаляет по завершению задачи, но чаще оставляет в проекте, приходится вычищать.
Anthropic даже в своём Claude 4 prompt engineering best practices добавили секцию о том, как такое поведение ограничить
● помните, что модель стала делать меньше делать то, что не просят?
Так вот, можно наоборот попросить уйти в отрыв:
Проблемы
● доступность API - это уже стало особенностью Anthropic, что в моменты пиковой нагрузки отваливаются запросы, инференс тормозит и вообще работать невозможно
● всё ещё может ходить кругами при решении проблем, хоть и реже - почему-то именно линейка Sonnet этим выделяется
● смайлики проникли и в Sonnet - ощущение иногда, что с ChatGPT 4o общаешься :)
Заключение
Противоречивый релиз, конечно, вышел.
Anthropic явно сфокусировались на определенных нишах - агентские системы и кодинг, - уйдя от построения моделей общего назначения (возможно, в силу ограниченности ресурсов на фоне конкурентов).
Посмотрим, к чему это их приведёт в перспективе, ну а пока что для Sonnet 4 у меня явно найдётся работа :)
#ai #model #review
Прошло несколько дней работы с Claude 4, так что можно сказать пару слов.
Если вкратце, то для меня теперь выбор моделей для разработки выглядит так:
Sonnet 4
● если нужно подёргать много тулов (полазить по проекту, вызвать MCP, просто задачи вида "запускай тесты и фикси баги
● задачи, для которых отсутствует заранее подготовленный контекст или его просто лень собирать :)
● небольшие повседневные задачи, где не нужно много думать
● веб-разработка
Gemini 2.5 Pro
● все задачи, где нужен длинный контекст
● иии... почти все остальные задачи
o3
● случаи, когда нужен чистый ризонинг
Переход с других моделей на Claude 4
● с Sonnet 3.7 - однозначно переходить:
* изменения в коде стали точнее
* лучше следует инструкциям и держит контекст
* менее упорот - иногда всё-таки делает то, что не просят, но намного реже
* новый cutoff - конец января 2025
● с Gemini 2.5 Pro - как минимум, стоит попробовать на своих задачах:
* лучше использует тулы
* структурнее подходит к решению задач
По поводу Opus 4: хорошо кушает токены и, как следствие, деньги (у меня $1/мин уходило в нескольких тестах).
Если у вас есть Claude Max, где не нужно платить за токены, то Opus можно использовать для сложных задач вместо Sonnet 4, а также в сценариях, когда нужно что-то долго делать с активным использованием тулов в процессе.
Далее в основном буду говорить про Sonnet.
Бенчмарки
Если приглядеться к числам на "хардовых" бенчмарках, то выглядит так себе - от мажорного релиза ожидалось большего.
По многим из них новый Sonnet несильно отличается от прошлого 3.7, а местами даже хуже.
Но на паре результаты всё-таки неплохие:
● MultiChallenge - стабильность работы в многоходовых диалогах с людьми
● Recall on Codebase Questions - метрика от Cursor, про которую ничего, кроме названия, неизвестно - будем считать, что это "доля правильных ответов на вопросы по кодовой базе при её исследовании в режиме агента"
И это подводит нас к следующему пункту:
В чём же хорош Claude 4?
Anthropic в анонсе много говорили именно про использование новых моделей в агентских сценариях и их интеграции в соответствующий инструментарий (например, в Claude Code & Claude Desktop).
И да, это у них вполне получилось - модели действительно очень хорошо работают с разными тулами и тащат длинные задачи (Opus у самих Anthropic работал до 7 часов, а на Reddit был результат в 40+ минут от пользователя).
За счёт этого они в реальной работе оказываются лучше, чем можно было бы предположить, смотря лишь на "хардовые" бенчмарки.
Потенциал Claude 4 не раскрыть в окружении, где нет тулов - у неё просто не так много других способностей, по которым бы её не обходили модели конкурентов.
Особенности
● охотнее сама строит планы для задач и потом их придерживается
● чаще делает какие-то временные скрипты для тестирования, проверки своих гипотез и т.п. Если нет нужного инструмента - сделай его :)
Иногда она их удаляет по завершению задачи, но чаще оставляет в проекте, приходится вычищать.
Anthropic даже в своём Claude 4 prompt engineering best practices добавили секцию о том, как такое поведение ограничить
● помните, что модель стала делать меньше делать то, что не просят?
Так вот, можно наоборот попросить уйти в отрыв:
Don't hold back. Give it your all. - это из того же гайда по промптингу Claude 4 :)Проблемы
● доступность API - это уже стало особенностью Anthropic, что в моменты пиковой нагрузки отваливаются запросы, инференс тормозит и вообще работать невозможно
● всё ещё может ходить кругами при решении проблем, хоть и реже - почему-то именно линейка Sonnet этим выделяется
● смайлики проникли и в Sonnet - ощущение иногда, что с ChatGPT 4o общаешься :)
Заключение
Противоречивый релиз, конечно, вышел.
Anthropic явно сфокусировались на определенных нишах - агентские системы и кодинг, - уйдя от построения моделей общего назначения (возможно, в силу ограниченности ресурсов на фоне конкурентов).
Посмотрим, к чему это их приведёт в перспективе, ну а пока что для Sonnet 4 у меня явно найдётся работа :)
#ai #model #review
👍29🔥11❤5
Фоновые агенты (1/3)
Итак, у нас появился новый тип инструментов, которые пробудут с нами некоторое время, и их роль будет только возрастать, и это - асинхронные облачные ИИ-агенты (для краткости - фоновые агенты).
Как и любой другой инструмент, этот имеет свои особенности, сферы применения, и его нужно учиться использовать и включать в рабочие процессы.
Для начала расскажу, о чём это всё, а позже опишу подробно свои впечатления по некоторым из фоновых агентов и дам сравнение.
Для кого это?
Фоновые агенты нацелены больше на senior+ разработчиков и предназначены для повышения их продуктивности.
Идея в том, чтобы делегировать ИИ-агентам посильные задачи, над которыми они будут работать без вашего участия.
Это позволяет меньше отвлекаться на рутину и больше фокусироваться на сложных/творческих проблемах.
Больше всего это похоже на то, как будто бы у вас есть на подхвате несколько джунов, которые между собой не общаются, каждый раз видят проект как в первый раз, но могут быстро в параллель работать над небольшими задачами, и всегда при этом доступны.
Что им можно скормить?
Как правило, такие задачи, которые не особо интересно делать:
● фиксинг мелких багов;
● реализация небольших новых и чётко очерченных фич;
● закодить что-то по существующему в проекте шаблону (всякие CRUD'ы, к примеру);
● написание и отладка тестов;
● мелкий рефакторинг кода;
● создание или обновление документации;
● ... и прочие рутинные или трудоемкие задачи, отнимающие время.
Можно глянуть список промптов для Google Jules, чтобы получить более полное представление.
Как это работает?
Фоновые агенты выпустили несколько компаний, но общий принцип их работы довольно схож:
1. Постановка задачи: обычно через чат или через назначение агенту таски на GitHub (кстати, все они ожидают того, что ваш код хостится на GitHub)
2. Создание изолированного окружения: как правило, в облаке поднимается контейнер или VM, а потом туда клонируется репозиторий проекта
3. Автономная работа: в этой "песочнице" агент автономно работает над задачей. Типичные этапы его работы:
● Исследование: поиск релевантных задаче документации и кода
● Планирование: анализ задачи, опционально - разбивка на более мелкие подзадачи и построение плана
● Редактирование: собственно, работа с кодом и/или документацией
● Проверка: запуск линтера, билда, тестов, исправление найденных проблем в цикле
В работу некоторых агентов можно вмешиваться на ходу, но по большей части контроля над агентом, кроме полной его остановки, нет до тех пор, пока он не сочтёт задачу выполненной или не завершится по таймауту/ошибке
4. Параллелизация: большинство фоновых агентов поддерживают одновременное выполнение нескольких задач, каждой в своей изолированной среде. Это позволяет делегировать сразу несколько потоков работы - и это, на мой взгляд, самое важное их преимущество
Есть параллелизация и другого рода, когда одну и ту же задачу ставят сразу нескольким копиям агента, чтобы по итогу выбрать понравившееся решение.
С людьми такой финт ушами разве что Том Демарко в своём романе "Deadline" мог себе позволить :)
5. Developer-in-the-loop: финальный контроль остается за человеком. Агент не вносит изменения напрямую в основную ветку, вместо этого он:
● Предлагает результат: чаще всего этого готовый pull request в GitHub, но иногда и просто диффы, которые можно применить в открытом проекте
● Ждёт одобрения: разработчик просматривает PR, принимает изменения или отправляет на доработку через сообщение в чате или комментарий к PR на GitHub
6. Прозрачность: основа агента - LLM, работающая со своим набором инструментов, которые есть в песочнице (консольные команды, git, правка файлов, (возможно) headless браузер).
Для отчёта предоставляются логи её действий, вызовов инструментов и этапы рассуждений, что может помочь разобраться, если что-то пошло не так
#ai #agents
Итак, у нас появился новый тип инструментов, которые пробудут с нами некоторое время, и их роль будет только возрастать, и это - асинхронные облачные ИИ-агенты (для краткости - фоновые агенты).
Как и любой другой инструмент, этот имеет свои особенности, сферы применения, и его нужно учиться использовать и включать в рабочие процессы.
Для начала расскажу, о чём это всё, а позже опишу подробно свои впечатления по некоторым из фоновых агентов и дам сравнение.
Для кого это?
Фоновые агенты нацелены больше на senior+ разработчиков и предназначены для повышения их продуктивности.
Идея в том, чтобы делегировать ИИ-агентам посильные задачи, над которыми они будут работать без вашего участия.
Это позволяет меньше отвлекаться на рутину и больше фокусироваться на сложных/творческих проблемах.
Больше всего это похоже на то, как будто бы у вас есть на подхвате несколько джунов, которые между собой не общаются, каждый раз видят проект как в первый раз, но могут быстро в параллель работать над небольшими задачами, и всегда при этом доступны.
Что им можно скормить?
Как правило, такие задачи, которые не особо интересно делать:
● фиксинг мелких багов;
● реализация небольших новых и чётко очерченных фич;
● закодить что-то по существующему в проекте шаблону (всякие CRUD'ы, к примеру);
● написание и отладка тестов;
● мелкий рефакторинг кода;
● создание или обновление документации;
● ... и прочие рутинные или трудоемкие задачи, отнимающие время.
Можно глянуть список промптов для Google Jules, чтобы получить более полное представление.
Как это работает?
Фоновые агенты выпустили несколько компаний, но общий принцип их работы довольно схож:
1. Постановка задачи: обычно через чат или через назначение агенту таски на GitHub (кстати, все они ожидают того, что ваш код хостится на GitHub)
2. Создание изолированного окружения: как правило, в облаке поднимается контейнер или VM, а потом туда клонируется репозиторий проекта
3. Автономная работа: в этой "песочнице" агент автономно работает над задачей. Типичные этапы его работы:
● Исследование: поиск релевантных задаче документации и кода
● Планирование: анализ задачи, опционально - разбивка на более мелкие подзадачи и построение плана
● Редактирование: собственно, работа с кодом и/или документацией
● Проверка: запуск линтера, билда, тестов, исправление найденных проблем в цикле
В работу некоторых агентов можно вмешиваться на ходу, но по большей части контроля над агентом, кроме полной его остановки, нет до тех пор, пока он не сочтёт задачу выполненной или не завершится по таймауту/ошибке
4. Параллелизация: большинство фоновых агентов поддерживают одновременное выполнение нескольких задач, каждой в своей изолированной среде. Это позволяет делегировать сразу несколько потоков работы - и это, на мой взгляд, самое важное их преимущество
Есть параллелизация и другого рода, когда одну и ту же задачу ставят сразу нескольким копиям агента, чтобы по итогу выбрать понравившееся решение.
С людьми такой финт ушами разве что Том Демарко в своём романе "Deadline" мог себе позволить :)
5. Developer-in-the-loop: финальный контроль остается за человеком. Агент не вносит изменения напрямую в основную ветку, вместо этого он:
● Предлагает результат: чаще всего этого готовый pull request в GitHub, но иногда и просто диффы, которые можно применить в открытом проекте
● Ждёт одобрения: разработчик просматривает PR, принимает изменения или отправляет на доработку через сообщение в чате или комментарий к PR на GitHub
6. Прозрачность: основа агента - LLM, работающая со своим набором инструментов, которые есть в песочнице (консольные команды, git, правка файлов, (возможно) headless браузер).
Для отчёта предоставляются логи её действий, вызовов инструментов и этапы рассуждений, что может помочь разобраться, если что-то пошло не так
#ai #agents
5👍15🔥7❤6
Фоновые агенты (2/3)
Плюсы (ожидаемые)
● Освобождение фокуса активного внимания: не нужно бебиситтить текущую задачу, как в AI IDE, а можно передать её агенту, чтобы он занимался ею в фоне.
(первое время, впрочем, всё равно как кот на стиралку будете смотреть за работой агента)
● Повышение продуктивности: разгружает от рутины, которая теперь делается почти сама собой, а ещё можно давать агентам задачи "на ночь", к примеру :)
● Параллельная работа: возможность выполнять несколько задач фоном убирает необходимость переключения контекста между ними
● Доступность: так как агент работает где-то в облаке, вы можете проверять статус его работы, давать ему фидбек и даже ставить новые задачи, не находясь на рабочем месте. Некоторыми агентами можно управлять через мобильное приложение, другими - через веб-интерфейс
Проблемы (куда без них)
● Облачность: работа с кодом ведется на сторонних серверах, что может быть неприемлемо для проектов с жёсткими требованиями к безопасности
● Стоимость: в некоторых случаях придется увеличить ваши бюджеты на ИИ-кодинг, для некоторых агентов - значительно. Впрочем, пока что есть и бесплатные варианты
● Скорость - чаще всего фоновый агент работает медленнее, чем если бы задачу решали в том же Cursor. Это потому, что ему нужно с нуля развернуть среду, поставить зависимости, скачать код, да и выделяемые виртуалки как правило не такие быстрые, особенно если вам нужно билдить/тестить тяжёлый проект
● Доступ в интернет: не у всех агентов он есть. Тут важен баланс - с одной стороны, если агенты могут сами лазить в сеть (скажем, для поиска актуальной информации), то это повышает риск утечек. А с другой - агенты без доступа не могут какую-то зависимость на ходу поставить или обратиться к внешнему ресурсу типа Remote MCP
● Общая нестабильность: все текущие фоновые агенты находятся в статусе preview / ранних бета-версий, так что эпизодически что-то ломается то в инфраструктуре, то в работе самого агента.
В таком случае проще всего пересоздать/переназначить задачу, и тем самым запустить агента заново
Хорошие практики
● Линтинг/билд/тесты - чтобы агент мог сам проверить результат своей работы, эти вещи крайне желательно иметь в проекте, иначе проверка ляжет на вас, что значительно удлинит итерации работы с агентом.
Да и в целом это всё нормальные части пайплайна разработки здорового человека
● Предоставление контекста: критичным становится дать агенту всю необходимую информацию на старте, корректно поставив задачу и сказав, где искать документацию (которую тоже нужно иметь в проекте в виде, к примеру, Memory Bank).
Вы его отпускаете в бесконтрольную неизвестность на несколько десятков минут всё-таки :)
В качестве лайфхака: ставьте задачи агенту при помощи LLM прям в чате того же Cursor, собрав нужный контекст
● Настройка окружения: по-хорошему, агенту нужна среда со всеми зависимостями (код, системные пакеты, БД и т.п.), что может быть нетривиальной задачей для сложных проектов.
Некоторые агенты добавляют проблем с тем, что у них ограничены возможности по кастомизации окружения
Так что если у вас есть DevOps-скиллы, тут-то они вам и пригодятся :)
Настроенное воспроизводимое окружение - мастхэв в нормальном проекте, это будет в плюс не только в работе с агентами
● Конфликты: как и в случае работы нескольких людей над одной кодовой базой, можно получить конфликты при мерже их изменений в основную ветку.
Так что в параллель надо ставить те задачи, которые не приведут к изменению одних и тех же файлов. Ну и/или понимать, как работать с ветками, конфликтами, мержами/ребейзами в Git
● Контроль качества: LLM совершают ошибки, галлюцинируют, принимают неоптимальные решения - это норма, так что человеческий контроль и ревью обязательны.
Привыкайте к тому, что разбор пулл-реквестов станет частью вашей работы
● Не давать сложных/многоступенчатых задач - тут наработанная конкретно вами практика постановки и оценки результатов работы агентов важнее, но в целом задачи должны быть небольшие/"плоские"/изолированные - с такими текущие агенты справляются успешнее
#ai #agents
Плюсы (ожидаемые)
● Освобождение фокуса активного внимания: не нужно бебиситтить текущую задачу, как в AI IDE, а можно передать её агенту, чтобы он занимался ею в фоне.
(первое время, впрочем, всё равно как кот на стиралку будете смотреть за работой агента)
● Повышение продуктивности: разгружает от рутины, которая теперь делается почти сама собой, а ещё можно давать агентам задачи "на ночь", к примеру :)
● Параллельная работа: возможность выполнять несколько задач фоном убирает необходимость переключения контекста между ними
● Доступность: так как агент работает где-то в облаке, вы можете проверять статус его работы, давать ему фидбек и даже ставить новые задачи, не находясь на рабочем месте. Некоторыми агентами можно управлять через мобильное приложение, другими - через веб-интерфейс
Проблемы (куда без них)
● Облачность: работа с кодом ведется на сторонних серверах, что может быть неприемлемо для проектов с жёсткими требованиями к безопасности
● Стоимость: в некоторых случаях придется увеличить ваши бюджеты на ИИ-кодинг, для некоторых агентов - значительно. Впрочем, пока что есть и бесплатные варианты
● Скорость - чаще всего фоновый агент работает медленнее, чем если бы задачу решали в том же Cursor. Это потому, что ему нужно с нуля развернуть среду, поставить зависимости, скачать код, да и выделяемые виртуалки как правило не такие быстрые, особенно если вам нужно билдить/тестить тяжёлый проект
● Доступ в интернет: не у всех агентов он есть. Тут важен баланс - с одной стороны, если агенты могут сами лазить в сеть (скажем, для поиска актуальной информации), то это повышает риск утечек. А с другой - агенты без доступа не могут какую-то зависимость на ходу поставить или обратиться к внешнему ресурсу типа Remote MCP
● Общая нестабильность: все текущие фоновые агенты находятся в статусе preview / ранних бета-версий, так что эпизодически что-то ломается то в инфраструктуре, то в работе самого агента.
В таком случае проще всего пересоздать/переназначить задачу, и тем самым запустить агента заново
Хорошие практики
● Линтинг/билд/тесты - чтобы агент мог сам проверить результат своей работы, эти вещи крайне желательно иметь в проекте, иначе проверка ляжет на вас, что значительно удлинит итерации работы с агентом.
Да и в целом это всё нормальные части пайплайна разработки здорового человека
● Предоставление контекста: критичным становится дать агенту всю необходимую информацию на старте, корректно поставив задачу и сказав, где искать документацию (которую тоже нужно иметь в проекте в виде, к примеру, Memory Bank).
Вы его отпускаете в бесконтрольную неизвестность на несколько десятков минут всё-таки :)
В качестве лайфхака: ставьте задачи агенту при помощи LLM прям в чате того же Cursor, собрав нужный контекст
● Настройка окружения: по-хорошему, агенту нужна среда со всеми зависимостями (код, системные пакеты, БД и т.п.), что может быть нетривиальной задачей для сложных проектов.
Некоторые агенты добавляют проблем с тем, что у них ограничены возможности по кастомизации окружения
Так что если у вас есть DevOps-скиллы, тут-то они вам и пригодятся :)
Настроенное воспроизводимое окружение - мастхэв в нормальном проекте, это будет в плюс не только в работе с агентами
● Конфликты: как и в случае работы нескольких людей над одной кодовой базой, можно получить конфликты при мерже их изменений в основную ветку.
Так что в параллель надо ставить те задачи, которые не приведут к изменению одних и тех же файлов. Ну и/или понимать, как работать с ветками, конфликтами, мержами/ребейзами в Git
● Контроль качества: LLM совершают ошибки, галлюцинируют, принимают неоптимальные решения - это норма, так что человеческий контроль и ревью обязательны.
Привыкайте к тому, что разбор пулл-реквестов станет частью вашей работы
● Не давать сложных/многоступенчатых задач - тут наработанная конкретно вами практика постановки и оценки результатов работы агентов важнее, но в целом задачи должны быть небольшие/"плоские"/изолированные - с такими текущие агенты справляются успешнее
#ai #agents
5👍12🔥7❤2
Фоновые агенты (3/3)
Что это меняет?
● Повышение уровня абстракции: для разработчиков становится проще переход к задачам более высокого уровня вместо написания кода.
Это ожидаемая и неизбежная трансформация профессии по мере улучшения ИИ-моделей.
Чтобы не повторяться: после выхода сценария AI 2027 я писал, куда развиваться, чтобы быть готовым к грядущим изменениям
● Адаптация рабочего процесса для эффективного включения в него агентов. Придётся потратить некоторое время как на технические изменения (что проще), так и на то, чтобы изменить свои привычки (что чутка сложнее).
Качественно этот переход можно сравнить с тем, как если бы от рядового разработчика нужно было бы перейти к техлидству (самое время менять название канала на AI-техлид, хехе :))
Хорошей ментальной моделью может стать то, что изображено на картинке к посту.
Появляются этапы, на которых можно работать с задачами в режиме конвейера - подряд несколько задач перекинуть на агентов, потом подряд несколько проверить, по нескольким сразу дать фидбек/вмержить.
Без фоновых агентов все эти этапы для каждой задачи проходят последовательно, и в случае использования AI IDE мы просто ждём, пока агент закончит работу (не всегда, но чаще всего), попутно отвлекаясь и теряя фокус.
А теперь есть возможность конвейерной и параллельной работы над задачами - и это то, к чему придёт профессия уже в недалёком будущем
● В перспективе агенты будут умнеть и смогут брать задачи больше и сложнее.
Адаптировать проекты, процессы и свои ментальные модели под них нужно начинать уже сейчас
Краткое сравнение
● Google Jules - проще всего с него начать: 60 (!) задач в день, бесплатно, пусть слабая кастомизация и интеграция, но для попробовать - очень хорошо
● OpenAI Codex - теперь входит в подписку Plus ($20), поудобнее, чем Jules и чуть более фичастый, а вчера ему провели Интернет.
Конкретные лимиты не озвучены, но говорят, что щедрые
● Cursor Background Agent - дорого (только для MAX-режима), нестабильно и требует включения возможности обучения на вашем коде
● GitHub Copilot code agent - лучший по кастомизации, интеграции в сам GitHub и фичам, я сам его использую сейчас как основной.
Доступен в планах от $39 (туда же входят 1500 запросов в месяц, которые шарятся между агентом и самим Copilot, и их можно использовать в Roo Code, полуофициально).
#ai #agents
Что это меняет?
● Повышение уровня абстракции: для разработчиков становится проще переход к задачам более высокого уровня вместо написания кода.
Это ожидаемая и неизбежная трансформация профессии по мере улучшения ИИ-моделей.
Чтобы не повторяться: после выхода сценария AI 2027 я писал, куда развиваться, чтобы быть готовым к грядущим изменениям
● Адаптация рабочего процесса для эффективного включения в него агентов. Придётся потратить некоторое время как на технические изменения (что проще), так и на то, чтобы изменить свои привычки (что чутка сложнее).
Качественно этот переход можно сравнить с тем, как если бы от рядового разработчика нужно было бы перейти к техлидству (самое время менять название канала на AI-техлид, хехе :))
Хорошей ментальной моделью может стать то, что изображено на картинке к посту.
Появляются этапы, на которых можно работать с задачами в режиме конвейера - подряд несколько задач перекинуть на агентов, потом подряд несколько проверить, по нескольким сразу дать фидбек/вмержить.
Без фоновых агентов все эти этапы для каждой задачи проходят последовательно, и в случае использования AI IDE мы просто ждём, пока агент закончит работу (не всегда, но чаще всего), попутно отвлекаясь и теряя фокус.
А теперь есть возможность конвейерной и параллельной работы над задачами - и это то, к чему придёт профессия уже в недалёком будущем
● В перспективе агенты будут умнеть и смогут брать задачи больше и сложнее.
Адаптировать проекты, процессы и свои ментальные модели под них нужно начинать уже сейчас
Краткое сравнение
● Google Jules - проще всего с него начать: 60 (!) задач в день, бесплатно, пусть слабая кастомизация и интеграция, но для попробовать - очень хорошо
● OpenAI Codex - теперь входит в подписку Plus ($20), поудобнее, чем Jules и чуть более фичастый, а вчера ему провели Интернет.
Конкретные лимиты не озвучены, но говорят, что щедрые
● Cursor Background Agent - дорого (только для MAX-режима), нестабильно и требует включения возможности обучения на вашем коде
● GitHub Copilot code agent - лучший по кастомизации, интеграции в сам GitHub и фичам, я сам его использую сейчас как основной.
Доступен в планах от $39 (туда же входят 1500 запросов в месяц, которые шарятся между агентом и самим Copilot, и их можно использовать в Roo Code, полуофициально).
#ai #agents
5🔥16👍12❤3
ChatGPT o3-pro
Вчера OpenAI выпустила улучшенный вариант своего флагманского ризонера - o3-pro, который они сами описывают как "o3 с бóльшим компьютом для улучшенных ответов".
Бенчмарки
По тем бенчмаркам, которые предоставили OpenAI, модель, ожидаемо, выглядит лучше, чем o3.
С моделями других компаний прямого сравнения не было, так что сравним с теми, что нам известны по прошлым замерам на тех же бенчмарках:
GPQA Diamond (разнообразные вопросы по биологии, физике и химии уровня магистратуры)
● Gemini 2.5 Pro 06-05: 86.4%
● Gemini 2.5 Pro 03-25: 84%
🔴 o3-pro: 84%
AIME 2024 (школьная математическая олимпиада)
🟢 o3-Pro: 93%
● Gemini 2.5 Pro 03-25: 92%
(стоит отметить, что Gemini 2.5 Pro 03-25 - "старая" модель, 2 релиза назад)
Модель доступна:
● в плане ChatGPT Pro за $200/мес
● в OpenAI API: $20 input / $80 output за 1м токенов (требуется верификация)
● и даже в Cursor, но сколько она там стоит - на текущий момент неизвестно
Как использовать
Лучше всего там, где обычно и нужно использовать мощные ризонеры: архитектура, планирование, брейнштормы, глубокие и сложные проблемы.
Будет ли она страдать от тех же проблем, что и o3 - время покажет
#ai #model #news
Вчера OpenAI выпустила улучшенный вариант своего флагманского ризонера - o3-pro, который они сами описывают как "o3 с бóльшим компьютом для улучшенных ответов".
Бенчмарки
По тем бенчмаркам, которые предоставили OpenAI, модель, ожидаемо, выглядит лучше, чем o3.
С моделями других компаний прямого сравнения не было, так что сравним с теми, что нам известны по прошлым замерам на тех же бенчмарках:
GPQA Diamond (разнообразные вопросы по биологии, физике и химии уровня магистратуры)
● Gemini 2.5 Pro 06-05: 86.4%
● Gemini 2.5 Pro 03-25: 84%
🔴 o3-pro: 84%
AIME 2024 (школьная математическая олимпиада)
🟢 o3-Pro: 93%
● Gemini 2.5 Pro 03-25: 92%
(стоит отметить, что Gemini 2.5 Pro 03-25 - "старая" модель, 2 релиза назад)
Модель доступна:
● в плане ChatGPT Pro за $200/мес
● в OpenAI API: $20 input / $80 output за 1м токенов (требуется верификация)
● и даже в Cursor, но сколько она там стоит - на текущий момент неизвестно
Как использовать
Лучше всего там, где обычно и нужно использовать мощные ризонеры: архитектура, планирование, брейнштормы, глубокие и сложные проблемы.
Будет ли она страдать от тех же проблем, что и o3 - время покажет
#ai #model #news
👍7🔥7❤5
Снижение цен на ChatGPT o3
Собственно o3-pro стоило выпустить хотя бы ради того, чтобы снизить цены на o3 :)
Стоит o3 теперь сравнимо с Gemini 2.5 Pro, дешевле GPT-4o и одинаково с GPT-4.1:
$2 input / $8 output за 1м токенов
(для использования по API требуется верификация)
И в Cursor вызов к ней теперь тарифицируется как 1 запрос ($0.04).
Что это меняет?
Для меня не так много: код с её помощью писать - то ещё развлечение (см. ниже), а для чистого ризонинга она сравнима с Gemini 2.5 Pro, работать с которой мне приятнее.
Но то, что у нас теперь есть ещё один дешёвый и при этом мощный ризонер - это прекрасно, т.к. задачи они решают по-разному, и, если один не справился, можно дать шанс другому :)
Особенности
Краткий обновленный пересказ из прошлого обзора:
Вердикт для разработчиков
● Модель хороша для решения узких сложных задач, фиксов нетривиальных багов, но её не так эффективно использовать где-то ещё из-за вышеперечисленных минусов.
● Передача контекста заранее является особенно важным - описывайте задачу подробнее и со всеми ограничениями, накладываемыми на потенциальное решение.
● Для ответственных задач, которые выходят за рамки вашей собственной интуиции/понимания, и которые нельзя легко проверить, использовать её нужно с осторожностью, и обязательно делать кросс-чек с той же Gemini 2.5 Pro / специалистами в теме.
#ai #model #review
Собственно o3-pro стоило выпустить хотя бы ради того, чтобы снизить цены на o3 :)
Стоит o3 теперь сравнимо с Gemini 2.5 Pro, дешевле GPT-4o и одинаково с GPT-4.1:
$2 input / $8 output за 1м токенов
(для использования по API требуется верификация)
И в Cursor вызов к ней теперь тарифицируется как 1 запрос ($0.04).
Что это меняет?
Для меня не так много: код с её помощью писать - то ещё развлечение (см. ниже), а для чистого ризонинга она сравнима с Gemini 2.5 Pro, работать с которой мне приятнее.
Но то, что у нас теперь есть ещё один дешёвый и при этом мощный ризонер - это прекрасно, т.к. задачи они решают по-разному, и, если один не справился, можно дать шанс другому :)
Особенности
Краткий обновленный пересказ из прошлого обзора:
🟢 Мощный ризонинг - главное преимущество, но теперь уже не такое явное на фоне Gemini
🟢 Использование инструментов - прошлые модели о-серии использовали инструменты либо нехотя, либо вообще отказывались их задействовать. По факту, лучший Tool Use сейчас всё равно у Claude 4
🟡 (Само)уверенность и неуступчивость - o3 реже вам поддакивает и соглашается, если вы ей возражаете, и может аргументированно отстаивать свою позицию.
Это ценно для брейншторминга и поиска объективных решений там, где разные мнения имеют право на существование, но запросто может и создавать проблемы.
🔴 Малая длина фактического вывода
● модель скупа на количество выдаваемого кода, пытается его ужать там, где это лишено смысла;
● не дает пояснений к тому, что делает и комментариев к нетривиальному коду.
🔴 Галлюцинации - есть много жалоб на галлюцинации, особенно на нишевых темах, и этому есть даже подтверждения в system card модели от самих OpenAI.
🔴 "Враньё" - а эта проблема посерьёзнее - сообщения пользователей (и отчёт TransluceAI) о том, что модель может фабриковать информацию о своих действиях (например, имитировать поиск или вызов других тулов) и настаивать на своем, даже будучи неправой.
Вердикт для разработчиков
● Модель хороша для решения узких сложных задач, фиксов нетривиальных багов, но её не так эффективно использовать где-то ещё из-за вышеперечисленных минусов.
● Передача контекста заранее является особенно важным - описывайте задачу подробнее и со всеми ограничениями, накладываемыми на потенциальное решение.
● Для ответственных задач, которые выходят за рамки вашей собственной интуиции/понимания, и которые нельзя легко проверить, использовать её нужно с осторожностью, и обязательно делать кросс-чек с той же Gemini 2.5 Pro / специалистами в теме.
#ai #model #review
👍8🔥6❤5
This media is not supported in your browser
VIEW IN TELEGRAM
Микроменеджмент 2.0
—
От пояснительной бригады:
Ну реально сложно удержаться временами :)
#fun #agents
—
От пояснительной бригады:
В работу некоторых агентов можно вмешиваться на ходу, но по большей части контроля над агентом нет до тех пор, пока он не сочтёт задачу выполненной или не завершится по таймауту/ошибке
Фоновые агенты
Ну реально сложно удержаться временами :)
#fun #agents
😁18❤6🔥5👍4🤣2
Cursor Ultra и новый бесконечный (нет) Pro
Cursor отжигает в последнее время, конечно :)
Сообщество снова немного порвалось.
Что изменилось?
🆕 Новый план "Ultra"
● $200 в месяц за x20 лимитов на использование моделей по сравнению с Pro.
План для самых продвинутых и, очевидно, ещё более cost insensitive пользователей :)
При этом покрывает ли он запросы к MAX-моделям, пока что неизвестно
🔄 Изменения в плане "Pro"
● Было: 500 "быстрых" запросов за $20/мес.
● Стало: "бесконечное" количество запросов, но с динамическими лимитами
Что за динамические лимиты?
Теперь количество запросов, которые вы можете сделать, зависит от общего "compute usage", который, в свою очередь, зависит от:
● частоты и длительности ваших запросов;
● используемой модели (Opus дороже, чем Sonnet);
● длины сообщений, включая прикрепленные файлы и историю чата.
Лимиты могут быть:
● локальные (local): восстанавливаются полностью каждые несколько часов.
● пиковые (burst): можно использовать в любой момент для особо интенсивных сессий, но восстанавливаются они медленно.
Такая схема, к слову, не уникальна и напоминает Claude Code, где лимиты тоже динамические и восстанавливаются спустя некоторое время.
Но предсказать, когда именно вы упрётесь в лимит, по той информации, что у нас сейчас есть, невозможно.
Один из членов команды Cursor предложил думать о лимитах как о здоровье в видеоиграх, которое восстанавливается со временем.
Отличная аналогия, вот только "полоски здоровья" у нас нет.
Что делать, если лимит исчерпан?
● переключиться на модель попроще (например, Sonnet вместо Opus)
● перейти на более дорогой план (тот самый Ultra)
● включить оплату по факту использования (usage-based pricing), чтобы докупать "пиковые" лимиты
А есть ли плюсы?
🟢 Снято ограничение на вызовы тулов
Раньше в обычном режиме агент останавливался после 25 вызовов инструментов, а теперь этого ограничения нет - агент будет работать до тех пор, пока не закончит с задачей.
И это отлично - меньше придётся отвлекаться
🟢 Щедрые лимиты (в теории)
Команда Cursor обещает, что по факту новые динамические лимиты станут для большинства пользователей более щедрыми, чем старые 500 запросов.
Если это окажется правдой, то тоже хорошие новости
Что со старым Pro планом?
В настройках аккаунта (Settings -> Advanced Account Settings) всё ещё можно вернуться на "классический" план с 500 запросами.
❗️Однако некоторые пользователи, которые на него переключились, сообщают, что запросы теперь улетают в несколько раз быстрее.
Так что, пока не будет каких-то последующих разъяснений, переключаться на старую схему не стоит.
Что в итоге?
Противоречивый апдейт.
Но проблема скорее даже не в изменениях, а в их внезапности и непрозрачности условий.
Команда Cursor пообещала дать разъяснения в ближайшее время - может, будет больше ясности относительно того, как работает система лимитов.
P.S.
К слову, я в последнее время в рамках периодического исследования инструментов перепробовал Claude Desktop/Code, Augment Code и GitHub Copilot, и, в случае чего, нам есть куда идти :)
#cursor #news #development
Cursor отжигает в последнее время, конечно :)
Сообщество снова немного порвалось.
Что изменилось?
🆕 Новый план "Ultra"
● $200 в месяц за x20 лимитов на использование моделей по сравнению с Pro.
План для самых продвинутых и, очевидно, ещё более cost insensitive пользователей :)
При этом покрывает ли он запросы к MAX-моделям, пока что неизвестно
🔄 Изменения в плане "Pro"
● Было: 500 "быстрых" запросов за $20/мес.
● Стало: "бесконечное" количество запросов, но с динамическими лимитами
Что за динамические лимиты?
Теперь количество запросов, которые вы можете сделать, зависит от общего "compute usage", который, в свою очередь, зависит от:
● частоты и длительности ваших запросов;
● используемой модели (Opus дороже, чем Sonnet);
● длины сообщений, включая прикрепленные файлы и историю чата.
Лимиты могут быть:
● локальные (local): восстанавливаются полностью каждые несколько часов.
● пиковые (burst): можно использовать в любой момент для особо интенсивных сессий, но восстанавливаются они медленно.
Такая схема, к слову, не уникальна и напоминает Claude Code, где лимиты тоже динамические и восстанавливаются спустя некоторое время.
Но предсказать, когда именно вы упрётесь в лимит, по той информации, что у нас сейчас есть, невозможно.
Один из членов команды Cursor предложил думать о лимитах как о здоровье в видеоиграх, которое восстанавливается со временем.
Отличная аналогия, вот только "полоски здоровья" у нас нет.
Что делать, если лимит исчерпан?
● переключиться на модель попроще (например, Sonnet вместо Opus)
● перейти на более дорогой план (тот самый Ultra)
● включить оплату по факту использования (usage-based pricing), чтобы докупать "пиковые" лимиты
А есть ли плюсы?
🟢 Снято ограничение на вызовы тулов
Раньше в обычном режиме агент останавливался после 25 вызовов инструментов, а теперь этого ограничения нет - агент будет работать до тех пор, пока не закончит с задачей.
И это отлично - меньше придётся отвлекаться
🟢 Щедрые лимиты (в теории)
Команда Cursor обещает, что по факту новые динамические лимиты станут для большинства пользователей более щедрыми, чем старые 500 запросов.
Если это окажется правдой, то тоже хорошие новости
Что со старым Pro планом?
В настройках аккаунта (Settings -> Advanced Account Settings) всё ещё можно вернуться на "классический" план с 500 запросами.
❗️Однако некоторые пользователи, которые на него переключились, сообщают, что запросы теперь улетают в несколько раз быстрее.
Так что, пока не будет каких-то последующих разъяснений, переключаться на старую схему не стоит.
Что в итоге?
Противоречивый апдейт.
Но проблема скорее даже не в изменениях, а в их внезапности и непрозрачности условий.
Команда Cursor пообещала дать разъяснения в ближайшее время - может, будет больше ясности относительно того, как работает система лимитов.
P.S.
К слову, я в последнее время в рамках периодического исследования инструментов перепробовал Claude Desktop/Code, Augment Code и GitHub Copilot, и, в случае чего, нам есть куда идти :)
#cursor #news #development
1👍14❤11🔥10
$100-200/мес
С полгода назад я писал, что у компаний-"врапперов моделей", навроде Cursor, есть свои способы экономить:
Уже тогда было понятно, что эта ситуация не может продолжаться бесконечно.
Тем не менее, некоторое время мы, по сути, прожигали деньги инвесторов Cursor/GitHub Copilot/Windsurf/etc :)
Логично, что в какой-то момент этим инвесторам нужно начать получать прибыль от своих вложений.
В последние пару месяцев мы наблюдаем такие изменения в ценовой политике:
● Cursor представляет режим MAX с оплатой по токенам (на 20% дороже API вендоров);
● некоторые фичи Cursor, такие как фоновый агент или доступ к топовым моделям, доступны только в MAX-режиме;
● "безлимитный" план в Cursor по сути дал самому Cursor динамически балансировать свои затраты, сделав непредсказуемыми лимиты для конечных пользователей, с которыми многие начали неожиданно сталкиваться в последние дни;
● GitHub Copilot ввёл подсчёт запросов к Premium-моделям, в которые включаются и вызовы тулзов (из-за чего запросы стали тратиться очень шустро).
Вместе с тем стали появляться планы за $100-200/мес как от компаний-врапперов (Cursor Ultra), так и от вендоров моделей (Claude Max).
Думается, именно этот диапазон цен становится нормальным на подписки для повседневной активной разработки.
И да, это всё ещё дешевле работы напрямую с API.
Справедливости ради, вместе с этим растет качество как самих моделей, так и инструментария.
Ключевой вопрос - что дальше?
Попробуем предсказать ближайшее будущее.
🟡 Постепенное исчезновение оплаты по "запросам", т.к. в ответ на запрос агенты могут работать всё дольше, посылая всё больше API-вызовов к моделям.
Стоит ожидать того, что ценообразование будет больше строиться от реального использования токенов, а не от запросов.
🟡 Наблюдая за тем, в каких объемах генерится код некоторыми пользователями, можно ожидать введения и понижения лимитов на условно-безлимитных тарифах, даже на самых дорогих.
🟡 Опенсурсные и локальные модели подтягиваются по качеству и становятся достаточно хороши для генерации рутинного кода по заранее составленному плану.
Это, в свою очередь, будет тянуть цену генерации такого кода вниз, т.к. не будет смысла задействовать для этого топовые проприетарные модели.
🟡 Встраивание в инструментарий поддержки использования разных моделей для работы над разными задачами.
Скажем, планирование задачи делается мощной моделью, а написание кода - моделью попроще. Поддержка такого сценария местами существует, но пока что недостаточно хорошо реализована.
🟡 Развитие продуктов от вендоров моделей (Claude Code, Gemini CLI) для понижения влияния компаний-врапперов.
Влияние может заключаться в том, что они могут в какой-то момент начать диктовать цены на рынке через захват аудитории и, к примеру, выбивание скидок на API у вендоров.
Вендорам выгоднее либо развивать свою экосистему, либо даже поддерживать открытые решения, которые напрямую работают с API моделей.
🟡 Вряд ли куда-то денется подписочная модель - при правильной юнит-экономике вендоры всё равно на ней будут зарабатывать.
Однако, по мере того, как агенты будут брать на себя всё большие по объему задачи, можно ожидать и роста цен подписок.
🟡 Также вряд ли куда-то денутся бесплатные тиры (Google AI Studio) и дешёвые инструменты (Trae) - хотя бы просто потому, что "если вы не платите за товар, вы и есть товар", т.к. ваши данные могут быть использованы для тренировки будущих моделей или как-то ещё.
Все эти факторы и тренды могут переплетаться разными необычными способами, а мы можем лишь оценивать ситуацию в моменте из-за скорости происходящих изменений.
Так что держим нос по ветру, будет интересно :)
#ai #development #forecast
С полгода назад я писал, что у компаний-"врапперов моделей", навроде Cursor, есть свои способы экономить:
... использование моделей напрямую, через API, а не через Cursor, выходит намного дороже.
Думаю, тут дело в сочетании нескольких факторов:
* использование денег инвесторов для снижения стоимости;
* прямые контракты со скидками с вендорами (OpenAI, Anthropic);
* активное использование своих моделей под капотом, которые, кстати, неплохо работают (тот же автокомплит, к примеру).
Уже тогда было понятно, что эта ситуация не может продолжаться бесконечно.
Тем не менее, некоторое время мы, по сути, прожигали деньги инвесторов Cursor/GitHub Copilot/Windsurf/etc :)
Логично, что в какой-то момент этим инвесторам нужно начать получать прибыль от своих вложений.
В последние пару месяцев мы наблюдаем такие изменения в ценовой политике:
● Cursor представляет режим MAX с оплатой по токенам (на 20% дороже API вендоров);
● некоторые фичи Cursor, такие как фоновый агент или доступ к топовым моделям, доступны только в MAX-режиме;
● "безлимитный" план в Cursor по сути дал самому Cursor динамически балансировать свои затраты, сделав непредсказуемыми лимиты для конечных пользователей, с которыми многие начали неожиданно сталкиваться в последние дни;
● GitHub Copilot ввёл подсчёт запросов к Premium-моделям, в которые включаются и вызовы тулзов (из-за чего запросы стали тратиться очень шустро).
Вместе с тем стали появляться планы за $100-200/мес как от компаний-врапперов (Cursor Ultra), так и от вендоров моделей (Claude Max).
Думается, именно этот диапазон цен становится нормальным на подписки для повседневной активной разработки.
И да, это всё ещё дешевле работы напрямую с API.
Справедливости ради, вместе с этим растет качество как самих моделей, так и инструментария.
Ключевой вопрос - что дальше?
Попробуем предсказать ближайшее будущее.
🟡 Постепенное исчезновение оплаты по "запросам", т.к. в ответ на запрос агенты могут работать всё дольше, посылая всё больше API-вызовов к моделям.
Стоит ожидать того, что ценообразование будет больше строиться от реального использования токенов, а не от запросов.
🟡 Наблюдая за тем, в каких объемах генерится код некоторыми пользователями, можно ожидать введения и понижения лимитов на условно-безлимитных тарифах, даже на самых дорогих.
🟡 Опенсурсные и локальные модели подтягиваются по качеству и становятся достаточно хороши для генерации рутинного кода по заранее составленному плану.
Это, в свою очередь, будет тянуть цену генерации такого кода вниз, т.к. не будет смысла задействовать для этого топовые проприетарные модели.
🟡 Встраивание в инструментарий поддержки использования разных моделей для работы над разными задачами.
Скажем, планирование задачи делается мощной моделью, а написание кода - моделью попроще. Поддержка такого сценария местами существует, но пока что недостаточно хорошо реализована.
🟡 Развитие продуктов от вендоров моделей (Claude Code, Gemini CLI) для понижения влияния компаний-врапперов.
Влияние может заключаться в том, что они могут в какой-то момент начать диктовать цены на рынке через захват аудитории и, к примеру, выбивание скидок на API у вендоров.
Вендорам выгоднее либо развивать свою экосистему, либо даже поддерживать открытые решения, которые напрямую работают с API моделей.
🟡 Вряд ли куда-то денется подписочная модель - при правильной юнит-экономике вендоры всё равно на ней будут зарабатывать.
Однако, по мере того, как агенты будут брать на себя всё большие по объему задачи, можно ожидать и роста цен подписок.
🟡 Также вряд ли куда-то денутся бесплатные тиры (Google AI Studio) и дешёвые инструменты (Trae) - хотя бы просто потому, что "если вы не платите за товар, вы и есть товар", т.к. ваши данные могут быть использованы для тренировки будущих моделей или как-то ещё.
Все эти факторы и тренды могут переплетаться разными необычными способами, а мы можем лишь оценивать ситуацию в моменте из-за скорости происходящих изменений.
Так что держим нос по ветру, будет интересно :)
#ai #development #forecast
1👍23🔥13❤10🤔1
⬆️ Краткий мастер-класс по вайб-кодингу от Илона Маска.
Неужели xAI по внедрению AI в разработку находятся на уровне "2. Копипастинг" по этой классификации?
Или это такой экстремальный догфудинг, пока свой Cursor / Claude Code не написали?
А может, эволюция от монорепы к монофайлу?
Столько вопросов 😄
#fun
Неужели xAI по внедрению AI в разработку находятся на уровне "2. Копипастинг" по этой классификации?
Или это такой экстремальный догфудинг, пока свой Cursor / Claude Code не написали?
А может, эволюция от монорепы к монофайлу?
Столько вопросов 😄
#fun
😁20🔥7🌚1
Claude Code (1/2)
В последние пару месяцев в стане пользователей Cursor наблюдается оживленное броуновское движение, переходящее в массовый исход.
Причины понятны: внезапные смены прайсинга и неявные лимиты подкосили доверие к компании.
Штош, рынок не терпит пустоты.
Куда идти? Я перепробовал несколько разных инструментов и на текущий момент остановился на связке Claude Code + Cursor.
Сейчас их использование для кода у меня разделяется так:
● создание проекта с нуля и массовая кодогенерация - Claude Code
● изменения в небольшом-среднем проекте - Claude Code
● фоновый агент - Claude Code
● изменения в большом проекте, который не готов к AI-кодингу - Cursor
● быстрые фиксы - Cursor
● использование моделей других вендоров - Cursor
● рефакторинг - JetBrains IDEs (внезапно), руками
Плюсы Claude Code в сравнении с Cursor
🟢 Лучше работает с тулзами
Что, впрочем, неудивительно, т.к. и модели, и сам инструмент от одной компании и разработчики смогли качественно запромптить модель, раскрыв её агентский потенциал
🟢 Моделям доступен полный контекст
Ну т.е. все 200к, в отличие от Cursor, где в не-MAX режиме у Sonnet доступно 128k (Opus доступен только в MAX-режиме в Cursor).
🟢 Качественнее управление контекстом
Cursor активно экономит контекст (жмёт, обрезает, выкидывает куски), т.к. по сути ему не выгодно тратить на вас много токенов.
Claude Code не так стеснён в трате токенов, и может себе позволить не вмешиваться сильно в контекст.
Плюс, за счёт использования субагентов есть возможность задействовать несколько независимых полных контекстов в рамках одного запроса.
🟢 Лучше следует плану
По умолчанию и сам строит план с тудушками, и сам ему следует, причём редко когда теряет какие-то пункты.
Планам, которые вы ему дали, тоже следует точнее, чем агент в Cursor.
Тут пара вещей, я думаю, работает - с одной стороны более качественный промптинг на следование инструкциям, а с другой - по мере выполнения этапов плана Claude Code обновляет статус задач и вставляет их список снова и снова в контекст, закрепляя следование намеченному плану.
🟢 Дольше тащит многоэтапные задачи
Это является следствием из всех предыдущих пунктов.
20+ минут - не редкость, а на каких-то широких задачах и больше часа может возиться.
Тем не менее, я бы не делал из этого соревнование по выносливости, т.к. с увеличением времени и сложности задачи агент может идти вразнос, так что задачи с прицелом на долгую работу надо подбирать соответствующие - попроще и параллелизуемые.
🟢 Консольный интерфейс
Мы вообще-то в 2025м и интерфейс Claude Code выглядит довольно... эмм..., весело, всё двигается и играет неземная музыка.
Ну т.е. консоль, да, но вполне современная консоль, насыщенная всякими мелкими визуализациями и шорткатами (которые обязательно надо заранее изучить).
Плюс, много возможностей по кастомизации Claude Code под свои задачи и процессы, включая иерархические инструкции для агента, кастомные команды, хуки, MCP-сервера, SDK, запуск как фонового агента в GitHub и т.д.
Запускать его можно хоть в терминале, хоть в IDE, хоть на удаленном сервере, хоть как часть какого-то пайплайна и т.п.
Короче, если вы фанатеете по настройке систем под себя и креативному использованию инструментов - однозначно затянет :)
#ai #development #cc
В последние пару месяцев в стане пользователей Cursor наблюдается оживленное броуновское движение, переходящее в массовый исход.
Причины понятны: внезапные смены прайсинга и неявные лимиты подкосили доверие к компании.
Штош, рынок не терпит пустоты.
Куда идти? Я перепробовал несколько разных инструментов и на текущий момент остановился на связке Claude Code + Cursor.
Сейчас их использование для кода у меня разделяется так:
● создание проекта с нуля и массовая кодогенерация - Claude Code
● изменения в небольшом-среднем проекте - Claude Code
● фоновый агент - Claude Code
● изменения в большом проекте, который не готов к AI-кодингу - Cursor
● быстрые фиксы - Cursor
● использование моделей других вендоров - Cursor
● рефакторинг - JetBrains IDEs (внезапно), руками
Плюсы Claude Code в сравнении с Cursor
🟢 Лучше работает с тулзами
Что, впрочем, неудивительно, т.к. и модели, и сам инструмент от одной компании и разработчики смогли качественно запромптить модель, раскрыв её агентский потенциал
🟢 Моделям доступен полный контекст
Ну т.е. все 200к, в отличие от Cursor, где в не-MAX режиме у Sonnet доступно 128k (Opus доступен только в MAX-режиме в Cursor).
🟢 Качественнее управление контекстом
Cursor активно экономит контекст (жмёт, обрезает, выкидывает куски), т.к. по сути ему не выгодно тратить на вас много токенов.
Claude Code не так стеснён в трате токенов, и может себе позволить не вмешиваться сильно в контекст.
Плюс, за счёт использования субагентов есть возможность задействовать несколько независимых полных контекстов в рамках одного запроса.
🟢 Лучше следует плану
По умолчанию и сам строит план с тудушками, и сам ему следует, причём редко когда теряет какие-то пункты.
Планам, которые вы ему дали, тоже следует точнее, чем агент в Cursor.
Тут пара вещей, я думаю, работает - с одной стороны более качественный промптинг на следование инструкциям, а с другой - по мере выполнения этапов плана Claude Code обновляет статус задач и вставляет их список снова и снова в контекст, закрепляя следование намеченному плану.
🟢 Дольше тащит многоэтапные задачи
Это является следствием из всех предыдущих пунктов.
20+ минут - не редкость, а на каких-то широких задачах и больше часа может возиться.
Тем не менее, я бы не делал из этого соревнование по выносливости, т.к. с увеличением времени и сложности задачи агент может идти вразнос, так что задачи с прицелом на долгую работу надо подбирать соответствующие - попроще и параллелизуемые.
🟢 Консольный интерфейс
Мы вообще-то в 2025м и интерфейс Claude Code выглядит довольно... эмм..., весело, всё двигается и играет неземная музыка.
Ну т.е. консоль, да, но вполне современная консоль, насыщенная всякими мелкими визуализациями и шорткатами (которые обязательно надо заранее изучить).
Плюс, много возможностей по кастомизации Claude Code под свои задачи и процессы, включая иерархические инструкции для агента, кастомные команды, хуки, MCP-сервера, SDK, запуск как фонового агента в GitHub и т.д.
Запускать его можно хоть в терминале, хоть в IDE, хоть на удаленном сервере, хоть как часть какого-то пайплайна и т.п.
Короче, если вы фанатеете по настройке систем под себя и креативному использованию инструментов - однозначно затянет :)
#ai #development #cc
1👍13🔥11❤5🤩1
Claude Code (2/2)
Недостатки тоже есть, и, хоть они не помешали включению Claude Code в мои процессы, стоит про них знать, как и про способы с ними справляться.
Минусы Claude Code в сравнении с Cursor
🔴 Консольный интерфейс
Нельзя посмотреть/отредактировать код, принять/отклонить изменения, что-то порефакторить и т.п.
Решается просто - в дополнение нужна IDE, к тому же есть простенькие интеграции с VS Code-based и JetBrains IDEs.
🔴 Нет чекпойнтов
Удобная фича Cursor тут отсутствует в принципе, к предыдущему состоянию кода не вернуться, просто промотав историю в чате.
Есть ряд костылей разного качества, но ни один из них не дотягивает до того, как это сделано в Cursor.
Получается, самое трушное - это git branch + (опционально, worktree) + commit после получения ответа агента + squash merge, и с какой-нить автоматизацией, чтобы не делать это каждый раз руками.
Пробовал ещё Claudia и ccundo, но нет, это всё сырые штуки.
🔴 Модели только от Anthropic
Ну т.е. натравить o3/Gemini легко на какую-то проблему не выйдет.
Так что Cursor у меня остается в качестве как IDE, так и второго агента :)
🔴 Нет собственного индекса проекта
Агенту приходится пользоваться базовыми инструментами сбора релевантного контекста каждый раз в новом чате.
Это долго, может засорять контекст и не всегда находит всё нужное.
Решения пока что такие:
● использовать субагентов для предварительного сбора контекста (если у вас проект не на 10м токенов, конечно) - они в параллель довольно качественно просмотрят проект по кускам;
● завести свой
● Memory Bank-like методология ведения документации по проекту.
И обязательно нужно использовать Plan Mode для планирования задач в большой кодовой базе, ревьювить план, и в случае чего руками подкидывать контекст агенту или посылать его изучать релевантные места проекта.
🟡 Дороже?
И да, и нет - за $20 в месяц на плане Pro вы получаете возможность довольно активно пользоваться Sonnet в течение примерно часа каждые 5 часов (лимиты форсятся в рамках 5-часовых сессий).
В сравнимом MAX-режиме в Cursor за час можно легко потратить больше.
А в обычном режиме см. вышеперечисленные плюсы Claude Code, и есть вероятность упереться в заранее неизвестные лимиты в Cursor.
По наблюдениям и личному опыту, после дозы за $20 практически неизбежен переход на один из Max-планов.
В плане Max за $100 даётся ограниченный доступ к Opus и довольно сложно достижимый лимит по работе с Sonnet.
Для проектирования чего-то в Opus и кодогенерации при помощи Sonnet получается комфортно.
А в плане Max за $200 лимиты и Opus становятся весьма щедрыми.
Увы, в Claude Code тоже нет какой-то индикации "маны", кроме предупреждения о том, что приближается лимит в рамках текущей сессии.
И это, кстати, тоже создает возможность динамического изменения как лимитов, так и длины контекста со стороны Anthropic.
А, и да, эти лимиты шарятся с https://claude.ai, Claude Desktop и Claude Code GitHub Actions, которые тоже можно использовать в рамках общей подписки.
Что почитать/посмотреть
Для преодоления кривой обучения стоит потратить 1-2 часа и вдумчиво ознакомиться с базой:
● Mastering Claude Code in 30 minutes - доклад от одного из создателей (Бориса, который успел сходить поработать в Cursor и уже вернулся обратно в Anthropic, пока я собирался писать этот пост :))
● Claude Code in Action - официальный мини-курс по Claude Code от Anthropic
● Claude Code: Best practices for agentic coding - статья с хорошими и не всегда очевидными практиками использования Claude Code
Этот набор ресурсов вам даст больше, чем знает 99%+ пользователей Claude Code :)
#ai #development #cc
Недостатки тоже есть, и, хоть они не помешали включению Claude Code в мои процессы, стоит про них знать, как и про способы с ними справляться.
Минусы Claude Code в сравнении с Cursor
🔴 Консольный интерфейс
Нельзя посмотреть/отредактировать код, принять/отклонить изменения, что-то порефакторить и т.п.
Решается просто - в дополнение нужна IDE, к тому же есть простенькие интеграции с VS Code-based и JetBrains IDEs.
🔴 Нет чекпойнтов
Удобная фича Cursor тут отсутствует в принципе, к предыдущему состоянию кода не вернуться, просто промотав историю в чате.
Есть ряд костылей разного качества, но ни один из них не дотягивает до того, как это сделано в Cursor.
Получается, самое трушное - это git branch + (опционально, worktree) + commit после получения ответа агента + squash merge, и с какой-нить автоматизацией, чтобы не делать это каждый раз руками.
Пробовал ещё Claudia и ccundo, но нет, это всё сырые штуки.
🔴 Модели только от Anthropic
Ну т.е. натравить o3/Gemini легко на какую-то проблему не выйдет.
Так что Cursor у меня остается в качестве как IDE, так и второго агента :)
🔴 Нет собственного индекса проекта
Агенту приходится пользоваться базовыми инструментами сбора релевантного контекста каждый раз в новом чате.
Это долго, может засорять контекст и не всегда находит всё нужное.
Решения пока что такие:
● использовать субагентов для предварительного сбора контекста (если у вас проект не на 10м токенов, конечно) - они в параллель довольно качественно просмотрят проект по кускам;
● завести свой
CLAUDE.md в каждой папке/модуле проекта, который требует описания своего внутреннего устройства и указать там, какие ещё сабмодули лежат ниже в иерархии;● Memory Bank-like методология ведения документации по проекту.
И обязательно нужно использовать Plan Mode для планирования задач в большой кодовой базе, ревьювить план, и в случае чего руками подкидывать контекст агенту или посылать его изучать релевантные места проекта.
🟡 Дороже?
И да, и нет - за $20 в месяц на плане Pro вы получаете возможность довольно активно пользоваться Sonnet в течение примерно часа каждые 5 часов (лимиты форсятся в рамках 5-часовых сессий).
В сравнимом MAX-режиме в Cursor за час можно легко потратить больше.
А в обычном режиме см. вышеперечисленные плюсы Claude Code, и есть вероятность упереться в заранее неизвестные лимиты в Cursor.
По наблюдениям и личному опыту, после дозы за $20 практически неизбежен переход на один из Max-планов.
В плане Max за $100 даётся ограниченный доступ к Opus и довольно сложно достижимый лимит по работе с Sonnet.
Для проектирования чего-то в Opus и кодогенерации при помощи Sonnet получается комфортно.
А в плане Max за $200 лимиты и Opus становятся весьма щедрыми.
Увы, в Claude Code тоже нет какой-то индикации "маны", кроме предупреждения о том, что приближается лимит в рамках текущей сессии.
И это, кстати, тоже создает возможность динамического изменения как лимитов, так и длины контекста со стороны Anthropic.
А, и да, эти лимиты шарятся с https://claude.ai, Claude Desktop и Claude Code GitHub Actions, которые тоже можно использовать в рамках общей подписки.
Что почитать/посмотреть
Для преодоления кривой обучения стоит потратить 1-2 часа и вдумчиво ознакомиться с базой:
● Mastering Claude Code in 30 minutes - доклад от одного из создателей (Бориса, который успел сходить поработать в Cursor и уже вернулся обратно в Anthropic, пока я собирался писать этот пост :))
● Claude Code in Action - официальный мини-курс по Claude Code от Anthropic
● Claude Code: Best practices for agentic coding - статья с хорошими и не всегда очевидными практиками использования Claude Code
Этот набор ресурсов вам даст больше, чем знает 99%+ пользователей Claude Code :)
#ai #development #cc
🔥37👍17❤10🤝4