Этихлид – Telegram
Этихлид
4.81K subscribers
152 photos
23 videos
129 links
Канал техлида с мыслями об AI, IT и спорте.

https://news.1rj.ru/str/etechlead/6 - содержание

https://news.1rj.ru/str/etechlead/8 - о канале

https://news.1rj.ru/str/+NgQZbosvypEyYWQ6 - чат канала, там отвечаю(т) быстрее :)

(без рекламы)
Download Telegram
Google Jules

Сайт: https://jules.google/

Можно поставить задачу в его веб-интерфейсе или в интерфейсе GitHub, где задаче можно присвоить определенный label, на который Jules отреагирует.

Дальше всё как обычно, но со своими особенностями:
● первым делом он составляет план задачи и просит его аппрува (если не заапрувить, он все равно по таймеру начнет выполнять задачу);
● можно в любой момент вмешаться в работу агента, т.к. все время доступен чат с ним;
● Интернет есть;
● планируется фича CodeCast - аудио-саммари последних изменений в конкретном репозитории (не только тех, которые сделал Julie).
Я требую сторисов! Ну или хотя бы зачитывания кода в стихах и с выражением.

Пока что бесплатен, но высок шанс, что придется подождать - во-первых, не во всех странах доступен (предпочтение отдается США), а во-вторых, туда много народу ломанулось, так что записывайтесь в waitlist.

В день даётся сделать 5 задач, за деньги лимит повысить нельзя, но можно попросить его увеличения, если получится обосновать.

Есть список промптов для Jules от самих Google, что даёт понимание того, какие задачи можно решать с его помощью.

Источники:
Официальная документация

Предыдущие анонсы асинхронных облачных агентов:
Cursor Background Agent
OpenAI Codex
GitHub Copilot coding agent

#news
👍7🔥61
Claude 4

❗️Новые релизы от Anthropic - Claude 4 Opus & Sonnet.

🟢 декларируются улучшения по кодингу, использованию агентских инструментов, включая MCP, но ждём сторонних бенчей

🟢 обе модели гибридные, могут работать как в режиме thinking, так и без него, при этом могут использовать в процессе размышлений инструменты

🟢 обещают, что Opus способен справляться с многочасовыми задачами и не деградирует на задачах со многими шагами

🟢 обещают, что Sonnet стал более управляемым и лучше следует инструкциям

🔵 длина контекста осталась такой же, как и у прошлых моделей - 200k

Доступность

● модели уже в Cursor (Sonnet - 0.5 запроса, Sonnet Thinking - 0.75 запроса, Opus - только в MAX mode с нехилыми такими ценами).
Sonnet, получается, стал дешевле, чем был - возможно, на время, так что нужно переключаться.

● добавили в GitHub Copilot

● а Sonnet 4 стал базовой моделью для GitHub Copilot coding agent (как раз его тестирую второй день, расскажу :))

Расширения API

● Code execution tool - можно запускать код через API
● MCP connector - интеграция с протоколом для создания сложных AI workflow
● Files API - для прямой работы с файлами
● Prompt cache - стало можно кэшировать промпты до часа



В целом релиз во многом рассчитан на поддержку сценариев долгой, автономной разработки с помощью инструментов, улучшая применимость моделей в агентских сценариях.
Этому посвящена значительная часть презентации Anthropic сегодня.

И это хорошо ложится в канву новых инструментов для разработки - фоновых агентов, которые стали появляться за последний месяц.

Я пока что настроен слегка скептически на фоне реально хороших релизов от Google в последнее время, но это всё нужно тестировать, конечно.
Уже переключился на Sonnet 4 :)

#ai #news
👍13🔥93
Claude 4, обзор

Прошло несколько дней работы с Claude 4, так что можно сказать пару слов.

Если вкратце, то для меня теперь выбор моделей для разработки выглядит так:

Sonnet 4
● если нужно подёргать много тулов (полазить по проекту, вызвать MCP, просто задачи вида "запускай тесты и фикси баги до посинения, пока всё не исправишь")
● задачи, для которых отсутствует заранее подготовленный контекст или его просто лень собирать :)
● небольшие повседневные задачи, где не нужно много думать
● веб-разработка

Gemini 2.5 Pro
● все задачи, где нужен длинный контекст
● иии... почти все остальные задачи

o3
● случаи, когда нужен чистый ризонинг

Переход с других моделей на Claude 4
● с Sonnet 3.7 - однозначно переходить:
* изменения в коде стали точнее
* лучше следует инструкциям и держит контекст
* менее упорот - иногда всё-таки делает то, что не просят, но намного реже
* новый cutoff - конец января 2025

● с Gemini 2.5 Pro - как минимум, стоит попробовать на своих задачах:
* лучше использует тулы
* структурнее подходит к решению задач

По поводу Opus 4: хорошо кушает токены и, как следствие, деньги (у меня $1/мин уходило в нескольких тестах).

Если у вас есть Claude Max, где не нужно платить за токены, то Opus можно использовать для сложных задач вместо Sonnet 4, а также в сценариях, когда нужно что-то долго делать с активным использованием тулов в процессе.

Далее в основном буду говорить про Sonnet.

Бенчмарки
Если приглядеться к числам на "хардовых" бенчмарках, то выглядит так себе - от мажорного релиза ожидалось большего.
По многим из них новый Sonnet несильно отличается от прошлого 3.7, а местами даже хуже.

Но на паре результаты всё-таки неплохие:
MultiChallenge - стабильность работы в многоходовых диалогах с людьми
Recall on Codebase Questions - метрика от Cursor, про которую ничего, кроме названия, неизвестно - будем считать, что это "доля правильных ответов на вопросы по кодовой базе при её исследовании в режиме агента"

И это подводит нас к следующему пункту:

В чём же хорош Claude 4?
Anthropic в анонсе много говорили именно про использование новых моделей в агентских сценариях и их интеграции в соответствующий инструментарий (например, в Claude Code & Claude Desktop).

И да, это у них вполне получилось - модели действительно очень хорошо работают с разными тулами и тащат длинные задачи (Opus у самих Anthropic работал до 7 часов, а на Reddit был результат в 40+ минут от пользователя).

За счёт этого они в реальной работе оказываются лучше, чем можно было бы предположить, смотря лишь на "хардовые" бенчмарки.

Потенциал Claude 4 не раскрыть в окружении, где нет тулов - у неё просто не так много других способностей, по которым бы её не обходили модели конкурентов.

Особенности
● охотнее сама строит планы для задач и потом их придерживается

● чаще делает какие-то временные скрипты для тестирования, проверки своих гипотез и т.п. Если нет нужного инструмента - сделай его :)
Иногда она их удаляет по завершению задачи, но чаще оставляет в проекте, приходится вычищать.
Anthropic даже в своём Claude 4 prompt engineering best practices добавили секцию о том, как такое поведение ограничить

● помните, что модель стала делать меньше делать то, что не просят?
Так вот, можно наоборот попросить уйти в отрыв: Don't hold back. Give it your all. - это из того же гайда по промптингу Claude 4 :)

Проблемы
● доступность API - это уже стало особенностью Anthropic, что в моменты пиковой нагрузки отваливаются запросы, инференс тормозит и вообще работать невозможно

● всё ещё может ходить кругами при решении проблем, хоть и реже - почему-то именно линейка Sonnet этим выделяется

● смайлики проникли и в Sonnet - ощущение иногда, что с ChatGPT 4o общаешься :)

Заключение
Противоречивый релиз, конечно, вышел.

Anthropic явно сфокусировались на определенных нишах - агентские системы и кодинг, - уйдя от построения моделей общего назначения (возможно, в силу ограниченности ресурсов на фоне конкурентов).

Посмотрим, к чему это их приведёт в перспективе, ну а пока что для Sonnet 4 у меня явно найдётся работа :)

#ai #model #review
👍29🔥115
Фоновые агенты (1/3)

Итак, у нас появился новый тип инструментов, которые пробудут с нами некоторое время, и их роль будет только возрастать, и это - асинхронные облачные ИИ-агенты (для краткости - фоновые агенты).

Как и любой другой инструмент, этот имеет свои особенности, сферы применения, и его нужно учиться использовать и включать в рабочие процессы.

Для начала расскажу, о чём это всё, а позже опишу подробно свои впечатления по некоторым из фоновых агентов и дам сравнение.

Для кого это?
Фоновые агенты нацелены больше на senior+ разработчиков и предназначены для повышения их продуктивности.
Идея в том, чтобы делегировать ИИ-агентам посильные задачи, над которыми они будут работать без вашего участия.
Это позволяет меньше отвлекаться на рутину и больше фокусироваться на сложных/творческих проблемах.

Больше всего это похоже на то, как будто бы у вас есть на подхвате несколько джунов, которые между собой не общаются, каждый раз видят проект как в первый раз, но могут быстро в параллель работать над небольшими задачами, и всегда при этом доступны.

Что им можно скормить?
Как правило, такие задачи, которые не особо интересно делать:

● фиксинг мелких багов;
● реализация небольших новых и чётко очерченных фич;
● закодить что-то по существующему в проекте шаблону (всякие CRUD'ы, к примеру);
● написание и отладка тестов;
● мелкий рефакторинг кода;
● создание или обновление документации;
● ... и прочие рутинные или трудоемкие задачи, отнимающие время.

Можно глянуть список промптов для Google Jules, чтобы получить более полное представление.

Как это работает?
Фоновые агенты выпустили несколько компаний, но общий принцип их работы довольно схож:

1. Постановка задачи: обычно через чат или через назначение агенту таски на GitHub (кстати, все они ожидают того, что ваш код хостится на GitHub)

2. Создание изолированного окружения: как правило, в облаке поднимается контейнер или VM, а потом туда клонируется репозиторий проекта

3. Автономная работа: в этой "песочнице" агент автономно работает над задачей. Типичные этапы его работы:
Исследование: поиск релевантных задаче документации и кода
Планирование: анализ задачи, опционально - разбивка на более мелкие подзадачи и построение плана
Редактирование: собственно, работа с кодом и/или документацией
Проверка: запуск линтера, билда, тестов, исправление найденных проблем в цикле

В работу некоторых агентов можно вмешиваться на ходу, но по большей части контроля над агентом, кроме полной его остановки, нет до тех пор, пока он не сочтёт задачу выполненной или не завершится по таймауту/ошибке

4. Параллелизация: большинство фоновых агентов поддерживают одновременное выполнение нескольких задач, каждой в своей изолированной среде. Это позволяет делегировать сразу несколько потоков работы - и это, на мой взгляд, самое важное их преимущество

Есть параллелизация и другого рода, когда одну и ту же задачу ставят сразу нескольким копиям агента, чтобы по итогу выбрать понравившееся решение.
С людьми такой финт ушами разве что Том Демарко в своём романе "Deadline" мог себе позволить :)

5. Developer-in-the-loop: финальный контроль остается за человеком. Агент не вносит изменения напрямую в основную ветку, вместо этого он:
Предлагает результат: чаще всего этого готовый pull request в GitHub, но иногда и просто диффы, которые можно применить в открытом проекте
Ждёт одобрения: разработчик просматривает PR, принимает изменения или отправляет на доработку через сообщение в чате или комментарий к PR на GitHub

6. Прозрачность: основа агента - LLM, работающая со своим набором инструментов, которые есть в песочнице (консольные команды, git, правка файлов, (возможно) headless браузер).

Для отчёта предоставляются логи её действий, вызовов инструментов и этапы рассуждений, что может помочь разобраться, если что-то пошло не так

#ai #agents
5👍15🔥76
Фоновые агенты (2/3)

Плюсы (ожидаемые)

Освобождение фокуса активного внимания: не нужно бебиситтить текущую задачу, как в AI IDE, а можно передать её агенту, чтобы он занимался ею в фоне.
(первое время, впрочем, всё равно как кот на стиралку будете смотреть за работой агента)

Повышение продуктивности: разгружает от рутины, которая теперь делается почти сама собой, а ещё можно давать агентам задачи "на ночь", к примеру :)

Параллельная работа: возможность выполнять несколько задач фоном убирает необходимость переключения контекста между ними

Доступность: так как агент работает где-то в облаке, вы можете проверять статус его работы, давать ему фидбек и даже ставить новые задачи, не находясь на рабочем месте. Некоторыми агентами можно управлять через мобильное приложение, другими - через веб-интерфейс


Проблемы (куда без них)

Облачность: работа с кодом ведется на сторонних серверах, что может быть неприемлемо для проектов с жёсткими требованиями к безопасности

Стоимость: в некоторых случаях придется увеличить ваши бюджеты на ИИ-кодинг, для некоторых агентов - значительно. Впрочем, пока что есть и бесплатные варианты

Скорость - чаще всего фоновый агент работает медленнее, чем если бы задачу решали в том же Cursor. Это потому, что ему нужно с нуля развернуть среду, поставить зависимости, скачать код, да и выделяемые виртуалки как правило не такие быстрые, особенно если вам нужно билдить/тестить тяжёлый проект

Доступ в интернет: не у всех агентов он есть. Тут важен баланс - с одной стороны, если агенты могут сами лазить в сеть (скажем, для поиска актуальной информации), то это повышает риск утечек. А с другой - агенты без доступа не могут какую-то зависимость на ходу поставить или обратиться к внешнему ресурсу типа Remote MCP

Общая нестабильность: все текущие фоновые агенты находятся в статусе preview / ранних бета-версий, так что эпизодически что-то ломается то в инфраструктуре, то в работе самого агента.
В таком случае проще всего пересоздать/переназначить задачу, и тем самым запустить агента заново


Хорошие практики

Линтинг/билд/тесты - чтобы агент мог сам проверить результат своей работы, эти вещи крайне желательно иметь в проекте, иначе проверка ляжет на вас, что значительно удлинит итерации работы с агентом.
Да и в целом это всё нормальные части пайплайна разработки здорового человека

Предоставление контекста: критичным становится дать агенту всю необходимую информацию на старте, корректно поставив задачу и сказав, где искать документацию (которую тоже нужно иметь в проекте в виде, к примеру, Memory Bank).
Вы его отпускаете в бесконтрольную неизвестность на несколько десятков минут всё-таки :)

В качестве лайфхака: ставьте задачи агенту при помощи LLM прям в чате того же Cursor, собрав нужный контекст

Настройка окружения: по-хорошему, агенту нужна среда со всеми зависимостями (код, системные пакеты, БД и т.п.), что может быть нетривиальной задачей для сложных проектов.
Некоторые агенты добавляют проблем с тем, что у них ограничены возможности по кастомизации окружения

Так что если у вас есть DevOps-скиллы, тут-то они вам и пригодятся :)

Настроенное воспроизводимое окружение - мастхэв в нормальном проекте, это будет в плюс не только в работе с агентами

Конфликты: как и в случае работы нескольких людей над одной кодовой базой, можно получить конфликты при мерже их изменений в основную ветку.
Так что в параллель надо ставить те задачи, которые не приведут к изменению одних и тех же файлов. Ну и/или понимать, как работать с ветками, конфликтами, мержами/ребейзами в Git

Контроль качества: LLM совершают ошибки, галлюцинируют, принимают неоптимальные решения - это норма, так что человеческий контроль и ревью обязательны.
Привыкайте к тому, что разбор пулл-реквестов станет частью вашей работы

Не давать сложных/многоступенчатых задач - тут наработанная конкретно вами практика постановки и оценки результатов работы агентов важнее, но в целом задачи должны быть небольшие/"плоские"/изолированные - с такими текущие агенты справляются успешнее

#ai #agents
5👍12🔥72
Фоновые агенты (3/3)

Что это меняет?

Повышение уровня абстракции: для разработчиков становится проще переход к задачам более высокого уровня вместо написания кода.
Это ожидаемая и неизбежная трансформация профессии по мере улучшения ИИ-моделей.

Чтобы не повторяться: после выхода сценария AI 2027 я писал, куда развиваться, чтобы быть готовым к грядущим изменениям

Адаптация рабочего процесса для эффективного включения в него агентов. Придётся потратить некоторое время как на технические изменения (что проще), так и на то, чтобы изменить свои привычки (что чутка сложнее).

Качественно этот переход можно сравнить с тем, как если бы от рядового разработчика нужно было бы перейти к техлидству (самое время менять название канала на AI-техлид, хехе :))

Хорошей ментальной моделью может стать то, что изображено на картинке к посту.

Появляются этапы, на которых можно работать с задачами в режиме конвейера - подряд несколько задач перекинуть на агентов, потом подряд несколько проверить, по нескольким сразу дать фидбек/вмержить.

Без фоновых агентов все эти этапы для каждой задачи проходят последовательно, и в случае использования AI IDE мы просто ждём, пока агент закончит работу (не всегда, но чаще всего), попутно отвлекаясь и теряя фокус.

А теперь есть возможность конвейерной и параллельной работы над задачами - и это то, к чему придёт профессия уже в недалёком будущем

В перспективе агенты будут умнеть и смогут брать задачи больше и сложнее.
Адаптировать проекты, процессы и свои ментальные модели под них нужно начинать уже сейчас


Краткое сравнение

Google Jules - проще всего с него начать: 60 (!) задач в день, бесплатно, пусть слабая кастомизация и интеграция, но для попробовать - очень хорошо

OpenAI Codex - теперь входит в подписку Plus ($20), поудобнее, чем Jules и чуть более фичастый, а вчера ему провели Интернет.
Конкретные лимиты не озвучены, но говорят, что щедрые

Cursor Background Agent - дорого (только для MAX-режима), нестабильно и требует включения возможности обучения на вашем коде

GitHub Copilot code agent - лучший по кастомизации, интеграции в сам GitHub и фичам, я сам его использую сейчас как основной.
Доступен в планах от $39 (туда же входят 1500 запросов в месяц, которые шарятся между агентом и самим Copilot, и их можно использовать в Roo Code, полуофициально).

#ai #agents
5🔥16👍123
ChatGPT o3-pro

Вчера OpenAI выпустила улучшенный вариант своего флагманского ризонера - o3-pro, который они сами описывают как "o3 с бóльшим компьютом для улучшенных ответов".

Бенчмарки
По тем бенчмаркам, которые предоставили OpenAI, модель, ожидаемо, выглядит лучше, чем o3.

С моделями других компаний прямого сравнения не было, так что сравним с теми, что нам известны по прошлым замерам на тех же бенчмарках:

GPQA Diamond (разнообразные вопросы по биологии, физике и химии уровня магистратуры)
● Gemini 2.5 Pro 06-05: 86.4%
● Gemini 2.5 Pro 03-25: 84%
🔴 o3-pro: 84%

AIME 2024 (школьная математическая олимпиада)
🟢 o3-Pro: 93%
Gemini 2.5 Pro 03-25: 92%

(стоит отметить, что Gemini 2.5 Pro 03-25 - "старая" модель, 2 релиза назад)

Модель доступна:
в плане ChatGPT Pro за $200/мес
в OpenAI API: $20 input / $80 output за 1м токенов (требуется верификация)
и даже в Cursor, но сколько она там стоит - на текущий момент неизвестно

Как использовать
Лучше всего там, где обычно и нужно использовать мощные ризонеры: архитектура, планирование, брейнштормы, глубокие и сложные проблемы.

Будет ли она страдать от тех же проблем, что и o3 - время покажет

#ai #model #news
👍7🔥75
Снижение цен на ChatGPT o3

Собственно o3-pro стоило выпустить хотя бы ради того, чтобы снизить цены на o3 :)

Стоит o3 теперь сравнимо с Gemini 2.5 Pro, дешевле GPT-4o и одинаково с GPT-4.1:
$2 input / $8 output за 1м токенов
(для использования по API требуется верификация)

И в Cursor вызов к ней теперь тарифицируется как 1 запрос ($0.04).

Что это меняет?
Для меня не так много: код с её помощью писать - то ещё развлечение (см. ниже), а для чистого ризонинга она сравнима с Gemini 2.5 Pro, работать с которой мне приятнее.

Но то, что у нас теперь есть ещё один дешёвый и при этом мощный ризонер - это прекрасно, т.к. задачи они решают по-разному, и, если один не справился, можно дать шанс другому :)

Особенности
Краткий обновленный пересказ из прошлого обзора:

🟢 Мощный ризонинг - главное преимущество, но теперь уже не такое явное на фоне Gemini

🟢 Использование инструментов - прошлые модели о-серии использовали инструменты либо нехотя, либо вообще отказывались их задействовать. По факту, лучший Tool Use сейчас всё равно у Claude 4

🟡 (Само)уверенность и неуступчивость - o3 реже вам поддакивает и соглашается, если вы ей возражаете, и может аргументированно отстаивать свою позицию.
Это ценно для брейншторминга и поиска объективных решений там, где разные мнения имеют право на существование, но запросто может и создавать проблемы.

🔴 Малая длина фактического вывода
● модель скупа на количество выдаваемого кода, пытается его ужать там, где это лишено смысла;
● не дает пояснений к тому, что делает и комментариев к нетривиальному коду.

🔴 Галлюцинации - есть много жалоб на галлюцинации, особенно на нишевых темах, и этому есть даже подтверждения в system card модели от самих OpenAI.

🔴 "Враньё" - а эта проблема посерьёзнее - сообщения пользователей (и отчёт TransluceAI) о том, что модель может фабриковать информацию о своих действиях (например, имитировать поиск или вызов других тулов) и настаивать на своем, даже будучи неправой.


Вердикт для разработчиков
● Модель хороша для решения узких сложных задач, фиксов нетривиальных багов, но её не так эффективно использовать где-то ещё из-за вышеперечисленных минусов.

● Передача контекста заранее является особенно важным - описывайте задачу подробнее и со всеми ограничениями, накладываемыми на потенциальное решение.

Для ответственных задач, которые выходят за рамки вашей собственной интуиции/понимания, и которые нельзя легко проверить, использовать её нужно с осторожностью, и обязательно делать кросс-чек с той же Gemini 2.5 Pro / специалистами в теме.

#ai #model #review
👍8🔥65
This media is not supported in your browser
VIEW IN TELEGRAM
Микроменеджмент 2.0



От пояснительной бригады:
В работу некоторых агентов можно вмешиваться на ходу, но по большей части контроля над агентом нет до тех пор, пока он не сочтёт задачу выполненной или не завершится по таймауту/ошибке

Фоновые агенты


Ну реально сложно удержаться временами :)

#fun #agents
😁186🔥5👍4🤣2
Cursor Ultra и новый бесконечный (нет) Pro

Cursor отжигает в последнее время, конечно :)
Сообщество снова немного порвалось.

Что изменилось?

🆕 Новый план "Ultra"
$200 в месяц за x20 лимитов на использование моделей по сравнению с Pro.
План для самых продвинутых и, очевидно, ещё более cost insensitive пользователей :)
При этом покрывает ли он запросы к MAX-моделям, пока что неизвестно

🔄 Изменения в плане "Pro"
● Было: 500 "быстрых" запросов за $20/мес.
● Стало: "бесконечное" количество запросов, но с динамическими лимитами

Что за динамические лимиты?

Теперь количество запросов, которые вы можете сделать, зависит от общего "compute usage", который, в свою очередь, зависит от:
● частоты и длительности ваших запросов;
● используемой модели (Opus дороже, чем Sonnet);
● длины сообщений, включая прикрепленные файлы и историю чата.

Лимиты могут быть:
● локальные (local): восстанавливаются полностью каждые несколько часов.
● пиковые (burst): можно использовать в любой момент для особо интенсивных сессий, но восстанавливаются они медленно.

Такая схема, к слову, не уникальна и напоминает Claude Code, где лимиты тоже динамические и восстанавливаются спустя некоторое время.

Но предсказать, когда именно вы упрётесь в лимит, по той информации, что у нас сейчас есть, невозможно.

Один из членов команды Cursor предложил думать о лимитах как о здоровье в видеоиграх, которое восстанавливается со временем.
Отличная аналогия, вот только "полоски здоровья" у нас нет.

Что делать, если лимит исчерпан?
● переключиться на модель попроще (например, Sonnet вместо Opus)
● перейти на более дорогой план (тот самый Ultra)
● включить оплату по факту использования (usage-based pricing), чтобы докупать "пиковые" лимиты

А есть ли плюсы?

🟢 Снято ограничение на вызовы тулов
Раньше в обычном режиме агент останавливался после 25 вызовов инструментов, а теперь этого ограничения нет - агент будет работать до тех пор, пока не закончит с задачей.
И это отлично - меньше придётся отвлекаться

🟢 Щедрые лимиты (в теории)
Команда Cursor обещает, что по факту новые динамические лимиты станут для большинства пользователей более щедрыми, чем старые 500 запросов.
Если это окажется правдой, то тоже хорошие новости

Что со старым Pro планом?
В настройках аккаунта (Settings -> Advanced Account Settings) всё ещё можно вернуться на "классический" план с 500 запросами.

❗️Однако некоторые пользователи, которые на него переключились, сообщают, что запросы теперь улетают в несколько раз быстрее.
Так что, пока не будет каких-то последующих разъяснений, переключаться на старую схему не стоит.

Что в итоге?
Противоречивый апдейт.
Но проблема скорее даже не в изменениях, а в их внезапности и непрозрачности условий.
Команда Cursor пообещала дать разъяснения в ближайшее время - может, будет больше ясности относительно того, как работает система лимитов.

P.S.
К слову, я в последнее время в рамках периодического исследования инструментов перепробовал Claude Desktop/Code, Augment Code и GitHub Copilot, и, в случае чего, нам есть куда идти :)

#cursor #news #development
1👍1411🔥10
$100-200/мес

С полгода назад я писал, что у компаний-"врапперов моделей", навроде Cursor, есть свои способы экономить:

... использование моделей напрямую, через API, а не через Cursor, выходит намного дороже.

Думаю, тут дело в сочетании нескольких факторов:
* использование денег инвесторов для снижения стоимости;
* прямые контракты со скидками с вендорами (OpenAI, Anthropic);
* активное использование своих моделей под капотом, которые, кстати, неплохо работают (тот же автокомплит, к примеру).


Уже тогда было понятно, что эта ситуация не может продолжаться бесконечно.
Тем не менее, некоторое время мы, по сути, прожигали деньги инвесторов Cursor/GitHub Copilot/Windsurf/etc :)
Логично, что в какой-то момент этим инвесторам нужно начать получать прибыль от своих вложений.


В последние пару месяцев мы наблюдаем такие изменения в ценовой политике:

● Cursor представляет режим MAX с оплатой по токенам (на 20% дороже API вендоров);

● некоторые фичи Cursor, такие как фоновый агент или доступ к топовым моделям, доступны только в MAX-режиме;

"безлимитный" план в Cursor по сути дал самому Cursor динамически балансировать свои затраты, сделав непредсказуемыми лимиты для конечных пользователей, с которыми многие начали неожиданно сталкиваться в последние дни;

● GitHub Copilot ввёл подсчёт запросов к Premium-моделям, в которые включаются и вызовы тулзов (из-за чего запросы стали тратиться очень шустро).


Вместе с тем стали появляться планы за $100-200/мес как от компаний-врапперов (Cursor Ultra), так и от вендоров моделей (Claude Max).
Думается, именно этот диапазон цен становится нормальным на подписки для повседневной активной разработки.
И да, это всё ещё дешевле работы напрямую с API.

Справедливости ради, вместе с этим растет качество как самих моделей, так и инструментария.


Ключевой вопрос - что дальше?

Попробуем предсказать ближайшее будущее.

🟡 Постепенное исчезновение оплаты по "запросам", т.к. в ответ на запрос агенты могут работать всё дольше, посылая всё больше API-вызовов к моделям.

Стоит ожидать того, что ценообразование будет больше строиться от реального использования токенов, а не от запросов.

🟡 Наблюдая за тем, в каких объемах генерится код некоторыми пользователями, можно ожидать введения и понижения лимитов на условно-безлимитных тарифах, даже на самых дорогих.

🟡 Опенсурсные и локальные модели подтягиваются по качеству и становятся достаточно хороши для генерации рутинного кода по заранее составленному плану.

Это, в свою очередь, будет тянуть цену генерации такого кода вниз, т.к. не будет смысла задействовать для этого топовые проприетарные модели.

🟡 Встраивание в инструментарий поддержки использования разных моделей для работы над разными задачами.

Скажем, планирование задачи делается мощной моделью, а написание кода - моделью попроще. Поддержка такого сценария местами существует, но пока что недостаточно хорошо реализована.

🟡 Развитие продуктов от вендоров моделей (Claude Code, Gemini CLI) для понижения влияния компаний-врапперов.

Влияние может заключаться в том, что они могут в какой-то момент начать диктовать цены на рынке через захват аудитории и, к примеру, выбивание скидок на API у вендоров.

Вендорам выгоднее либо развивать свою экосистему, либо даже поддерживать открытые решения, которые напрямую работают с API моделей.

🟡 Вряд ли куда-то денется подписочная модель - при правильной юнит-экономике вендоры всё равно на ней будут зарабатывать.

Однако, по мере того, как агенты будут брать на себя всё большие по объему задачи, можно ожидать и роста цен подписок.

🟡 Также вряд ли куда-то денутся бесплатные тиры (Google AI Studio) и дешёвые инструменты (Trae) - хотя бы просто потому, что "если вы не платите за товар, вы и есть товар", т.к. ваши данные могут быть использованы для тренировки будущих моделей или как-то ещё.


Все эти факторы и тренды могут переплетаться разными необычными способами, а мы можем лишь оценивать ситуацию в моменте из-за скорости происходящих изменений.

Так что держим нос по ветру, будет интересно :)

#ai #development #forecast
1👍23🔥1310🤔1
⬆️ Краткий мастер-класс по вайб-кодингу от Илона Маска.

Неужели xAI по внедрению AI в разработку находятся на уровне "2. Копипастинг" по этой классификации?

Или это такой экстремальный догфудинг, пока свой Cursor / Claude Code не написали?

А может, эволюция от монорепы к монофайлу?

Столько вопросов 😄

#fun
😁20🔥7🌚1