Этихлид – Telegram
Этихлид
4.77K subscribers
152 photos
23 videos
129 links
Канал техлида с мыслями об AI, IT и спорте.

https://news.1rj.ru/str/etechlead/6 - содержание

https://news.1rj.ru/str/etechlead/8 - о канале

https://news.1rj.ru/str/+NgQZbosvypEyYWQ6 - чат канала, там отвечаю(т) быстрее :)

(без рекламы)
Download Telegram
Claude Code (1/2)

В последние пару месяцев в стане пользователей Cursor наблюдается оживленное броуновское движение, переходящее в массовый исход.
Причины понятны: внезапные смены прайсинга и неявные лимиты подкосили доверие к компании.

Штош, рынок не терпит пустоты.

Куда идти? Я перепробовал несколько разных инструментов и на текущий момент остановился на связке Claude Code + Cursor.

Сейчас их использование для кода у меня разделяется так:
● создание проекта с нуля и массовая кодогенерация - Claude Code
● изменения в небольшом-среднем проекте - Claude Code
● фоновый агент - Claude Code
● изменения в большом проекте, который не готов к AI-кодингу - Cursor
● быстрые фиксы - Cursor
● использование моделей других вендоров - Cursor
● рефакторинг - JetBrains IDEs (внезапно), руками

Плюсы Claude Code в сравнении с Cursor

🟢 Лучше работает с тулзами
Что, впрочем, неудивительно, т.к. и модели, и сам инструмент от одной компании и разработчики смогли качественно запромптить модель, раскрыв её агентский потенциал

🟢 Моделям доступен полный контекст
Ну т.е. все 200к, в отличие от Cursor, где в не-MAX режиме у Sonnet доступно 128k (Opus доступен только в MAX-режиме в Cursor).

🟢 Качественнее управление контекстом
Cursor активно экономит контекст (жмёт, обрезает, выкидывает куски), т.к. по сути ему не выгодно тратить на вас много токенов.
Claude Code не так стеснён в трате токенов, и может себе позволить не вмешиваться сильно в контекст.
Плюс, за счёт использования субагентов есть возможность задействовать несколько независимых полных контекстов в рамках одного запроса.

🟢 Лучше следует плану
По умолчанию и сам строит план с тудушками, и сам ему следует, причём редко когда теряет какие-то пункты.
Планам, которые вы ему дали, тоже следует точнее, чем агент в Cursor.

Тут пара вещей, я думаю, работает - с одной стороны более качественный промптинг на следование инструкциям, а с другой - по мере выполнения этапов плана Claude Code обновляет статус задач и вставляет их список снова и снова в контекст, закрепляя следование намеченному плану.

🟢 Дольше тащит многоэтапные задачи
Это является следствием из всех предыдущих пунктов.
20+ минут - не редкость, а на каких-то широких задачах и больше часа может возиться.

Тем не менее, я бы не делал из этого соревнование по выносливости, т.к. с увеличением времени и сложности задачи агент может идти вразнос, так что задачи с прицелом на долгую работу надо подбирать соответствующие - попроще и параллелизуемые.

🟢 Консольный интерфейс
Мы вообще-то в 2025м и интерфейс Claude Code выглядит довольно... эмм..., весело, всё двигается и играет неземная музыка.

Ну т.е. консоль, да, но вполне современная консоль, насыщенная всякими мелкими визуализациями и шорткатами (которые обязательно надо заранее изучить).

Плюс, много возможностей по кастомизации Claude Code под свои задачи и процессы, включая иерархические инструкции для агента, кастомные команды, хуки, MCP-сервера, SDK, запуск как фонового агента в GitHub и т.д.

Запускать его можно хоть в терминале, хоть в IDE, хоть на удаленном сервере, хоть как часть какого-то пайплайна и т.п.

Короче, если вы фанатеете по настройке систем под себя и креативному использованию инструментов - однозначно затянет :)

#ai #development #cc
1👍13🔥115🤩1
Claude Code (2/2)

Недостатки тоже есть, и, хоть они не помешали включению Claude Code в мои процессы, стоит про них знать, как и про способы с ними справляться.

Минусы Claude Code в сравнении с Cursor

🔴 Консольный интерфейс
Нельзя посмотреть/отредактировать код, принять/отклонить изменения, что-то порефакторить и т.п.

Решается просто - в дополнение нужна IDE, к тому же есть простенькие интеграции с VS Code-based и JetBrains IDEs.

🔴 Нет чекпойнтов
Удобная фича Cursor тут отсутствует в принципе, к предыдущему состоянию кода не вернуться, просто промотав историю в чате.
Есть ряд костылей разного качества, но ни один из них не дотягивает до того, как это сделано в Cursor.

Получается, самое трушное - это git branch + (опционально, worktree) + commit после получения ответа агента + squash merge, и с какой-нить автоматизацией, чтобы не делать это каждый раз руками.

Пробовал ещё Claudia и ccundo, но нет, это всё сырые штуки.

🔴 Модели только от Anthropic
Ну т.е. натравить o3/Gemini легко на какую-то проблему не выйдет.
Так что Cursor у меня остается в качестве как IDE, так и второго агента :)

🔴 Нет собственного индекса проекта
Агенту приходится пользоваться базовыми инструментами сбора релевантного контекста каждый раз в новом чате.

Это долго, может засорять контекст и не всегда находит всё нужное.

Решения пока что такие:
● использовать субагентов для предварительного сбора контекста (если у вас проект не на 10м токенов, конечно) - они в параллель довольно качественно просмотрят проект по кускам;

● завести свой CLAUDE.md в каждой папке/модуле проекта, который требует описания своего внутреннего устройства и указать там, какие ещё сабмодули лежат ниже в иерархии;

● Memory Bank-like методология ведения документации по проекту.

И обязательно нужно использовать Plan Mode для планирования задач в большой кодовой базе, ревьювить план, и в случае чего руками подкидывать контекст агенту или посылать его изучать релевантные места проекта.

🟡 Дороже?
И да, и нет - за $20 в месяц на плане Pro вы получаете возможность довольно активно пользоваться Sonnet в течение примерно часа каждые 5 часов (лимиты форсятся в рамках 5-часовых сессий).

В сравнимом MAX-режиме в Cursor за час можно легко потратить больше.
А в обычном режиме см. вышеперечисленные плюсы Claude Code, и есть вероятность упереться в заранее неизвестные лимиты в Cursor.

По наблюдениям и личному опыту, после дозы за $20 практически неизбежен переход на один из Max-планов.

В плане Max за $100 даётся ограниченный доступ к Opus и довольно сложно достижимый лимит по работе с Sonnet.
Для проектирования чего-то в Opus и кодогенерации при помощи Sonnet получается комфортно.

А в плане Max за $200 лимиты и Opus становятся весьма щедрыми.

Увы, в Claude Code тоже нет какой-то индикации "маны", кроме предупреждения о том, что приближается лимит в рамках текущей сессии.
И это, кстати, тоже создает возможность динамического изменения как лимитов, так и длины контекста со стороны Anthropic.

А, и да, эти лимиты шарятся с https://claude.ai, Claude Desktop и Claude Code GitHub Actions, которые тоже можно использовать в рамках общей подписки.


Что почитать/посмотреть
Для преодоления кривой обучения стоит потратить 1-2 часа и вдумчиво ознакомиться с базой:

Mastering Claude Code in 30 minutes - доклад от одного из создателей (Бориса, который успел сходить поработать в Cursor и уже вернулся обратно в Anthropic, пока я собирался писать этот пост :))

Claude Code in Action - официальный мини-курс по Claude Code от Anthropic

Claude Code: Best practices for agentic coding - статья с хорошими и не всегда очевидными практиками использования Claude Code

Этот набор ресурсов вам даст больше, чем знает 99%+ пользователей Claude Code :)

#ai #development #cc
🔥37👍1710🤝4
Claude Code - субагенты и кастомные агенты

Субагенты в Claude Code (CC) существуют уже давно, но были мало кому известны, да и в документации про них была всего пара упоминаний.

И вот на днях Anthropic официально анонсировали поддержку кастомных агентов, которые реализованы поверх субагентов.

Разберемся и в том, и в другом.

1️⃣ Субагенты
Их можно воспринимать как потоки исполнения внутри CC, каждый со своим изолированным контекстом, инструментами и специализированным системным промптом.

Для делегации задачи основной агент использует инструмент Task для запуска субагента и передаёт ему промпт и нужный для задачи контекст.

Что это даёт?

🟢 Экономия контекста
К примеру, поиск по большому количеству файлов в основном диалоге забьёт контекст содержимым всех этих файлов.
В случае же запуска субагента в основной контекст попадёт только суммаризированный результат его работы

🟢 Ускорение за счёт параллелизма
Если нужно провести рефакторинг вширь по проекту - говорим CC использовать субагентов для этой задачи и получаем существенное ускорение

🟢 Более долгие задачи
Когда подзадачи делаются субагентами, основной агент может "вести" задачи с бОльшим количеством шагов, экономя собственный контекст - а именно его ограниченность сильно влияет на размер задачи, с которой может справиться агент

Для чего использовать?
● "суммаризация":
* сбор сведений для документации
* ответы на вопросы по проекту

● параллелизуемые "широкие" задачи:
* несложный рефакторинг
* code review / security review

● там, где важно иметь в общем контексте результат, а не процесс работы:
* запуск тестов
* анализ логов

Как запустить?
Да прям словами сказать: use subagents for this task, можно это даже в CLAUDE.md добавить.

Стоит помнить, что, т.к. это промптинг, да и не все задачи хорошо ложатся на субагентов, CC не всегда их запускает.
Бороться с его планировщиком, тем не менее, не очень продуктивно.



2️⃣ Кастомные агенты
Это новая фича - по сути, поддержка специализации для субагентов:

1. пишем /agents - запускается визард
2. создаём себе техлида, ревьювера, безопасника, ковбой-кодера, чайка-менеджера под свои предпочтения
3. работаем с ними как с командой :)

Конфигурация
Каждый из кастомных агентов определяется md-файлом с YAML frontmatter с такими полями:

* name - идентификатор агента
* denoscription - подсказка Claude, когда использовать этого агента
* tools - опциональный список доступных инструментов

А в теле файла - инструкции для этого агента и его "личность".

Эти файлы живут либо в ~/.claude/agents/ для пользовательских агентов, либо в .claude/agents/ проекта для проектно-специфичных.

Как запустить?
Автоматическое делегирование - СС сам делегирует работу, когда думает, что задача подходит под описание кастомного агента

Явный вызов - к примеру, Use the test-runner subagent to run all tests and report failures

Цепочки агентов - можно их чейнить: First use the code-analyzer subagent to find performance issues, then use the optimizer subagent to fix them

Ограничения

Нет встроенного механизма для прямого общения между субагентами - всё идет через основного агента, но народ активно городит костыли в виде общих файлов / MCP

Нельзя выбрать модель для кастомного агента - это было бы весьма логично, но пока нельзя, и народ активно просит :)

Хорошие практики

Чёткие роли - лучше создавать агентов с чёткой ответственностью вместо универсальных

Учитывайте ограничения подписки - субагенты могут жечь много токенов, особенно при работе в параллель, так что можно быстрее упереться в лимиты

Проверки в длинных цепочках - если вы чейните кастомных агентов, то старайтесь проверять результаты их работы после каждого шага, иногда даже прям своими глазами 😱

Ограничивайте инструменты - давайте кастомному агенту только те инструменты, которые ему нужны - это и безопаснее, и удерживает агента от лишних действий

Экспериментируйте - фича новая, так что сообщество сейчас активно осваивает и изобретает сценарии использования, и это отличное время для экспериментов и обмена интересными практиками :)

#ai #development #cc
3👍21🔥105👏2
Каналы, которые я читаю по AI

В продолжение вчерашнего поста здесь будет подборка того, что я читаю сам.

@ai_newz - пусть я получаю основные новости из рассылок и шарясь по HuggingFace, мне нравится канал Артема, т.к. часто тут не только новости, но и какие-то крутые мысли.

@oestick - канал Коли, с которым мы вместе проводили эфир. Много технической информации, при этом довольно часто на языке бизнеса. Здесь практические фишки работы с LLM в доступном изложении.

@ProductsAndStartups - канал Байрама Аннакова, здесь много про AI в бизнесе, этику, тренды и продукт. Следил за Байрамом задолго до увлечения AI - умнейший человек, у которого можно учиться всегда, насколько бы круты вы ни были в своей сфере.

@seeallochnaya - еще один крупный канал. Читаю его в основном из-за периодических анализов статей. Позволяет заполнить FOMO от того, что я сам мог пропустить.

@nobilix - Рефат делает много практических разборов AI-инструментов. Всегда детально, но при этом кратко, всегда с демонстрационными видео, читаю каждый пост.

@kantor_ai - канал экс-руководителя МТС AI. С Виктором познакомились в 2022 и он прямо очень крутой. Здесь больше про классический ML и какие-то заметки, близкие к бизнесу.

@ai_and_law_rus - канал про законадательное регулирование ИИ, помогает заполнить FOMO.

@kdoronin_blog - много практических разборов с упором на AI агентов на любой вкус и цвет.

@neuraldeep - идеальный канал для тех, кто хочет зарыться в техническую часть AI. Точно не для легкого чтения, скорее для тех, кто точно понял, что хочет лучше понять AI изнутри и побольше узнать про эксперименты.

@etechlead - канал для тех, кто хочет погрузиться в разработку и вайб-кодинг. Очень много разношерстных материалов по этой тематике.

@countwithsasha - реклама и аналитика мои не самые сильные стороны, канал Саши помогает легче ориентироваться в применении AI в этих сферах

@the_ai_architect - Тимур - действующий разработчик. Много пишет про кодинг с ИИ и его практическое применение, при этом простым языком.

@gleb_pro_ai - канал Глеба Кудрявцева. Здесь много про инди-хакинг и применение ИИ для этой цели.

@lechim_ai - я очень люблю Медтех. Илья - Head of AI очень крутого стартапа Третье мнение, куда я даже получил оффер в 2021. С тех пор слежу за компанией, а не так давно Илья завел канал про медтех.

@baginsai - Саша пишет про практическое применение AI, кейсы, скидки и всякие другие полезности.

@max_about_ai - еще один канал с техническим уклоном. Максим всегда пишет четко, по делу и про то, что пробовал сам и точно работает.

@eternalmind - здесь посты выходят не так часто, но основная тематика находится на стыке когнитивистики, философии, критического мышления и AI.

@alexs_journal - практические разборы AI-инструментов и всего, что вокруг них: промптинг-гайды, лайфхаки и прочее.

Постарался включить максимум источников, чтобы вам было из чего выбрать 🙂 Сохраняйте список себе, знакомьтесь с авторами, если понравилось - подписывайтесь. Пост - не реклама и не взаимопиар, а реально то, что я читаю.
👍16🔥74
Lenny Product Pass

Есть такой чувак Lenny Rachitsky, известный по своей email-рассылке и каналу на YouTube, где он беседует с интересными предпринимателями и технарями из индустрии (сам его смотрю).
Также он инвестирует в стартапы на ранних этапах, выступая бизнес-ангелом.

Так вот, он иногда запускает раздачу пачек подписок на популярные сервисы, связанные с AI и IT в целом.

Текущий бандл, запущенный несколько дней назад, содержит 16 сервисов и стоит $200 на год. Если подписываться на каждый из сервисов отдельно, это выходит в десятки раз дороже, так что предложение получается довольно выгодное.

Вот какие сервисы включены:
1. Building faster with ReplitLovableBoltn8nWarpMagic PatternsChatPRD
2. Collaborating better with LinearSuperhumanGranola
3. Making it more beautiful with DenoscriptGammaMobbin
4. Getting more done with Wispr FlowRaycastPerplexity

Плюс, у вас будет доступ к email-рассылке Ленни и Slack-сообществу с десятками тысяч участников с митапами, менторингами, сессиями AMA и прочей движухой.


Я пропускал прошлые раздачи, но в этот раз, проведя математические операции с двух- и даже трёхзначными числами в уме, пришёл к выводу о том, что оно того стоит:
● среди предложенных продуктов уже есть те, за которые я плачу помесячно, и даже они одни в пересчете на год делают подписку выгодной;
● плюс ко всему, там есть несколько продуктов, которые мне были интересны, но я не был готов за них дополнительно платить, а теперь точно попробую;
● это позволит мне легче начать заниматься нетехническими моментами работы над продуктами, т.к. многие из этих сервисов именно на это заточены. А нетехнические скиллы надо развивать - помним, что профессия разработчика стремительно меняется.


Зачем всё это Ленни и этим сервисам?
Всё просто - он сам инвестировал во многие из этих продуктов, так что тут win-win :)


⚠️ Количество купонов/подписок ограничено (и уже начали кончаться некоторые)
В прошлых запусках часто бывало, что не все успевали получать купоны для всех продуктов в бандле. Соответственно, если есть желание оформить подписки, лучше сделать это раньше.

⚠️ Предложение действует для новых подписчиков этих сервисов, так что если вы платили за какой-то раньше - нужно будет завести новый аккаунт

⚠️ Запросы на рефанд не принимаются, а если делать chargeback, то все подписки отменятся (что логично)


Как получить?
1. идём на https://lennysproductpass.com/

2. мотаем вниз, выбираем подписку за $200 (за 350, если вы точно хотите все купоны получить, даже если они кончатся для тех, кто подписался за 200, а также иметь доступ к будущим, пока что неанонсированным продуктам);

3. получаем в результате ссылку на почту, переходим по ней;

4. открывается снова стартовая страница со списком сервисов;

5. нужно пройтись по каждому и получить купон/ссылку - тем самым вы резервируете его для себя.
Воспользоваться им в конкретном сервисе можно в течение полугода (если верить тому, что там написано), и именно с того момента начнётся ваш год подписки на сервис.


При применении купона в конкретном сервисе:
● внимательно следуйте инструкциям в попапе, который описывает процесс регистрации и применения купона (см. пример на скрине)
● способы скидки - разные в разных продуктах, где-то это купон на месяц, который сам себя возобновляет, где-то - купон на год (см. пример на скрине)
● во многих для оформления подписки нужно оставить данные своей карты - ставьте себе напоминание в календарь через год, чтобы ваш личный помощник, основанный на GPT7, не забыл проверить, что ему какой-то инструмент больше не нужен и отписался

#recommendation #noads
🔥13👍87
Vibe Coding in Prod и деревья с листьями

Попался доклад Эрика Шлунца из Anthropic - "Vibe coding in prod".
Название довольно кликбейтное, потому что я думал, что щас он запустит Claude Code на каком-нить продакшн-сервере и начнет там вайб-кодить :)
(кроме шуток, такое тоже практикуется, но надо очень хорошо представлять себе, куда вы жмав)

Но нет, доклад оказался довольно взвешенным и хорошо описывает несколько базовых практик, которых обязательно нужно придерживаться:



🟢 Будьте PM'ом для ИИ: вместо коротких команд, готовьте для агента полноценное ТЗ, как для нового джуна в команде. Чем больше контекста и чётче задача - тем лучше результат.

🟢 Вам нужно думать о "стволе" и "ветвях", а не о "листьях": делегируйте ИИ реализацию конечных, изолированных модулей ("листьев" на дереве зависимостей), но оставляйте за собой проектирование ядра системы ("ствола" и "ветвей").

🟢 Обеспечьте верифицируемость
: ваша задача - создать условия, в которых результат работы ИИ можно легко и надёжно проверить. Это могут быть тесты, чётко определённые входные/выходные данные или другие формы верификации.

🟢 Помните об экспоненте: возможности ИИ растут нелинейно. График от METR, который показал Эрик, наглядно демонстрирует, что сложность задач, решаемых ИИ, удваивается каждые 7 месяцев. Нужно готовиться к миру, где ИИ сможет выполнять работу, на которую сегодня уходят недели или месяцы.

Кстати, тот график подробнее описан в серии постов про сценарий AI 2027.



Листья и деревья

Идея про "листья" показалась мне особенно полезной - она просто и наглядно формулирует то, к чему мы уже пришли в ИИ-разработке.

Вообще, с точки зрения старших технических специалистов, этот подход не нов - одной из их задач всегда была проработка архитектуры и фиксация высокоуровневых абстракций.
А имея прочный базис, можно было безопасно делегировать реализацию конкретных фич, снижая риски и не накапливая критический техдолг.

Почему это важно?
● Техдолг в "листьях" не так страшен. Их можно относительно дёшево переписать, если что-то пойдет не так, ведь от них мало что зависит.
● Техдолг в ядре системы - это проблема. Закрывать его больно, долго и дорого, вплоть до того, что может оказаться, что проще всё переписать.

Будущую расширяемость и поддерживаемость очень сложно оценить - "человеческая" индустрия разработки так и не выработала надёжных стандартов, хотя попыток было много.

Так что при разработке с ИИ возникает похожее разделение, и наша роль смещается в сторону проектирования надёжного базиса, который мы хорошо понимаем.

Что это значит на практике
⚪️ Высокоуровневая архитектура должна оставаться под контролем
Мы должны подробно проработать основные компоненты, их взаимодействие, контракты и API. Вся эта информация должна быть зафиксирована в виде, понятном для ИИ (документация, схемы, интерфейсы и т.п.).

Чем более нестандартную систему вы делаете - тем более детальный нужен контроль, - просто в силу того, что ИИ лучше справляется с распространенными подходами.

⚪️ Реализация "листьев" делегируется ИИ
Имея чёткие внешние контракты и набор тестов, мы можем отпустить контроль над тем, как именно реализован конкретный изолированный модуль.

Можно всегда его переписать при помощи ИИ с нуля, если потребуется, и пока тесты и прочие верификации проходят, нас даже не особо волнует его внутренняя реализация.

⚪️ Вопрос гранулярности
Насколько большим может быть "лист"? Сейчас надёжной метрики у нас нет, это определяется эмпирически и зависит от проекта, используемой модели и инструментария.

Но стоит понимать, что с ростом возможностей моделей, "листом" может стать целый сервис.
А мы поднимаемся всё выше по уровням абстракции, двигаясь от кода к системной архитектуре, фичам, продукту.

#ai #architecture #development
4🔥30👍235👏2
GPT-5, бенчмарки

Отобрал те, которые считаю важными для разработки (тут везде скорее всего gpt-5-thinking high).

Мнение по самой модели почти сформировалось, распишу позже :)

SWE-bench Verified
Сабсет оригинального SWE-bench для оценки способности LLM решать реальные задачи разработки.
Cодержит 500 задач из оригинального набора (из которых OpenAI в своих тестах убирают 23 задачи, которые "не могут быть запущены на нашей инфраструктуре").

Методология: Модели получают описание проблемы на GitHub и базу кода в состоянии до исправления. Задача - сгенерировать патч, который решает описанную проблему.

SWE-bench Bash Only
Использует тот же набор данных, что и SWE-bench Verified, но оценивает LLM в минималистичной bash-среде без спец. инструментов или продвинутых агентов.

Методология: Модели тестируются с помощью mini-SWE-agent в простом цикле ReAct-агента с доступом только к bash. Это позволяет проводить сравнение между различными LLM без влияния дополнительных инструментов.

Aider Polyglot
Оценка навыков программирования LLM на 225 сложных упражнениях из датасета Exercism по шести языкам программирования: C++, Go, Java, JavaScript, Python и Rust.

Методология: Модели должны решать реальные задачи программирования, требующие рассуждений, точности и выполнения кода в разных стеках.

Terminal Bench
Оценка способности ИИ-агентов выполнять сложные задачи в терминальных средах.

Методология: Содержит около 100 сложных задач от компиляции кодовых репозиториев и обучения ML-моделей до настройки серверов и отладки системных конфигов.

Tau Bench v1
Оценка способностей LLM использовать инструменты в агентских диалоговых сценариях.

Методология: Симулирует многошаговые диалоги между "пользователем" и агентом, имеющим доступ к API систем в конкретной предметной области и снабжённым общими руководящими принципами. Охватывает сценарии обслуживания клиентов авиакомпаний и розничной торговли.
Измеряет успешность решения проблемы пользователя и правильность использования необходимых API-инструментов.

Tau Bench v2 (τ²-bench)
Продвинутая версия с двусторонним управлением в сценариях удаленной поддержки клиентов, где как агент, так и пользователь могут использовать инструменты для решения задачи.

Методология: Агент должен координировать действия пользователя и эффективно направлять их. Включает композиционный генератор задач для создания разнообразных, проверяемых задач.
Тестирует как координацию агента, так и коммуникацию, с детальным анализом ошибок рассуждения против ошибок коммуникации/координации.

OpenAI MRCR (2-needle и 8-needle)
Тестирование способности LLM находить и различать множественные идентичные элементы ("иглы") в длинном контексте (до 1 миллиона токенов).

Методология: Модели даётся длинный синтетический диалог, где "пользователь" несколько раз в разных местах просит создать похожий контент (например, стихотворение о тапирах). В диалоге скрыты 2, 4 или 8 таких запросов, и модель должна найти конкретный экземпляр по его порядковому номеру (например, "дай мне 2-ю поэму о тапирах").

Модели нужно отличать "иглы" от "сена" и уметь точно определить, какой именно экземпляр запрашивается (1-й, 2-й, 3-й и т.д.)
Чем больше "игл" (2->4->8) и чем длиннее контекст, тем сложнее задача.

SimpleBench
Бенчмарк множественного выбора, где люди без специализированных знаний (уровень старшей школы) превосходят современные LLM.
Создан и поддерживается автором канала AI Explained (кстати, рекомендую - спокойные и вдумчивые новости).

Методология: Более 200 вопросов на пространственное мышление, понимание времени, социальный интеллект и логические ловушки, основанные на здравом смысле и понятные большинству людей (поэтому и "Simple").

Scale MultiChallenge
Бенчмарк для оценки LLM в ведении многошаговых разговоров с пользователями-людьми.

Методология: Проверяет 4 категории вызовов в многошаговых разговорах: удержание инструкций, запоминание пользовательской информации, версионное редактирование и самосогласованность. Все задачи требуют точного следования инструкциям и аккуратной работы с контекстом одновременно.

#ai #model #review #benchmarks
1👍15🔥96👏2
GPT-5, мнение (1/2)

It's a good model, sir (с)


tl;dr: отличная модель для архитектурных обсуждений, сложного кода и парного программирования, но для агентской разработки я остаюсь на Claude Code.


Ну что ж, несмотря на избыток хайпа, и, как следствие, завышенные ожидания от мажорного релиза, OpenAI всё-таки проделали хорошую работу.

Это не революция, а скорее последовательный шаг вперёд, так что нам всё ещё придётся работать самим.
Какие-то смешанные чувства по этому поводу :)


Модель и окружение
Все мои впечатления были сложены на основе использования GPT-5 Thinking, medium и high reasoning efforts в Cursor, Codex CLI и немного в вебе.
Этот её вариант представляют как модель, на которую нужно переходить с o3, так что будет много сравнений именно с ней.

Mini & nano намного хуже, так что их не было смысла рассматривать.

Я буду ссылаться на бенчи из предудыщего поста.


Написание кода
Метрики по разработке подросли на всех бенчмарках относительно o3.

Подтверждается ли на практике? Да, однозначно.
В тех местах, где раньше использовалась o3, теперь надо использовать GPT-5.
Все сферы применения o3 она покрывает и делает даже больше.

Особенно хороша для:
🟢 небольшие-средние по размерам участки нетривиального кода;

🟢 алгоритмы, сложные интеграции, поиск нетривиальных решений;

🟢 поиск проблем в существующем коде;

🟢 архитектурные обсуждения.

Особенности:
(по сути, это всё торчащие наружу уши мощного ризонера)

⚪️ оверинжиниринг - стоит за этим следить, любит сорваться в детали и дотошно их прорабатывать там, где нужен более высокий уровень абстракции, любит писать сложный код, буквально старается выглядеть умной.
Но для сценариев, где всё это действительно нужно - она хороша :)

🟢 стала более управляемой, но всё-таки иногда не может поверить в то, что неправа и продолжает гнуть свою линию;

🟢 гораздо реже галлюцинирует, но всё-таки случается;

🔴 медленная, причём как-то рандомно (возможно, это связано с текущей нагрузкой на сервера OpenAI), но всё-таки в среднем заметно медленнее Claude и Gemini.

Стоит ли менять Sonnet в Cursor на GPT-5?
Зависит от задач, но я поставил её моделью по дефолту (тут стоит отметить, что Cursor у меня на втором месте по частоте использования после Claude Code).


Работа с контекстом
Тут у нас лидером долгое время была Gemini, но теперь на контекстах до 256к токенов GPT-5 показывает лучше результаты по бенчмаркам.

Размер контекста зависит от того, где вы с моделью работаете:
● сайт ChatGPT:
* Free - 8k токенов
* Plus - 32k токенов (Thinking - 192k)
* Pro - 128k токенов (Thinking - ?)
● Cursor/Codex/API: полные 400K токенов (272k input + 128k output)

Стоит отметить, что в классическом понимании у модели на самом деле 272к токенов контекста.

Подтверждается ли на практике хорошая работа с контекстом? Да.

Обсуждали с ней несколько развесистых архитектурных документов+код - действительно хорошо держит контекст и помнит много деталей по мере развития беседы, помнит принятые решения, внесённые изменения и т.п. (лучше, чем Claude, но примерно так же, как Gemini).

Для обсуждения больших репозиториев больше 272к выбора нет - там, конечно же, Gemini в AI Studio.


Использование инструментов
На TAU-bench модель не стала сильно лучше o3, а на Terminal Bench она хуже Claude. Не видно радикального улучшения в использовании инструментов и в целом агентских сценариях.

Подтверждается на практике? Да, и это сильно заметно.

Задачи, которые может решить Claude в правильном окружении (Claude Code), будут просто длиннее и больше по объёму, чем задачи для GPT-5, которая в процессе:
● раньше остановится и задаст общий вопрос или спросит, нужно ли двигаться дальше;
● не сделает дополнительных вещей, которые можно было бы сделать, полагаясь на здравый смысл, без детальных инструкций;
● скорее всего сделает только то, что явно сказали (что, конечно же, может быть и плюсом).

Думается, что модель в основном тренили на ваншот- и диалоговые сценарии работы, в режиме парного программирования, но индустрия с инструментами навроде СС уже пошла дальше, нам нужна агентскость и автономность.

#ai #model #review
3👍2012🔥10👏2
GPT-5, мнение (2/2)

Знания модели
SimpleBench немного удивил - модель всё-таки хороша в соображалке на повседневных задачах, хотя я и обнаружил пробелы в знаниях по некоторым доменам.
Возможно, модель не настолько широка по знаниям в целом, насколько глубока по некоторым областям, на которых её больше тренировали.

Ну то есть её не получится применять везде, где захочется, и эти области неглубоких знаний заранее неизвестны, их придётся нащупывать.

Кажется, что та же Gemini обладает бОльшим объёмом встроенных знаний, и за счёт этого ощущается как универсальная модель, а вот с GPT-5 такого ощущения не возникает.


Проблемы экосистемы
Чего остро не хватает? Развитого тулинга.

Если рассмотреть Claude Code как пример - он отлично работает с моделями Anthropic, хорошо их промптит, учитывает их специфику, пользуется сильными сторонами (tool use) и применяет уловки для работы со слабыми (контекст).

В случае с GPT-5 тулинг пока что посредственный - Codex CLI, который по идее должен быть эталоном работы с новой моделью, работает с ней хуже, чем Cursor.
А в сравнении с СС Codex CLI и вовсе будто из каменного века как по функционалу, так и по и удобству работы.

Так вот, можно надеяться на то, что если вокруг модели выстроить нормальный тулинг, который будет с ней правильно работать - возможно, она раскроется и в агентских сценариях, но на это потребуется время.

Если же её пытаться использовать сейчас так, как мы обычно используем Claude Code - результаты будут разочаровывающими.


Цены
При использовании по API модель стоит сравнимо с Gemini 2.5 Pro, намного дешевле Sonnet и уж тем более Opus.

Но использование по подписке, конечно, куда более приятно, и тут теперь есть возможность использовать Codex CLI по подписке OpenAI.
Для Plus-пользователей обещают лимиты в виде нескольких 1-2-часовых сессий в неделю.

Не хватает промежуточного тира между $20 и $200 :)

Кстати, в Cursor она до четверга должна быть бесплатной, и там нужно использовать вариант gpt-5-high или gpt-5-high-fast (fast тут приоритетный процессинг за 2x цены, но, несмотря на бесплатность, и в лимиты можно упереться быстрее).

Итог
Это действительно хорошая модель для своих задач, и я согласен терпеть её неспешность в случаях, где нужно что-то этакое раскопать, но в итоге получить результат.

Будем надеяться, что тулинг подтянут, ну а пока порадуемся тому, что у нас есть новый мощный, и при этом дешёвый, ризонер :)



Прошлые посты по связанным темам:
Бенчмарки GPT-5 в сравнении с Gemini 2.5 Pro, Claude Opus/Sonnet и o3.
● Обзор o3 на момент выхода: плюсы, минусы.

#ai #model #review
👍24🔥1312👏2
Claude Code + Stream Deck = Claude Deck

Рубрика ненормальное программирование 🤪

Одна из приятных особенностей Claude Code - это его кастомизируемость.

Вот есть была такая проблема, что когда запускаешь задачи, которые могут десятки минут выполняться, то хочется отслеживать их состояние, даже если куда-то переключился в это время.

Нужна какая-то панелька, в роли которой сгодился Stream Deck. Плюс, это отдельное физическое устройство с кнопочками.

Он и так у меня используется не совсем по назначению - мониторинг, управление и запуск сценариев умного дома, разные автоматизации на компе, даже крутилки громкости на нём :)

Вот, вчера получилась такая штука:
● для Stream Deck сделал плагин Claude Deck
● плагин позволяет добавить несколько кнопок в "пул"
● в проект для CC добавляются хуки (наконец-то им нашлось достойное применение) и самому проекту прописывается уникальное имя ("Ромашка", "Ракета" и т.п.)
● хуки шлют простенькие http-запросы на локальный веб-сервер, поднятый плагином
● результат - на видео

Хуки, как оказалось, покрывают не всё, что нужно, но для моих задач хватило.

Общий вывод эксперимента в том, что кастомизация инструментария под свои процессы и хотелки становится всё проще.

#geeky #cc #очумелые_ручки
🔥33👍11👏3😁3😱2
Про строку состояния в Claude Code.

У CC есть команда /statusline, которая позволяет в вайб-режиме установить строку состояния. Также потом можно попробовать её настроить посредством промптов (пробовал – у CC получается не самое приятное отображение, если честно).

Либо можно пойти в официальную документацию и настроить Status line самостоятельно по примерам.

Но есть и куда более "ленивый" режим настройки. Через проект ccstatusline.

Это консольное микроприложение, которое позволяет в дружелюбном интерфейсе настроить до трёх строк состояния (одна под другой), посмотреть их на превью, а потом одной командой установить в Claude Code.

Полный список того, что можно добавить в качестве элемента в Status line:

Model Name - Shows the current Claude model (e.g., "Claude 3.5 Sonnet")

Git Branch - Displays current git branch name

Git Changes - Shows uncommitted insertions/deletions (e.g., "+42,-10")

Session Clock - Shows elapsed time since session start (e.g., "2hr 15m")

Version - Shows Claude Code version

Output Style - Shows the currently set output style in Claude Code

Tokens Input - Shows input tokens used

Tokens Output - Shows output tokens used

Tokens Cached - Shows cached tokens used

Tokens Total - Shows total tokens used

Context Length - Shows current context length in tokens

Context Percentage - Shows percentage of context limit used (out of 200k)

Context Percentage (usable) - Shows percentage of usable context (out of 160k, accounting for auto-compact at 80%)

Terminal Width - Shows detected terminal width (for debugging)

Custom Text - Add your own custom text to the status line

Custom Command - Execute shell commands and display their output (refreshes whenever the statusline is updated by Claude Code)

Separator - Visual divider between items (customizable: |, -, comma, space)

Flex Separator - Expands to fill available space


Удобный инструмент, чтобы отслеживать текущее состояние контекста, параметры git-а, а также время до обновления лимитов.
13🔥12👍6👌2
Qoder = Cursor + Kiro + Augment (1/2)

Тут вышла новая VSCode-based AI IDE от китайской Alibaba (от неё же недавно были модели Qwen3-Coder и консольный агент Qwen Code).

Расскажу, какими фичами она меня заинтересовала и поделюсь мнением после нескольких часов работы.

tl;dr
Qoder собрал неплохой набор фич из разных продуктов, с упором на контекст-инжиниринг, Wiki и Spec-Driven Development начального уровня.
Чистенький, приятный, "прямые" сценарии проработаны.
Стоит попробовать в тех задачах, где вы используете какую-то другую AI IDE.
К тому же, несколько недель будет бесплатным.

Quest Mode
Аналог спеков в Kiro, кусочек концепции Spec-Driven Development: сначала обсуждаем с агентом подробности задачи, потом он формирует подробную спецификацию, а затем по ней агент-кодер пишет код.

По сравнению с Kiro тут упрощенный вариант - агенту-кодеру спека отдается сразу вся целиком.
И это, увы, жёстко устанавливает верхнюю планку размера задач.
К примеру, по сгенерированной спецификации на 1500 строк агент сделал не всё - понятное дело, что здесь вмешиваются ограничения контекстного окна модели.
А субагентов тут, как в Claude Code, нет.

Но обещают улучшения именно этого режима работы + облачные агенты.

RepoWiki
Авто-генерируемая Wiki проекта, которая обновляется сама (!) при изменениях в репозитории.
Wiki получается очень (даже слишком) подробная, с кучей описаний, диаграмм, ссылок на файлы в проекте, кусками кода, но при этом неплохо структурированная.
На глаз её объем больше, чем объём кода в самом проекте :)

Генерируется она очень долго - на проекте, в котором примерно 200к токенов, это заняло часа два, и это нормально, судя по документации.

И да, она действительно обновляется после того, как обновляется код (обновление проходит шустро).

Индекс и поиск
Сделано на векторах + граф кода + RepoWiki.
Запрос к индексу не просто ищет ближайшие эмбеддинги, а ещё и проходит по графу (соседние функции, документация, тесты, конфиги).
Это даёт релевантный контекст в реальном времени с учётом структурных связей в коде, чего сильно не хватает в том же Claude Code.

Работает сравнимо с context engine в Augment, который я постоянно хвалю при использовании на больших проектах.
Можно видеть, как агент шлет запросы на естественном языке к этому context engine и за несколько секунд получает релевантные результаты.
То же самое касается и режима Ask в чате, когда вы задаете вопрос по проекту - очень быстро формируется подробный и релевантный ответ.

Или когда в чат скидываешь скриншот с ошибкой, которая у тебя вылезла в UI, а агент в пару шагов находит релевантный код и фиксит его - это очень удобно :)

Память
Обещания в блоге выглядят очень круто - эволюционирующий агент с полным циклом памяти, но на самом деле все гораздо проще :)

Работает это примерно как в Cursor/ChatGPT - агент выделяет из вашего чата какие-то важные (по его или вашему мнению) моменты, делает из них небольшие заметки, именует/тегирует их и складывает во внутреннее хранилище.

Это могут быть какие-то правила стиля кода, архитектурные подходы, общие инструкции, и все они потом используются агентом в релевантном контексте (если повезёт).

В дальнейшем эти заметки могут быть обновлены агентом или удалены вами - доступны они прямо в настройках самой IDE.

Конкретно этой фичей не впечатлён - агент успешно игнорил некоторые из заданных таким образом правил (как и в других подобных системах памяти).

#ai #review #ide
1👍1514🔥9