NEW BOT Телеграм, страница

Этихлид

Claude Code (1/2)

В последние пару месяцев в стане пользователей Cursor наблюдается оживленное броуновское движение, переходящее в массовый исход.
Причины понятны: внезапные смены прайсинга и неявные лимиты подкосили доверие к компании.

Штош, рынок не терпит пустоты.

Куда идти? Я перепробовал несколько разных инструментов и на текущий момент остановился на связке Claude Code + Cursor.

Сейчас их использование для кода у меня разделяется так:
● создание проекта с нуля и массовая кодогенерация - Claude Code
● изменения в небольшом-среднем проекте - Claude Code
● фоновый агент - Claude Code
● изменения в большом проекте, который не готов к AI-кодингу - Cursor
● быстрые фиксы - Cursor
● использование моделей других вендоров - Cursor
● рефакторинг - JetBrains IDEs (внезапно), руками

Плюсы Claude Code в сравнении с Cursor

🟢 Лучше работает с тулзами
Что, впрочем, неудивительно, т.к. и модели, и сам инструмент от одной компании и разработчики смогли качественно запромптить модель, раскрыв её агентский потенциал

🟢 Моделям доступен полный контекст
Ну т.е. все 200к, в отличие от Cursor, где в не-MAX режиме у Sonnet доступно 128k (Opus доступен только в MAX-режиме в Cursor).

🟢 Качественнее управление контекстом
Cursor активно экономит контекст (жмёт, обрезает, выкидывает куски), т.к. по сути ему не выгодно тратить на вас много токенов.
Claude Code не так стеснён в трате токенов, и может себе позволить не вмешиваться сильно в контекст.
Плюс, за счёт использования субагентов есть возможность задействовать несколько независимых полных контекстов в рамках одного запроса.

🟢 Лучше следует плану
По умолчанию и сам строит план с тудушками, и сам ему следует, причём редко когда теряет какие-то пункты.
Планам, которые вы ему дали, тоже следует точнее, чем агент в Cursor.

Тут пара вещей, я думаю, работает - с одной стороны более качественный промптинг на следование инструкциям, а с другой - по мере выполнения этапов плана Claude Code обновляет статус задач и вставляет их список снова и снова в контекст, закрепляя следование намеченному плану.

🟢 Дольше тащит многоэтапные задачи
Это является следствием из всех предыдущих пунктов.
20+ минут - не редкость, а на каких-то широких задачах и больше часа может возиться.

Тем не менее, я бы не делал из этого соревнование по выносливости, т.к. с увеличением времени и сложности задачи агент может идти вразнос, так что задачи с прицелом на долгую работу надо подбирать соответствующие - попроще и параллелизуемые.

🟢 Консольный интерфейс
Мы вообще-то в 2025м и интерфейс Claude Code выглядит довольно... эмм..., весело, всё двигается и играет неземная музыка.

Ну т.е. консоль, да, но вполне современная консоль, насыщенная всякими мелкими визуализациями и шорткатами (которые обязательно надо заранее изучить).

Плюс, много возможностей по кастомизации Claude Code под свои задачи и процессы, включая иерархические инструкции для агента, кастомные команды, хуки, MCP-сервера, SDK, запуск как фонового агента в GitHub и т.д.

Запускать его можно хоть в терминале, хоть в IDE, хоть на удаленном сервере, хоть как часть какого-то пайплайна и т.п.

Короче, если вы фанатеете по настройке систем под себя и креативному использованию инструментов - однозначно затянет :)

#ai #development #cc

1👍13🔥11❤5🤩1

1.59K viewsedited 05:15

Этихлид

Claude Code (2/2)

Недостатки тоже есть, и, хоть они не помешали включению Claude Code в мои процессы, стоит про них знать, как и про способы с ними справляться.

Минусы Claude Code в сравнении с Cursor

🔴 Консольный интерфейс
Нельзя посмотреть/отредактировать код, принять/отклонить изменения, что-то порефакторить и т.п.

Решается просто - в дополнение нужна IDE, к тому же есть простенькие интеграции с VS Code-based и JetBrains IDEs.

🔴 Нет чекпойнтов
Удобная фича Cursor тут отсутствует в принципе, к предыдущему состоянию кода не вернуться, просто промотав историю в чате.
Есть ряд костылей разного качества, но ни один из них не дотягивает до того, как это сделано в Cursor.

Получается, самое трушное - это git branch + (опционально, worktree) + commit после получения ответа агента + squash merge, и с какой-нить автоматизацией, чтобы не делать это каждый раз руками.

Пробовал ещё Claudia и ccundo, но нет, это всё сырые штуки.

🔴 Модели только от Anthropic
Ну т.е. натравить o3/Gemini легко на какую-то проблему не выйдет.
Так что Cursor у меня остается в качестве как IDE, так и второго агента :)

🔴 Нет собственного индекса проекта
Агенту приходится пользоваться базовыми инструментами сбора релевантного контекста каждый раз в новом чате.

Это долго, может засорять контекст и не всегда находит всё нужное.

Решения пока что такие:
● использовать субагентов для предварительного сбора контекста (если у вас проект не на 10м токенов, конечно) - они в параллель довольно качественно просмотрят проект по кускам;

● завести свой CLAUDE.md в каждой папке/модуле проекта, который требует описания своего внутреннего устройства и указать там, какие ещё сабмодули лежат ниже в иерархии;

● Memory Bank-like методология ведения документации по проекту.

И обязательно нужно использовать Plan Mode для планирования задач в большой кодовой базе, ревьювить план, и в случае чего руками подкидывать контекст агенту или посылать его изучать релевантные места проекта.

🟡 Дороже?
И да, и нет - за $20 в месяц на плане Pro вы получаете возможность довольно активно пользоваться Sonnet в течение примерно часа каждые 5 часов (лимиты форсятся в рамках 5-часовых сессий).

В сравнимом MAX-режиме в Cursor за час можно легко потратить больше.
А в обычном режиме см. вышеперечисленные плюсы Claude Code, и есть вероятность упереться в заранее неизвестные лимиты в Cursor.

По наблюдениям и личному опыту, после дозы за $20 практически неизбежен переход на один из Max-планов.

В плане Max за $100 даётся ограниченный доступ к Opus и довольно сложно достижимый лимит по работе с Sonnet.
Для проектирования чего-то в Opus и кодогенерации при помощи Sonnet получается комфортно.

А в плане Max за $200 лимиты и Opus становятся весьма щедрыми.

Увы, в Claude Code тоже нет какой-то индикации "маны", кроме предупреждения о том, что приближается лимит в рамках текущей сессии.
И это, кстати, тоже создает возможность динамического изменения как лимитов, так и длины контекста со стороны Anthropic.

А, и да, эти лимиты шарятся с https://claude.ai, Claude Desktop и Claude Code GitHub Actions, которые тоже можно использовать в рамках общей подписки.

Что почитать/посмотреть
Для преодоления кривой обучения стоит потратить 1-2 часа и вдумчиво ознакомиться с базой:

● Mastering Claude Code in 30 minutes - доклад от одного из создателей (Бориса, который успел сходить поработать в Cursor и уже вернулся обратно в Anthropic, пока я собирался писать этот пост :))

● Claude Code in Action - официальный мини-курс по Claude Code от Anthropic

● Claude Code: Best practices for agentic coding - статья с хорошими и не всегда очевидными практиками использования Claude Code

Этот набор ресурсов вам даст больше, чем знает 99%+ пользователей Claude Code :)

#ai #development #cc

🔥37👍17❤10🤝4

1.9K viewsedited 05:15

Этихлид

Claude Code - субагенты и кастомные агенты

Субагенты в Claude Code (CC) существуют уже давно, но были мало кому известны, да и в документации про них была всего пара упоминаний.

И вот на днях Anthropic официально анонсировали поддержку кастомных агентов, которые реализованы поверх субагентов.

Разберемся и в том, и в другом.

1️⃣ Субагенты
Их можно воспринимать как потоки исполнения внутри CC, каждый со своим изолированным контекстом, инструментами и специализированным системным промптом.

Для делегации задачи основной агент использует инструмент Task для запуска субагента и передаёт ему промпт и нужный для задачи контекст.

Что это даёт?

🟢 Экономия контекста
К примеру, поиск по большому количеству файлов в основном диалоге забьёт контекст содержимым всех этих файлов.
В случае же запуска субагента в основной контекст попадёт только суммаризированный результат его работы

🟢 Ускорение за счёт параллелизма
Если нужно провести рефакторинг вширь по проекту - говорим CC использовать субагентов для этой задачи и получаем существенное ускорение

🟢 Более долгие задачи
Когда подзадачи делаются субагентами, основной агент может "вести" задачи с бОльшим количеством шагов, экономя собственный контекст - а именно его ограниченность сильно влияет на размер задачи, с которой может справиться агент

Для чего использовать?
● "суммаризация":
* сбор сведений для документации
* ответы на вопросы по проекту

● параллелизуемые "широкие" задачи:
* несложный рефакторинг
* code review / security review

● там, где важно иметь в общем контексте результат, а не процесс работы:
* запуск тестов
* анализ логов

Как запустить?
Да прям словами сказать: use subagents for this task, можно это даже в CLAUDE.md добавить.

Стоит помнить, что, т.к. это промптинг, да и не все задачи хорошо ложатся на субагентов, CC не всегда их запускает.
Бороться с его планировщиком, тем не менее, не очень продуктивно.

2️⃣ Кастомные агенты
Это новая фича - по сути, поддержка специализации для субагентов:

1. пишем /agents - запускается визард
2. создаём себе техлида, ревьювера, безопасника, ~~ковбой-кодера,~~ ~~чайка-менеджера~~ под свои предпочтения
3. работаем с ними как с командой :)

Конфигурация
Каждый из кастомных агентов определяется md-файлом с YAML frontmatter с такими полями:

* name - идентификатор агента
* denoscription - подсказка Claude, когда использовать этого агента
* tools - опциональный список доступных инструментов

А в теле файла - инструкции для этого агента и его "личность".

Эти файлы живут либо в ~/.claude/agents/ для пользовательских агентов, либо в .claude/agents/ проекта для проектно-специфичных.

Как запустить?
● Автоматическое делегирование - СС сам делегирует работу, когда думает, что задача подходит под описание кастомного агента

● Явный вызов - к примеру, Use the test-runner subagent to run all tests and report failures

● Цепочки агентов - можно их чейнить: First use the code-analyzer subagent to find performance issues, then use the optimizer subagent to fix them

Ограничения

❌ Нет встроенного механизма для прямого общения между субагентами - всё идет через основного агента, но народ активно городит костыли в виде общих файлов / MCP

❌ Нельзя выбрать модель для кастомного агента - это было бы весьма логично, но пока нельзя, и народ активно просит :)

Хорошие практики

● Чёткие роли - лучше создавать агентов с чёткой ответственностью вместо универсальных

● Учитывайте ограничения подписки - субагенты могут жечь много токенов, особенно при работе в параллель, так что можно быстрее упереться в лимиты

● Проверки в длинных цепочках - если вы чейните кастомных агентов, то старайтесь проверять результаты их работы после каждого шага, иногда даже прям своими глазами 😱

● Ограничивайте инструменты - давайте кастомному агенту только те инструменты, которые ему нужны - это и безопаснее, и удерживает агента от лишних действий

● Экспериментируйте - фича новая, так что сообщество сейчас активно осваивает и изобретает сценарии использования, и это отличное время для экспериментов и обмена интересными практиками :)

#ai #development #cc

3👍21🔥10❤5👏2

2.01K viewsedited 04:30

Этихлид

Forwarded from NGI | Влад Корнышев про AI и создание AI-продуктов

Каналы, которые я читаю по AI

В продолжение вчерашнего поста здесь будет подборка того, что я читаю сам.

@ai_newz - пусть я получаю основные новости из рассылок и шарясь по HuggingFace, мне нравится канал Артема, т.к. часто тут не только новости, но и какие-то крутые мысли.

@oestick - канал Коли, с которым мы вместе проводили эфир. Много технической информации, при этом довольно часто на языке бизнеса. Здесь практические фишки работы с LLM в доступном изложении.

@ProductsAndStartups - канал Байрама Аннакова, здесь много про AI в бизнесе, этику, тренды и продукт. Следил за Байрамом задолго до увлечения AI - умнейший человек, у которого можно учиться всегда, насколько бы круты вы ни были в своей сфере.

@seeallochnaya - еще один крупный канал. Читаю его в основном из-за периодических анализов статей. Позволяет заполнить FOMO от того, что я сам мог пропустить.

@nobilix - Рефат делает много практических разборов AI-инструментов. Всегда детально, но при этом кратко, всегда с демонстрационными видео, читаю каждый пост.

@kantor_ai - канал экс-руководителя МТС AI. С Виктором познакомились в 2022 и он прямо очень крутой. Здесь больше про классический ML и какие-то заметки, близкие к бизнесу.

@ai_and_law_rus - канал про законадательное регулирование ИИ, помогает заполнить FOMO.

@kdoronin_blog - много практических разборов с упором на AI агентов на любой вкус и цвет.

@neuraldeep - идеальный канал для тех, кто хочет зарыться в техническую часть AI. Точно не для легкого чтения, скорее для тех, кто точно понял, что хочет лучше понять AI изнутри и побольше узнать про эксперименты.

@etechlead - канал для тех, кто хочет погрузиться в разработку и вайб-кодинг. Очень много разношерстных материалов по этой тематике.

@countwithsasha - реклама и аналитика мои не самые сильные стороны, канал Саши помогает легче ориентироваться в применении AI в этих сферах

@the_ai_architect - Тимур - действующий разработчик. Много пишет про кодинг с ИИ и его практическое применение, при этом простым языком.

@gleb_pro_ai - канал Глеба Кудрявцева. Здесь много про инди-хакинг и применение ИИ для этой цели.

@lechim_ai - я очень люблю Медтех. Илья - Head of AI очень крутого стартапа Третье мнение, куда я даже получил оффер в 2021. С тех пор слежу за компанией, а не так давно Илья завел канал про медтех.

@baginsai - Саша пишет про практическое применение AI, кейсы, скидки и всякие другие полезности.

@max_about_ai - еще один канал с техническим уклоном. Максим всегда пишет четко, по делу и про то, что пробовал сам и точно работает.

@eternalmind - здесь посты выходят не так часто, но основная тематика находится на стыке когнитивистики, философии, критического мышления и AI.

@alexs_journal - практические разборы AI-инструментов и всего, что вокруг них: промптинг-гайды, лайфхаки и прочее.

Постарался включить максимум источников, чтобы вам было из чего выбрать 🙂 Сохраняйте список себе, знакомьтесь с авторами, если понравилось - подписывайтесь. Пост - не реклама и не взаимопиар, а реально то, что я читаю.

👍16🔥7❤4

1.56K views13:32

Этихлид

Lenny Product Pass

Есть такой чувак Lenny Rachitsky, известный по своей email-рассылке и каналу на YouTube, где он беседует с интересными предпринимателями и технарями из индустрии (сам его смотрю).
Также он инвестирует в стартапы на ранних этапах, выступая бизнес-ангелом.

Так вот, он иногда запускает раздачу пачек подписок на популярные сервисы, связанные с AI и IT в целом.

Текущий бандл, запущенный несколько дней назад, содержит 16 сервисов и стоит $200 на год. Если подписываться на каждый из сервисов отдельно, это выходит в десятки раз дороже, так что предложение получается довольно выгодное.

Вот какие сервисы включены:

1. Building faster with Replit, Lovable, Bolt, n8n, Warp, Magic Patterns, ChatPRD
2. Collaborating better with Linear, Superhuman, Granola
3. Making it more beautiful with Denoscript, Gamma, Mobbin
4. Getting more done with Wispr Flow, Raycast, Perplexity

Плюс, у вас будет доступ к email-рассылке Ленни и Slack-сообществу с десятками тысяч участников с митапами, менторингами, сессиями AMA и прочей движухой.

Я пропускал прошлые раздачи, но в этот раз, проведя математические операции с двух- и даже трёхзначными числами в уме, пришёл к выводу о том, что оно того стоит:
● среди предложенных продуктов уже есть те, за которые я плачу помесячно, и даже они одни в пересчете на год делают подписку выгодной;
● плюс ко всему, там есть несколько продуктов, которые мне были интересны, но я не был готов за них дополнительно платить, а теперь точно попробую;
● это позволит мне легче начать заниматься нетехническими моментами работы над продуктами, т.к. многие из этих сервисов именно на это заточены. А нетехнические скиллы надо развивать - помним, что профессия разработчика стремительно меняется.

Зачем всё это Ленни и этим сервисам?
Всё просто - он сам инвестировал во многие из этих продуктов, так что тут win-win :)

⚠️ Количество купонов/подписок ограничено (и уже начали кончаться некоторые)
В прошлых запусках часто бывало, что не все успевали получать купоны для всех продуктов в бандле. Соответственно, если есть желание оформить подписки, лучше сделать это раньше.

⚠️ Предложение действует для новых подписчиков этих сервисов, так что если вы платили за какой-то раньше - нужно будет завести новый аккаунт

⚠️ Запросы на рефанд не принимаются, а если делать chargeback, то все подписки отменятся (что логично)

Как получить?
1. идём на https://lennysproductpass.com/

2. мотаем вниз, выбираем подписку за $200 (за 350, если вы точно хотите все купоны получить, даже если они кончатся для тех, кто подписался за 200, а также иметь доступ к будущим, пока что неанонсированным продуктам);

3. получаем в результате ссылку на почту, переходим по ней;

4. открывается снова стартовая страница со списком сервисов;

5. нужно пройтись по каждому и получить купон/ссылку - тем самым вы резервируете его для себя.
Воспользоваться им в конкретном сервисе можно в течение полугода (если верить тому, что там написано), и именно с того момента начнётся ваш год подписки на сервис.

При применении купона в конкретном сервисе:
● внимательно следуйте инструкциям в попапе, который описывает процесс регистрации и применения купона (см. пример на скрине)
● способы скидки - разные в разных продуктах, где-то это купон на месяц, который сам себя возобновляет, где-то - купон на год (см. пример на скрине)
● во многих для оформления подписки нужно оставить данные своей карты - ставьте себе напоминание в календарь через год, чтобы ваш личный помощник, основанный на GPT7, не забыл проверить, что ему какой-то инструмент больше не нужен и отписался

#recommendation #noads

🔥13👍8❤7

1.98K views17:31

Этихлид

Vibe Coding in Prod и деревья с листьями

Попался доклад Эрика Шлунца из Anthropic - "Vibe coding in prod".
Название довольно кликбейтное, потому что я думал, что щас он запустит Claude Code на каком-нить продакшн-сервере и начнет там вайб-кодить :)
(кроме шуток, такое тоже практикуется, но надо очень хорошо представлять себе, куда вы жмав)

Но нет, доклад оказался довольно взвешенным и хорошо описывает несколько базовых практик, которых обязательно нужно придерживаться:

—

🟢 Будьте PM'ом для ИИ: вместо коротких команд, готовьте для агента полноценное ТЗ, как для нового джуна в команде. Чем больше контекста и чётче задача - тем лучше результат.

🟢 Вам нужно думать о "стволе" и "ветвях", а не о "листьях": делегируйте ИИ реализацию конечных, изолированных модулей ("листьев" на дереве зависимостей), но оставляйте за собой проектирование ядра системы ("ствола" и "ветвей").

🟢 Обеспечьте верифицируемость: ваша задача - создать условия, в которых результат работы ИИ можно легко и надёжно проверить. Это могут быть тесты, чётко определённые входные/выходные данные или другие формы верификации.

🟢 Помните об экспоненте: возможности ИИ растут нелинейно. График от METR, который показал Эрик, наглядно демонстрирует, что сложность задач, решаемых ИИ, удваивается каждые 7 месяцев. Нужно готовиться к миру, где ИИ сможет выполнять работу, на которую сегодня уходят недели или месяцы.

Кстати, тот график подробнее описан в серии постов про сценарий AI 2027.

—

Листья и деревья
Идея про "листья" показалась мне особенно полезной - она просто и наглядно формулирует то, к чему мы уже пришли в ИИ-разработке.

Вообще, с точки зрения старших технических специалистов, этот подход не нов - одной из их задач всегда была проработка архитектуры и фиксация высокоуровневых абстракций.
А имея прочный базис, можно было безопасно делегировать реализацию конкретных фич, снижая риски и не накапливая критический техдолг.

Почему это важно?
● Техдолг в "листьях" не так страшен. Их можно относительно дёшево переписать, если что-то пойдет не так, ведь от них мало что зависит.
● Техдолг в ядре системы - это проблема. Закрывать его больно, долго и дорого, вплоть до того, что может оказаться, что проще всё переписать.

Будущую расширяемость и поддерживаемость очень сложно оценить - "человеческая" индустрия разработки так и не выработала надёжных стандартов, хотя попыток было много.

Так что при разработке с ИИ возникает похожее разделение, и наша роль смещается в сторону проектирования надёжного базиса, который мы хорошо понимаем.

Что это значит на практике
⚪️ Высокоуровневая архитектура должна оставаться под контролем
Мы должны подробно проработать основные компоненты, их взаимодействие, контракты и API. Вся эта информация должна быть зафиксирована в виде, понятном для ИИ (документация, схемы, интерфейсы и т.п.).

Чем более нестандартную систему вы делаете - тем более детальный нужен контроль, - просто в силу того, что ИИ лучше справляется с распространенными подходами.

⚪️ Реализация "листьев" делегируется ИИ
Имея чёткие внешние контракты и набор тестов, мы можем отпустить контроль над тем, как именно реализован конкретный изолированный модуль.

Можно всегда его переписать при помощи ИИ с нуля, если потребуется, и пока тесты и прочие верификации проходят, нас даже не особо волнует его внутренняя реализация.

⚪️ Вопрос гранулярности
Насколько большим может быть "лист"? Сейчас надёжной метрики у нас нет, это определяется эмпирически и зависит от проекта, используемой модели и инструментария.

Но стоит понимать, что с ростом возможностей моделей, "листом" может стать целый сервис.
А мы поднимаемся всё выше по уровням абстракции, двигаясь от кода к системной архитектуре, фичам, продукту.

#ai #architecture #development

4🔥30👍23❤5👏2

2.06K viewsedited 13:11

Этихлид

GPT-5, бенчмарки

Отобрал те, которые считаю важными для разработки (тут везде скорее всего gpt-5-thinking high).

Мнение по самой модели почти сформировалось, распишу позже :)

SWE-bench Verified
Сабсет оригинального SWE-bench для оценки способности LLM решать реальные задачи разработки.
Cодержит 500 задач из оригинального набора (из которых OpenAI в своих тестах убирают 23 задачи, которые "не могут быть запущены на нашей инфраструктуре").

Методология: Модели получают описание проблемы на GitHub и базу кода в состоянии до исправления. Задача - сгенерировать патч, который решает описанную проблему.

SWE-bench Bash Only
Использует тот же набор данных, что и SWE-bench Verified, но оценивает LLM в минималистичной bash-среде без спец. инструментов или продвинутых агентов.

Методология: Модели тестируются с помощью mini-SWE-agent в простом цикле ReAct-агента с доступом только к bash. Это позволяет проводить сравнение между различными LLM без влияния дополнительных инструментов.

Aider Polyglot
Оценка навыков программирования LLM на 225 сложных упражнениях из датасета Exercism по шести языкам программирования: C++, Go, Java, JavaScript, Python и Rust.

Методология: Модели должны решать реальные задачи программирования, требующие рассуждений, точности и выполнения кода в разных стеках.

Terminal Bench
Оценка способности ИИ-агентов выполнять сложные задачи в терминальных средах.

Методология: Содержит около 100 сложных задач от компиляции кодовых репозиториев и обучения ML-моделей до настройки серверов и отладки системных конфигов.

Tau Bench v1
Оценка способностей LLM использовать инструменты в агентских диалоговых сценариях.

Методология: Симулирует многошаговые диалоги между "пользователем" и агентом, имеющим доступ к API систем в конкретной предметной области и снабжённым общими руководящими принципами. Охватывает сценарии обслуживания клиентов авиакомпаний и розничной торговли.
Измеряет успешность решения проблемы пользователя и правильность использования необходимых API-инструментов.

Tau Bench v2 (τ²-bench)
Продвинутая версия с двусторонним управлением в сценариях удаленной поддержки клиентов, где как агент, так и пользователь могут использовать инструменты для решения задачи.

Методология: Агент должен координировать действия пользователя и эффективно направлять их. Включает композиционный генератор задач для создания разнообразных, проверяемых задач.
Тестирует как координацию агента, так и коммуникацию, с детальным анализом ошибок рассуждения против ошибок коммуникации/координации.

OpenAI MRCR (2-needle и 8-needle)
Тестирование способности LLM находить и различать множественные идентичные элементы ("иглы") в длинном контексте (до 1 миллиона токенов).

Методология: Модели даётся длинный синтетический диалог, где "пользователь" несколько раз в разных местах просит создать похожий контент (например, стихотворение о тапирах). В диалоге скрыты 2, 4 или 8 таких запросов, и модель должна найти конкретный экземпляр по его порядковому номеру (например, "дай мне 2-ю поэму о тапирах").

Модели нужно отличать "иглы" от "сена" и уметь точно определить, какой именно экземпляр запрашивается (1-й, 2-й, 3-й и т.д.)
Чем больше "игл" (2->4->8) и чем длиннее контекст, тем сложнее задача.

SimpleBench
Бенчмарк множественного выбора, где люди без специализированных знаний (уровень старшей школы) превосходят современные LLM.
Создан и поддерживается автором канала AI Explained (кстати, рекомендую - спокойные и вдумчивые новости).

Методология: Более 200 вопросов на пространственное мышление, понимание времени, социальный интеллект и логические ловушки, основанные на здравом смысле и понятные большинству людей (поэтому и "Simple").

Scale MultiChallenge
Бенчмарк для оценки LLM в ведении многошаговых разговоров с пользователями-людьми.

Методология: Проверяет 4 категории вызовов в многошаговых разговорах: удержание инструкций, запоминание пользовательской информации, версионное редактирование и самосогласованность. Все задачи требуют точного следования инструкциям и аккуратной работы с контекстом одновременно.

#ai #model #review #benchmarks

1👍15🔥9❤6👏2

1.48K viewsedited 06:38

Этихлид

GPT-5, мнение (1/2)

It's a good model, sir (с)

tl;dr: отличная модель для архитектурных обсуждений, сложного кода и парного программирования, но для агентской разработки я остаюсь на Claude Code.

Ну что ж, несмотря на избыток хайпа, и, как следствие, завышенные ожидания от мажорного релиза, OpenAI всё-таки проделали хорошую работу.

Это не революция, а скорее последовательный шаг вперёд, так что нам всё ещё придётся работать самим.
Какие-то смешанные чувства по этому поводу :)

Модель и окружение
Все мои впечатления были сложены на основе использования GPT-5 Thinking, medium и high reasoning efforts в Cursor, Codex CLI и немного в вебе.
Этот её вариант представляют как модель, на которую нужно переходить с o3, так что будет много сравнений именно с ней.

Mini & nano намного хуже, так что их не было смысла рассматривать.

Я буду ссылаться на бенчи из предудыщего поста.

Написание кода
Метрики по разработке подросли на всех бенчмарках относительно o3.

Подтверждается ли на практике? Да, однозначно.
В тех местах, где раньше использовалась o3, теперь надо использовать GPT-5.
Все сферы применения o3 она покрывает и делает даже больше.

Особенно хороша для:
🟢 небольшие-средние по размерам участки нетривиального кода;

🟢 алгоритмы, сложные интеграции, поиск нетривиальных решений;

🟢 поиск проблем в существующем коде;

🟢 архитектурные обсуждения.

Особенности:
(по сути, это всё торчащие наружу уши мощного ризонера)

⚪️ оверинжиниринг - стоит за этим следить, любит сорваться в детали и дотошно их прорабатывать там, где нужен более высокий уровень абстракции, любит писать сложный код, буквально старается выглядеть умной.
Но для сценариев, где всё это действительно нужно - она хороша :)

🟢 стала более управляемой, но всё-таки иногда не может поверить в то, что неправа и продолжает гнуть свою линию;

🟢 гораздо реже галлюцинирует, но всё-таки случается;

🔴 медленная, причём как-то рандомно (возможно, это связано с текущей нагрузкой на сервера OpenAI), но всё-таки в среднем заметно медленнее Claude и Gemini.

Стоит ли менять Sonnet в Cursor на GPT-5?
Зависит от задач, но я поставил её моделью по дефолту (тут стоит отметить, что Cursor у меня на втором месте по частоте использования после Claude Code).

Работа с контекстом
Тут у нас лидером долгое время была Gemini, но теперь на контекстах до 256к токенов GPT-5 показывает лучше результаты по бенчмаркам.

Размер контекста зависит от того, где вы с моделью работаете:
● сайт ChatGPT:
* Free - 8k токенов
* Plus - 32k токенов (Thinking - 192k)
* Pro - 128k токенов (Thinking - ?)
● Cursor/Codex/API: полные 400K токенов (272k input + 128k output)

Стоит отметить, что в классическом понимании у модели на самом деле 272к токенов контекста.

Подтверждается ли на практике хорошая работа с контекстом? Да.

Обсуждали с ней несколько развесистых архитектурных документов+код - действительно хорошо держит контекст и помнит много деталей по мере развития беседы, помнит принятые решения, внесённые изменения и т.п. (лучше, чем Claude, но примерно так же, как Gemini).

Для обсуждения больших репозиториев больше 272к выбора нет - там, конечно же, Gemini в AI Studio.

Использование инструментов
На TAU-bench модель не стала сильно лучше o3, а на Terminal Bench она хуже Claude. Не видно радикального улучшения в использовании инструментов и в целом агентских сценариях.

Подтверждается на практике? Да, и это сильно заметно.

Задачи, которые может решить Claude в правильном окружении (Claude Code), будут просто длиннее и больше по объёму, чем задачи для GPT-5, которая в процессе:
● раньше остановится и задаст общий вопрос или спросит, нужно ли двигаться дальше;
● не сделает дополнительных вещей, которые можно было бы сделать, полагаясь на здравый смысл, без детальных инструкций;
● скорее всего сделает только то, что явно сказали (что, конечно же, может быть и плюсом).

Думается, что модель в основном тренили на ваншот- и диалоговые сценарии работы, в режиме парного программирования, но индустрия с инструментами навроде СС уже пошла дальше, нам нужна агентскость и автономность.

#ai #model #review

3👍20❤12🔥10👏2

1.44K viewsedited 04:53

Этихлид

GPT-5, мнение (2/2)

Знания модели
SimpleBench немного удивил - модель всё-таки хороша в соображалке на повседневных задачах, хотя я и обнаружил пробелы в знаниях по некоторым доменам.
Возможно, модель не настолько широка по знаниям в целом, насколько глубока по некоторым областям, на которых её больше тренировали.

Ну то есть её не получится применять везде, где захочется, и эти области неглубоких знаний заранее неизвестны, их придётся нащупывать.

Кажется, что та же Gemini обладает бОльшим объёмом встроенных знаний, и за счёт этого ощущается как универсальная модель, а вот с GPT-5 такого ощущения не возникает.

Проблемы экосистемы
Чего остро не хватает? Развитого тулинга.

Если рассмотреть Claude Code как пример - он отлично работает с моделями Anthropic, хорошо их промптит, учитывает их специфику, пользуется сильными сторонами (tool use) и применяет уловки для работы со слабыми (контекст).

В случае с GPT-5 тулинг пока что посредственный - Codex CLI, который по идее должен быть эталоном работы с новой моделью, работает с ней хуже, чем Cursor.
А в сравнении с СС Codex CLI и вовсе будто из каменного века как по функционалу, так и по и удобству работы.

Так вот, можно надеяться на то, что если вокруг модели выстроить нормальный тулинг, который будет с ней правильно работать - возможно, она раскроется и в агентских сценариях, но на это потребуется время.

Если же её пытаться использовать сейчас так, как мы обычно используем Claude Code - результаты будут разочаровывающими.

Цены
При использовании по API модель стоит сравнимо с Gemini 2.5 Pro, намного дешевле Sonnet и уж тем более Opus.

Но использование по подписке, конечно, куда более приятно, и тут теперь есть возможность использовать Codex CLI по подписке OpenAI.
Для Plus-пользователей обещают лимиты в виде нескольких 1-2-часовых сессий в неделю.

Не хватает промежуточного тира между $20 и $200 :)

Кстати, в Cursor она до четверга должна быть бесплатной, и там нужно использовать вариант gpt-5-high или gpt-5-high-fast (fast тут приоритетный процессинг за 2x цены, но, несмотря на бесплатность, и в лимиты можно упереться быстрее).

Итог
Это действительно хорошая модель для своих задач, и я согласен терпеть её неспешность в случаях, где нужно что-то этакое раскопать, но в итоге получить результат.

Будем надеяться, что тулинг подтянут, ну а пока порадуемся тому, что у нас есть новый мощный, и при этом дешёвый, ризонер :)

—

Прошлые посты по связанным темам:
● Бенчмарки GPT-5 в сравнении с Gemini 2.5 Pro, Claude Opus/Sonnet и o3.
● Обзор o3 на момент выхода: плюсы, минусы.

#ai #model #review

👍24🔥13❤12👏2

1.75K viewsedited 04:53

Этихлид

0:25

This media is not supported in your browser

VIEW IN TELEGRAM

Claude Code + Stream Deck = Claude Deck

Рубрика ненормальное программирование 🤪

Одна из приятных особенностей Claude Code - это его кастомизируемость.

Вот ~~есть~~ была такая проблема, что когда запускаешь задачи, которые могут десятки минут выполняться, то хочется отслеживать их состояние, даже если куда-то переключился в это время.

Нужна какая-то панелька, в роли которой сгодился Stream Deck. Плюс, это отдельное физическое устройство с кнопочками.

Он и так у меня используется не совсем по назначению - мониторинг, управление и запуск сценариев умного дома, разные автоматизации на компе, даже крутилки громкости на нём :)

Вот, вчера получилась такая штука:
● для Stream Deck сделал плагин Claude Deck
● плагин позволяет добавить несколько кнопок в "пул"
● в проект для CC добавляются хуки (наконец-то им нашлось достойное применение) и самому проекту прописывается уникальное имя ("Ромашка", "Ракета" и т.п.)
● хуки шлют простенькие http-запросы на локальный веб-сервер, поднятый плагином
● результат - на видео

Хуки, как оказалось, покрывают не всё, что нужно, но для моих задач хватило.

Общий вывод эксперимента в том, что кастомизация инструментария под свои процессы и хотелки становится всё проще.

#geeky #cc #очумелые_ручки

🔥33👍11👏3😁3😱2

1.67K views10:56

Этихлид

Forwarded from Константин Доронин

Про строку состояния в Claude Code.

У CC есть команда /statusline, которая позволяет в вайб-режиме установить строку состояния. Также потом можно попробовать её настроить посредством промптов (пробовал – у CC получается не самое приятное отображение, если честно).

Либо можно пойти в официальную документацию и настроить Status line самостоятельно по примерам.

Но есть и куда более "ленивый" режим настройки. Через проект ccstatusline.

Это консольное микроприложение, которое позволяет в дружелюбном интерфейсе настроить до трёх строк состояния (одна под другой), посмотреть их на превью, а потом одной командой установить в Claude Code.

Полный список того, что можно добавить в качестве элемента в Status line:

Model Name - Shows the current Claude model (e.g., "Claude 3.5 Sonnet")

Git Branch - Displays current git branch name

Git Changes - Shows uncommitted insertions/deletions (e.g., "+42,-10")

Session Clock - Shows elapsed time since session start (e.g., "2hr 15m")

Version - Shows Claude Code version

Output Style - Shows the currently set output style in Claude Code

Tokens Input - Shows input tokens used

Tokens Output - Shows output tokens used

Tokens Cached - Shows cached tokens used

Tokens Total - Shows total tokens used

Context Length - Shows current context length in tokens

Context Percentage - Shows percentage of context limit used (out of 200k)

Context Percentage (usable) - Shows percentage of usable context (out of 160k, accounting for auto-compact at 80%)

Terminal Width - Shows detected terminal width (for debugging)

Custom Text - Add your own custom text to the status line

Custom Command - Execute shell commands and display their output (refreshes whenever the statusline is updated by Claude Code)

Separator - Visual divider between items (customizable: |, -, comma, space)

Flex Separator - Expands to fill available space

Удобный инструмент, чтобы отслеживать текущее состояние контекста, параметры git-а, а также время до обновления лимитов.

❤13🔥12👍6👌2

1.18K views11:58

Этихлид

Qoder = Cursor + Kiro + Augment (1/2)

Тут вышла новая VSCode-based AI IDE от китайской Alibaba (от неё же недавно были модели Qwen3-Coder и консольный агент Qwen Code).

Расскажу, какими фичами она меня заинтересовала и поделюсь мнением после нескольких часов работы.

tl;dr
Qoder собрал неплохой набор фич из разных продуктов, с упором на контекст-инжиниринг, Wiki и Spec-Driven Development начального уровня.
Чистенький, приятный, "прямые" сценарии проработаны.
Стоит попробовать в тех задачах, где вы используете какую-то другую AI IDE.
К тому же, несколько недель будет бесплатным.

Quest Mode
Аналог спеков в Kiro, кусочек концепции Spec-Driven Development: сначала обсуждаем с агентом подробности задачи, потом он формирует подробную спецификацию, а затем по ней агент-кодер пишет код.

По сравнению с Kiro тут упрощенный вариант - агенту-кодеру спека отдается сразу вся целиком.
И это, увы, жёстко устанавливает верхнюю планку размера задач.
К примеру, по сгенерированной спецификации на 1500 строк агент сделал не всё - понятное дело, что здесь вмешиваются ограничения контекстного окна модели.
А субагентов тут, как в Claude Code, нет.

Но обещают улучшения именно этого режима работы + облачные агенты.

RepoWiki
Авто-генерируемая Wiki проекта, которая обновляется сама (!) при изменениях в репозитории.
Wiki получается очень (даже слишком) подробная, с кучей описаний, диаграмм, ссылок на файлы в проекте, кусками кода, но при этом неплохо структурированная.
На глаз её объем больше, чем объём кода в самом проекте :)

Генерируется она очень долго - на проекте, в котором примерно 200к токенов, это заняло часа два, и это нормально, судя по документации.

И да, она действительно обновляется после того, как обновляется код (обновление проходит шустро).

Индекс и поиск
Сделано на векторах + граф кода + RepoWiki.
Запрос к индексу не просто ищет ближайшие эмбеддинги, а ещё и проходит по графу (соседние функции, документация, тесты, конфиги).
Это даёт релевантный контекст в реальном времени с учётом структурных связей в коде, чего сильно не хватает в том же Claude Code.

Работает сравнимо с context engine в Augment, который я постоянно хвалю при использовании на больших проектах.
Можно видеть, как агент шлет запросы на естественном языке к этому context engine и за несколько секунд получает релевантные результаты.
То же самое касается и режима Ask в чате, когда вы задаете вопрос по проекту - очень быстро формируется подробный и релевантный ответ.

Или когда в чат скидываешь скриншот с ошибкой, которая у тебя вылезла в UI, а агент в пару шагов находит релевантный код и фиксит его - это очень удобно :)

Память
Обещания в блоге выглядят очень круто - эволюционирующий агент с полным циклом памяти, но на самом деле все гораздо проще :)

Работает это примерно как в Cursor/ChatGPT - агент выделяет из вашего чата какие-то важные (по его или вашему мнению) моменты, делает из них небольшие заметки, именует/тегирует их и складывает во внутреннее хранилище.

Это могут быть какие-то правила стиля кода, архитектурные подходы, общие инструкции, и все они потом используются агентом в релевантном контексте (если повезёт).

В дальнейшем эти заметки могут быть обновлены агентом или удалены вами - доступны они прямо в настройках самой IDE.

Конкретно этой фичей не впечатлён - агент успешно игнорил некоторые из заданных таким образом правил (как и в других подобных системах памяти).

#ai #review #ide

1👍15❤14🔥9

1.7K views03:59

About

Blog

Apps

Platform