Этихлид – Telegram
Этихлид
4.77K subscribers
152 photos
23 videos
129 links
Канал техлида с мыслями об AI, IT и спорте.

https://news.1rj.ru/str/etechlead/6 - содержание

https://news.1rj.ru/str/etechlead/8 - о канале

https://news.1rj.ru/str/+NgQZbosvypEyYWQ6 - чат канала, там отвечаю(т) быстрее :)

(без рекламы)
Download Telegram
Lenny Product Pass

Есть такой чувак Lenny Rachitsky, известный по своей email-рассылке и каналу на YouTube, где он беседует с интересными предпринимателями и технарями из индустрии (сам его смотрю).
Также он инвестирует в стартапы на ранних этапах, выступая бизнес-ангелом.

Так вот, он иногда запускает раздачу пачек подписок на популярные сервисы, связанные с AI и IT в целом.

Текущий бандл, запущенный несколько дней назад, содержит 16 сервисов и стоит $200 на год. Если подписываться на каждый из сервисов отдельно, это выходит в десятки раз дороже, так что предложение получается довольно выгодное.

Вот какие сервисы включены:
1. Building faster with ReplitLovableBoltn8nWarpMagic PatternsChatPRD
2. Collaborating better with LinearSuperhumanGranola
3. Making it more beautiful with DenoscriptGammaMobbin
4. Getting more done with Wispr FlowRaycastPerplexity

Плюс, у вас будет доступ к email-рассылке Ленни и Slack-сообществу с десятками тысяч участников с митапами, менторингами, сессиями AMA и прочей движухой.


Я пропускал прошлые раздачи, но в этот раз, проведя математические операции с двух- и даже трёхзначными числами в уме, пришёл к выводу о том, что оно того стоит:
● среди предложенных продуктов уже есть те, за которые я плачу помесячно, и даже они одни в пересчете на год делают подписку выгодной;
● плюс ко всему, там есть несколько продуктов, которые мне были интересны, но я не был готов за них дополнительно платить, а теперь точно попробую;
● это позволит мне легче начать заниматься нетехническими моментами работы над продуктами, т.к. многие из этих сервисов именно на это заточены. А нетехнические скиллы надо развивать - помним, что профессия разработчика стремительно меняется.


Зачем всё это Ленни и этим сервисам?
Всё просто - он сам инвестировал во многие из этих продуктов, так что тут win-win :)


⚠️ Количество купонов/подписок ограничено (и уже начали кончаться некоторые)
В прошлых запусках часто бывало, что не все успевали получать купоны для всех продуктов в бандле. Соответственно, если есть желание оформить подписки, лучше сделать это раньше.

⚠️ Предложение действует для новых подписчиков этих сервисов, так что если вы платили за какой-то раньше - нужно будет завести новый аккаунт

⚠️ Запросы на рефанд не принимаются, а если делать chargeback, то все подписки отменятся (что логично)


Как получить?
1. идём на https://lennysproductpass.com/

2. мотаем вниз, выбираем подписку за $200 (за 350, если вы точно хотите все купоны получить, даже если они кончатся для тех, кто подписался за 200, а также иметь доступ к будущим, пока что неанонсированным продуктам);

3. получаем в результате ссылку на почту, переходим по ней;

4. открывается снова стартовая страница со списком сервисов;

5. нужно пройтись по каждому и получить купон/ссылку - тем самым вы резервируете его для себя.
Воспользоваться им в конкретном сервисе можно в течение полугода (если верить тому, что там написано), и именно с того момента начнётся ваш год подписки на сервис.


При применении купона в конкретном сервисе:
● внимательно следуйте инструкциям в попапе, который описывает процесс регистрации и применения купона (см. пример на скрине)
● способы скидки - разные в разных продуктах, где-то это купон на месяц, который сам себя возобновляет, где-то - купон на год (см. пример на скрине)
● во многих для оформления подписки нужно оставить данные своей карты - ставьте себе напоминание в календарь через год, чтобы ваш личный помощник, основанный на GPT7, не забыл проверить, что ему какой-то инструмент больше не нужен и отписался

#recommendation #noads
🔥13👍87
Vibe Coding in Prod и деревья с листьями

Попался доклад Эрика Шлунца из Anthropic - "Vibe coding in prod".
Название довольно кликбейтное, потому что я думал, что щас он запустит Claude Code на каком-нить продакшн-сервере и начнет там вайб-кодить :)
(кроме шуток, такое тоже практикуется, но надо очень хорошо представлять себе, куда вы жмав)

Но нет, доклад оказался довольно взвешенным и хорошо описывает несколько базовых практик, которых обязательно нужно придерживаться:



🟢 Будьте PM'ом для ИИ: вместо коротких команд, готовьте для агента полноценное ТЗ, как для нового джуна в команде. Чем больше контекста и чётче задача - тем лучше результат.

🟢 Вам нужно думать о "стволе" и "ветвях", а не о "листьях": делегируйте ИИ реализацию конечных, изолированных модулей ("листьев" на дереве зависимостей), но оставляйте за собой проектирование ядра системы ("ствола" и "ветвей").

🟢 Обеспечьте верифицируемость
: ваша задача - создать условия, в которых результат работы ИИ можно легко и надёжно проверить. Это могут быть тесты, чётко определённые входные/выходные данные или другие формы верификации.

🟢 Помните об экспоненте: возможности ИИ растут нелинейно. График от METR, который показал Эрик, наглядно демонстрирует, что сложность задач, решаемых ИИ, удваивается каждые 7 месяцев. Нужно готовиться к миру, где ИИ сможет выполнять работу, на которую сегодня уходят недели или месяцы.

Кстати, тот график подробнее описан в серии постов про сценарий AI 2027.



Листья и деревья

Идея про "листья" показалась мне особенно полезной - она просто и наглядно формулирует то, к чему мы уже пришли в ИИ-разработке.

Вообще, с точки зрения старших технических специалистов, этот подход не нов - одной из их задач всегда была проработка архитектуры и фиксация высокоуровневых абстракций.
А имея прочный базис, можно было безопасно делегировать реализацию конкретных фич, снижая риски и не накапливая критический техдолг.

Почему это важно?
● Техдолг в "листьях" не так страшен. Их можно относительно дёшево переписать, если что-то пойдет не так, ведь от них мало что зависит.
● Техдолг в ядре системы - это проблема. Закрывать его больно, долго и дорого, вплоть до того, что может оказаться, что проще всё переписать.

Будущую расширяемость и поддерживаемость очень сложно оценить - "человеческая" индустрия разработки так и не выработала надёжных стандартов, хотя попыток было много.

Так что при разработке с ИИ возникает похожее разделение, и наша роль смещается в сторону проектирования надёжного базиса, который мы хорошо понимаем.

Что это значит на практике
⚪️ Высокоуровневая архитектура должна оставаться под контролем
Мы должны подробно проработать основные компоненты, их взаимодействие, контракты и API. Вся эта информация должна быть зафиксирована в виде, понятном для ИИ (документация, схемы, интерфейсы и т.п.).

Чем более нестандартную систему вы делаете - тем более детальный нужен контроль, - просто в силу того, что ИИ лучше справляется с распространенными подходами.

⚪️ Реализация "листьев" делегируется ИИ
Имея чёткие внешние контракты и набор тестов, мы можем отпустить контроль над тем, как именно реализован конкретный изолированный модуль.

Можно всегда его переписать при помощи ИИ с нуля, если потребуется, и пока тесты и прочие верификации проходят, нас даже не особо волнует его внутренняя реализация.

⚪️ Вопрос гранулярности
Насколько большим может быть "лист"? Сейчас надёжной метрики у нас нет, это определяется эмпирически и зависит от проекта, используемой модели и инструментария.

Но стоит понимать, что с ростом возможностей моделей, "листом" может стать целый сервис.
А мы поднимаемся всё выше по уровням абстракции, двигаясь от кода к системной архитектуре, фичам, продукту.

#ai #architecture #development
4🔥30👍235👏2
GPT-5, бенчмарки

Отобрал те, которые считаю важными для разработки (тут везде скорее всего gpt-5-thinking high).

Мнение по самой модели почти сформировалось, распишу позже :)

SWE-bench Verified
Сабсет оригинального SWE-bench для оценки способности LLM решать реальные задачи разработки.
Cодержит 500 задач из оригинального набора (из которых OpenAI в своих тестах убирают 23 задачи, которые "не могут быть запущены на нашей инфраструктуре").

Методология: Модели получают описание проблемы на GitHub и базу кода в состоянии до исправления. Задача - сгенерировать патч, который решает описанную проблему.

SWE-bench Bash Only
Использует тот же набор данных, что и SWE-bench Verified, но оценивает LLM в минималистичной bash-среде без спец. инструментов или продвинутых агентов.

Методология: Модели тестируются с помощью mini-SWE-agent в простом цикле ReAct-агента с доступом только к bash. Это позволяет проводить сравнение между различными LLM без влияния дополнительных инструментов.

Aider Polyglot
Оценка навыков программирования LLM на 225 сложных упражнениях из датасета Exercism по шести языкам программирования: C++, Go, Java, JavaScript, Python и Rust.

Методология: Модели должны решать реальные задачи программирования, требующие рассуждений, точности и выполнения кода в разных стеках.

Terminal Bench
Оценка способности ИИ-агентов выполнять сложные задачи в терминальных средах.

Методология: Содержит около 100 сложных задач от компиляции кодовых репозиториев и обучения ML-моделей до настройки серверов и отладки системных конфигов.

Tau Bench v1
Оценка способностей LLM использовать инструменты в агентских диалоговых сценариях.

Методология: Симулирует многошаговые диалоги между "пользователем" и агентом, имеющим доступ к API систем в конкретной предметной области и снабжённым общими руководящими принципами. Охватывает сценарии обслуживания клиентов авиакомпаний и розничной торговли.
Измеряет успешность решения проблемы пользователя и правильность использования необходимых API-инструментов.

Tau Bench v2 (τ²-bench)
Продвинутая версия с двусторонним управлением в сценариях удаленной поддержки клиентов, где как агент, так и пользователь могут использовать инструменты для решения задачи.

Методология: Агент должен координировать действия пользователя и эффективно направлять их. Включает композиционный генератор задач для создания разнообразных, проверяемых задач.
Тестирует как координацию агента, так и коммуникацию, с детальным анализом ошибок рассуждения против ошибок коммуникации/координации.

OpenAI MRCR (2-needle и 8-needle)
Тестирование способности LLM находить и различать множественные идентичные элементы ("иглы") в длинном контексте (до 1 миллиона токенов).

Методология: Модели даётся длинный синтетический диалог, где "пользователь" несколько раз в разных местах просит создать похожий контент (например, стихотворение о тапирах). В диалоге скрыты 2, 4 или 8 таких запросов, и модель должна найти конкретный экземпляр по его порядковому номеру (например, "дай мне 2-ю поэму о тапирах").

Модели нужно отличать "иглы" от "сена" и уметь точно определить, какой именно экземпляр запрашивается (1-й, 2-й, 3-й и т.д.)
Чем больше "игл" (2->4->8) и чем длиннее контекст, тем сложнее задача.

SimpleBench
Бенчмарк множественного выбора, где люди без специализированных знаний (уровень старшей школы) превосходят современные LLM.
Создан и поддерживается автором канала AI Explained (кстати, рекомендую - спокойные и вдумчивые новости).

Методология: Более 200 вопросов на пространственное мышление, понимание времени, социальный интеллект и логические ловушки, основанные на здравом смысле и понятные большинству людей (поэтому и "Simple").

Scale MultiChallenge
Бенчмарк для оценки LLM в ведении многошаговых разговоров с пользователями-людьми.

Методология: Проверяет 4 категории вызовов в многошаговых разговорах: удержание инструкций, запоминание пользовательской информации, версионное редактирование и самосогласованность. Все задачи требуют точного следования инструкциям и аккуратной работы с контекстом одновременно.

#ai #model #review #benchmarks
1👍15🔥96👏2
GPT-5, мнение (1/2)

It's a good model, sir (с)


tl;dr: отличная модель для архитектурных обсуждений, сложного кода и парного программирования, но для агентской разработки я остаюсь на Claude Code.


Ну что ж, несмотря на избыток хайпа, и, как следствие, завышенные ожидания от мажорного релиза, OpenAI всё-таки проделали хорошую работу.

Это не революция, а скорее последовательный шаг вперёд, так что нам всё ещё придётся работать самим.
Какие-то смешанные чувства по этому поводу :)


Модель и окружение
Все мои впечатления были сложены на основе использования GPT-5 Thinking, medium и high reasoning efforts в Cursor, Codex CLI и немного в вебе.
Этот её вариант представляют как модель, на которую нужно переходить с o3, так что будет много сравнений именно с ней.

Mini & nano намного хуже, так что их не было смысла рассматривать.

Я буду ссылаться на бенчи из предудыщего поста.


Написание кода
Метрики по разработке подросли на всех бенчмарках относительно o3.

Подтверждается ли на практике? Да, однозначно.
В тех местах, где раньше использовалась o3, теперь надо использовать GPT-5.
Все сферы применения o3 она покрывает и делает даже больше.

Особенно хороша для:
🟢 небольшие-средние по размерам участки нетривиального кода;

🟢 алгоритмы, сложные интеграции, поиск нетривиальных решений;

🟢 поиск проблем в существующем коде;

🟢 архитектурные обсуждения.

Особенности:
(по сути, это всё торчащие наружу уши мощного ризонера)

⚪️ оверинжиниринг - стоит за этим следить, любит сорваться в детали и дотошно их прорабатывать там, где нужен более высокий уровень абстракции, любит писать сложный код, буквально старается выглядеть умной.
Но для сценариев, где всё это действительно нужно - она хороша :)

🟢 стала более управляемой, но всё-таки иногда не может поверить в то, что неправа и продолжает гнуть свою линию;

🟢 гораздо реже галлюцинирует, но всё-таки случается;

🔴 медленная, причём как-то рандомно (возможно, это связано с текущей нагрузкой на сервера OpenAI), но всё-таки в среднем заметно медленнее Claude и Gemini.

Стоит ли менять Sonnet в Cursor на GPT-5?
Зависит от задач, но я поставил её моделью по дефолту (тут стоит отметить, что Cursor у меня на втором месте по частоте использования после Claude Code).


Работа с контекстом
Тут у нас лидером долгое время была Gemini, но теперь на контекстах до 256к токенов GPT-5 показывает лучше результаты по бенчмаркам.

Размер контекста зависит от того, где вы с моделью работаете:
● сайт ChatGPT:
* Free - 8k токенов
* Plus - 32k токенов (Thinking - 192k)
* Pro - 128k токенов (Thinking - ?)
● Cursor/Codex/API: полные 400K токенов (272k input + 128k output)

Стоит отметить, что в классическом понимании у модели на самом деле 272к токенов контекста.

Подтверждается ли на практике хорошая работа с контекстом? Да.

Обсуждали с ней несколько развесистых архитектурных документов+код - действительно хорошо держит контекст и помнит много деталей по мере развития беседы, помнит принятые решения, внесённые изменения и т.п. (лучше, чем Claude, но примерно так же, как Gemini).

Для обсуждения больших репозиториев больше 272к выбора нет - там, конечно же, Gemini в AI Studio.


Использование инструментов
На TAU-bench модель не стала сильно лучше o3, а на Terminal Bench она хуже Claude. Не видно радикального улучшения в использовании инструментов и в целом агентских сценариях.

Подтверждается на практике? Да, и это сильно заметно.

Задачи, которые может решить Claude в правильном окружении (Claude Code), будут просто длиннее и больше по объёму, чем задачи для GPT-5, которая в процессе:
● раньше остановится и задаст общий вопрос или спросит, нужно ли двигаться дальше;
● не сделает дополнительных вещей, которые можно было бы сделать, полагаясь на здравый смысл, без детальных инструкций;
● скорее всего сделает только то, что явно сказали (что, конечно же, может быть и плюсом).

Думается, что модель в основном тренили на ваншот- и диалоговые сценарии работы, в режиме парного программирования, но индустрия с инструментами навроде СС уже пошла дальше, нам нужна агентскость и автономность.

#ai #model #review
3👍2012🔥10👏2
GPT-5, мнение (2/2)

Знания модели
SimpleBench немного удивил - модель всё-таки хороша в соображалке на повседневных задачах, хотя я и обнаружил пробелы в знаниях по некоторым доменам.
Возможно, модель не настолько широка по знаниям в целом, насколько глубока по некоторым областям, на которых её больше тренировали.

Ну то есть её не получится применять везде, где захочется, и эти области неглубоких знаний заранее неизвестны, их придётся нащупывать.

Кажется, что та же Gemini обладает бОльшим объёмом встроенных знаний, и за счёт этого ощущается как универсальная модель, а вот с GPT-5 такого ощущения не возникает.


Проблемы экосистемы
Чего остро не хватает? Развитого тулинга.

Если рассмотреть Claude Code как пример - он отлично работает с моделями Anthropic, хорошо их промптит, учитывает их специфику, пользуется сильными сторонами (tool use) и применяет уловки для работы со слабыми (контекст).

В случае с GPT-5 тулинг пока что посредственный - Codex CLI, который по идее должен быть эталоном работы с новой моделью, работает с ней хуже, чем Cursor.
А в сравнении с СС Codex CLI и вовсе будто из каменного века как по функционалу, так и по и удобству работы.

Так вот, можно надеяться на то, что если вокруг модели выстроить нормальный тулинг, который будет с ней правильно работать - возможно, она раскроется и в агентских сценариях, но на это потребуется время.

Если же её пытаться использовать сейчас так, как мы обычно используем Claude Code - результаты будут разочаровывающими.


Цены
При использовании по API модель стоит сравнимо с Gemini 2.5 Pro, намного дешевле Sonnet и уж тем более Opus.

Но использование по подписке, конечно, куда более приятно, и тут теперь есть возможность использовать Codex CLI по подписке OpenAI.
Для Plus-пользователей обещают лимиты в виде нескольких 1-2-часовых сессий в неделю.

Не хватает промежуточного тира между $20 и $200 :)

Кстати, в Cursor она до четверга должна быть бесплатной, и там нужно использовать вариант gpt-5-high или gpt-5-high-fast (fast тут приоритетный процессинг за 2x цены, но, несмотря на бесплатность, и в лимиты можно упереться быстрее).

Итог
Это действительно хорошая модель для своих задач, и я согласен терпеть её неспешность в случаях, где нужно что-то этакое раскопать, но в итоге получить результат.

Будем надеяться, что тулинг подтянут, ну а пока порадуемся тому, что у нас есть новый мощный, и при этом дешёвый, ризонер :)



Прошлые посты по связанным темам:
Бенчмарки GPT-5 в сравнении с Gemini 2.5 Pro, Claude Opus/Sonnet и o3.
● Обзор o3 на момент выхода: плюсы, минусы.

#ai #model #review
👍24🔥1312👏2
Claude Code + Stream Deck = Claude Deck

Рубрика ненормальное программирование 🤪

Одна из приятных особенностей Claude Code - это его кастомизируемость.

Вот есть была такая проблема, что когда запускаешь задачи, которые могут десятки минут выполняться, то хочется отслеживать их состояние, даже если куда-то переключился в это время.

Нужна какая-то панелька, в роли которой сгодился Stream Deck. Плюс, это отдельное физическое устройство с кнопочками.

Он и так у меня используется не совсем по назначению - мониторинг, управление и запуск сценариев умного дома, разные автоматизации на компе, даже крутилки громкости на нём :)

Вот, вчера получилась такая штука:
● для Stream Deck сделал плагин Claude Deck
● плагин позволяет добавить несколько кнопок в "пул"
● в проект для CC добавляются хуки (наконец-то им нашлось достойное применение) и самому проекту прописывается уникальное имя ("Ромашка", "Ракета" и т.п.)
● хуки шлют простенькие http-запросы на локальный веб-сервер, поднятый плагином
● результат - на видео

Хуки, как оказалось, покрывают не всё, что нужно, но для моих задач хватило.

Общий вывод эксперимента в том, что кастомизация инструментария под свои процессы и хотелки становится всё проще.

#geeky #cc #очумелые_ручки
🔥33👍11👏3😁3😱2
Про строку состояния в Claude Code.

У CC есть команда /statusline, которая позволяет в вайб-режиме установить строку состояния. Также потом можно попробовать её настроить посредством промптов (пробовал – у CC получается не самое приятное отображение, если честно).

Либо можно пойти в официальную документацию и настроить Status line самостоятельно по примерам.

Но есть и куда более "ленивый" режим настройки. Через проект ccstatusline.

Это консольное микроприложение, которое позволяет в дружелюбном интерфейсе настроить до трёх строк состояния (одна под другой), посмотреть их на превью, а потом одной командой установить в Claude Code.

Полный список того, что можно добавить в качестве элемента в Status line:

Model Name - Shows the current Claude model (e.g., "Claude 3.5 Sonnet")

Git Branch - Displays current git branch name

Git Changes - Shows uncommitted insertions/deletions (e.g., "+42,-10")

Session Clock - Shows elapsed time since session start (e.g., "2hr 15m")

Version - Shows Claude Code version

Output Style - Shows the currently set output style in Claude Code

Tokens Input - Shows input tokens used

Tokens Output - Shows output tokens used

Tokens Cached - Shows cached tokens used

Tokens Total - Shows total tokens used

Context Length - Shows current context length in tokens

Context Percentage - Shows percentage of context limit used (out of 200k)

Context Percentage (usable) - Shows percentage of usable context (out of 160k, accounting for auto-compact at 80%)

Terminal Width - Shows detected terminal width (for debugging)

Custom Text - Add your own custom text to the status line

Custom Command - Execute shell commands and display their output (refreshes whenever the statusline is updated by Claude Code)

Separator - Visual divider between items (customizable: |, -, comma, space)

Flex Separator - Expands to fill available space


Удобный инструмент, чтобы отслеживать текущее состояние контекста, параметры git-а, а также время до обновления лимитов.
13🔥12👍6👌2
Qoder = Cursor + Kiro + Augment (1/2)

Тут вышла новая VSCode-based AI IDE от китайской Alibaba (от неё же недавно были модели Qwen3-Coder и консольный агент Qwen Code).

Расскажу, какими фичами она меня заинтересовала и поделюсь мнением после нескольких часов работы.

tl;dr
Qoder собрал неплохой набор фич из разных продуктов, с упором на контекст-инжиниринг, Wiki и Spec-Driven Development начального уровня.
Чистенький, приятный, "прямые" сценарии проработаны.
Стоит попробовать в тех задачах, где вы используете какую-то другую AI IDE.
К тому же, несколько недель будет бесплатным.

Quest Mode
Аналог спеков в Kiro, кусочек концепции Spec-Driven Development: сначала обсуждаем с агентом подробности задачи, потом он формирует подробную спецификацию, а затем по ней агент-кодер пишет код.

По сравнению с Kiro тут упрощенный вариант - агенту-кодеру спека отдается сразу вся целиком.
И это, увы, жёстко устанавливает верхнюю планку размера задач.
К примеру, по сгенерированной спецификации на 1500 строк агент сделал не всё - понятное дело, что здесь вмешиваются ограничения контекстного окна модели.
А субагентов тут, как в Claude Code, нет.

Но обещают улучшения именно этого режима работы + облачные агенты.

RepoWiki
Авто-генерируемая Wiki проекта, которая обновляется сама (!) при изменениях в репозитории.
Wiki получается очень (даже слишком) подробная, с кучей описаний, диаграмм, ссылок на файлы в проекте, кусками кода, но при этом неплохо структурированная.
На глаз её объем больше, чем объём кода в самом проекте :)

Генерируется она очень долго - на проекте, в котором примерно 200к токенов, это заняло часа два, и это нормально, судя по документации.

И да, она действительно обновляется после того, как обновляется код (обновление проходит шустро).

Индекс и поиск
Сделано на векторах + граф кода + RepoWiki.
Запрос к индексу не просто ищет ближайшие эмбеддинги, а ещё и проходит по графу (соседние функции, документация, тесты, конфиги).
Это даёт релевантный контекст в реальном времени с учётом структурных связей в коде, чего сильно не хватает в том же Claude Code.

Работает сравнимо с context engine в Augment, который я постоянно хвалю при использовании на больших проектах.
Можно видеть, как агент шлет запросы на естественном языке к этому context engine и за несколько секунд получает релевантные результаты.
То же самое касается и режима Ask в чате, когда вы задаете вопрос по проекту - очень быстро формируется подробный и релевантный ответ.

Или когда в чат скидываешь скриншот с ошибкой, которая у тебя вылезла в UI, а агент в пару шагов находит релевантный код и фиксит его - это очень удобно :)

Память
Обещания в блоге выглядят очень круто - эволюционирующий агент с полным циклом памяти, но на самом деле все гораздо проще :)

Работает это примерно как в Cursor/ChatGPT - агент выделяет из вашего чата какие-то важные (по его или вашему мнению) моменты, делает из них небольшие заметки, именует/тегирует их и складывает во внутреннее хранилище.

Это могут быть какие-то правила стиля кода, архитектурные подходы, общие инструкции, и все они потом используются агентом в релевантном контексте (если повезёт).

В дальнейшем эти заметки могут быть обновлены агентом или удалены вами - доступны они прямо в настройках самой IDE.

Конкретно этой фичей не впечатлён - агент успешно игнорил некоторые из заданных таким образом правил (как и в других подобных системах памяти).

#ai #review #ide
1👍1514🔥9
Qoder = Cursor + Kiro + Augment (2/2)

Стандартные фичи
● чат в сайдбаре с 2 режимами - Agent и Ask
● дополнение кода по tab
● inline-чат, MCP, диффы, правила в папке .Qoder/rules (если вам мало папок от других агентов), и т.п., ну всё как у людей

Что из минусов

🔴 Нельзя выбрать модель
Декларируется, что внутренний роутер сам надёжно выберет модель, но это плохое решение, я считаю - все мы знаем, как такие роутеры работают.

По характеру ответов, по крайней мере в агентских сценариях, очень похоже на то, что там чаще всего отвечает Sonnet 4.

Однако в некоторых случаях, кажется, используется и собственная модель компании, Qwen - заметно, что и "характер" самой модели меняется, и качество кода.

🔴 Нестабильная работа
Виснут квесты, агент в чате ходит кругами чаще, чем обычно, запромпчен он явно плохо, иногда ломается сетевое соединение, приходится жать "Retry".
Ну это не страшно для инструмента, который буквально сегодня вышел

🔴 Есть ограничение на количество вызываемых тулов на запрос в режиме агентского чата, по крайней мере один раз я это поймал

💰Цены
В течение нескольких следующих недель - бесплатно.
А дальше - цены пока что не объявлены.
Тарификация будет в абстрактных "кредитах", так что посмотрим, как это будет выражаться в количестве токенов, которые можно будет послать моделям.

Заключение
Ну, с одной стороны, это выглядит как попытка заявить о том, что "мы тоже можем".

А с другой стороны, работа проведена серьезная.
Такие фичи, как хороший индекс кода, автоматически обновляемая Wiki и Spec-Driven Development пока что вместе ни в одном продукте не встречаются.

Конкретно мне не хватает агентскости, чтобы можно было действительно большие задачи давать, и чтобы был какой-то оркестратор, который эти задачи будет выполнять многими агентами.

Так что хочется, чтобы Qoder развивался дальше - задел на будущее хороший, особенно для первого релиза.

#ai #review #ide
4👍23🔥116
И правда, доколе?!

Скорее бы уже кто-то один победил или хотя бы выработался единый стандарт.

Хотя скорее всего будет как в известном комиксе xkcd :)

#fun #ai
1😁33💯18👍4
Forwarded from Сиолошная
OpenAI выпустили новую GPT-5 😑

...заточенную на программистов, GPT-5 Codex. Эта модель заменит o3 в Codex в веб-клиенте (наконец-то) и уже доступна в локальном Codex CLI / плагине для вашей IDE. Если вы ещё не пробовали — обязательно попробуйте! Это бесплатно, если вы подписаны на любой тир ChatGPT. В комментариях многие отмечали, что им нравится больше, чем Claude Code, и модель работает лучше.

GPT-5 Codex дотренировали на новых сложных реальных задач, создании проектов с нуля, добавлении функций и тестов, отладке, проведении масштабных рефакторингов и ревью кода.

По стандартному бенчмарку SWE-bench Verified разница не особо заметна, 74.5% против старых 72.8%. Однако на внутреннем бенчмарке OpenAI на задачах рефакторинга модель стала гораздо лучше: прыжок с 33.9% до 51.3%!

Но и это не всё: модель стала писать меньше бесполезных или ошибочных комментариев, лучше ловить баги в коде, и... думать меньше, когда это не надо. OpenAI взяли запросы от сотрудников внутри компании и сравнили количество токенов в ответах двух моделей.

Там, где ответы были короткими, они стали ещё короче, а там, где цепочки рассуждений и сгенерированный код были длиннее — стало больше. Со слов OpenAI, во время они наблюдали, как GPT‑5-Codex работал автономно более 7 часов подряд над большими и сложными задачами, выполняя итерации по внедрению, исправляя ошибки тестирования и в конечном итоге обеспечивая успешное решение задачи.

Codex CLI и Codex Web получили кучу обновлений за последний месяц, но про них писать не буду.

В API модель появится скоро, очень ждём, пока замеряют качество и на других бенчмарках. В системной карточке модели указали лишь один — по решению многоступенчатых задачек по кибер-взлому (с соревнований CTF). Модель наконец-то статистически значимо обгоняет o3! Жаль, не замерили другие бенчмарки (вроде PaperBench).
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12🔥53