Женя, расскажи про AI – Telegram
Женя, расскажи про AI
261 subscribers
46 photos
2 videos
40 links
Связаться: @jackuait

Делюсь своим опытом LLM-assisted разработки и тем, что меня удивляет по ходу погружения в мир AI
Download Telegram
Я создал редактор для вайб-кодинга

Я устал от современных редакторов кода. Они просто не подходят для написания кода агентами.

Лично у меня есть три проблемы с ними:
1. Воркфлоу для работы с агентами в существующих редакторах — боль. Постоянное переключение между окнами без горячих клавиш, попытки уместить всё на один экран, странное поведение самих редакторов и куча багов в интерфейсах агентов.
2. Несколько проектов = несколько окон VS Code, и между ними приходится прыгать как сумасшедшему. Я так и не придумал, как можно удобно переключаться между ними, как и не нашёл уже готовых решений.
3. Прожорливость. На макбуке с 36 гигабайтами три-четыре VS Code с Claude Code вылетают или начинают свопиться. Мой макбук стабильно по несколько раз в день приходится перезагружать из-за утечек памяти в софте от MicroSlop и Anthropic. 90 гигабайт оперативки на три инстанса VS Code — это нормально в 2026?


Мне это надоело, и я создал Ghost Tab, который решил все мои проблемы и, возможно, решит ваши.

Вот чем он хорош:
1. Две панели в Ghostty. Слева — Git, файловая система, терминал. Справа — Claude Code. Можно менять размеры как удобно и разворачивать любое из окон на весь экран.
2. Проекты живут во вкладках. Настроил путь один раз — потом просто выбираешь из списка при создании новой вкладки. Переключаешься стандартными хоткеями Ghostty, всё мгновенно, никаких танцев с окнами.
3. Дополнительные хоткеи. Помимо того, что предоставляет Ghostty, в редакторе есть свои горячие клавиши, которые ещё сильнее упрощают работу с несколькими проектами.
4. Нет утечек памяти. Терминальный Claude Code любит оставлять зомби-процессы. Мой редактор прибивает всё принудительно, как бы ты ни вышел.
5. Легковесный. Ну, тут даже, кажется, объяснять не нужно: нет прожорливой Electron-обёртки, нет проблем с оперативной памятью.
6. Расширяемость. Вы можете взять за основу мой редактор и изменить его как вашей душе угодно. Хотите заменить Claude Code на Codex или Copilot CLI? Хотите добавить новые горячие клавиши? Убрать какие-то панели? Одна команда вашему агенту, и вы получите редактор, настроенный под вас. Любую часть вы можете поменять и повернуть так, чтобы было удобно именно вам.

Помимо этого, вы можете поставить себе Raycast. Он позволит вам навесить хоткеи для переключения между приложениями. Лично я настроил его так: vibecode-editor открывается через CMD+G, Chrome для просмотра изменений через CMD+H и Arc для всего остального через CMD+J. Это небольшое изменение, но по ощущениям жизнь улучшает не меньше, чем переезд на новый редактор.

Ставьте себе Ghost Tab, и жду вашего фидбека здесь или на GitHub:)
5🔥14👍5👏2🤡1😨1💊1
Почему 1М контекста в Opus 4.6 — маркетинговый трюк

Наверняка вы уже слышали, что Anthropic выпустили Opus 4.6, а OpenAI свою GPT-5.3 Codex почти одновременно.

Графики красивые, хайпа много, но что на самом деле стоит за ними? Давайте разбираться.

Сразу спойлер: никакой революции не произошло (впрочем, как и с 1M контекста в Sonnet'ах), но мы постепенно движемся в правильном направлении.

Что нам расказали Anthropic?
1. Opus 4.6 показала лучшие результаты в тесте 8-NIAH, набрав целых 76% точности. Значительно обгоняя Sonnet 4.5 (18.5%) и Gemini 3 Pro (26.3%).
2. Начинания с 200к токенов контекстного окна новая модель будет тарифицироваться по «премиальному прайсингу»: $10 за миллион входных токенов и $37.50 за тот же миллион, но на выходе… Да, c фразой для описания стоимости ребята не ошиблись.

Что это значит нормальным языком?
1. Opus 4.6 на самом деле не умеет работать с большим контекстом. В другом посте я уже рассказывал про тест Needle-In-A-Haystack. 8-NIAH — это тоже самое, но вместо одного кусочка данных по тексту разбросаны уже 8 одинаковых кусочков данных, каждый из которых модели нужно найти. Да, Opus 4.6 стала справляться с этой задачей гораздо лучше остальных моделей... но думаю, что и без моих объяснений понятно, что тест синтетический, нежели, чем практический. А других тестов нам и не показали, следовательно ситуация там плачевная. Для референса: все топовые модели с поиском одной иголки справляются в 100% случаев, вне зависимости от размера контекстного окна.
2. Opus 4.6 никак не решает проблему с ростом стоимости контекста. Во всех моделях, за исключением DeepSeek-V3.2, цена за токен линейно растёт вместе с ростом контекстного окна. Так, если первая тысяча токенов стоит $0.001, то вторая будет стоить уже $0.002, третья $0.003 и так далее. Таким образом, в диапазоне от 200к до 1М контекста стоимость токенов будет составлять от $0.20 до $1.00 за тысячу. Получается, что первые 200к токенов обойдутся вам в $20.00, а следующие 800к в $480.00. То есть относительная цена увеличится в 6 раз. В AI-лабах об этом прекрасно знают в связи с чем сильно задирают ценник на большие контекстные окна.

Собственно, это и есть две причины почему компании ограничивают контекстное окно в районе ~200к токенов: стремительная деградация ответов и взрывной рост стоимости. И да, Opus 4.6, как я и сказал ранее ни одну из этих проблем не решает, а после 200к токенов модель становится настолько дорогой, что всё равно никто не узнает как она тупит на огромных контекстах, ведь никто ей не будет пользоваться. Великолепно разыгранная партия, Anthropic!

Самое забавное во всей этой истории наверное то, что DeepSeek ещё в прошлом году решили проблему с линейным ростом стоимости, сохранив низкую стоимость токенов на всём пути, а сейчас они активно занимаются решением проблемы с деградацией ответов при росте контекстного окна. Об этом мы ещё с вами обязательно поговорим:)

Чувствую, что в ближайшие пару месяцев китайский кит поразит нас громким релизом DeepSeek-V4.
🔥123👏3
Инсайты от Claude Code

Я постоянно ловлю себя на мысли, что какие-то части моего воркфлоу живут своей жизнью: не оптимизированы, не автоматизированы, просто «как-то работают». Где-то я руками копирую одно и то же, где-то раз за разом повторяю одни и те же промпты, где-то точно можно было бы прикрутить агента, но руки не доходят. А иногда я даже не подозреваю о существовании фичи, которая решила бы мою проблему за секунду, — просто потому что не знаю, что искать.

Ну и иногда во мне просыпается простое человеческое любопытство: сколько сообщений я отправил агенту? Сколько строк кода написал? Какие фичи делал? Какие баги фиксил?

В Anthropic решили помочь с этим и создали команду /insights. Она анализирует ваше общение с агентом за последние пять дней и выдаёт разбор полётов: что было круто, где можно расти и какие лайфхаки вы упустили.

Что в инсайтах:
1. Фичи и статистика — краткое саммари работы за последние пять дней + различные интересные циферки использования.
2. Паттерны использования — как вы вообще взаимодействуете с Claude Code.
3. Продвинутые техники — какие фичи из арсенала пауэр-юзеров вы уже используете.
4. Слабые места — где ваш воркфлоу проседает: повторяющиеся ручные операции, недостаток автоматизации, игнорирование полезных команд.
5. Конкретные рекомендации — чем дополнить CLAUDE.md, какие скиллы стоит создать, какие хуки прикрутить к проекту.
6. Следующие шаги — что ещё есть в Claude Code, что вы не используете.

Самое полезное, что я вынес из своих инсайтов, — это то, что Claude Code можно запускать через GitHub Actions с правами на создание пулл-реквестов. Я в эту сторону даже не смотрел, так как не видел пользы для своего воркфлоу, но после прочтения меня осенило: можно же настроить action на проверку пушей в мастер, чтобы быть уверенным, что последние изменения ничего не сломали. С оповещением на почту или в Telegram и автоматическим созданием PR.

Помимо этого, было несколько полезных промптов для исследования и идей для скиллов, которыми можно дополнить проекты.

Также Rob Zolkos в деталях описал как работают /insights.

Посмотрим, что он расскажет мне ещё через пять дней, но первые впечатления положительные:)
4👍1🔥1👏1
Oh, shit... Here we go again

Эти чертяги опять это сделали. Они опять поменялись местами.

Честно, в последние месяцы у меня было ощущение, что мы потеряли OpenAI: Anthropic обогнали их по инструментам для рабочих задач и разработки, GLM-4.7 допинала уже поваленный на землю GPT-5.2 Codex в кодинге, Gemini забрала на себя общение и генерацию картинок, а ролевики вообще сидят на копеечных китайских моделях. Такое чувство, что на всём этом празднике жизни ChatGPT просто не осталось места. Только и осталось психозы с GPT-4o вызывать.

Рынок подумал так же, поэтому как из рога изобилия посыпались новости о том, что Nvidia передумала давать ClosedAI $100 миллиардов. Затем OpenAI запустила рекламу на бесплатном и новом $8 тарифе. В ChatGPT перестал работать режим мышления, и модель стала всегда выдавать мгновенные ответы. И даже этого OpenAI было мало, так что они продолжили себя закапывать, предложив платить комиссию за открытия, совершённые с использованием их LLM. По итогу всех этих событий я и ещё несколько людей, которых я знаю, отменили подписку на ChatGPT.

Представляю себе офис Anthropic на фоне новостей. Как они открывают бутылочку игристого, и тут музыка глохнет...

Opus 4.6 получился, мягко говоря, сомнительным. Да, в System Card они рассказывают о том, насколько модель получилась великолепной, как она опережает Opus 4.5 почти во всех аспектах... но по факту разницы я не заметил: модель как тупила на одних задачах (например, использовала неправильные команды в терминале, которые вообще не объявлены в проекте), так и продолжила это делать. Из реально интересных фич показали только 1М контекста, но, как вы уже знаете, это просто маркетинговая фишка.

И вот в попытках увидеть разницу между моделями я всё-таки заметил одно такое небольшоооое отличие: МОДЕЛЬ СТАЛА КАПЕЦ ДОРОГОЙ. Anthropic, по всей видимости, поняли, что установили слишком щедрые лимиты в своих подписках и нажали кнопку «oh, shit go back». Я за пару часов спокойной работы умудрился сжечь 30% недельных лимитов в $200 подписке, которую раньше сам же называл «бесконечной». Притом, что в прошлом году я запускал 10 сессий по 10 сабагентов в каждой из сессий параллельно и сжигал лимиты примерно с такой же скоростью. Что ж, это объясняет, для чего появилась эта модель и какие изменения в ней на самом деле произошли.

И я думаю, что Anthropic это сошло бы с рук, но кажется, что они недооценили противника. OpenAI под насмешки выпустили GPT-5.3 Codex и перевернули игру. Посмотрите на график, приложенный к посту. Вот это реальная, немаркетинговая революция.

На графике вы можете увидеть, что GPT-5.3 Codex не стала лучше решать задачи, при этом ей нужно в 4.5 раза меньше токенов, чтобы добиться того же результата. А это значит, что вы потратите в 4.5 раза меньше времени и денег на решение задачи, просто сменив модель. И вы не поверите, но это даже не главное достижение.

Помните, я рассказывал про то, как работает контекст? Так вот: GPT-5.3 Codex не нужно быть умнее, чтобы стать умнее. Она становится умнее за счёт того, что медленнее тупеет.

OpenAI буквально сказали: «Если мы не можем решить проблему с нашими финансами, context rot и скоростью ответов, давайте просто решим проблему с тем, насколько эффективно наши модели генерируют токены, а это решит все остальные наши проблемы». И они, чёрт возьми, справились.

И самое смешное во всей этой истории, что на поверхности ситуация выглядит так, будто именно Anthropic выпустили модель с 1М контекста, в то время как на деле она вышла у OpenAI. Причём вы вообще заценили, как элегантно они совершили этот квантовый прыжок?

Ну и учитывая то, что модели Anthropic в целом генерируют сильно больше токенов (у меня вообще Opus 4.6 работает исключительно как оркестратор сабагентов), то GPT-5.3 Codex ускакала настолько вперёд, что её будет ну очень сложно догнать. Даже как-то грустно за OpenAI: вроде совершили революцию, а вроде никому об этом и не расскажешь (вспоминается тот мем с чуваком в углу на вечеринке).

Anyway, гонка продолжается! Запасаемся попкорном и ждём, когда на сцене появится 1.5 миллиарда китайцев DeepSeek.
211👍4🤔3
Они сделали это!!!

Всего пару недель назад я писал пост о том, как у меня горит с Playwright MCP. Что ж, видимо, ребята из Microsoft меня читают, потому что они представили убийцу Playwright MCP — Playwright CLI.

Я искренне не понимаю, почему создание этого инструмента заняло столько времени, ведь он, по сути, делает всё то же самое, что и Playwright MCP, но с помощью терминальных команд вместо обращения к LLM. Кажется, что чуваки и мой пост «MCP вам не бро» прочитали, ведь работа над ошибками началась через неделю после того, как он вышел 😁

Шутки шутками, но факт в том, что теперь Playwright CLI — лучшее решение, чтобы дать вашему агенту доступ к браузеру. И я уверен, что оно станет стандартом рынка на долгие годы вперёд.

А пока вы ставите его к себе на компьютер, используя команды ниже, я расскажу вам о том, что же чуваки сделали.

npm install -g @playwright/cli@latest
playwright-cli install --skills


Главный прорыв, конечно, в том, что они ушли от набившего оскомину MCP. В своём видеоанонсе они показывают, что одну и ту же задачу Playwright MCP решил, использовав 114к токенов, а Playwright CLI понадобилось всего 27к. В четыре раза меньше! Лучшего подтверждения моим словам из более ранних постов и не придумаешь.

Также, если вы помните, у MCP было второе ограничение, о котором я писал: в нём доступны не все инструменты. Причина всё та же — контекст. Ребята просто не могли запихнуть в Playwright MCP все инструменты, так как они заняли бы очень много места. Угадаете, для чего контекст почти не тратится? Верно, для того, чтобы рассказать агентам, какие команды доступны в терминале. Причём провернули они это элегантно, просто создав пачку скиллов.

Ну и в качестве вишенки на торте: браузер по умолчанию теперь запускается в headless-режиме, а значит, вам не нужно ставить эти бесячие расширения, смотреть на то, как ваш компьютер превращается в стробоскоп, постоянно переключаясь с одного экрана на другой, а также это позволяет гонять браузеры сразу в нескольких агентах.

Таким образом, Playwright CLI — это идеальный инструмент: стабильный, быстрый, не пытающийся сожрать все ваши токены и позволяющий делать в браузере всё то, что там делаем мы. У меня от этой недели такое ощущение, что на улице LLM перевернулась фура с крутыми релизами))
🔥175👍4
Как LLM навсегда изменили тестирование

Если вы читали хотя бы одну статью про тестирование IT-продуктов, то наверняка где-то близко к началу была фраза вроде: «Пишите поведенческие тесты».

Возможно, вы даже слышали золотое: «Write tests. Not too many. Mostly integration». Как же эта фраза переворачивала мировоззрение разработчиков всего пару лет назад! 🥹

Как у нас обстоят дела с тестами сейчас? LLM пишут тесты (отлично!). Они пишут много тестов, очень много тестов (так, кажется, начинаются проблемки). Многие тесты проверяют детали реализации вместо поведения (пу-пу-пу, приехали).

Получается, что LLM сломали тестирование? Нам, наверное, нужно заставить их писать хорошие тесты, да? Придумать правила там, ограничения, статических проверок навалить, всё такое? Не смейте. Вы сделаете только хуже.

Я ярый фанат тестов. Они спасали мой зад не одну сотню раз. И я шарю за best practices тестирования. Помимо этого, я неоднократно наблюдал, как тестирование деталей реализации мало того, что снижало доверие к тестам, так ещё и поселяло в головах разработчиков мысли вроде: «Ой, наверное, опять ложное срабатывание». После десятка таких вот «ложных срабатываний» они начинали писать меньше тестов, потихоньку теряяя доверие к ним. А уже после сотни не видели в них смысла и переставали писать вовсе. А зачем, если поддержка сложная, а выхлопа нет?

Ну, значит, всё-таки ограничиваем LLM? Нет.

У LLM есть одна особенность: они не страдают от нашей слабости «наверное, опять ложное срабатывание». Даже если LLM посчитает, что тест «просто не проходит», то в большинстве случаев она оставит этот тест и скажет вам, что он падает. Так что если ваша LLM хочет протестировать, насколько пикселей скруглен элемент, — пускай дерзает! Если ей вдруг приспичит обратиться к элементу по классу — разрешите! Она решила протестировать сценарии, которые вы не планировали покрывать тестами? Вам же лучше!

Так в чём польза? Дело в том, что тесты деталей реализации помогают LLM. Она запустит их, увидит, что они падают, и пойдёт разбираться почему. Если она поймёт, что это сделано по запросу пользователя, то изменит или удалит тест, а если нет — исправит код.

То есть то, что для нас зло, что делает наши продукты хуже, для LLM — мёд. Для неё это ещё одна возможность проверить себя, убедиться, что она нигде не напортачила. И эта проверка может стать решающей.

Пример из жизни: я по роду деятельности в основном занимаюсь интерфейсами, и LLM любят проявлять свои дизайнерские качества в неожиданных местах. Где-то скругление уберут, где-то отступ поправят, а где-то цвет заменят. Так вот, чтобы они таким не занимались, я тестирую все стили через юнит-тесты. Таким образом, нужные мне значения фиксируются в «памяти» модели, и даже если она случайно их изменит, то тесты скажут: «no, no, no, мистер LLM, ты не будешь ломать интерфейс, верни всё как было».

Вы скажете: «А как же скриншотные тесты?». На что я отвечу, что это не панацея. Они тоже нужны, но уже для нас. Для LLM они не помощник: слишком долго дожидаться результата, а даже если модель дождётся, то на чтение скриншотов уйдёт весь контекст (я проверял). При этом скриншотные тесты не теряют своей пользы — мы всё также можем убедиться, что с интерфейсом всё в порядке своей парой глаз.

Ну и вообще, не боритесь с LLM. Бороться с LLM — изначально глупая затея. Вы поставите ей правило, она придумает, как его обойти; вы улучшите правило, она придумает, как его перепрыгнуть; вы сделаете правило пуленепробиваемым, она принесёт динамит. Это как биться головой об стену — рано или поздно стена победит.

Примите правила игры. Перестаньте ограничивать LLM. Направляйте её.

Объясните ей, что такое поведенческие тесты, и скажите, чтобы она их писала. Настройте TDD-воркфлоу, чтобы ни один багфикс, ни одна фича не остались без тестов. Настройте линтинг, чтобы он проверял, что написанные тесты на самом деле что-то тестируют. На этом всё.

Дальше пусть разбирается сама — написала фигню? Её искусственной голове болеть по этому поводу. Ваша реальная голова только выиграет от ещё одной проверки.
👍64🔥1
Смотря на то, как стремительно мы входим в эру искусственного интеллекта, в этот день хочется напомнить о живом интеллекте и плоти

Находясь в бесконечном потоке новостей, пожалуйста, не забывайте время от времени обращаться к себе и близким

Не дайте моделям искусственным, заменить людей живых в вашей жизни ❤️
6💯4🥰2
Я всегда считал искусство лакмусовой бумагой

Музыка, фильмы и картины работают как отпечатки своей эпохи

Сегодня я побывал на двух выставках, и хоть я часто посещаю подобные мероприятия, это первый раз, когда авторы на них высказались на тему искусственного интеллекта

Это в очередной раз говорит нам о том, что в ближайшие годы, а возможно, и месяцы, AI кардинально перевернёт наши с вами жизни, и то, на что он способен сейчас, будет казаться смешным

А какое место вы займёте в новом мире, будет зависеть только от вас
4😁2💯2🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Что там с китайскими моделями?

Друг скинул мне видео. Не пугайтесь, оно настоящее. Модели пока не научились настолько хорошо воссоздавать реальность, но мне казалось, что они очень хорошо ищут информацию. Не зря же все говорят, о том как хорошо GPT-5.2 Pro находит подтверждения теоремам, которые были доказаны, но таковыми не считались, да? Да ведь?

Ну... кажется, что всё не так просто. Я дал четырём моделям один и тот же промпт: «What's the origin of this video?» с надеждой, что хотя бы одна из них справится.

1. Kimi K2.5 Thinking. Справилась лучше и быстрее всех. Она сразу дала мне ссылку на оригинальное видео в TikTok, а также рассказала, где оно было снято, и даже нашла видео от конюшни, где ребята взяли лошадь!!
2. GPT-5.2 Extended Thinking. Сначала вообще не поняла, что от неё хотят, но после уточнения запроса нашла то же видео от конюшни, что нашла Kimi. Оригинальное видео со смешными комментариями я так и не получил.
3. Opus 4.6 Extended Thinking. Увидела в названии видео метаданные, которые оставил TikTok, но при просьбе найти видео по ним сказала, что на самом деле такое видео не существует. Ну, хотя бы ничего не придумала и на том спасибо.
4. Gemini 3 Pro. Сначала отказалась выполнять задачу, но после вежливой просьбы всё-таки разобраться с тем, что я от неё прошу, написала код на Python, чтобы увидеть, что изображено на кадрах из видео (ну, это тоже своего рода мультимодальность). Подумала, подумала, посжигала токены и придумала, что действие происходит в Уфе в 2021-м году, тогда как на самом деле видео было снято в Речице в 2026-м году. Никаких ссылок не дала, зато придумала несуществующий аккаунт в TikTok, где предложила мне поискать видео самому. 10/10.

По итогу с задачей справилась только Kimi K2.5. Да, GPT-5.2 дала полезную подсказку, но от неё было бы очень сложно раскрутить источник видео, ибо оригинал со смешными комментариями был запощен на совершенно другой, пустой аккаунт, никак не относящийся к Додо.

И вот самый кайф в том, что модель постоянно так отвечает. Это не какая-то разовая акция, где она обошла все американские модели. Я уже проводил пару подобных тестов на других своих задачах, и Kimi K2.5 во всех была стабильно впереди. Можно сказать, что это Opus 4.6 от мира бытовых вопросов. Уже как пару недель пользуюсь только ей, ни разу не пожалел что перешёл.
👍52🔥1
Forwarded from Осцилляции WaveCut (WaveCut)
Это было неизбежно: рано или поздно должны были появиться специализированные решения для инференса.
И вот, Taalas (бывшая команда из Tenstorrent) выкатили то, чего я так ждал — настоящий Direct-to-Silicon.

Ребята не стали мелочиться и буквально «запекли» модель в кремний. Никакой внешней памяти, никакого HBM, никакой сложной упаковки. Веса модели и архитектура — это и есть сам чип.

Цифры выглядят дико: 17,000 токенов в секунду на Llama 3.1 8B.
Это на порядок быстрее текущей SOTA GPU, при этом чип стоит в 20 раз дешевле в производстве и потребляет в 10 раз меньше энергии.
Самое крутое, что это не просто красивые слайды для инвесторов. Железо уже существует, и его можно «потрогать» (ссылка на демо внизу).
Upd: не все это волшебство и такая скорость достигается не без компромиссов — запеченные веса урезаны в от 3 до 6 бит точности, а контекст в демо ограничен тысячей токенов на вход и столько же на вывод.

Конечно, это ASIC, и тут есть нюанс: чип заточен под одну конкретную модель. Но Taalas продумали этот момент — они оставили поддержку LoRA-адаптеров и изменяемого контекстного окна. То есть это не совсем уж «кирпич», гибкость для файн-тюнинга остается.

Сейчас у них готов чип с Llama 8B (HC1). Весной обещают выкатить что-то среднеразмерное с ризонингом, а к зиме грозятся показать фронтир-модель на втором поколении кремния.

У меня голова идет кругом от мыслей к чему это может привести.


Ссылки:
Анонс
Демо (скорость реально впечатляет)
7🔥3👍1
В интернете завирусился твит от создателя YouTube.

Надеюсь, что все наслаждаются последним годом работы, которая имеет значение!


Увидел много сомнений по поводу того, что это на самом деле так.

Так вот за последнюю неделю я написал более миллиона строк кода, который пошёл в продакшен.

Агентная разработка уже заменила привычный нам SWE. Если вы этого ещё не заметили и пишите код руками, то вы уже позади.

Последние пару недель были очень насыщенными, а значит у меня накопилось много чего планирую рассказать вам в ближайшее время:)

А пока предлагаю посмотреть подкаст с создателем мобильного приложения YouTube (все совпадения случайны) Андреем Дороничевым, который рассказывает о том как он видит будущее в мире, который стремительно захватывает AI.
🔥3💔3😱1
Абузим подписку GitHub Copilot через OpenCode

У Microsoft, наверное, самый сломанный агент в мире, но не в том смысле, что он плохо работает (хотя местами и не без этого), а в том, что его очень легко абузить.

В посте выше я рассказал, что написал миллион строк кода за неделю. Но чтобы писать такие объёмы кода, вам не хватит ни одной подписки, во всяком случае, если вы используете их честным образом 😈.

Вы, наверное, уже слышали о баге: если задать Copilot вопрос через дешёвую модель, а потом переключиться на дорогую, то вас по-прежнему будут тарифицировать по дешёвой. Насколько я знаю, этот баг пофиксили, но я нашёл ещё один, и, кажется, что о нём ещё никто не рассказывал.

Суть в том, чтобы попросить Copilot запускать выполнение промпта, используя параллельных субагентов. Для этого нужно просто написать промпт и в конце добавить «use parallel subagents» (можно и на русском).

И если вы сделаете это в интерфейсе Copilot CLI или через расширение для VS Code, то агент просто будет неправильно считать субагентов, которых он запустил. Предположим, что он запустил 5 субагентов, а списал с вас лимитов как за трёх, притом что каждый субагент имеет настолько же большое контекстное окно, как и родительский, и не менее активно кушает токены.

Но чтобы раскрыть всю силу этого абьюза, нужно использовать OpenCode, так как он умеет создавать субагентов внутри субагентов, а внутри этих субагентов создавать ещё субагентов... Ну, думаю, вы поняли. И Copilot не списывает лимиты за субагентов внутри субагентов. То есть вы буквально получаете бесплатные токены.

Для сравнения:
• На подписке Claude Code за $200 некоторые большие задачи выжигали мои 5-и часовые лимиты за 15 минут, притом, что агент ничего не успевал сделать. При следующем запуске он в попытках восстановить контекст задачи снова сжигал все 5-и часовые лимиты за 20 минут, снова не сделав ничего.
• В то же время на подписке на GitHub Copilot за $20 та же самая задача гонялась более 10 часов и сгенерировала мне более 100 000 строк изменений, а из моих месячных лимитов потратилось всего пару процентов.

Да, способ не идеальный, потому что чем больше агентов ты запускаешь одновременно, тем выше вероятность того, что один из них крякнется и повесит весь ран, плюс мелкие задачи продолжат выжирать лимиты как обычно, но для больших задач это просто спасение. Пользуемся, пока не пофиксили:)
🔥43👍1