Понедельничное напоминание, что агентам важна не только длина контекста, но и сложность задачи/требуемое внимание для его решения.
Если вы просите выполнить задачу, ставя слишком много условий, то это проявляется в "лени" — агент выполнит вашу задачу частично.
Сети просто не хватает вычислительной мощности учесть все ваши хотелки, что проявляется в вроде бы правильных, но откровенно неполных ответах.
Если вы просите выполнить задачу, ставя слишком много условий, то это проявляется в "лени" — агент выполнит вашу задачу частично.
Сети просто не хватает вычислительной мощности учесть все ваши хотелки, что проявляется в вроде бы правильных, но откровенно неполных ответах.
👍18
Скинули в каментах какую-то очередную репу с MCP сервером для RAG поиска.
https://github.com/er77/code-graph-rag-mcp
Из описания я ничего особо не понял, поэтому быстренько натравил на нее шотган и получил выжимку, о которой уже можно початиться с агентом
https://chatgpt.com/share/68d12995-212c-8004-b9c5-d1a8b1b1aba9
Уже не первый раз так анализирую чужие репы — удобно. А если лицензия позволяет, то можно быстро вытаскивать полезные штуки и применять себе 😎
https://github.com/er77/code-graph-rag-mcp
Из описания я ничего особо не понял, поэтому быстренько натравил на нее шотган и получил выжимку, о которой уже можно початиться с агентом
https://chatgpt.com/share/68d12995-212c-8004-b9c5-d1a8b1b1aba9
Уже не первый раз так анализирую чужие репы — удобно. А если лицензия позволяет, то можно быстро вытаскивать полезные штуки и применять себе 😎
🔥10❤4
This media is not supported in your browser
VIEW IN TELEGRAM
Часть моей команды сейчас вкапывается в рекламные ai gen видео.
Например, очень занимательная проблема — плавные переходы кадров в сочетании с липсинком и сгенерированными персонажами.
Т.е. нужно по ключевым кадрам сделать динамику, добавить липсинк, а затем сделать незаметный переход к продолжению сцены.
Можно было бы просто брать ключевым кадром следующего кусочка, конечный кадр первого, но персонаж быстро деградирует. А полная регенерация влечет разрывы по стыкам.
Сейчас решаем разными углами камеры — тогда стык смотрится более естественно.
Если знаете как это решить еще лучше — пишите в комментариях.
Например, очень занимательная проблема — плавные переходы кадров в сочетании с липсинком и сгенерированными персонажами.
Т.е. нужно по ключевым кадрам сделать динамику, добавить липсинк, а затем сделать незаметный переход к продолжению сцены.
Можно было бы просто брать ключевым кадром следующего кусочка, конечный кадр первого, но персонаж быстро деградирует. А полная регенерация влечет разрывы по стыкам.
Сейчас решаем разными углами камеры — тогда стык смотрится более естественно.
Если знаете как это решить еще лучше — пишите в комментариях.
❤11🌭1
Что занимает больше места, json или xml?
Поставлю точку в этом вопросе.
Компактизированный json 😎
691 vs 1145 токенов
https://gist.github.com/glebkudr/b82e9b5f66990401689d87d61f138b11
XML без переноса строк — 901 токен
Поставлю точку в этом вопросе.
Компактизированный json 😎
691 vs 1145 токенов
https://gist.github.com/glebkudr/b82e9b5f66990401689d87d61f138b11
XML без переноса строк — 901 токен
👏10😁4❤2👎1
OpenAI зарелизили gpt-5-codex в апи, можно потестить
Но они предупреждают, что модель очень своеобразная в промптинге, так как тренировалась opinionated именно на их подходе к кодингу. Я посмотрел гайд, и мое ощущение — под нее в принципе нужно писать пайплайн с нуля, или около того, чтобы максимально попадать в тренировочный набор.
Те кто юзали Codex CLI, думаю, в курсе, о чем это — модель реально своеобразно подходит к правкам кода и размышлениям, предпочитает писать кучу терминальных команд вместо вызова инструментов и т.д.
В общем. имейте ввиду, тупо заменить gpt-5 на codex скорее всего нахаляву не выйдет, чтобы получить скачок качества придется переписывать и промпты и обвязку.
Но в конечном итоге это крайне сильная моделька в кодинге, и игра может стоить свеч.
Но они предупреждают, что модель очень своеобразная в промптинге, так как тренировалась opinionated именно на их подходе к кодингу. Я посмотрел гайд, и мое ощущение — под нее в принципе нужно писать пайплайн с нуля, или около того, чтобы максимально попадать в тренировочный набор.
Те кто юзали Codex CLI, думаю, в курсе, о чем это — модель реально своеобразно подходит к правкам кода и размышлениям, предпочитает писать кучу терминальных команд вместо вызова инструментов и т.д.
В общем. имейте ввиду, тупо заменить gpt-5 на codex скорее всего нахаляву не выйдет, чтобы получить скачок качества придется переписывать и промпты и обвязку.
Но в конечном итоге это крайне сильная моделька в кодинге, и игра может стоить свеч.
❤7👍5🗿2
Последние дни очень мало сплю, ложусь в 3-4 утра, встаю в 8 и херачу без остановки. Прям даже чувствую, что это уже чуток становится проблемой.
Думаю, скоро вайбкодеры будут приравнены к наркоманам подлежащим лечению 😁 Давно жизнь нам не подгоняла такой дофаминовой иглы. Натуральное казино со всеми признаками.
Че как колитесь, у вас так же или держитесь? Как заставляете себя не залипать поставить очередную тасочку, просто проходя мимо компа в туалет? Давайте, короче, устроим кружок анонимных вайбоманов и поделимся сокровенным.
Думаю, скоро вайбкодеры будут приравнены к наркоманам подлежащим лечению 😁 Давно жизнь нам не подгоняла такой дофаминовой иглы. Натуральное казино со всеми признаками.
Че как колитесь, у вас так же или держитесь? Как заставляете себя не залипать поставить очередную тасочку, просто проходя мимо компа в туалет? Давайте, короче, устроим кружок анонимных вайбоманов и поделимся сокровенным.
💊54💯26❤7👎4🤪2🌭1🍌1
Заметил такую штуку.
ЛЛМ-ки очень любят проглатывать ошибки. Отсутствующие переменные или проблемы они заменяют на скрытые фоллбэки, которые потом по вам крайне больно бьют в дебаге.
Например. Обращаемся к "имени пользователя" . Не нашли? Тогда пусть это будет "Вася" и спокойно идем дальше. И пофиг что никаких Вась у нас нет.
Это помогает писать внешне работающий код, но подкладывает в него мину невозможности гарантировать работоспособность во всех случаях.
Для меня такое поведение — чуть ли не основной источник технического долга. Так что рекомендую такие выкрутасы максимально запрещать настройкам, ну и фиксить, если видите сами.
ЛЛМ-ки очень любят проглатывать ошибки. Отсутствующие переменные или проблемы они заменяют на скрытые фоллбэки, которые потом по вам крайне больно бьют в дебаге.
Например. Обращаемся к "имени пользователя" . Не нашли? Тогда пусть это будет "Вася" и спокойно идем дальше. И пофиг что никаких Вась у нас нет.
Это помогает писать внешне работающий код, но подкладывает в него мину невозможности гарантировать работоспособность во всех случаях.
Для меня такое поведение — чуть ли не основной источник технического долга. Так что рекомендую такие выкрутасы максимально запрещать настройкам, ну и фиксить, если видите сами.
2💯17❤13
А дальше Глеб потратил два часа на дебаг того, что же не так с иконкой и почему хром не рендерит ее прозрачной.
Пока, сука, я ее не загрузил физически в редактор и понял, что вот эти типа прозрачные шашечки там просто физически нарисованы!😡
Короче, типичный вайб-код момент 😁
Пока, сука, я ее не загрузил физически в редактор и понял, что вот эти типа прозрачные шашечки там просто физически нарисованы!
Короче, типичный вайб-код момент 😁
Please open Telegram to view this post
VIEW IN TELEGRAM
🤣80😁17🔥4❤1😱1
Если вдруг ВНЕЗАПНО исчезнет телеграм и произойдет окукливание, меня можно будет найти тут -> https://max.ru/glebkudr
🤬51🤯37🥴23😁14🔥7👍4👏1
Я поражаюсь, когда сравнивают агентов по принципу «сколько часов он работал»
Да господи, какая разница? У меня сейчас 95% времени уходит на тестирование нового функционала (ручное, ибо новый) и написание спек. Я совсем не часами агентов ограничен.
Единственно-валидная метрика состоит в том, насколько большую штуку агент может написать самостоятельно без багов (в т.ч. за счет внутренних циклов тестирования) — и вот это уже хоть что-то, а вовсе не какие-то мифические часы автономной работы.
Да господи, какая разница? У меня сейчас 95% времени уходит на тестирование нового функционала (ручное, ибо новый) и написание спек. Я совсем не часами агентов ограничен.
Единственно-валидная метрика состоит в том, насколько большую штуку агент может написать самостоятельно без багов (в т.ч. за счет внутренних циклов тестирования) — и вот это уже хоть что-то, а вовсе не какие-то мифические часы автономной работы.
1👍17💯9❤1
Analysis paralysis у нейросетей
Экспериментальное открытие, возможно будет вам полезным.
Обнаружил интересное поведение у ван-шот кодинга в зависимости от подтаскивания ему тасок различной сложности.
Поясню на такой прогрессии. В начале даю некую абстрактную сложность задачи, а затем объем кода, который генерирует агент.
1) Так вот. Если даем таску на 1x, то он делает 1x.
2) Даем среднюю таску (условно 10x) — делает 10x
3) Даем сложную таску (условно 100x) — ожидаем 100x, да?
Ну, по крайней мере x10 — если не сможем сделать максимум, то хотя бы выжмем то, что уже достигнуто.
А вот и нет!
На практике качество ответов в какой-то момент начинает резко деградировать. И получается не просто не 100x, но и даже не 10x и даже не 1x.
Я добивался деградации GPT-5 до того, что в ответ он мне предлагал сделать один импорт, и более ничего, из более чем двадцатистраничного ТЗ и суммарного контекста на 100к токенов. То есть формально верный ответ, но катастрофически неполный. При этом интуитивно я ожидал работы на "максимум", пускай и не до конца.
В каком-то смысле, модель входит в "аналитический паралич" — входящих условий настолько много, что ее вычислительной способности хватает только на крайне ограниченный результат, который она и выдает.
Лечится очень просто — декомпозицией. Причем прокатывает даже простое добавление типа "делаем только задачу номер один" поверх вот этого огромного промпта, ничего из него не выкидывая.
Это разблокирует модель, и она начинает выдавать приемлемый результат.
Так что когда вы видите декомпозицию на задачи в ваших любимых кодинговых агентах — знайте, это сделано не случайно, и это реально приводит к росту производительности. Ну и учитывайте это сами, не заставляя их пытаться все сделать в один заход.
PS Эффект получен на чистых промптах через API, в готовых инструментах вы вряд ли до этого дойдете, т.к. там есть встроенные механизмы для декомпозиции задач.
Экспериментальное открытие, возможно будет вам полезным.
Обнаружил интересное поведение у ван-шот кодинга в зависимости от подтаскивания ему тасок различной сложности.
Поясню на такой прогрессии. В начале даю некую абстрактную сложность задачи, а затем объем кода, который генерирует агент.
1) Так вот. Если даем таску на 1x, то он делает 1x.
2) Даем среднюю таску (условно 10x) — делает 10x
3) Даем сложную таску (условно 100x) — ожидаем 100x, да?
Ну, по крайней мере x10 — если не сможем сделать максимум, то хотя бы выжмем то, что уже достигнуто.
А вот и нет!
На практике качество ответов в какой-то момент начинает резко деградировать. И получается не просто не 100x, но и даже не 10x и даже не 1x.
Я добивался деградации GPT-5 до того, что в ответ он мне предлагал сделать один импорт, и более ничего, из более чем двадцатистраничного ТЗ и суммарного контекста на 100к токенов. То есть формально верный ответ, но катастрофически неполный. При этом интуитивно я ожидал работы на "максимум", пускай и не до конца.
В каком-то смысле, модель входит в "аналитический паралич" — входящих условий настолько много, что ее вычислительной способности хватает только на крайне ограниченный результат, который она и выдает.
Лечится очень просто — декомпозицией. Причем прокатывает даже простое добавление типа "делаем только задачу номер один" поверх вот этого огромного промпта, ничего из него не выкидывая.
Это разблокирует модель, и она начинает выдавать приемлемый результат.
Так что когда вы видите декомпозицию на задачи в ваших любимых кодинговых агентах — знайте, это сделано не случайно, и это реально приводит к росту производительности. Ну и учитывайте это сами, не заставляя их пытаться все сделать в один заход.
PS Эффект получен на чистых промптах через API, в готовых инструментах вы вряд ли до этого дойдете, т.к. там есть встроенные механизмы для декомпозиции задач.
👍30🔥12🍌4❤3🤔1
Я проанализировал задачу пользователя: он использует модель из OpenRouter (x-ai/grok-4-fast:free) с тегом override model selection. В логе видны строки о 'display gemini', что вызывает confusion. Замысел: если указана модель из OpenRouter и есть override, то использовать строго её, без fallback. Из кода llm_service.py видно, что для OpenRouter enforced no fallback (models_to_try[:1]), но mapping (_map_model_for_openrouter) вызывается для primary и fallback моделей в resolve_policy и при построении списка, поэтому логи о gemini (fallback) появляются, но фактически используется только overridden модель (grok). Генерация идёт с grok, как и задумано. Нет бага, но логи misleading. Для полного анализа достаточно предоставленных файлов.
Grok-4-fast
Вроде как по сути и не придраться, а вроде как написано чуть-чуть confusing. Не тот фабрик, не тот fashion.
Что скажете?
😁20😱3👍1
Доблестно сражался вчера с проблемой парсинга json'ов после ЛЛМ.
У меня есть для этого огромный метод, который чинит кривые json всеми возможными способами.
Спустя пол-дня поиска трудноуловимых багов по всему коду выяснилось главное — хорошие и изначально валидные json он при этом ломал🗿
У меня есть для этого огромный метод, который чинит кривые json всеми возможными способами.
Спустя пол-дня поиска трудноуловимых багов по всему коду выяснилось главное — хорошие и изначально валидные json он при этом ломал
Please open Telegram to view this post
VIEW IN TELEGRAM
😁24😎9🗿6😢5🤣3💯1
Shotgun Pro
Новости такие. На этой неделе приватная альфа. Ужезакодил заготовил промо-коды 😎
Потом неделя-две на дошлифовку и выпущу уже в паблик.
Я пишу в нем более 95% кода. Инструмент получается охеренный. У меня есть и кодекс и другие агенты, но большую часть задач мне проще и приятнее решать с шотганом.
Минус только один — тяжелый вход, ибо для кодинга нужно сделать хотя бы один скан репы. Это еще буду улучшать.
Новости такие. На этой неделе приватная альфа. Уже
Потом неделя-две на дошлифовку и выпущу уже в паблик.
Я пишу в нем более 95% кода. Инструмент получается охеренный. У меня есть и кодекс и другие агенты, но большую часть задач мне проще и приятнее решать с шотганом.
Минус только один — тяжелый вход, ибо для кодинга нужно сделать хотя бы один скан репы. Это еще буду улучшать.
7🔥46👍7
Неплохая вводная статья о состоянии дел в контекстной инженерии https://www.anthropic.com/engineering/effective-context-engineering-for-ai-agents
Подписываюсь под всем вышесказанным.
Подписываюсь под всем вышесказанным.
Anthropic
Effective context engineering for AI agents
Anthropic is an AI safety and research company that's working to build reliable, interpretable, and steerable AI systems.
1👍19