Analysis paralysis у нейросетей
Экспериментальное открытие, возможно будет вам полезным.
Обнаружил интересное поведение у ван-шот кодинга в зависимости от подтаскивания ему тасок различной сложности.
Поясню на такой прогрессии. В начале даю некую абстрактную сложность задачи, а затем объем кода, который генерирует агент.
1) Так вот. Если даем таску на 1x, то он делает 1x.
2) Даем среднюю таску (условно 10x) — делает 10x
3) Даем сложную таску (условно 100x) — ожидаем 100x, да?
Ну, по крайней мере x10 — если не сможем сделать максимум, то хотя бы выжмем то, что уже достигнуто.
А вот и нет!
На практике качество ответов в какой-то момент начинает резко деградировать. И получается не просто не 100x, но и даже не 10x и даже не 1x.
Я добивался деградации GPT-5 до того, что в ответ он мне предлагал сделать один импорт, и более ничего, из более чем двадцатистраничного ТЗ и суммарного контекста на 100к токенов. То есть формально верный ответ, но катастрофически неполный. При этом интуитивно я ожидал работы на "максимум", пускай и не до конца.
В каком-то смысле, модель входит в "аналитический паралич" — входящих условий настолько много, что ее вычислительной способности хватает только на крайне ограниченный результат, который она и выдает.
Лечится очень просто — декомпозицией. Причем прокатывает даже простое добавление типа "делаем только задачу номер один" поверх вот этого огромного промпта, ничего из него не выкидывая.
Это разблокирует модель, и она начинает выдавать приемлемый результат.
Так что когда вы видите декомпозицию на задачи в ваших любимых кодинговых агентах — знайте, это сделано не случайно, и это реально приводит к росту производительности. Ну и учитывайте это сами, не заставляя их пытаться все сделать в один заход.
PS Эффект получен на чистых промптах через API, в готовых инструментах вы вряд ли до этого дойдете, т.к. там есть встроенные механизмы для декомпозиции задач.
Экспериментальное открытие, возможно будет вам полезным.
Обнаружил интересное поведение у ван-шот кодинга в зависимости от подтаскивания ему тасок различной сложности.
Поясню на такой прогрессии. В начале даю некую абстрактную сложность задачи, а затем объем кода, который генерирует агент.
1) Так вот. Если даем таску на 1x, то он делает 1x.
2) Даем среднюю таску (условно 10x) — делает 10x
3) Даем сложную таску (условно 100x) — ожидаем 100x, да?
Ну, по крайней мере x10 — если не сможем сделать максимум, то хотя бы выжмем то, что уже достигнуто.
А вот и нет!
На практике качество ответов в какой-то момент начинает резко деградировать. И получается не просто не 100x, но и даже не 10x и даже не 1x.
Я добивался деградации GPT-5 до того, что в ответ он мне предлагал сделать один импорт, и более ничего, из более чем двадцатистраничного ТЗ и суммарного контекста на 100к токенов. То есть формально верный ответ, но катастрофически неполный. При этом интуитивно я ожидал работы на "максимум", пускай и не до конца.
В каком-то смысле, модель входит в "аналитический паралич" — входящих условий настолько много, что ее вычислительной способности хватает только на крайне ограниченный результат, который она и выдает.
Лечится очень просто — декомпозицией. Причем прокатывает даже простое добавление типа "делаем только задачу номер один" поверх вот этого огромного промпта, ничего из него не выкидывая.
Это разблокирует модель, и она начинает выдавать приемлемый результат.
Так что когда вы видите декомпозицию на задачи в ваших любимых кодинговых агентах — знайте, это сделано не случайно, и это реально приводит к росту производительности. Ну и учитывайте это сами, не заставляя их пытаться все сделать в один заход.
PS Эффект получен на чистых промптах через API, в готовых инструментах вы вряд ли до этого дойдете, т.к. там есть встроенные механизмы для декомпозиции задач.
👍30🔥12🍌4❤3🤔1
Я проанализировал задачу пользователя: он использует модель из OpenRouter (x-ai/grok-4-fast:free) с тегом override model selection. В логе видны строки о 'display gemini', что вызывает confusion. Замысел: если указана модель из OpenRouter и есть override, то использовать строго её, без fallback. Из кода llm_service.py видно, что для OpenRouter enforced no fallback (models_to_try[:1]), но mapping (_map_model_for_openrouter) вызывается для primary и fallback моделей в resolve_policy и при построении списка, поэтому логи о gemini (fallback) появляются, но фактически используется только overridden модель (grok). Генерация идёт с grok, как и задумано. Нет бага, но логи misleading. Для полного анализа достаточно предоставленных файлов.
Grok-4-fast
Вроде как по сути и не придраться, а вроде как написано чуть-чуть confusing. Не тот фабрик, не тот fashion.
Что скажете?
😁20😱3👍1
Доблестно сражался вчера с проблемой парсинга json'ов после ЛЛМ.
У меня есть для этого огромный метод, который чинит кривые json всеми возможными способами.
Спустя пол-дня поиска трудноуловимых багов по всему коду выяснилось главное — хорошие и изначально валидные json он при этом ломал🗿
У меня есть для этого огромный метод, который чинит кривые json всеми возможными способами.
Спустя пол-дня поиска трудноуловимых багов по всему коду выяснилось главное — хорошие и изначально валидные json он при этом ломал
Please open Telegram to view this post
VIEW IN TELEGRAM
😁24😎9🗿6😢5🤣3💯1
Shotgun Pro
Новости такие. На этой неделе приватная альфа. Ужезакодил заготовил промо-коды 😎
Потом неделя-две на дошлифовку и выпущу уже в паблик.
Я пишу в нем более 95% кода. Инструмент получается охеренный. У меня есть и кодекс и другие агенты, но большую часть задач мне проще и приятнее решать с шотганом.
Минус только один — тяжелый вход, ибо для кодинга нужно сделать хотя бы один скан репы. Это еще буду улучшать.
Новости такие. На этой неделе приватная альфа. Уже
Потом неделя-две на дошлифовку и выпущу уже в паблик.
Я пишу в нем более 95% кода. Инструмент получается охеренный. У меня есть и кодекс и другие агенты, но большую часть задач мне проще и приятнее решать с шотганом.
Минус только один — тяжелый вход, ибо для кодинга нужно сделать хотя бы один скан репы. Это еще буду улучшать.
7🔥46👍7
Неплохая вводная статья о состоянии дел в контекстной инженерии https://www.anthropic.com/engineering/effective-context-engineering-for-ai-agents
Подписываюсь под всем вышесказанным.
Подписываюсь под всем вышесказанным.
Anthropic
Effective context engineering for AI agents
Anthropic is an AI safety and research company that's working to build reliable, interpretable, and steerable AI systems.
1👍19
А все заметили, как AI-кодинг от весеннего "все делаю в курсоре за 20 баксов" переехал в "попадаю на лимиты на подписке за 200"? 🌚
💯36😁29❤1👍1😱1
Жестко впахиваю уже неделю (как и два месяца до этого) — делаю релиз шотгана.
Столько всего еще нужно и все приоритетное! 😭
Тем не менее раздал сегодня первую пачку промиков, посмотрим что скажут люди.
Не просите пока тут — для меня важно не вывалить на всех кривую/сырую версию, так что в начале только тем, кто по жизни должен быть толерантен к кривым и сырым версиям 😁
Из интересного.
Делал функционал Repo Folder. Типа, указать у репозитория определенную папку и только ее сканировать.
Ну что может пойти не так? Многое? Вы правы.
Ибо сразу после этого отвалился гит. Причем только на некоторых операциях.
Починить не мог ни курсор ни кодекс. А шотган лежит. Пришлось спешно самому переезжать на стабильный прод 😁
С помощью него удалось починить, оказалось специфическая проблема с частичными клонами репозитория.
Но я вмержил следующую задачку, ну и вы поняли — в 3 часа ночи я все еще сидел с дебагом.
Так и живем 😅
Столько всего еще нужно и все приоритетное! 😭
Тем не менее раздал сегодня первую пачку промиков, посмотрим что скажут люди.
Не просите пока тут — для меня важно не вывалить на всех кривую/сырую версию, так что в начале только тем, кто по жизни должен быть толерантен к кривым и сырым версиям 😁
Из интересного.
Делал функционал Repo Folder. Типа, указать у репозитория определенную папку и только ее сканировать.
Ну что может пойти не так? Многое? Вы правы.
Ибо сразу после этого отвалился гит. Причем только на некоторых операциях.
Починить не мог ни курсор ни кодекс. А шотган лежит. Пришлось спешно самому переезжать на стабильный прод 😁
С помощью него удалось починить, оказалось специфическая проблема с частичными клонами репозитория.
Но я вмержил следующую задачку, ну и вы поняли — в 3 часа ночи я все еще сидел с дебагом.
Так и живем 😅
🙈14🔥10❤4👍1
Аналитики — учитесь лить воду!
Задача пользователя:
Агент-архитектор:
— Все понял, начальник!
Менеджер растет 😁
Задача пользователя:
Это тест. Добавь комментарий в main.py
Агент-архитектор:
— Все понял, начальник!
# Refactoring/Design Plan: Нефункциональный комментарий в backend/app/main.py
## 1. Executive Summary & Goals
- Цель: добавить неоперационный (информационный) комментарий в файл backend/app/main.py без изменения поведения приложения.
- Результат: комментарий на английском, соответствующий правилам репозитория, все тесты проходят.
## 2. Current Situation Analysis
- В backend/app/main.py уже есть модульная строка документации (docstring) и развёрнутая настройка логирования, middleware, маршрутизаторов и lifespan.
- Боль/ограничения: отсутствуют; задача тестовая и не должна влиять на функциональность.
## 3. Proposed Solution / Refactoring Strategy
### 3.1. High-Level Design / Architectural Overview
- Добавить однотипной строкой Python-комментарий в верхней части файла, сразу после существующего docstring, чтобы не влиять на порядок импортов и поведение.
### 3.2. Key Components / Modules
- backend/app/main.py: единственный файл для изменения.
### 3.3. Detailed Action Plan / Phases
- **Phase 1: Minimal, no-op change**
- Objective(s): Вставить комментарий, запустить тесты, убедиться в отсутствии побочных эффектов.
- Priority: High (малый объём, быстрое завершение)
- Task 1.1: Добавить комментарий после существующего модульного docstring
- Rationale/Goal: Выполнить тестовую задачу, не меняя поведение.
- Deliverable/Criteria for Completion: В файле присутствует строка комментария сразу после docstring.
- Текст комментария (на английском, по правилам):
"# Test: Non-functional comment added for demonstration; no runtime impact."
- Task 1.2: Локально прогнать тесты бекенда
- Rationale/Goal: Проверить, что поведение не изменилось.
- Deliverable: Все тесты (pytest) проходят; сборка не падает.
- Task 1.3: Оформить коммит/PR
- Rationale/Goal: Прозрачность изменений.
- Deliverable: Коммит с сообщением типа: "chore(api): add non-functional comment in app.main for test purposes".
### 3.4. Data Model Changes (if applicable)
- Не требуются.
### 3.5. API Design / Interface Changes (if applicable)
- Не требуются. Эндпоинты и контракты без изменений.
## 4. Key Considerations & Risk Mitigation
### 4.1. Technical Risks & Challenges
- Риск: случайная правка docstring или импортов. Митигировать добавлением комментария строго после docstring и без изменения остального кода.
### 4.2. Dependencies
- Нет внешних зависимостей. Только прогон тестов бекенда.
### 4.3. Test design
- Ручная проверка запуска приложения и автоматические тесты (pytest) должны пройти без изменений снапшотов и поведения.
### 4.4. Non-Functional Requirements (NFRs) Addressed
- Maintainability: комментарий информирует о тестовом характере изменения, не усложняя код.
- Reliability/Performance/Security: без влияния.
## 5. Success Metrics / Validation Criteria
- Комментарий присутствует в backend/app/main.py.
- Все существующие тесты проходят без регрессий.
- Нет изменений в ответе /health и других эндпоинтах.
## 6. Assumptions Made
- Допустимо добавлять краткие информационные комментарии в верхнюю часть файла.
- Комментарий должен быть на английском.
## 7. Open Questions / Areas for Further Investigation
- Требуется ли другая формулировка комментария или конкретное место (например, над конкретным блоком логики)? Если да — указать точный текст и позицию.
Менеджер растет 😁
🤣31🔥18👏7😁2❤1
Продолжается эпопея с альфой. Выходные выдались горячие, потому что у клиентов начали отваливаться коннекшены, а у меня гореть жопа 😂
Так что выходные были посвящены срочному рефакторингу сразу по двум фронтам.
Получил еще тонну фидбэка по UX — как и ожидалось, нужно упрощать процесс.
1) PAT ключи от Github -> перейти на Github Oauth. Чтобы тыкнул по кнопке, выдал репозитории и все заработало.
2) Ключи от LLM -> перейти на использование подписок claude code и других. Тут сложнее, нужно писать десктоп коннектор, но это явно требуется.
Короче, сложно блин делать кодерского агента, скажу вам. Но я настроен добивать 😈
Так что выходные были посвящены срочному рефакторингу сразу по двум фронтам.
Получил еще тонну фидбэка по UX — как и ожидалось, нужно упрощать процесс.
1) PAT ключи от Github -> перейти на Github Oauth. Чтобы тыкнул по кнопке, выдал репозитории и все заработало.
2) Ключи от LLM -> перейти на использование подписок claude code и других. Тут сложнее, нужно писать десктоп коннектор, но это явно требуется.
Короче, сложно блин делать кодерского агента, скажу вам. Но я настроен добивать 😈
👍27🔥9❤5
Если вы думаете, как кодерские агенты могут принимать невероятно тупые архитектурные решения, то всегда держите в запасе мысль, что это может быть официальный способ от разработчиков библиотеки 😁
На этот раз прикол преподнесла Pydantic AI. Которая как базовый способ аутентификации моделей предлагает патчинг ENV переменных.
Ну а если у вас много клиентов каждый со своим ключом, то что мы будем делать?
Правильно — патчить env на каждый вызов 🌚
Мультитеннатность, изоляция — не, не слышали.
Короче говоря, читайте контракты библиотек, с которыми работаете.
Я знаю, вы хихикаете и думаете — Глеб дурак, а я такого конечно же никогда не допущу.
Желаю вам удач на этом нелегком пути 😁
PS Рефакторил эту заразу аж целый день, корни пустила по всему проекту. Ничего, вычистил по красоте 😎
На этот раз прикол преподнесла Pydantic AI. Которая как базовый способ аутентификации моделей предлагает патчинг ENV переменных.
Ну а если у вас много клиентов каждый со своим ключом, то что мы будем делать?
Правильно — патчить env на каждый вызов 🌚
Мультитеннатность, изоляция — не, не слышали.
Короче говоря, читайте контракты библиотек, с которыми работаете.
Я знаю, вы хихикаете и думаете — Глеб дурак, а я такого конечно же никогда не допущу.
Желаю вам удач на этом нелегком пути 😁
PS Рефакторил эту заразу аж целый день, корни пустила по всему проекту. Ничего, вычистил по красоте 😎
😁34🤯12👍8🗿3
Я знаю, вам интересно про такое, поэтому вот вам еще смешного
Мне сегодня курсор/gpt-5 снес .env файл. Ему очень хотелось туда было добраться, но настройками запрещено.
В итоге он взял скриптом .env.example, поменял там данные (криво) и затер им то что было в .env опять же, с помощью скрипта 😬 А там у меня лежали ключи шифрования без которых мне бы пришлось сетапить весь дев с нуля, чего крайне не хотелось.
Зато теперь я знаю, что в vscode и редакторах на его основе есть встроенная история изменений, которой такое вполне поправимо, даже если файл не в гите.
PS А вчера поймал кодекс на том, что он мне пытается напрямую патчить гит, типа ему впадлу локально работать, давайте переписывать последний коммит, круто же! В общем, за ними глаз да глаз.
Мне сегодня курсор/gpt-5 снес .env файл. Ему очень хотелось туда было добраться, но настройками запрещено.
В итоге он взял скриптом .env.example, поменял там данные (криво) и затер им то что было в .env опять же, с помощью скрипта 😬 А там у меня лежали ключи шифрования без которых мне бы пришлось сетапить весь дев с нуля, чего крайне не хотелось.
Зато теперь я знаю, что в vscode и редакторах на его основе есть встроенная история изменений, которой такое вполне поправимо, даже если файл не в гите.
PS А вчера поймал кодекс на том, что он мне пытается напрямую патчить гит, типа ему впадлу локально работать, давайте переписывать последний коммит, круто же! В общем, за ними глаз да глаз.
😁50😱12👍9🤬3🤷♂2🤯1
Го на конфу, которую мы замутили с топовыми чуваками из мира нейросетестроения.
Я там самый отбитый, а остальные — умные, будет кого послушать 😁
Будем обсуждать про нейронки, как их готовить, контексты, раги, кодексы, и как это все прислонять к взрослой разработке.
Лично я расскажу про то, как делаю Шотган, и поделюсь подводными камнями в разработке кодингового агента.
Вторник 14 октября. 14:00-19:30 онлайн. Броньте место в календаре.
[Подробности тут]
PS Участие бесплатное при условии подписки на организаторов
Я там самый отбитый, а остальные — умные, будет кого послушать 😁
Будем обсуждать про нейронки, как их готовить, контексты, раги, кодексы, и как это все прислонять к взрослой разработке.
Лично я расскажу про то, как делаю Шотган, и поделюсь подводными камнями в разработке кодингового агента.
Вторник 14 октября. 14:00-19:30 онлайн. Броньте место в календаре.
[Подробности тут]
PS Участие бесплатное при условии подписки на организаторов
2🔥31❤12👍10😁2
Вижу вокруг много обсуждений какие из моделей лучше — gpt-5 или все-таки codex (оставим за скобками все остальные).
Напоминаю просто, что GPT-5 это модель общего уровня. Она не натаскана именно на кодинг и вдвойне не натаскана на своеобразный стиль консольных агентов — быстро делать большое количество мелких команд, скриптов и точечных диффов.
И наоборот — кодекс по ощущениям — это очень специфический дистиллят, который плохо умеет в общие инструкции. Ему нужен совершенно своеобразный тулинг для успешной работы, и без него он недееспособен. Вместе с этим, с хорошим тулингом показывает феноменальные результаты в некоторых задачах.
И отсюда специфика использования.
GPT-5
— хорошо читает код крупными кусками.
— не путается в однородных по семантике, но разных сущностях (типа, три способа авторизации в проекте)
— хорош в качестве архитектора
— не требует расписать все заранее
— может проявлять себя в разных ролях
— показывает максимум на больших промптах. Регулярно кидаю в него от 100к до 200к токенов — и он предоставляет отличный результат.
Минусы: ошибается в диффах, ошибается в тулколинге (редко, но бывает), не оптимально пишет, медленный.
Codex
— читает код сниппетами, грепами и прочими мелкими сущностями
— плохо владеет бизнес-онтологией, тупит в написании архитектуры
— оперирует практически исключительно консолью, не умеет в другие инструменты
— очень круто делает диффы и точечные изменения, практически никогда в них не ошибается
— хорошо ориентируется в однородных сущностях, рассыпанных по коду
— показывает максимум на небольших промптах, но с четко заданной архитектурой.
Отсюда специфика применения.
— Архитектуры (спеки по SDD) делаем где угодно за пределами кодекса. GPT-5 идеальная модель для этого на данный момент. Я делаю пайплайном в шотгане.
— по готовой архитектуре работаем как с кодексом, так и с gpt (с кодексом получается точнее)
— если нужен обширный рефакторинг с простой не-пересекающийся семантикой, то кодекс — SOTA модель на рынке. Если нужно использовать тулинг за пределами кода (что-то инсталлить, добиться зеленых тестов, линтеров и т.д.) — тоже.
— если семантика ветвистая, то gpt-5 в этом ориентируется лучше
Лично у меня кодекс (софт) с кодексом (модель) стоит одним из окон внутри курсора, кормлю его достаточно сложными задачами, если не вижу в них подвоха и двойного дна.
Напоминаю просто, что GPT-5 это модель общего уровня. Она не натаскана именно на кодинг и вдвойне не натаскана на своеобразный стиль консольных агентов — быстро делать большое количество мелких команд, скриптов и точечных диффов.
И наоборот — кодекс по ощущениям — это очень специфический дистиллят, который плохо умеет в общие инструкции. Ему нужен совершенно своеобразный тулинг для успешной работы, и без него он недееспособен. Вместе с этим, с хорошим тулингом показывает феноменальные результаты в некоторых задачах.
И отсюда специфика использования.
GPT-5
— хорошо читает код крупными кусками.
— не путается в однородных по семантике, но разных сущностях (типа, три способа авторизации в проекте)
— хорош в качестве архитектора
— не требует расписать все заранее
— может проявлять себя в разных ролях
— показывает максимум на больших промптах. Регулярно кидаю в него от 100к до 200к токенов — и он предоставляет отличный результат.
Минусы: ошибается в диффах, ошибается в тулколинге (редко, но бывает), не оптимально пишет, медленный.
Codex
— читает код сниппетами, грепами и прочими мелкими сущностями
— плохо владеет бизнес-онтологией, тупит в написании архитектуры
— оперирует практически исключительно консолью, не умеет в другие инструменты
— очень круто делает диффы и точечные изменения, практически никогда в них не ошибается
— хорошо ориентируется в однородных сущностях, рассыпанных по коду
— показывает максимум на небольших промптах, но с четко заданной архитектурой.
Отсюда специфика применения.
— Архитектуры (спеки по SDD) делаем где угодно за пределами кодекса. GPT-5 идеальная модель для этого на данный момент. Я делаю пайплайном в шотгане.
— по готовой архитектуре работаем как с кодексом, так и с gpt (с кодексом получается точнее)
— если нужен обширный рефакторинг с простой не-пересекающийся семантикой, то кодекс — SOTA модель на рынке. Если нужно использовать тулинг за пределами кода (что-то инсталлить, добиться зеленых тестов, линтеров и т.д.) — тоже.
— если семантика ветвистая, то gpt-5 в этом ориентируется лучше
Лично у меня кодекс (софт) с кодексом (модель) стоит одним из окон внутри курсора, кормлю его достаточно сложными задачами, если не вижу в них подвоха и двойного дна.
1❤25👍14
Как происходит правильный дебаг с агентами
Неправильно:
Орать "Да сколько можно тебе говорить, идиотская ты башка!"
Правильно:
Понять, что каждая неудача — это результат неправильного контекста на вход.
Не всегда проблема очевидна с первого раза. Нужно проверить на актуальность внешние апи, обвесить логами выдачу, отсеять по-очереди все возможные гипотезы, каждая из которых требует отдельной проработки. Таким образом, обогащая контекст раз за разом и подавая его на вход снова.
И вот когда контекст готов, вы действительно поняли корень проблемы — можно написать код, что сетка вам с удовольствием и сделает.
А все предыдущие части — нужно думать и своей головой.
Неправильно:
Орать "Да сколько можно тебе говорить, идиотская ты башка!"
Правильно:
Понять, что каждая неудача — это результат неправильного контекста на вход.
Не всегда проблема очевидна с первого раза. Нужно проверить на актуальность внешние апи, обвесить логами выдачу, отсеять по-очереди все возможные гипотезы, каждая из которых требует отдельной проработки. Таким образом, обогащая контекст раз за разом и подавая его на вход снова.
И вот когда контекст готов, вы действительно поняли корень проблемы — можно написать код, что сетка вам с удовольствием и сделает.
А все предыдущие части — нужно думать и своей головой.
💯28👍11❤5😁1
Влез сегодня чутка дописать функционала в бота, которого зарелизил в апреле, и все это время его не трогал.
И ощутил, насколько прокачались инструменты за это время.
Я помню мучался — писал его несколько дней.
Здесь же я добавил половину от того функционала что есть за один промпт в Шотгане. Еще одним полирнул и все — готово. Больше времени потом на выкладку потратил.
Кодекс бы, уверен, тоже справился. А пол-года назад у меня бы сотка запросов ушла как с куста.
В общем, прогресс поразителен, главное правильно взять точку для сравнения.
И ощутил, насколько прокачались инструменты за это время.
Я помню мучался — писал его несколько дней.
Здесь же я добавил половину от того функционала что есть за один промпт в Шотгане. Еще одним полирнул и все — готово. Больше времени потом на выкладку потратил.
Кодекс бы, уверен, тоже справился. А пол-года назад у меня бы сотка запросов ушла как с куста.
В общем, прогресс поразителен, главное правильно взять точку для сравнения.
❤30💯18🔥7👍4🗿2👏1
Как добиться от нейросети качественной числовой оценки чего угодно
Ловите лайфхак свежий.
Техника тупая до безобразия, но я ее почему-то не применял.
Короче. Если вам нужно добиться от нейросети какой-то численной оценки. Например, качества текста.
То не просите ее "оцени качество текста".
Вместо этого разбейте работу на два промпта.
1) Заставьте ее первым запросом написать письменное эссе по этой теме. Ну например "Вот тебе текст. Выпиши критерии по которому ему можно дать более высокую оценку, или низкую. Подробно опиши его плюсы и минусы согласно этим критериям".
2) А вот уже вторым — попросите оценить численное качество, используя текст + эссе как исходник.
В чем фишка: нейросеть как текстовый процессор не умеет в математическую оценку, и зачастую, либо усредняет ее, либо действует наобум. Особенно сильно это проявляется на не-рассуждающих или квантизованных моделях.
Если же мы просим ее написать оценочный текст, то она вполне способна это сделать. А на его структурированной базе ей уже и оценку провести сильно проще.
PS Эта техника, очевидно, может быть заменена встроенным ризонингом в рамках одного промпта. Но практика показывает, что качество Chain of Thoughts обычно лучше встроенного ризонинга, так что если у вас есть пайплайн с оценкой, то разбиение этого шага на две стадии даст результаты лучше, чем если бы вы шаманили с одним промптом.
Ловите лайфхак свежий.
Техника тупая до безобразия, но я ее почему-то не применял.
Короче. Если вам нужно добиться от нейросети какой-то численной оценки. Например, качества текста.
То не просите ее "оцени качество текста".
Вместо этого разбейте работу на два промпта.
1) Заставьте ее первым запросом написать письменное эссе по этой теме. Ну например "Вот тебе текст. Выпиши критерии по которому ему можно дать более высокую оценку, или низкую. Подробно опиши его плюсы и минусы согласно этим критериям".
2) А вот уже вторым — попросите оценить численное качество, используя текст + эссе как исходник.
В чем фишка: нейросеть как текстовый процессор не умеет в математическую оценку, и зачастую, либо усредняет ее, либо действует наобум. Особенно сильно это проявляется на не-рассуждающих или квантизованных моделях.
Если же мы просим ее написать оценочный текст, то она вполне способна это сделать. А на его структурированной базе ей уже и оценку провести сильно проще.
PS Эта техника, очевидно, может быть заменена встроенным ризонингом в рамках одного промпта. Но практика показывает, что качество Chain of Thoughts обычно лучше встроенного ризонинга, так что если у вас есть пайплайн с оценкой, то разбиение этого шага на две стадии даст результаты лучше, чем если бы вы шаманили с одним промптом.
👍51🔥28❤3
Попробовал
Охренеть он быстрый
Пожалуй, буду использовать как дефолт для прогона тестов в Шотгане. Быстрее gpt-5 раз в 20 и gemini-2.5 pro раз в 10, наверное.
mistralai/codestral-2508Охренеть он быстрый
Пожалуй, буду использовать как дефолт для прогона тестов в Шотгане. Быстрее gpt-5 раз в 20 и gemini-2.5 pro раз в 10, наверное.
1🔥23😱6👍3
Десктопная утилита для утилизации подписочных токенов
Короче, новая движуха.
На этой неделе релижу Шотган. Но у меня для него есть сайд-проект.
Я назвал его Leech — то есть пиявка.
Суть в том, что вы ставите софтинку на десктоп, вводите там свои логины от разных сервисов типа клод кода или копайлота.
А далее можете работать с этой штукой с любого сервера, вместо апишки к ЛЛМ. Т.е. она поллит указанный сервер, смотрит какие запросы там для нее приготовлены, исполняет их локально, и кладет назад результат.
Чего пишу.
Я конечно могу все это сделать сам. Но мне интересно найти какого-нибудь лютого вайбодрочера, который бы захотел это реализовать совместно. Релиз будет по Apache/оупенсорс.
Мои ощущения говорят, что в минимальной конфигурации этот проект на 3 дня. Ищу тех, кто считает так же оптимистично.
Пишите в каменты, кому интересно. Денег не предлагаю. Но проектик точно взлетит в комьюнити, если сделать все красиво, а вы получите славу и уважение.
PS Мы с вами сработаемся, если прямо сейчас вы тратите в месяц на модели от 100 баксов и выше.
Короче, новая движуха.
На этой неделе релижу Шотган. Но у меня для него есть сайд-проект.
Я назвал его Leech — то есть пиявка.
Суть в том, что вы ставите софтинку на десктоп, вводите там свои логины от разных сервисов типа клод кода или копайлота.
А далее можете работать с этой штукой с любого сервера, вместо апишки к ЛЛМ. Т.е. она поллит указанный сервер, смотрит какие запросы там для нее приготовлены, исполняет их локально, и кладет назад результат.
Чего пишу.
Я конечно могу все это сделать сам. Но мне интересно найти какого-нибудь лютого вайбодрочера, который бы захотел это реализовать совместно. Релиз будет по Apache/оупенсорс.
Мои ощущения говорят, что в минимальной конфигурации этот проект на 3 дня. Ищу тех, кто считает так же оптимистично.
Пишите в каменты, кому интересно. Денег не предлагаю. Но проектик точно взлетит в комьюнити, если сделать все красиво, а вы получите славу и уважение.
PS Мы с вами сработаемся, если прямо сейчас вы тратите в месяц на модели от 100 баксов и выше.
🗿13👍8❤7🤷♂2🔥2💊1
Вы можете видеть много слухов про gemini 3 pro, и насколько она волшебно все делает.
Только вот прикол. Почему-то про нее в основном пишут никому не известные челы с индийскими именами.
А теперь, во что вы верите больше?
— Джамал Рамаяновичу из Бангалора с тысячью подписчиков лично в гугле выдали передовую модель, а он на ней построил за один промпт модель MacOS
— Джамал Рамаянович просто на*издел
По-моему, ответ очевиден. Но, конечно, ждем и надеемся.
Только вот прикол. Почему-то про нее в основном пишут никому не известные челы с индийскими именами.
А теперь, во что вы верите больше?
— Джамал Рамаяновичу из Бангалора с тысячью подписчиков лично в гугле выдали передовую модель, а он на ней построил за один промпт модель MacOS
— Джамал Рамаянович просто на*издел
По-моему, ответ очевиден. Но, конечно, ждем и надеемся.
😁54👍6❤1