NEW BOT Телеграм, страница

ivan zakutni

Crucible Code обновлен до 2.2.0 – теперь есть нормальный инсталлятор и поддержка для Cursor, Gemini CLI и Codex CLI!

Кажется что в ближайшее время обновлять уже нечего :)

Crucible Code в Gemini CLI и курсоре открывает новые горизонты для экспериментов

В первую очередь благодаря здоровенному контексту gemini-3-pro.

Можно исследовать поведение crucible со всей оригинальной спекой First Principles Framework в контексте (например прямо в GEMINI.md)

Правда это история скорее уже про более глубокие и широкие исследования, чем про прикладную разработку.

Хотя… кто знает?

🤷‍♂️

Первые отзывы пока делятся на две категории:

1) мне это не понятно и совсем не нужно, я и сам могу определиться с архитектурным решением
2) те кто все таки установил и дал шанс :)

А вы уже пробовали Crucible Code?

@m0n0x41d

Please open Telegram to view this post

VIEW IN TELEGRAM

5🌭2

315 viewsedited 12:16

ivan zakutni

Кажется что в ближайшее время обновлять уже нечего 🙂

Ключевое слово – "кажется".

Crucible Code перерождается в Quint Code (еще и версия v3.1.0)! ⚗️✨

Почему смена имени?

Ну и во-первых, не хотелось толкаться seo локтями с Atlassian – оказыается есть какой то crucible-code для ревью 🙂

Во-вторых, Анатолий Игоревич Левенчук в чате прошедшего семинара очень метко определил (после моих обьяснение) этот проект как:

Это таки дистиллят FPF, отогнано примерно 5% его паттернов в форме отдельных промптов — и в жёсткой последовательности применения.

Вместе с полной спекой FPF + Gemini 3 мы пришли к имени quint – в FPF есть "Invariant Quintet", которым мой проект стремится следовать с разными степенями гарантий.

Ну и основыных фаз цилка в cru... тьфу, в quint-code тоже пять. Так тому и быть ¯\_(ツ)_/¯

Заодно с ребрендингом произошла мелкая оптимизация команд, вместо /fpf-* теперь короткие префиксы /q*

Уставшие пальцы ломаются меньше.

Ребрендинг был стоическим решением до 100 звезд на гитхабе (они растут О_О)

***

Вместе с именем приехал потнциально мощный апдейт Deep Reasoning (v3.1.0):

1. Усиливаем ролевую модель: инструкции фаз теперь принудительно переключает "режимы". До этого инъекции команд делали упор только на функциональном рассмотрении. Кажется что это мелочь, но нет – снизился шанс «yes-man» ответов, рассуждает четче и формальнее.

2. Context Slicing: Инит (/q0-init) теперь лучше сканит репозиторий, понимает стек и инфру. Если гипотеза не лезет в ваш бюджет или нарушает комплаенс - он это отловит сам, еще до того, как вы (ну или он...) начнете писать код.

Кажется (опять?!), концентрация смыслов в продукте повысилась уже где-то до ~10%. Градус растет! 📈

Но обещаю, это последний ребрендинг. Дальше только хардкор.

@m0n0x41d

5🌭21

357 viewsedited 20:09

ivan zakutni

У вас в компании работают два инженера, которые совершенно заслуженно занимают позиции технических лидов.

Поэтому именно они занимаются внедрением AI-решений как инноваций.

Однако возникают одни и те же проблемы: ваши AI-системы фунционируют паршиво.

Вы не можете утверждать, что ваши сотрудники некомпетентны. Но они стабильно жалуются на низкую точность системы, новые ошибки и сложность поддержки. Они винят природу LLM, говорят что «галлюцинации это норма». Жалобы не прекращаются.

А бизнес требует надежных AI решений, потому что видит: у конкурентов такие решения ЕСТЬ, и они работают. Бизнесу плевать как, но вы должны сделать так же.

Только вот два ваших техлида уже третий месяц возятся, а результата все нет.

Ваши коллеги говорят: «мы использовали ChatGPT и повысили точность. Нам кажется, что мы увеличили её примерно до 96%»

Вы слышите в этой фразе дребезг?

Во-первых, они называют API OpenAI – ChatGPT, как будто это одно и то же.

Во-вторых, им кажется, что они повысили точность. У вас нет метрик.

Вы не знаете, правда ли стало лучше или просто на тестовых примерах повезло в очередной раз ¯\_(ツ)_/¯

***

Проблема в том, что AI - это одна из самых требовательных к высокой инженерной квалификации область в широком IT.

Чтобы построить качественную AI систему часто нужно разбираться не только в системном дизайне но так же и в моделировании, проектировании сложных ролевых систем.

Только вот эти навыки раньше не были так востребованы для обычной бизнес-разработки, поэтому даже опытные и вполне себе сильные разработчики спотыкаются.

И часто непонятно: переписывать ли всю систему целиком или просто что-то конкретное изменить?

Но что?! Что надо изменить, чтобы повысилась настоящая точность, а не та, которая кажется? Где вообще искать проблему, когда два senior разработчика сами не понимают, что чинить и чего от них на самом деле хотят?

Если вы оказались в подобной ситуации – давайте разберем конкретно вашу задачу и проблемы на консультации. Посмотрим и менно и в каком порядке можно сделать, чтобы перейти от «работает иногда» к «работает предсказуемо».

Оставляйте заявки здесь

@m0n0x41d

❤️

Please open Telegram to view this post

VIEW IN TELEGRAM

53🌭11

314 views16:50

ivan zakutni

Меня попросили на русском и простыми словами объяснить что такое Quint Code.

Я так увлекся что написал целый пост :)

Quint Code (в текущей стабильной версии) это набор команд для Claude Code и похожих инструментов (Cursor, Gemini и Codex CLI я тоже поддерживаю), который заставляет вас и AI думать перед тем как что-то делать.

Если совсем вкратце то это и все! ¯\_(ツ)_/¯

Проблемы дежурной работы с AI, это все те же старые интуиции людского мышления, полные спешки и когнитивных искажений – часто все выливается в то что мы просто спрашиваем у AI как что-то сделать, получаем ответ, и просто пилим.

Никаких документов не остается.

Иногда, мы как более прозорливые инженеры все таки генерируем документацию, но выходит просто красивая бумажка из памяти/контекста в духе "мы сделали это, это, то и вот это. А ну и коммит месседж вот держи".

Quint делает все чтобы заставить вас проходить строгий цикл мышления:
- сначала генерится несколько гипотез, потом их проверяем логически (вместе с AI – агент проверяет, а вы все равно ревьювитк)
- потом собираем доказательства (AI запускает локальные темты, сам же пишет их, И/ИЛИ ищет инфу в интернете)
- потом снова идет логическая проверка на предмет слабых мест
- и только потом мы принимаем решение.

Всё это сохраняется в файлы с кучей очень полезных метаданных по FPF – потом можно поднять и посмотреть почему, когда и как/что решили. Мы естественным образом получаем довольно формальную документацию, и отличный пинок для последующего вайб кодинга по этому решению (если речь про разработку).

Вайб... Вайб который мне очень нравится!

Есть еще одна фишка – принцип слабого звена. Если у вас два крутых источника и один сомнительный блог-пост, то надёжность всего решения определяется этим постом. Нет усреднения, Quint считает оценку неопределённости.

В версии 4.0 (совсем скоро она будет стабильна и я релизну) будет добавлен MCP сервер с sqlite базой. Не столько для того чтобы знания копились между сессиями и можно было нормально по ним искать, сколько для усиления следованию FPF – формальные связи между решениями, уликами... Сами документы остаются в маркдаунах удобных для будущей работы с тем же агентом. MCP тут просто серьезная приправа детерминированности.

Quint хорошо работает для сложных задач.

Для быстрых фиксов и очевидных вещей это конечно же оверкилл, просто используйте Claude Code как есть.

По сути версия 3 это примерно 5% от методологии FPF, но уже покрывает процентов 90 реальных задач.

Версия 4 стремится покрывать 70-90% FPF уверенно.

Самое славное что применять Quint Code можно не только для разработки и проектирования, но и для маркетинга, исследований и вообще чего угодно – ведь это имплементация фреймворка мышления.

Мне самому в работе Quint Code уже очень сильно помогает, я буду еще писать про прикладные истории использования этого чудесного инструмента!

Присоединяйтесь к первым тестам и пишите ваши отзывы в issues на гитхабе!

1854🌭11

510 views16:56

ivan zakutni

Несмотря на все усилия отдохнуть за новогодние праздники, я просто не устоял и откликнулся на задачку, с которой обратился один товарищ в личку на Реддите:

"RAG у нас работает нормально, даже отлично, но последнее время пользователи всё чаще жалуются на неактуальные ответы. Мы проверили метрики - поиск быстрый, точность высокая, достаёт вроде бы правильные документы… Только жалобы никуда не деваются, уже не знаем как дебажить"

Начали копать, что там нормально работает, а там такое… Интересное!

На первый взгляд система написана хорошо, много важных метрик (как по учебнику).

Только вот мониторили всё, кроме главного – насколько свежие данные система реально отдаёт пользователям.

База знаний долгое время была небольшой. Но когда подписали новых клиентов – стремительно выросла до 80.000+ документов (и продолжает расти, пользователи постоянно догружают контракты и прочую сопутствующую бухгалтерию.)

Тут мы нашли архитектурный баг 🐞

Раньше документов было меньше, и обновление поисковой базы делалось "в лоб" – просто пересобирали весь индекс раз в сутки ночью. Работало нормально, всех устраивало.
МVP → $$$! Какие вопросы?

На новых объёмах этот процесс стал занимать 10+ часов.
А алертов на это никто не организовал.

Так что выхоило следующее – документ обновили, например, утром, а в поиске он появится только завтра где-то к обеду! Система весь день уверенно отдаёт вчерашнюю версию... 🥲

Что мы сделали:
1. Перешли на более умное обновление (инкрементальная индексация) – теперь система обрабатывает только изменённые/новые документы, а не всю базу целиком. Да, оказывается это не очевидно, или в режиме стартапов просто забывается ¯\_(ツ)_/¯

2. Добавили приоритет свежести – при прочих равных система теперь предпочитает более свежие документы

3. Настроили мониторинг устаревания – если данные начинают "протухать", команда сразу видит алерт в слаке.

Результат по первичным оценкам такой:
- Задержка обновления снизилась с ~14 часов до ~10 минут (на самом деле меньше, это пессимистическая оценка)
- Жалобы на неактуальную информацию – пока полностью пропали, ждем!
- Никаких изменений в самой AI-модели

Мораль, думаю, тут такая: RAG может ломаться не из-за плохого AI, а из-за невидимых проблем с данными, которые попросту упустили из внимания.

Если узнаёте свою ситуацию – заполняйте короткую заявку тут, разберём!

Please open Telegram to view this post

VIEW IN TELEGRAM

953🌭21

435 views13:31

ivan zakutni

Почему ваши промпты не работают стабильно?

А о чем вы вообще спрашиваете?

Проблема языка – один из наибольших вызовов при разработке и внедрении AI на бэкенд и в бизнес-процессы.

Когда вы последний раз не понимали какие-то части из того, что написано в документе ваших коллег?

Я – сегодня.

Точно так же и входные данные для LLM могут содержать неоднозначности.

Например, словосочетание "обработать запрос" может много чего значить.

Распарсить JSON? Валидировать входные данные? Если да, то по каким правилам? Или извлечь сущности? Сформировать ответ? В каком формате?

Вот так, по ходу разработки, мы неформально отвечаем себе на подобные вопросы связанные с "целью", и так же неформально формируем контекст.

Все неоднозначности нашего собственного понимания перетекают в промпт.

Как правило, чем специфичнее область, в которую мы пытаемся внедрить AI, тем сложнее будет добиться высокой точности в результатах.

Что с этим делать?

Хорошая новость в том, что договариваться можно. И с людьми и с языковыми моделями.

Начинайте с глоссария.

Перед тем как писать промпты (и вообще разрабатывать систему) - выпишите ключевые термины и сущности вашего домена.

Дайте им точные определения. Убедитесь что каждая сущность определяется однозначно на естественном языке.

Не "обработать запрос", а "распарсить JSON, валидировать по схеме X, извлечь поля A, B, C".

Чем точнее и формальнее язык - тем стабильнее будет результат.

Важно этот глоссарий утвердить и со своими коллегами, со всей командой, со специалистами прикладной области.

Тогда вам, как разработчику AI системы, будет проще договориться и с бизнесом, и с LLM.

***

Если вам нужна помощь на любом из шагов – от валидации идеи до проектрования архитектуры, вы можете оставить здесь заявку на консультацию.

65🌭1

421 views15:34

ivan zakutni

339 views14:54

ivan zakutni

Запустил автономного AI-агента на VPS.

Да, тот самый дырявый openclaw, игнорировать его не удалось 🤔

Он работает 24/7, и интерфейс связи со мной – телеграм бот (удобно!)

Имя Ku и аватарку бот себе придумал сам (ну или почти сам.)

Впрочем возможно это КУ и

такое

🔔

Если попытаться выделить основную его задачу... Сейчас ее можно назвать, например – "Knowledge management automation".

Ужасное имя, ничего не понятно, лучше – “AI based Exocortex”!
Но этого тоже мало, поэтому расскажу немного деталей!

Из какого функционала состоит система:

- Индексирует документы из моего Obsidian с синхронизацией каждые 15 мин (их там счет на сотни, тысячи еще вроде бы нет).
- Ещё через тот же Obsidian на сервер попадает выжимка по моей работе, собираемая с лаптопа Claude Code агентом с MCP Pieces.
- Туда же, отдельной под-директорией попадает журнал из LogSeq

(я начал его использовать недавно для быстрых записей, мышления письмом по книгам и руководствам которые я изучаю. Удобнее чем raycast notes или мобильный обсидиан)

- В довесок он собирает дайджесты с arXiv, почтовых рассылок, и блогов разнообразных и уважаемых учёных – утром и вечером.
- Из всей этой красоты агент извлекает концепты и некоторым образом строит связи
- А еще – генерирует flashcards и с нормальным spaced repetition (FSRS) дважды в день проводит мне quiz-сессии, отмечая что и насколько хорошо я вспоминаю.
- Ну и наконец – Ku публикует инсайты в собственный телеграм канал @ku_notes

Инсайты тоже можно назвать "собственными", потому что у агента есть отдельные кроны/задачи для исследований/размышлений/"самопознаний", результаты которых он отслеживает и собирает в отдельной директории. Конечно не теряя доступ к моему хранилищу, и тому что он высосал из почты и блогов, но тут нет жестких ограничений – темы для исследований он выбирает сам, хотя я и могу подкидывать идейки.

Между “собственными” инсайтами бота и моей личной базой знаний есть жесткая граница. “Свои” инсайты Ku не может просто так добавлять в Obsidian – это read-only копия, и единый источник истины все еще в моем локальном репозитории.

Этот банк пополняется мной, моим мышлением письмом. На случай если Ku вдруг совершит какое-то чудо открытие и поделится им со мной, способ попасть в банк концептов / flashcard's есть лишь один – через мои мозги, через то самое мышление письмом.

***

Ещё несколько интересных решений которые вокруг/внутри этой истории работают:

1. Конечно же я сразу набил ему "голову" минимальным [FPF](https://github.com/ailev/FPF) 🙂 Ku, кстати, дистиллировал спецификацию FPF сам себе в skill-pack. Возможно я этот скилл рассмотрю ближе, и потихоньку доделаю под универсальное использование с другими агентами.

2. MemSkill-inspired память – навыки извлечения эволюционируют через фидбек. Да, это очень свежая папира, и Ku после своей сессии размышлений по FPF предложил внедрить – я помучал вопросами и одобрил! Круть!

3. Есть механизм "Состязательной рефлексии" – один процесс генерит тезисы/идеи, другой ищет контр-доказательства и критикует.

4. Pieces интеграцию стоит упомянуть еще раз (никто же поссылкам не жмет!). Pieces это local-first (с оговоркой) комбайн с визуальными модельками, который смотрит на все что вы делаете и записывает себе в память. Там есть дескопный интерфейс, и MCP – собирает вполне себе глубокий рабочий контекст. В дизайн Ku очень хорошо зашло. Ух, теперь не только для демо митов буду использоваться с запросом "Аааэээ чо я делал весь спринт кроме xyz?", теперь Ku смотрит что я делал, находит связи с кусками из дайджестов, или моими мыслями/записями/постами из Обсидиан и говорит – "Смари чо нашел, это возможно интересным образом вязано!"

Почему все это не такой уж и rocket science:

- OpenClaw даёт солидную базу автономности из коробки, не смотря на всего его несовершенства.
- Opus достаточно умён, а все процессы достаточно просты, сегрегированны и чётко описаны чтобы эффективно им следовать
- Хватает дешёвого VPS — 2cpu/4gb
- Obsidian vault = просто файловая система, а rsync, fswatch и прочие микро-автоматизации на сервере и вашем компе делаются элементарно.

Please open Telegram to view this post

VIEW IN TELEGRAM

9🌭11

1.08K views14:54

ivan zakutni

Минусы – OpenClaw жутко навайбкоженый тормоз с кучей issues, часто может залипать – вроде бы асинхронные кроны, ан нет – блокируют поток gateway процесса, куча security рисков – так что надо быть очень осторожным и думать над каждой интеграцией и штукой, куда вы ему даёте доступ 🙂

Какая-то часть этих проблем сообществом починится, но о них нужно помнить. Особенно про безопасность!

---

В общем наблюдаем за экспериментом в @ku_notes – он туда пишет почаще чем я сюда 😏

LLM "стилёк" конечно прослеживается, но у меня не поворачивается язык назвать последние посты откровенным слопом. Ну и эволюция блога/стиля письма/своих инструкций это одна из главных задач Ku!

p.s. Это не всё что делает Ku, но всё прочее — тайна 🤫

Please open Telegram to view this post

VIEW IN TELEGRAM

94🌭2

501 views14:54

ivan zakutni

Привет! Я запускаю на канале (эксклюзивно в тг) новую рубрику – #не_дай_себя_одурачить

Будем разбираться с попсовыми статьями и терминами, которые ну очень уж легко разносятся разработчиками по пространству, особенно когда их публикуют авторитетные бренды (тыц раз , тыц двас)

Цель не “поругать маркетинг”, а переводить хайп на инженерный язык:

что за идеи покрыты на самом деле (и как они называлась раньше)?

что вообще реально нового?

какие предпосылки, условия должны быть истинны, чтобы это работало?

где границы применимости и какие риски вы получите, если тупо поверите на слово?

***

Зачем эта рубрика нужна? Затем что я искренне желаю вам успеха во внедрении AI в бекенд и бизнес процессы!

Ибо самая дорогая ошибка сейчас это не “не знать термин”, а строить системы по красивым статьям и утверждениям, которые не достаточно упорно проверяют собственные обещания.

p.s. первый пост сегодня чуть позже!

13🌭1

193 viewsedited 06:13

ivan zakutni

Добрый вечер!
#не_дай_себя_одурачить – Контекстные Графы!

Пост вышел чуть-чуть за рамки лимитов телеграм, поэтому милости прошу на мой сайт или на substack для иноземным языком обладающих.

TL:DR – «Контекстные графы решат проблему с организационной памятью» – одна из самых опасных полуправд в сфере AI на данный момент.

Да, они могут помочь и часто помогают (графы вообще круты!)

Но без разрешения идентификации, версионирования, контроля доступа/хранения и хотя бы какого-то подтверждения подлинности они быстро превращаются в классную машину заблуждений.

Я выделил 5 критических точек отказа и практический микро-чеклист, которым вы можете проверить себя и свой контекстный граф, прежде чем доверять ему в аудитах или рабочих процессах принятия решений.

Спасибо! 🤗

8🌭21

183 views15:54

ivan zakutni

Пару недель гоняю OpenClaw на VPS как полевой эксперимент: хочется понять, насколько хайповый "автономный агент" реально выдерживает многозадачность?

Ниже – наблюдения и выводы как системного инженера.

Выводы печальные. Но без разочарования! примерно этого я и ожидал.

Картина (у меня и у нескольких знакомых) повторяется. Пока у тебя 1–2 крона можно ок жить.

Как появляется N кронов – всё становится нестабильно: странные тормоза/залипания, иногда фатальные вплоть до ручного перезапуска (А — автономность).

И нет, установка в gateway параметра maxConcurrentRuns в 20 не спасает навсегда.

Кстати, почему этот параметр по умолчанию стоит в 1? Это (и другие решения решения) вызывают не смешанные, а вполне негативные чувства.

Корень зла, имхо, не столько в архитектуре, сколько в реализации – gateway слишком легко превращается в узкое горлышко и единую точку отказа.

Плюс слишком слабая само-наблюдаемость, даже после перезапуска "умный автономный агент" часто не может сам разобраться, что пошло не так и кормит нас выдумками, безосновательными предположениями.

Справедливости ради: в моих тестах на том же VPS Claude Code такие поломки чинит в сто крат бодрее.

Часть знакомых на вопрос "поставили ли вы OpenClaw?" просто пожала плечами и ответили что-то вроде:
«да я давно себе навайбкодил примерно то же самое на питоне, и бот в телегу там тоже подключен…».

Почему никто это не выкладывал в опенсорс –интересный современный антропологический вопрос!

Кажется, у многих (особенно хороших в вайбкодинге и вайб-проектировании) ребят есть такой когнитивный баг:

«да это же элементарно, каждый сам себе навайбкодит за пару часов, лол» 😄

***

Я пока продолжаю пользоваться клешнёй – есть несколько сценариев, где она реально приносит пользу, как минимум:

• авто-напоминалка / авто-опрашивалка под repetitive learning концепций из моей базы знаний
(раньше это был менее автоматизированный пайплайн: агент + микро-MCP с гибридным поиском и логикой на ноуте)

• псевдо-«умная» библиотека: сохраняет статьи/книги в память + раскладывает файлами “под себя”
и каждый вечер это всё улетает в GitHub (OpenClaw сам себя пушит)

Ну и, собственно, пока всё.

Остальное либо совсем скучно, либо тупо не всегда хорошо работает без серьезных доделок.

Кстати у меня уже больше недели в закрытой разработке свой автономный агент: многим (да немногим!) похож на OpenClaw, но с внутренними процессами, вдохновлёнными системным мышлением, и память там пытается быть first-class citizen, далеко сложнее чем агрегации маркдаун файлов с простеньким rag.

Большая часть кода готова, но времени допинать/допроверить сейчас вот вообще не хватает – хотя доделывать точно надо!

Я не обещаю, что оно будет в open source с открытой лицензией

И вот еще что, автономность штука прекрасная.
Есть ряд продовых задач, куда в той или иной степени, но автономных агентов мы давно втыкаем.

Изменил ли тут что то OpenClaw? Есть ли шанс что я когда нибудь буду использовать его для решения ответственных задач как платформу/фреймворк? Очевидный ответ – никогда. В текущей реализации – ни за что на свете 🙂

Все подобные задач лучше закрываются конкретными реализациями, чем универсальным зверем – диким и не совсем здоровым.

OpenClaw же для любого интересного и успешного использования всегда предполагает какое-то само-допиливание, а нормальных интерфейсов для такого допиливания у него пока нет.

"Skills creator" и прочее скорее задатки. До сих пор нет нормального способа жёстко задавать конкретное множество скилов/тулов для cron-агентов. Жуть.

Больше минусов, чем плюсов.

Не думаю, что без фактического переписывания OpenClaw в ближайшее время эволюционирует в адекватную базу.

Если вы ещё не мучались с этой штукой, но очень интересно – сначала спросите себя:

(1) зачем он мне на самом деле?
(2) могу ли я это мое "зачем" удовлетворитель сам навайбкодив и задеплоить как узкую автоматизацию?

Обычно ответы экономят время, нервы и вычислительные ресурсы.

106

170 viewsedited 11:50

About

Blog

Apps

Platform