🤖 Cursor виклали гайд по роботі з AI-агентами
Зібрали всі best practices в одну статтю. Більшість з цього я вже юзаю в Claude Code, але це дійсно непоганий гайд для тих хто досі не став ШІ євангелістом.
Цитата дня:
📎 https://cursor.com/blog/agent-best-practices
Зібрали всі best practices в одну статтю. Більшість з цього я вже юзаю в Claude Code, але це дійсно непоганий гайд для тих хто досі не став ШІ євангелістом.
Головні інсайти:
•Shift+Tab— Plan Mode, агент спочатку планує, потім кодить. Плани зберігаються в.cursor/plans/Від мене: Дуже важливо створювати план якщо очікувані зміни більше 100-200 рядків коду
• Довгі чати = втрата фокусу. Новий чат на кожну нову задачу
• Rules (.cursor/rules/) — статичний контекст для кожного чату. Skills (див. Claude agent skills)
• TDD з агентом працює найкраще — тести дають йому чітку ціль для ітерації
• Debug Mode — генерує гіпотези, додає логування, аналізує runtime. Для складних багів
• Можна запускати декілька моделей паралельно через worktrees і порівнювати результати
Цитата дня:
AI-generated code can look right while being subtly wrong
📎 https://cursor.com/blog/agent-best-practices
⚙️ Очікування vs Реальність вайбкодингу
Налаштовую собі cron job: щодня о 9:00 запускаються два sub-agents паралельно — один парсить GitHub Issues, інший лізе в ClickHouse аналізувати логи. Main Agent порівнює результати і кидає звіт в телеграм. Thinking: High. Краса!
Прокидаюсь, відкриваю телефон…
Ха-ха-ха прекрасно. Типовий Клод 🫠
Це все що вам треба знати про стабільність агентних систем. Розумний, вміє планувати, але коли треба працювати о 9 ранку — він теж не хоче
Вайбкодинг — це прекрасно, доки не впираєшся в ліміти API.
Налаштовую собі cron job: щодня о 9:00 запускаються два sub-agents паралельно — один парсить GitHub Issues, інший лізе в ClickHouse аналізувати логи. Main Agent порівнює результати і кидає звіт в телеграм. Thinking: High. Краса!
Прокидаюсь, відкриваю телефон…
{"type":"error","message":"Overloaded"}
Ха-ха-ха прекрасно. Типовий Клод 🫠
Це все що вам треба знати про стабільність агентних систем. Розумний, вміє планувати, але коли треба працювати о 9 ранку — він теж не хоче
Вайбкодинг — це прекрасно, доки не впираєшся в ліміти API.
Другий день користуюсь clawd.bot і дуже вражений
Насправді, ще давно були думки створити самому подібного бота, але так як це зробили тут - я б точно не став так заморочуватись
Мій кейс - скинув клоду цей сайт, описав свій кейс: бот що працює в одній групі (розробники Селестії), має доступ до продакшн бази/логів/трейсів, отримує повідомлення він мене, аналізує питання і відповідає в групі по результату
Фактично, використовує клод код на сервері (де є підписка), і допомагає швидше виявляти баги і створювати ішʼю, ну і звісно - виправляти їх
Тобто телеграм бот - це просто інтерфейс.
А ще, проєкт - опенсурсний (бот на js), тому можна попросити клода поправити його роботу так як вам треба.
Дуже дуже раджу
Насправді, ще давно були думки створити самому подібного бота, але так як це зробили тут - я б точно не став так заморочуватись
Мій кейс - скинув клоду цей сайт, описав свій кейс: бот що працює в одній групі (розробники Селестії), має доступ до продакшн бази/логів/трейсів, отримує повідомлення він мене, аналізує питання і відповідає в групі по результату
Фактично, використовує клод код на сервері (де є підписка), і допомагає швидше виявляти баги і створювати ішʼю, ну і звісно - виправляти їх
Тобто телеграм бот - це просто інтерфейс.
А ще, проєкт - опенсурсний (бот на js), тому можна попросити клода поправити його роботу так як вам треба.
Дуже дуже раджу
🧵 5 типів тредів в AI-інженерії — розбираємось як працювати з агентами ефективніше
Нещодавно натрапив на цікаву концепцію від IndyDevDan — Thread-based Engineering. По суті, це класифікація того, як ми взаємодіємо з ШІ-агентами. І знаєте що? Виявляється, я інтуїтивно вже використовував деякі з цих патернів, навіть не знаючи що вони так називаються!
1️⃣ Base Thread — базовий цикл
Класика жанру: промпт → агент працює → результат. Один запит — одна відповідь. Це те, з чого всі починають, і це фундамент для всього іншого.
2️⃣ P-Thread (Parallel) — паралельний
Тут вже цікавіше! Запускаєте кілька агентів *одночасно* на різні задачі:
• Один пише фронтенд
• Другий — бекенд
• Третій — тести
Поки один думає, інші вже працюють. Але тут дуже уважно треба слідувати щоб їхні задачі не перетиналися, паралелизуйте лише те, що можна, щоб уникнути конфліктів
3️⃣ C-Thread (Chained) — ланцюговий
Розбиваєте складну задачу на фази з валідацією між ними:
• Phase 1: План → ✅ перевірили
• Phase 2: Код → ✅ перевірили
• Phase 3: Тести → фінальний результат
4️⃣ F-Thread (Fusion) — злиття
Моя улюблена тема — даєте *одну й ту саму* задачу різним агентам або моделям (Claude, GPT, Gemini) і порівнюєте результати. Часто одна модель бачить те, що інша пропустила. Fusion — це про якість, не про швидкість.
5️⃣ L-Thread (Long) — довгий
Тут вже складніше, треба дуже гарний промпт, і багато задач, іноді додаткові інструменти щоб робота не зупинялася. Також є проблема — коли контекст роздувається до нескінченності, агент починає “тупити”, втрачати інструкції і галюцинувати.
💡 Практичні поради:
• Для простих фіксів — Base Thread достатньо
• Для великих фіч — Chained з покроковою валідацією
• Для code review — Fusion (порівнюйте Claude vs GPT)
• Відчуваєте що агент “поплив”? — це L-Thread, час рестартити
Нещодавно натрапив на цікаву концепцію від IndyDevDan — Thread-based Engineering. По суті, це класифікація того, як ми взаємодіємо з ШІ-агентами. І знаєте що? Виявляється, я інтуїтивно вже використовував деякі з цих патернів, навіть не знаючи що вони так називаються!
1️⃣ Base Thread — базовий цикл
Класика жанру: промпт → агент працює → результат. Один запит — одна відповідь. Це те, з чого всі починають, і це фундамент для всього іншого.
2️⃣ P-Thread (Parallel) — паралельний
Тут вже цікавіше! Запускаєте кілька агентів *одночасно* на різні задачі:
• Один пише фронтенд
• Другий — бекенд
• Третій — тести
Поки один думає, інші вже працюють. Але тут дуже уважно треба слідувати щоб їхні задачі не перетиналися, паралелизуйте лише те, що можна, щоб уникнути конфліктів
3️⃣ C-Thread (Chained) — ланцюговий
Розбиваєте складну задачу на фази з валідацією між ними:
• Phase 1: План → ✅ перевірили
• Phase 2: Код → ✅ перевірили
• Phase 3: Тести → фінальний результат
4️⃣ F-Thread (Fusion) — злиття
Моя улюблена тема — даєте *одну й ту саму* задачу різним агентам або моделям (Claude, GPT, Gemini) і порівнюєте результати. Часто одна модель бачить те, що інша пропустила. Fusion — це про якість, не про швидкість.
5️⃣ L-Thread (Long) — довгий
Тут вже складніше, треба дуже гарний промпт, і багато задач, іноді додаткові інструменти щоб робота не зупинялася. Також є проблема — коли контекст роздувається до нескінченності, агент починає “тупити”, втрачати інструкції і галюцинувати.
💡 Практичні поради:
• Для простих фіксів — Base Thread достатньо
• Для великих фіч — Chained з покроковою валідацією
• Для code review — Fusion (порівнюйте Claude vs GPT)
• Відчуваєте що агент “поплив”? — це L-Thread, час рестартити
🔄 Вже чули про Ralph technique?
Є така проблема: чим більше токенів в контексті, тим “тупішим” стає агент до кінця. Ralph technique — це рішення для амбітних планів, де контексту завжди буде забагато.
🔧 Як це працює:
• Агент працює в межах бюджету токенів (зазвичай ~80k)
• Коли ліміт досягнуто — агент “вмирає” і стартує новий з чистого аркуша
• Новий Ralph читає загальний план, визначає де зупинився попередній, продовжує роботу
• Прогрес зберігається між ітераціями, але контекст — ні
По суті це альтернатива compaction (стисненню контексту). Замість того щоб компресувати історію і передавати далі — просто починаємо з нуля, але зі збереженим станом роботи.
✅ Коли юзати:
• Великі амбітні плани де контексту точно не вистачить
• Довгі цикли розробки
• Коли compaction не дає потрібної якості
⚠️ Що важливо:
Щоб Ralph працював — кодова база має бути добре організована: маленькі файли, чітко розділені плани, легка навігація. Бо кожен новий Ralph “тупий” і має швидко зорієнтуватися де він і що робити далі. Також потрібен supervision — не можна просто запустити і забути.
Є така проблема: чим більше токенів в контексті, тим “тупішим” стає агент до кінця. Ralph technique — це рішення для амбітних планів, де контексту завжди буде забагато.
🔧 Як це працює:
• Агент працює в межах бюджету токенів (зазвичай ~80k)
• Коли ліміт досягнуто — агент “вмирає” і стартує новий з чистого аркуша
• Новий Ralph читає загальний план, визначає де зупинився попередній, продовжує роботу
• Прогрес зберігається між ітераціями, але контекст — ні
По суті це альтернатива compaction (стисненню контексту). Замість того щоб компресувати історію і передавати далі — просто починаємо з нуля, але зі збереженим станом роботи.
✅ Коли юзати:
• Великі амбітні плани де контексту точно не вистачить
• Довгі цикли розробки
• Коли compaction не дає потрібної якості
⚠️ Що важливо:
Щоб Ralph працював — кодова база має бути добре організована: маленькі файли, чітко розділені плани, легка навігація. Бо кожен новий Ralph “тупий” і має швидко зорієнтуватися де він і що робити далі. Також потрібен supervision — не можна просто запустити і забути.
Після минулого поста хочу поділитися ресурсами і критикою цього підходу.
• Це
while true bash loop який запускає агента знову і знову• Loop існує *ззовні* агента — вбиває і перезапускає свіжий інстанс кожну ітерацію
• Source of truth — зовнішні файли (MD, JSON, progress.txt, git), не внутрішня історія чату
• Агент не йде по задачах послідовно — кожну ітерацію сам обирає найпріоритетнішу задачу з плану
• Уникає складності паралелізму — лінійна робота, менше конфліктів
• Context rot все одно є — деталі губляться якщо не закріплені в зовнішніх файлах
• Плагін для Claude Code інвертує логіку — замість того щоб loop контролював агента ззовні, агент контролює loop зсередини. Постійний overflow і compaction вбивають весь сенс
• Хаотичність — процес недетермінований, результати важко передбачити
• Витрати на токени — Ralph loops споживають значно більше токенів
• Drift — агент може відхилятися від початкового задуму і ламати базові припущення
• Prototype hell — без нагляду отримаєте працюючий, але брудний код
• Потребує сильних специфікацій — без тестів, type-checking і чітких spec не працює
• Потрібен постійний oversight — не можна просто запустити і забути
Якщо просто хочете щоб агент не зупинявся раніше часу — це не про Ralph
• Оркестрація задач з PRD лінійно
• Дуже складні ітеративні проєкти (оригінальний автор писав цілу мову програмування)
• Коли є зовнішня персистентність і добре організована кодова база
• Подкаст з експертами — там небагато саме про Ralph, але загалом цікавий контент про AI-розробку
• Детальний розбір з критикою — конкретніше про проблеми і коли це працює
Сам ще не пробував, але виглядає цікаво якщо правильно облаштувати. Спробую на Селестії і поділюсь результатами)
Please open Telegram to view this post
VIEW IN TELEGRAM
Тепер у нас є помічник для дебагу Селестії. Скидаємо йому баг-репорт, він сам:
• Дивиться логи і контекст
• Знаходить причину в коді
• Пише звіт з локацією проблеми
• Робить PR з фіксом
• Проганяє lint
На скрінах — реальний кейс. Чомусь транскрипція не юзає smart mode. За 5 хвилин Orbit знайшов що
smart_mode=False захардкоджено в коді, створив issue і PR з фіксом.Раніше писав пост про подібне з Clawd.Bot — це воно)
Дуже зручно коли не хочеш перемикати контекст — скинув проблему в чат і пішов далі, а бот сам розбереться і зробить PR який залишається тільки змержити.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Пишете тести з ШІ?
Anonymous Poll
63%
Так
28%
Ні, не пробував
8%
Ні, вони пишуть жахливі тести
1%
Ні, інше (напишу в коментарях)
я поняв, треба робити пости в 1 ночі, тоді всі програмісти працюють
1 7 1
Forwarded from News and Tips
@usernames with a pledge of 1000 TON to such bots. • cannot send premium emojis in inline mode,
• cannot send premium emojis in channel posts directly.
Please open Telegram to view this post
VIEW IN TELEGRAM
В кого є чат/коменти який тероризують спамери та шлюхоботи?
Допоможіть покращити Селестію, додавайте до свого чату, з нас оплата за використання, а з вас фідбек!
Пишіть в коменти, кому допомогти налаштувати
Допоможіть покращити Селестію, додавайте до свого чату, з нас оплата за використання, а з вас фідбек!
Пишіть в коменти, кому допомогти налаштувати
This media is not supported in your browser
VIEW IN TELEGRAM
Оце вже цікаво!
Не люблю локальні модельки, але коли це рівень кімі к2.5, ще і 24 токенів за секунду - таке можна навіть використовувати.
Оригінал:
Не люблю локальні модельки, але коли це рівень кімі к2.5, ще і 24 токенів за секунду - таке можна навіть використовувати.
Оригінал:
Running Kimi K2.5 on my desk.
Runs at 24 tok/sec with 2 x 512GB M3 Ultra Mac Studios connected with Thunderbolt 5 (RDMA) using @exolabs / MLX backend.
Yes, it can run clawdbot.
https://x.com/alexocheema/status/2016404573917683754?s=46&t=wZBBuu5Ja3J16VZyazzyCw
Claude Code (саме 4.5 Opus) став набагато частіше юзати сабагентів, коли вони існують в проєкті
Пам'ятаєте я якось писав про сканер агента?
Бачу набагато точніше і влучніше він тепер його запускає, навіть просити не треба!
Пам'ятаєте я якось писав про сканер агента?
Бачу набагато точніше і влучніше він тепер його запускає, навіть просити не треба!