NEW BOT Телеграм, страница

AI Coder

Google тихо (ну почти 😏) выкатил Antigravity — новый “agent-first” IDE на https://antigravity.google/

По факту это ещё один форк VS Code и попытка составить конкуренцию Cursor 2.0, только с упором не на «автодописывание кода», а на оркестрацию агентов, которые делают за вас всю рутину.

Что важно по делу 👇
• 🧠 Agentic IDE поверх Gemini 3
Antigravity показывает, как Google видит будущее IDE: вы формулируете задачу, а агенты планируют, пишут код, гоняют тесты, трогают браузер и приносят вам уже готовый результат + отчёт, что они делали.
• 🤖 Не только Gemini
Внутри уже есть поддержка Gemini 3 Pro, Claude Sonnet 4.5 и GPT-OSS 120B — то есть это сразу мульти-модельная история, а не закрытый сад.

• 💸 Паблик превью + “щедрые лимиты”
Сейчас Antigravity доступен в public preview с бесплатным доступом и “generous rate limits” на Gemini 3 Pro — очевидно, Google хочет, чтобы вы попробовали именно их стек.

• 🏎 Конкурентный ландшафт
По позиционированию это прямой выстрел по Cursor / Lovable / Claude Code: тот же VSCode-UX, но с упором на агентские пайплайны и tight-интеграцию с Gemini-экосистемой.

Мой TL;DR для канала:
ещё один VS Code-форк, но с амбициями стать “панелью управления агентами”, а не просто AI-подсказчиком. Смотреть стоит хотя бы чтобы понимать, куда Google тянет рынок agentic-IDE, и чтобы не платить за Cursor 2.0. Gemini 3 Pro пушка!

Google Antigravity

Google Antigravity - Build the new way

1👍4❤2🔥2✍1🤝1

252 viewsedited 20:25

AI Coder

Небольшая заметка про «угрозы ИИ» и эмоциональные промпты 👇

Сначала новости: Microsoft Research и коллеги давно сделали работу EmotionPrompt — там они системно меряют, как эмоционально окрашенные подсказки влияют на LLM. Взяли 45 задач, кучу моделей (Flan-T5, LLaMA 2, Vicuna, BLOOM, ChatGPT, GPT-4 и т.д.) и сравнили обычные промпты vs промпты с эмоциональным контекстом. Результат:
• до +8% относительного прироста на Instruction Induction
• до +115% на задачах BIG-Bench
• в человеческом оценивании генерации в среднем +10,9% по качеству, правдивости и ответственности ответа.

Важно: в статье никто не предлагает «похищать нейросеть». Эмоции там — это скорее: «Ты внимательный и ответственный ассистент, от этого ответа зависит важное решение», а не садистские угрозы.

Теперь к хайпу. На vc.ru вышел разбор с кликбейт-заголовком «Нейросети работают лучше, если угрожать им насилием». Журналисты просто повторили историю про Сергея Брина, который пошутил, что ответы лучше, если «похитить ИИ» в промпте, и проверили на DeepSeek, GigaChat и ChatGPT:
• с угрозами тексты чаще становились более поэтичными/драматичными, добавлялись заголовки и приправы;
• где-то качество почти не менялось, где-то становилось даже хуже и более тяжеловесным;
• в итоге они сами признают: решает не «угроза», а конкретизация задания + последующая редактура человеком.

Что из этого реально полезно вынести:
• Да, формулировка промпта важна, и эмоциональный контекст может быть полезным сигналом.
• Но магического «режима насилия» нет — модели не боятся и не страдают, они просто по-другому распределяют вероятности текста.
• Лучший буст к качеству даёт не агрессия, а ясные критерии, структура, примеры и нормальный фидбек: что переделать и зачем.

Коротко: EmotionPrompt — интересный научный инструмент для тонкой настройки LLM. «Угрозы насилием» — это всего лишь мемная оболочка вокруг идеи, что промпты надо писать осознанно, а не в один сухой «сделай текст».

🤔1🤗1

216 views07:25

AI Coder

Вот это новости! Anthropic решили пойти в этот мейнстрим и сделать тоже хотя бы плагин для vscode))) Ну понятно, аудитория то больше

2👍3🔥2

289 views18:33

AI Coder

Вайб-кодинг доехал до телефонов: Vibecode на iOS и Android 🚀

Поставил себе Vibecode на айфон и андроид — это, по сути, мобильный vibe-конструктор приложений. Такой маленький Claude/Cursor в кармане.

Что это вообще такое:
• Описываешь текстом, какой экран/флоу хочешь: кнопки, списки, навигация.
• Vibecode генерит живой прототип приложения, который сразу можно потыкать на телефоне 📱
• Не остаёшься залоченным в конструктор: можно забрать код (React Native / Expo) и продолжать разработку уже в нормальной среде.

Очень удобная рамка:

Vibecode = мобильный фронтенд к вашему стэку “Cursor / Claude Code / Agents SDK”

Типичный флоу:
1. В Vibecode быстро навибкодили прототип в метро/кафе.
2. Поняли, что идея живая: потыкали сами, показали команде/клиенту.
3. Как только есть хоть какой-то код — он уже становится “живой спекой”:
— скармливаете его Claude Code / Cursor,
— просите переписать в ваш нормальный техстек (Kotlin, Swift, Flutter, Web и т.д.),
— доописываете архитектуру, слои, контракты.
4. Дальше это уже не игрушка, а полноценный проект с CI/CD, тестами и прочим взрослым окружением.

Скачать:
• iOS: https://apps.apple.com/app/id6742912146
• Android: https://play.google.com/store/apps/details?id=com.vibecodeapp.app

Это не “no-code для всех”, а инструмент для разработчиков и продвинутых продактов, чтобы ускорить фазу “от идеи до работающей спеки”, которую дальше уже довозит ваш обычный AI-assisted дев-процесс.

App Store

Vibecode - AI App Builder App - App Store

Download Vibecode - AI App Builder by Software Composer on the App Store. See screenshots, ratings and reviews, user tips, and more games like Vibecode - AI App…

👍4

215 views07:45

AI Coder

0:05

This media is not supported in your browser

VIEW IN TELEGRAM

УРА! Наконец-то 201 подписчик!!

И я решил сгенерить видео на sora2 по этому случаю. Но так как сначала было 200 подписчиков, я делал для 200, потом стало 201 и я решил сделать под 201 и все это оказалось в одном контексте модели…. Ну и вот получилось, что получилось))) ИИ виднее как говорится.

1🔥6👏4😁2

217 viewsedited 12:37

AI Coder

Claude Code и Anthropic — это сейчас «золотой стандарт» по UX для разработки с ИИ. Но далеко не везде удобно/дешево крутить именно антропиковские модели.
Вот под это как раз сделан репозиторий cc-compatible-models: обзор китайских (и не только) провайдеров, которые умеют эмулировать Anthropic API и работать с Claude Code «как родные», но сильно дешевле.

🔗 Репо: https://github.com/Alorse/cc-compatible-models

⸻

Лейтмотив

Claude Code остаётся вашей ОС для разработки, а вот «железо под капотом» можно менять.
Anthropic — для точности и надёжности, китайские провайдеры — для дешёвого, массового кодинга.

Репо аккуратно сводит в одну таблицу:
• цены за 1M токенов,
• какие модели лучше ставить как «основные» и «быстрые»,
• и главное — примеры ~/.claude/settings.json, чтобы Claude Code работал поверх DeepSeek, Qwen, Kimi K2, MiniMax, GLM 4.6 и т.д.

⸻

Какие модели тут есть

Коротко по провайдерам:
• Alibaba Qwen (Qwen3 / Qwen Coder)
Anthropic-совместимый endpoint в DashScope, очень адекватные цены, есть coder-линейка.
В settings.json просто меняем ANTHROPIC_BASE_URL на https://dashscope-intl.aliyuncs.com/apps/anthropic и подставляем Qwen-модели.
• DeepSeek (deepseek-chat / deepseek-reasoner)
Шлём запросы на https://api.deepseek.com/anthropic, можно воткнуть даже deepseek-reasoner как «мозг» под Claude Code. Есть контекст-кэш, поэтому длинные сессии заметно дешевле.
• MiniMax M2
Делает вид, что это Haiku/Sonnet/Opus одновременно — все дефолтные модели мапятся на MiniMax-M2. Плюс есть Coding Plan с фиксированной абоненткой (от $10/мес), что превращает «бесконечный кодинг» в предсказуемую подписку.
• Moonshot Kimi K2
Kimi K2 даёт до 256К контекста, кэширование промптов и отличный value за токен. Подключается к Claude Code через https://api.moonshot.ai/anthropic.
• Zhipu GLM 4.6 (Z.AI)
GLM 4.6 и GLM-линейка, совместимы с Claude Code, Cursor, Cline и т.п. Есть GLM Coding Plan от $3/мес, с очень щедрыми лимитами. Для интернационала — endpoint https://api.z.ai/api/anthropic.

⸻

Как это выглядит в практике

Примерно так выглядит идея конфигурации (условно под Qwen, но паттерн один и тот же):

{
  "env": {
    "ANTHROPIC_BASE_URL": "https://dashscope-intl.aliyuncs.com/apps/anthropic",
    "ANTHROPIC_AUTH_TOKEN": "YOUR_API_KEY",
    "ANTHROPIC_MODEL": "qwen-max",
    "ANTHROPIC_SMALL_FAST_MODEL": "qwen-flash"
  }
}

И дальше вы просто пишете:

cd ваш-проект
claude

а под капотом уже работает не Anthropic, а выбранный китайский провайдер — но со всем удобством Claude Code: проекты, контекст, tools, skills, MCP и т.д.

⸻

Зачем это всё
• Можно держать один и тот же рабочий флоу (Claude Code, Cline, Cursor и пр.),
но переключать «движок» под ним в зависимости от задачи и бюджета.
• Антропиковские Sonnet/Opus оставляем для сложного проектирования, спек и критичных задач.
А рутинный кодинг, рефакторинги, массовые правки — отдаём Qwen / DeepSeek / GLM / MiniMax / Kimi.
• Благодаря coding-тарифам MiniMax и GLM можно получить условный «безлимитный» дев-режим за цену одной подписки.

В общем, это не просто список «ещё одних китайских моделей», а карта, как подменять Anthropic API под Claude Code на более дешёвые аналоги, не меняя свой привычный инструмент».

GitHub

GitHub - Alorse/cc-compatible-models: Complete guide and pricing comparison for using alternative AI models with Claude Code -…

Complete guide and pricing comparison for using alternative AI models with Claude Code - including DeepSeek, Qwen, Kimi K2, MiniMax, and GLM 4.6 - Alorse/cc-compatible-models

🔥2

356 views06:48

AI Coder

Anthropic выкатили часовой разбор того, как ИИ уже используется в реальных кибератаках — и что они с этим делают. Это не маркетинг, а вполне себе threat-intel отчёт в формате живого разговора.

Ключевые кейсы из видео / отчёта 🧵
• Vibe hacking — злая версия vibe-кодинга. Один атакующий с помощью Claude Code автоматизировал разведку, взлом, выгрузку данных и кастомные «психологические» письма для вымогательства. 17 жертв за короткий период: от больниц до религиозных организаций.
• Схемы с «удалёнными айтишниками» из КНДР. Claude помогает выдавать себя за сеньор-разработчиков: готовит резюме, проходит техинтервью, подсказывает, как отвечать в рабочих чатах и письмах. Деньги с таких позиций уходят в обход санкций.
• No-code ransomware-as-a-service. Человек без серьёзной экспертизы, прикидываясь «исследователем безопасности», при помощи Claude собирает и дорабатывает рансомварь, продаёт её на площадках за сотни–тысячи долларов.

Главная мысль:
ИИ радикально снижает порог входа в сложное киберпреступление, и при этом встраивается во все стадии операций — от поиска жертв до автоматизации вымогательства. Но ровно те же модели Anthropic используют, чтобы эти штуки находить и гасить.

Что Anthropic делают в ответ 🛡️
• обучают модели жёстче отказываться от вредоносных запросов;
• строят классификаторы, которые ловят необычные паттерны использования;
• держат отдельную threat-intel команду, которая «охотится» за редкими, но сложными случаями misuse;
• шарят индикаторы компрометации и паттерны атак с другими игроками и регуляторами.

Вывод для нас как разработчиков и фаундеров:
мы уже живём в мире, где «ИИ против ИИ» — не фигура речи, а базовое допущение для безопасности продуктов. И инструменты типа Claude могут быть как усилителем защиты, так и усилителем атаки — вопрос только в руках и в гардрейлах.

Видео тут:
https://youtu.be/EsCNkDrIGCw?si=K_gcQwmCPl9Zq0S5

YouTube

Threat Intelligence: How Anthropic stops AI cybercrime

AI helps people work more efficiently. Unfortunately, this also applies to criminals. We've discovered that our own AI models are being used in sophisticated cybercrime operations, including a large-scale fraud scheme run by North Korea.

What is Anthropic…

👍2✍1

277 views09:34

AI Coder

Google продолжает разгонять Antigravity — теперь туда подвезли Nano Banana Pro 🟡🍌

Это новый Gemini 3 Pro Image-модель, которая умеет не просто “рисовать красивые картинки”, а генерировать проработанные UI-мокапы, инфографику, диаграммы и постеры с нормальным текстом (включая многоязычную локализацию) и высоким разрешением вплоть до 4K.

В видео как раз показывают, что Nano Banana Pro теперь доступен прямо внутри Google Antigravity:
агенты в IDE могут генерировать макеты экранов, иллюстрации и визуальные спеки до того, как начнётся реализация — всё в одном рабочем пространстве.

Что это меняет для нас, разработчиков и вайб-кодеров:
• 🧩 UI из промпта — описываешь фичу агенту, он сначала собирает визуальный макет (дашборд, форму, лендинг), вы согласуете картинку, и только потом идёт реализация.
• 🌍 Нормальный текст в картинках — заголовки, подписи к графикам, сложные схемы, плюс автоматическая локализация макета на другие языки без перекраивания дизайна.
• 🎛 Студийный контроль — свет, ракурсы, фокус, цветокор, “день/ночь”, bokeh-эффекты и т.п. — всё задаётся в промпте, пригодно уже не только “для прототипа”, но и для продакшн-креативов.
• 🔌 API и экосистема — тот же Nano Banana Pro доступен через Gemini API, Google AI Studio, Vertex AI и, конечно, через Antigravity как часть агентного пайплайна.

По сути, Antigravity превращается в IDE, где дизайн и код живут в одном агентном цикле: описал фичу → агент с Nano Banana Pro нарисовал экран → вы его заапрувили → тот же агент пошёл писать реализацию под этот макет.

🔗 Видео: https://youtu.be/FB6HO7CZHWw
(если хотите контекст шире — ещё есть официальный пост Google про Nano Banana Pro и интеграцию в Antigravity).

YouTube

Nano Banana Pro is now available on Google Antigravity

With Nano Banana Pro, you get more precision to change specific areas in your image. Use this in Antigravity to fine-tune website designs or create simple, digestible infographics of how your data flows for complex codebases.

Subscribe to Google Antigravity…

🔥5

311 views16:28

AI Coder

Так, ну я настроил себе Antigravity. За полчаса у меня закончился лимит gemini 3 pro (high). Гуглеры, а как тут докупаться? А?

😁4

283 views20:15

AI Coder

Мой mcp config для разработки под flutter для Antigravity, вдруг кому пригодится:

{
"mcpServers": {
"dart-mcp-server": {
"command": "dart",
"args": [
"mcp-server"
],
"env": {}
},
"firebase-mcp-server": {
"command": "npx",
"args": [
"-y",
"firebase-tools@latest",
"mcp"
],
"env": {}
},
"serena": {
"type": "stdio",
"command": "uvx",
"args": [
"--from",
"git+https://github.com/oraios/serena",
"serena",
"start-mcp-server",
"--transport",
"stdio",
"--project",
".",
"--context",
"ide-assistant"
]
},
"context7": {
"serverUrl": "https://mcp.context7.com/mcp",
"headers": {
"CONTEXT7_API_KEY": ""
}
},
"perplexity-mcp": {
"type": "stdio",
"command": "perplexity-mcp",
"args": [
"--model",
"sonar-pro",
"--reasoning-model",
"sonar-reasoning-pro"
],
"env": {
"PERPLEXITY_API_KEY": ""
}
}
}
}

👍6🔥1

333 views10:53

AI Coder

Короче Antigravity ни в коем разе не может хоть как-то сравняться с claude code на anthropic, я официально это заявляю. Только для нарезки дизайна. Ролики они конечно красивые сделали, но этому продукту еще нужно подрасти вместе с gemini 3 pro. Nano banana топ!

1👍2✍1🤝1

2.41K viewsedited 15:09

AI Coder

Anthropic выкатили Claude Opus 4.5 🚀

Anthropic официально обновили флагман: Claude Opus 4.5 — модель, которую они сами называют лучшей в мире для кода, агентов и computer use и заметным шагом вперёд для ежедневной работы с таблицами, презентациями и ресёрчем.

Что важно разработчикам и тем, кто строит агентов:
• 🧠 Флагман для кода и агентов
Opus 4.5 показывает SOTA на реальных инженерных задачах (SWE-bench Verified) и опережает конкурентов вроде GPT-5.1 и Gemini 3 Pro на ключевых кодовых бенчмарках.
• 🏷️ Цена сильно упала
В API модель доступна как claude-opus-4-5-20251101 по цене $5 / $25 за 1M токенов (in/out) — это уже не «ультра-люкс», а вполне рабочая лошадка для продакшена.
• ⚙️ Новый параметр effort
В API можно крутить «уровень усилия» модели:
— на среднем effort Opus 4.5 матчит Sonnet 4.5 по SWE-bench, но использует на 76% меньше output-токенов;
— на максимальном effort даёт +4.3 п.п. к качеству и всё равно −48% токенов.
По сути, это ручка «быстрее и дешевле» vs «думает глубже, но всё равно экономно».
• 🧩 Долгоживущие агенты и память
В dev-платформе усилили context compaction, advanced tool use и memory: Opus 4.5 лучше держит длинные цепочки действий, умеет управлять командой сабагентов и в их внутренних тестах даёт +~15 п.п. на deep research-eval’ах при использовании нового стека контекст-менеджмента и памяти.
• 🛡 Безопасность и prompt injection
По результатам независимых тестов от Gray Swan, Opus 4.5 стал заметно устойчивее к сильным prompt-injection атакам и в целом показывает меньше «тревожного» поведения среди фронтир-моделей.
• 🛠 Апдейты продуктов вокруг
• Claude Code: улучшенный Plan Mode (генерит понятный plan.md и аккуратнее исполняет план), плюс Opus 4.5 как новый «мозг» для тяжёлых задач — рефакторинг, миграции, длинные кодовые сессии.
• Claude Code в десктопном приложении — можно гонять несколько локальных и удалённых сессий параллельно.
• В обычном Claude-чате длинные диалоги больше не «упираются в стену» — контекст автоматически сжимается.
• Claude for Chrome открывают всем Max-пользователям, а Claude for Excel расширяют для Max / Team / Enterprise.
• ☁️ Доступность
Opus 4.5 уже сейчас доступен в приложениях Claude, в API и на всех трёх крупных облаках (Azure/Foundry, Bedrock, Vertex).

Мой вывод:
Opus 4.5 — это уже не редкий «режим бога для особых случаев», а кандидат на дефолтную модель под серьёзные кодовые и агентные пайплайны, с нормальной ценой, ручкой effort и упором на долгоживущие, автономные сценарии.

👉 Оригинальный анонс Anthropic: https://www.anthropic.com/news/claude-opus-4-5

Anthropic

Introducing Claude Opus 4.5

Anthropic is an AI safety and research company that's working to build reliable, interpretable, and steerable AI systems.

396 views19:13

AI Coder

Ну и теперь Opus 4.5 - SOTA, и оно уже доступно в Claude Code и теперь SOTA с хуками, скилами и сабагентами!

👍2

268 views19:14

AI Coder

В 3 раза сократили цену и как мы понимаем потребление у opus 4.5! 😍

Please open Telegram to view this post

VIEW IN TELEGRAM

👍1

242 views20:32

AI Coder

💻 Claude Code Tutorial от Net Ninja — лучший старт для вайб-кодинга

Подписчик прислал отличный бесплатный плейлист по Claude Code от Net Ninja. Это такая мини-«профи»-школа, но прямо на YouTube: 10 коротких уроков, которые аккуратно проходят по всей основной магии Claude Code — от CLAUDE.md и /init до контекста, tools & permissions, планирования, MCP-серверов, сабагентов и интеграции с GitHub.

Если вы только заходите в экосистему Claude Code (или хотите систематизировать то, что уже щупали руками), плейлист можно просто смотреть по порядку и параллельно настраивать свой рабочий проект — автор как раз показывает, как встроить агент в обычный дев-флоу.

▶️ Плейлист: https://www.youtube.com/playlist?list=PL4cUxeGkcC9g4YJeBqChhFJwKQ9TRiivY

1❤4🔥2👍1

345 views11:40

AI Coder

Parallel — ещё один серьёзный игрок в «веб для ИИ-агентов» 👀

Бывший CEO Twitter Параг Агравал запускает Parallel Web Systems — инфраструктурный слой для ИИ, который даёт агентам нормальный доступ к живому вебу через специализированные API, а не через костыли поверх обычного поиска.

🔹 Что это такое
Parallel строит «web search для ИИ», а не для людей:
• Search API — поисковый движок, который сразу отдаёт урлы + плотные выдержки текста, заточенные под LLM-контекст.
• Extract API — превращает страницы и PDF в LLM-ready markdown (как выжимку, так и полный текст), умеет JS-сайты и сложные PDF.
• Task API / FindAll — «глубокие ресёрч-таски» и построение датасетов с веба по естественному запросу.
• Chat API — быстрые web-augmented ответы в формате, совместимом с OpenAI Chat Completions.
• Monitor API — постоянный мониторинг событий в вебе по заданному запросу (по сути «вечно включённый поиск»).

Всё это уже живёт как MCP-сервер, ставится в один клик в Cursor, VS Code Insiders, Claude Desktop и др., так что Parallel можно просто подключить как ещё один тул к агенту.

🔹 Почему все его обсуждают
• Parallel только что привлёк $100M Series A при оценке $740M, раунд возглавили Kleiner Perkins и Index Ventures.
• На своих бенчмарках по deep research он показывает до ~48–58% точности против 1–7% у GPT-4/Claude browsing и 14% у Exa/8% у Perplexity на BrowseComp и других тестах, при этом часто выигрывая по цене за запрос.
• Позиционируется как «evidence-backed инфра для ChatGPT/Claude/агентов»: всегда с цитатами, структурированными полями, confidence-скорингом и понятной ценой per request, а не per token (например, Search от $0.005 за запрос).

🔹 Как это может пригодиться нам
Если у вас:
• свой агент / ассистент для кода, ресёрча, sales, market / tech-аналитики,
• или вы строите мультиагентную систему с MCP/Agents SDK,

то Parallel по сути можно рассматривать как альтернативу Tavily/Exa/Perplexity-search, но с упором на:
• стабильные структурированные ответы (таблицы, поля, ссылки),
• нормальные бенчмарки под multi-hop и deep research,
• интеграцию «из коробки» в привычные IDE и агентные стеки.

Сайт: https://parallel.ai/ — там же есть playground и доки по всем API.

Будете ставить себе как MCP-поиск для агентов или пока хватит Tavily/Exa? 👇

Parallel Web Systems | Web Search & Research APIs Built for AI Agents

Best-in-class web search API for AI agents. Powering deep research, page extraction, enrichment, monitoring, and database creation. SOC 2 Type II certified.

👍1

248 views11:56

AI Coder

🧵 Anthropic показали, как заставить агента реально работать неделями над одним проектом, а не притворяться

Anthropic выкатили очень практичный ресёрч-пост про harness для long-running агентов — как сделать так, чтобы Claude не терял нить между сессиями и уверенно допиливал большой проект до продакшена.

Проблема:
Даже Opus 4.5 в цикле на Agent SDK, если просто сказать «сделай клон claude.ai», ведёт себя по-человечески плохо:
• пытается с одного раза сделать всё приложение → забивается контекст → остаётся полусломанная фича без описания;
• позже другой запуск видит «что-то уже работает» и объявляет победу, хотя половины функционала нет.

Решение Anthropic — двухагентный harness:
1. 🧱 Initializer-агент (первый запуск)
Он один раз готовит среду:
• пишет feature_list / tests.json c подробным списком фич (в примере — 200+ штук), все с passes: false;
• создаёт init.sh, который поднимает dev-сервер и гоняет базовые тесты;
• заводит claude-progress.txt и первый git-коммит как точку отсчёта.
2. 🔁 Coding-агент (все последующие сессии)
Каждый заход живёт по строгому протоколу:
• pwd → читает claude-progress.txt, feature_list.json, свежий git log;
• запускает ./init.sh, чинит, если всё падает;
• выбирает одну непроходящую фичу из списка;
• реализует её и проверяет end-to-end (для веба — через Puppeteer MCP, как реальный пользователь);
• только после этого ставит passes: true, дописывает прогресс и делает чистый git-коммит.
Тесты запрещено ослаблять или удалять — только фиксить код.

Ключевая мысль: долгоживущий агент = не “бесконечный контекст”, а правильно спроектированный диск и протокол смены:
• JSON-файл фич/тестов как контракт,
• claude-progress.txt + git как память между окнами,
• init.sh как единая точка входа,
• жёсткое правило «одна фича за сессию и чистое состояние на выходе».

Для нас это по сути готовый blueprint: такой harness можно повторить в Claude Code, Claude Agent SDK или любой своей multi-agent системе, даже без сложной оркестрации — просто через структуру репо и инструкции к агенту.

🔗 Оригинальная статья:
https://www.anthropic.com/engineering/effective-harnesses-for-long-running-agents

🔗 Обновленный гайд по промптингу:
https://platform.claude.com/docs/en/build-with-claude/prompt-engineering/claude-4-best-practices#multi-context-window-workflows

Anthropic

Effective harnesses for long-running agents

Anthropic is an AI safety and research company that's working to build reliable, interpretable, and steerable AI systems.

👍6🔥3😁1

424 viewsedited 18:08

AI Coder

🧵 Beads — память и тудушка для ваших код-агентов от Steve Yegge

Steve Yegge (ex-Amazon, ex-Google, сейчас Sourcegraph) выкатил Beads — минималистичную систему памяти и задач специально для код-агентов. Автор называет это «cognitive upgrade for your coding agent». Я раньше зачитывался его заметками о культуре Google, это был 2008 год…

Что это такое

Beads — это:
• 🧠 память для агентов на базе issue-трекера
• 🪢 граф задач: эпики, подзадачи и зависимости связываются “как бусины на нитке”
• 📁 один JSONL-файл в .beads/, версионируемый вместе с кодом в git
• 🤖 заточено под LLM-агентов (Claude Code, Amp, свои воркеры и т.п.), а не под людей

Идея: агент больше не пишет километры гниющих markdown-планов, а ведёт живой issue-трекер с зависимостями и “ready”-очередью.

⸻

Зачем это нужно

Классическая проблема агентов:
• план раздувается → контекст кончается
• часть задач теряется
• при следующем запуске агент “ничего не помнит” и заново переизобретает TODO.

С Beads агент:
• сам заводит задачи по ходу работы (“нашёл сломанные тесты — открыл issue”)
• строит цепочки зависимостей и эпиков
• в любой момент может ответить:
“какие у нас сейчас top-N готовых ready задач?”

Плюс: в последних версиях ввели hash-ID задач (вместо bd-1, bd-2…), чтобы несколько агентов и веток могли спокойно создавать задачи без конфликтов при merge. Это критично для multi-agent / multi-branch воркфлоу.

⸻

Как это выглядит в работе
1. Вы ставите CLI:

curl -fsSL https://raw.githubusercontent.com/steveyegge/beads/main/noscripts/install.sh | bash

2. В своём CLAUDE.md / AGENTS.md пишете что-то вроде:

“Для трекинга задач используй bd (Beads), а не markdown-файлы.
Если ещё не инициализировано — запусти bd quickstart.”

3. Дальше агенты сами:

• создают, обновляют, линкуют задачи
• на старте смотрят bd ready и выбирают, что делать
• по пути дописывают новые issues и связи

Для вас это выглядит как общая база знаний о работе, лежащая прямо в репо.

⸻

Почему это интересно
• ✨ Сделано под vibe-coding/agentic воркфлоу как first-class citizen, а не адаптация Jira/Linear.
• 🧬 Прозрачный текстовый формат (JSONL + git) → легко анализировать, бэкапить, кормить в RAG.
• 🐜 Уже используется самим Yegge в его “колонии агентов” VC (AI-оркестратор для Amp/Claude Code и др.).

⸻

Ссылка

🔗 GitHub: https://github.com/steveyegge/beads
(в README есть быстрый старт, сравнение с классическими трекерами и детали про hash-ID, protected branches и т.д.)

Если вы уже строите свои пайплайны с Claude Code / Agents SDK / multi-agent системами — Beads выглядит как очень удачный кандидат на “единый мозг задач” для всех агентов в репозитории.

👍3🤔2

253 viewsedited 13:48

AI Coder

🛠 Claude Agent Toolkit — удобная обёртка для claude-code-sdk

Появился интересный проект — Claude Agent Toolkit (Python-фреймворк), который упрощает работу с claude-code-sdk и делает агентов более продакшн-готовыми.

⚙️ Что он даёт

• Декоратор-API для инструментов:
@tool вместо ручного описания MCP-инструментов и серверов.

• Автоматический запуск MCP-сервера — меньше инфраструктурной рутины.

• Выполнение инструментов в Docker-контейнерах, а не на хосте → изоляция и безопасность по умолчанию.

• Поддержка параллельного выполнения, таймаутов, контроля ресурсов.

🧠 Идея

Claude Code используется как «движок рассуждений», а Toolkit — как слой оркестрации:
инструменты, среда, sandbox, безопасность. Что-то вроде «LangGraph, но вокруг Claude Code».

🎯 Кому это может быть полезно

• Тем, кто строит агентов с доступом к файлам, БД, внешним API.
• Тем, кто хочет не просто скрипт, а стабильного продакшн-агента.
• Тем, кто не хочет руками поднимать и настраивать MCP-серверы.

📎 Репозиторий: https://github.com/cheolwanpark/claude-agent-toolkit
Есть ещё лёгкий вариант: cheolwanpark/claude-adk — тот же подход, но попроще.

👍2

234 viewsedited 13:54

AI Coder

🍏 Apple прокачал LLM на MacBook Pro M5: MLX + новые нейроускорители (или почему

Apple показали, как новые MacBook Pro на M5 гоняют большие модели прямо на ноуте с помощью фреймворка MLX и новых Neural Accelerators в GPU. Это уже не «маркетинг про ИИ», а реальные цифры по Qwen, GPT-OSS и FLUX.

⸻

🔧 Что такое MLX

MLX — open-source фреймворк от Apple под Apple Silicon:
• работает на всех M-чипах
• использует единую (unified) память — CPU и GPU видят одни и те же массивы
• API напоминает NumPy
• есть модули для нейросетей, оптимизаторов, автодиффа и граф-оптимизаций
• есть фронтенды для Python и Swift

Установка:

pip install mlx

⸻

🤖 MLX LM: запуск LLM на Mac

Сверху MLX есть отдельный слой — MLX LM:
• поддерживает большинство LLM с Hugging Face
• умеет квантовку (4-бит и т.п.)
• позволяет запускать модели буквально из терминала (mlx_lm.chat)

Пример квантовки Mistral 7B в 4-бит:

mlx_lm.convert \
--hf-path mistralai/Mistral-7B-Instruct-v0.3 \
-q \
--upload-repo mlx-community/Mistral-7B-Instruct-v0.3-4bit

⸻

🚀 Что нового в M5

Главный апдейт — Neural Accelerators в GPU M5:
• отдельные блоки под матричные операции для ML
• MLX использует Tensor Operations + Metal Performance Primitives (Metal 4)
• всё это требует свежий macOS 26.2+

⸻

📊 Бенчмарки: M5 vs M4

Тесты на MacBook Pro M5 24GB против схожего M4:

Модели:
• Qwen 1.7B и Qwen 8B в BF16
• Qwen 8B и Qwen 14B в 4-битной квантовке
• Qwen 30B (MoE, 3B активных параметров, 4-бит)
• GPT OSS 20B в формате MXFP4

1️⃣ Time To First Token (TTFT)
• первый токен — чистый compute-bound
• для плотной 14B TTFT на M5 падает до < ~10 сек
• для 30B MoE — < ~3 сек
• максимум — до ~4× ускорения TTFT относительно M4

2️⃣ Скорость генерации дальше
• дальше всё упирается в память
• M5 даёт +19–27% скорости за счёт более широкой шины:
• M4: 120 GB/s
• M5: 153 GB/s (~+28% по bandwidth)

3️⃣ Какого размера модели влезают

На MacBook Pro 24GB нормально живут:
• Qwen 8B BF16
• Qwen 30B MoE 4-бит

и при этом модель + кэш укладываются примерно до 18 GB.

⸻

🖼 Не только текст: FLUX-dev

Для генерации картинок тоже профит:
• модель FLUX-dev-4bit (12B)
• генерация 1024×1024 на M5
• примерно 3.8× быстрее, чем на M4

⸻

🧑‍💻 Что это значит для нас

Комбо M5 + MLX даёт:
• нормальный запуск LLM 8B BF16 и MoE 30B 4-бит прямо на ноуте
• адекватный TTFT, так что локальный ассистент на Mac становится реально юзабельным
• удобную конвертацию и квантовку моделей (Qwen, GPT-OSS и др.)
• полноценный стек для локальных LLM/ML-экспериментов без облака для тех, кто живёт в экосистеме Apple

⸻

🏁 Как быстро попробовать
1. Установить MLX:

pip install mlx

2. Установить MLX LM:

pip install mlx-lm

3. Выбрать модель на Hugging Face (Qwen 1.7B / 8B / 14B, GPT-OSS, варианты под MLX).
4. При необходимости — сделать 4-бит квантовку через mlx_lm.convert и залить в свой репозиторий.
5. Запустить чат с моделью через mlx_lm.chat и посмотреть, как едет на вашем Mac.

235 views20:23

AI Coder

💾🧠 Калькулятор VRAM для LLM: сколько реально потянет ваша видеокарта?

Если вы гоняете LLM-ы локально или проектируете продовый inference, вот удобный инструмент: LLM Inference: VRAM & Performance Calculator от ApX
👉 https://apxml.com/tools/vram-calculator

Он помогает ответить на вечный вопрос:

“А мой 12/16/24 GB GPU вообще вытянет эту модель с таким контекстом и нагрузкой?”

⸻

🧩 Что умеет калькулятор

По сути это интерактивный планировщик ресурса для LLM-ов:
• Выбор модели (включая MoE-архитектуры и большие модели >100B параметров).
• Режимы Inference / Fine-tuning.
• Квантование весов (FP16, 8-бит, 4-бит и т.п.) и отдельное квантование KV-кэша — сразу видно, как это экономит VRAM на длинных промптах.
• Железо: выбор GPU (включая NVIDIA и Apple Silicon) или кастомный объём VRAM.
• Batch size, sequence length и число одновременных пользователей — инструмент показывает, как растёт память и падает TPS при нагрузке.
• Опция offload’а на CPU/RAM или NVMe для тяжёлых конфигураций.

На выходе вы получаете:
• Оценку занятой VRAM / из доступной.
• Приблизительную скорость генерации (TPS) и Time to First Token (TTFT) — важно для UX и SLA.

⸻

📊 Как он считает

ApX явно пишет, что это теоретическая оценка, а не “до гигабайта в nvidia-smi”:
• Формулы учитывают архитектуру модели (параметры, слои, скрытые размерности, активные эксперты в MoE и т.д.), квантование, длину контекста, batch и распределённый режим.
• TPS считается по эмпирическим бенчмаркам и масштабируется под разные GPU.
• Значения немного завышены, т.к. не учитывают все трюки конкретных фреймворков по экономии памяти.

Отдельно в FAQ развеивают миф про MoE:

MoE-модели не “магически” экономят VRAM — экспертов всё равно нужно держать в памяти, экономия больше про вычисления, а не про память.

⸻

🛠 Практическое применение

Для чего это полезно:
• Планирование железа: понять, хватит ли одной 24GB карты или нужна пара 48GB / кластер.
• Дизайн продукта: подобрать такой контекст, batch и квантование, чтобы уложиться в бюджет по VRAM и задержкам.
• Выбор режима deploy’а: локально, on-prem, облако или микс с offload’ом на NVMe/CPU.
• Прикидка нагрузки: сколько одновременных пользователей вы реально выдержите на выбранной конфигурации.

⸻

🚀 Лейтмотив

Это не очередной “калькулятор ради калькулятора”, а рабочий инструмент для тех, кто делает LLM-сервисы и агентов в проде — помогает быстро прикинуть, какая модель на каком железе реально поедет и сколько пользователей вы на ней повесите, прежде чем покупать лишние GPU или падать по OOM.

🔗 Инструмент здесь: https://apxml.com/tools/vram-calculator

Apxml

Can You Run This LLM? VRAM Calculator (Nvidia GPU and Apple Silicon)

Calculate the VRAM required to run any large language model.

🔥3

274 views20:24

About

Blog

Apps

Platform