AI Coder – Telegram
AI Coder
289 subscribers
81 photos
10 videos
2 files
184 links
AI will not replace you, people who use AI will.
Download Telegram
Google тихо (ну почти 😏) выкатил Antigravity — новый “agent-first” IDE на https://antigravity.google/

По факту это ещё один форк VS Code и попытка составить конкуренцию Cursor 2.0, только с упором не на «автодописывание кода», а на оркестрацию агентов, которые делают за вас всю рутину.

Что важно по делу 👇
🧠 Agentic IDE поверх Gemini 3
Antigravity показывает, как Google видит будущее IDE: вы формулируете задачу, а агенты планируют, пишут код, гоняют тесты, трогают браузер и приносят вам уже готовый результат + отчёт, что они делали.
🤖 Не только Gemini
Внутри уже есть поддержка Gemini 3 Pro, Claude Sonnet 4.5 и GPT-OSS 120B — то есть это сразу мульти-модельная история, а не закрытый сад.

💸 Паблик превью + “щедрые лимиты”
Сейчас Antigravity доступен в public preview с бесплатным доступом и “generous rate limits” на Gemini 3 Pro — очевидно, Google хочет, чтобы вы попробовали именно их стек.

🏎 Конкурентный ландшафт
По позиционированию это прямой выстрел по Cursor / Lovable / Claude Code: тот же VSCode-UX, но с упором на агентские пайплайны и tight-интеграцию с Gemini-экосистемой.

Мой TL;DR для канала:
ещё один VS Code-форк, но с амбициями стать “панелью управления агентами”, а не просто AI-подсказчиком. Смотреть стоит хотя бы чтобы понимать, куда Google тянет рынок agentic-IDE, и чтобы не платить за Cursor 2.0. Gemini 3 Pro пушка!
1👍42🔥21🤝1
Небольшая заметка про «угрозы ИИ» и эмоциональные промпты 👇

Сначала новости: Microsoft Research и коллеги давно сделали работу EmotionPrompt — там они системно меряют, как эмоционально окрашенные подсказки влияют на LLM. Взяли 45 задач, кучу моделей (Flan-T5, LLaMA 2, Vicuna, BLOOM, ChatGPT, GPT-4 и т.д.) и сравнили обычные промпты vs промпты с эмоциональным контекстом. Результат:
• до +8% относительного прироста на Instruction Induction
• до +115% на задачах BIG-Bench
• в человеческом оценивании генерации в среднем +10,9% по качеству, правдивости и ответственности ответа.

Важно: в статье никто не предлагает «похищать нейросеть». Эмоции там — это скорее: «Ты внимательный и ответственный ассистент, от этого ответа зависит важное решение», а не садистские угрозы.

Теперь к хайпу. На vc.ru вышел разбор с кликбейт-заголовком «Нейросети работают лучше, если угрожать им насилием». Журналисты просто повторили историю про Сергея Брина, который пошутил, что ответы лучше, если «похитить ИИ» в промпте, и проверили на DeepSeek, GigaChat и ChatGPT:
• с угрозами тексты чаще становились более поэтичными/драматичными, добавлялись заголовки и приправы;
• где-то качество почти не менялось, где-то становилось даже хуже и более тяжеловесным;
• в итоге они сами признают: решает не «угроза», а конкретизация задания + последующая редактура человеком.

Что из этого реально полезно вынести:
• Да, формулировка промпта важна, и эмоциональный контекст может быть полезным сигналом.
• Но магического «режима насилия» нет — модели не боятся и не страдают, они просто по-другому распределяют вероятности текста.
• Лучший буст к качеству даёт не агрессия, а ясные критерии, структура, примеры и нормальный фидбек: что переделать и зачем.

Коротко: EmotionPrompt — интересный научный инструмент для тонкой настройки LLM. «Угрозы насилием» — это всего лишь мемная оболочка вокруг идеи, что промпты надо писать осознанно, а не в один сухой «сделай текст».
🤔1🤗1
Вот это новости! Anthropic решили пойти в этот мейнстрим и сделать тоже хотя бы плагин для vscode))) Ну понятно, аудитория то больше
2👍3🔥2
Вайб-кодинг доехал до телефонов: Vibecode на iOS и Android 🚀

Поставил себе Vibecode на айфон и андроид — это, по сути, мобильный vibe-конструктор приложений. Такой маленький Claude/Cursor в кармане.

Что это вообще такое:
• Описываешь текстом, какой экран/флоу хочешь: кнопки, списки, навигация.
• Vibecode генерит живой прототип приложения, который сразу можно потыкать на телефоне 📱
• Не остаёшься залоченным в конструктор: можно забрать код (React Native / Expo) и продолжать разработку уже в нормальной среде.

Очень удобная рамка:

Vibecode = мобильный фронтенд к вашему стэку “Cursor / Claude Code / Agents SDK”

Типичный флоу:
1. В Vibecode быстро навибкодили прототип в метро/кафе.
2. Поняли, что идея живая: потыкали сами, показали команде/клиенту.
3. Как только есть хоть какой-то код — он уже становится “живой спекой”:
— скармливаете его Claude Code / Cursor,
— просите переписать в ваш нормальный техстек (Kotlin, Swift, Flutter, Web и т.д.),
— доописываете архитектуру, слои, контракты.
4. Дальше это уже не игрушка, а полноценный проект с CI/CD, тестами и прочим взрослым окружением.

Скачать:
• iOS: https://apps.apple.com/app/id6742912146
• Android: https://play.google.com/store/apps/details?id=com.vibecodeapp.app

Это не “no-code для всех”, а инструмент для разработчиков и продвинутых продактов, чтобы ускорить фазу “от идеи до работающей спеки”, которую дальше уже довозит ваш обычный AI-assisted дев-процесс.
👍4
This media is not supported in your browser
VIEW IN TELEGRAM
УРА! Наконец-то 201 подписчик!!

И я решил сгенерить видео на sora2 по этому случаю. Но так как сначала было 200 подписчиков, я делал для 200, потом стало 201 и я решил сделать под 201 и все это оказалось в одном контексте модели…. Ну и вот получилось, что получилось))) ИИ виднее как говорится.
1🔥6👏4😁2
Claude Code и Anthropic — это сейчас «золотой стандарт» по UX для разработки с ИИ. Но далеко не везде удобно/дешево крутить именно антропиковские модели.
Вот под это как раз сделан репозиторий cc-compatible-models: обзор китайских (и не только) провайдеров, которые умеют эмулировать Anthropic API и работать с Claude Code «как родные», но сильно дешевле.

🔗 Репо: https://github.com/Alorse/cc-compatible-models



Лейтмотив

Claude Code остаётся вашей ОС для разработки, а вот «железо под капотом» можно менять.
Anthropic — для точности и надёжности, китайские провайдеры — для дешёвого, массового кодинга.

Репо аккуратно сводит в одну таблицу:
• цены за 1M токенов,
• какие модели лучше ставить как «основные» и «быстрые»,
• и главное — примеры ~/.claude/settings.json, чтобы Claude Code работал поверх DeepSeek, Qwen, Kimi K2, MiniMax, GLM 4.6 и т.д.



Какие модели тут есть

Коротко по провайдерам:
Alibaba Qwen (Qwen3 / Qwen Coder)
Anthropic-совместимый endpoint в DashScope, очень адекватные цены, есть coder-линейка.
В settings.json просто меняем ANTHROPIC_BASE_URL на https://dashscope-intl.aliyuncs.com/apps/anthropic и подставляем Qwen-модели.
DeepSeek (deepseek-chat / deepseek-reasoner)
Шлём запросы на https://api.deepseek.com/anthropic, можно воткнуть даже deepseek-reasoner как «мозг» под Claude Code. Есть контекст-кэш, поэтому длинные сессии заметно дешевле.
MiniMax M2
Делает вид, что это Haiku/Sonnet/Opus одновременно — все дефолтные модели мапятся на MiniMax-M2. Плюс есть Coding Plan с фиксированной абоненткой (от $10/мес), что превращает «бесконечный кодинг» в предсказуемую подписку.
Moonshot Kimi K2
Kimi K2 даёт до 256К контекста, кэширование промптов и отличный value за токен. Подключается к Claude Code через https://api.moonshot.ai/anthropic.
Zhipu GLM 4.6 (Z.AI)
GLM 4.6 и GLM-линейка, совместимы с Claude Code, Cursor, Cline и т.п. Есть GLM Coding Plan от $3/мес, с очень щедрыми лимитами. Для интернационала — endpoint https://api.z.ai/api/anthropic.



Как это выглядит в практике

Примерно так выглядит идея конфигурации (условно под Qwen, но паттерн один и тот же):

{
"env": {
"ANTHROPIC_BASE_URL": "https://dashscope-intl.aliyuncs.com/apps/anthropic",
"ANTHROPIC_AUTH_TOKEN": "YOUR_API_KEY",
"ANTHROPIC_MODEL": "qwen-max",
"ANTHROPIC_SMALL_FAST_MODEL": "qwen-flash"
}
}


И дальше вы просто пишете:

cd ваш-проект
claude


а под капотом уже работает не Anthropic, а выбранный китайский провайдер — но со всем удобством Claude Code: проекты, контекст, tools, skills, MCP и т.д.



Зачем это всё
• Можно держать один и тот же рабочий флоу (Claude Code, Cline, Cursor и пр.),
но переключать «движок» под ним в зависимости от задачи и бюджета.
• Антропиковские Sonnet/Opus оставляем для сложного проектирования, спек и критичных задач.
А рутинный кодинг, рефакторинги, массовые правки — отдаём Qwen / DeepSeek / GLM / MiniMax / Kimi.
• Благодаря coding-тарифам MiniMax и GLM можно получить условный «безлимитный» дев-режим за цену одной подписки.

В общем, это не просто список «ещё одних китайских моделей», а карта, как подменять Anthropic API под Claude Code на более дешёвые аналоги, не меняя свой привычный инструмент».
🔥2
Anthropic выкатили часовой разбор того, как ИИ уже используется в реальных кибератаках — и что они с этим делают. Это не маркетинг, а вполне себе threat-intel отчёт в формате живого разговора.

Ключевые кейсы из видео / отчёта 🧵
• Vibe hacking — злая версия vibe-кодинга. Один атакующий с помощью Claude Code автоматизировал разведку, взлом, выгрузку данных и кастомные «психологические» письма для вымогательства. 17 жертв за короткий период: от больниц до религиозных организаций.
• Схемы с «удалёнными айтишниками» из КНДР. Claude помогает выдавать себя за сеньор-разработчиков: готовит резюме, проходит техинтервью, подсказывает, как отвечать в рабочих чатах и письмах. Деньги с таких позиций уходят в обход санкций.
• No-code ransomware-as-a-service. Человек без серьёзной экспертизы, прикидываясь «исследователем безопасности», при помощи Claude собирает и дорабатывает рансомварь, продаёт её на площадках за сотни–тысячи долларов.

Главная мысль:
ИИ радикально снижает порог входа в сложное киберпреступление, и при этом встраивается во все стадии операций — от поиска жертв до автоматизации вымогательства. Но ровно те же модели Anthropic используют, чтобы эти штуки находить и гасить.

Что Anthropic делают в ответ 🛡️
• обучают модели жёстче отказываться от вредоносных запросов;
• строят классификаторы, которые ловят необычные паттерны использования;
• держат отдельную threat-intel команду, которая «охотится» за редкими, но сложными случаями misuse;
• шарят индикаторы компрометации и паттерны атак с другими игроками и регуляторами.

Вывод для нас как разработчиков и фаундеров:
мы уже живём в мире, где «ИИ против ИИ» — не фигура речи, а базовое допущение для безопасности продуктов. И инструменты типа Claude могут быть как усилителем защиты, так и усилителем атаки — вопрос только в руках и в гардрейлах.

Видео тут:
https://youtu.be/EsCNkDrIGCw?si=K_gcQwmCPl9Zq0S5
👍21
Google продолжает разгонять Antigravity — теперь туда подвезли Nano Banana Pro 🟡🍌

Это новый Gemini 3 Pro Image-модель, которая умеет не просто “рисовать красивые картинки”, а генерировать проработанные UI-мокапы, инфографику, диаграммы и постеры с нормальным текстом (включая многоязычную локализацию) и высоким разрешением вплоть до 4K.

В видео как раз показывают, что Nano Banana Pro теперь доступен прямо внутри Google Antigravity:
агенты в IDE могут генерировать макеты экранов, иллюстрации и визуальные спеки до того, как начнётся реализация — всё в одном рабочем пространстве.

Что это меняет для нас, разработчиков и вайб-кодеров:
🧩 UI из промпта — описываешь фичу агенту, он сначала собирает визуальный макет (дашборд, форму, лендинг), вы согласуете картинку, и только потом идёт реализация.
🌍 Нормальный текст в картинках — заголовки, подписи к графикам, сложные схемы, плюс автоматическая локализация макета на другие языки без перекраивания дизайна.
🎛 Студийный контроль — свет, ракурсы, фокус, цветокор, “день/ночь”, bokeh-эффекты и т.п. — всё задаётся в промпте, пригодно уже не только “для прототипа”, но и для продакшн-креативов.
🔌 API и экосистема — тот же Nano Banana Pro доступен через Gemini API, Google AI Studio, Vertex AI и, конечно, через Antigravity как часть агентного пайплайна.

По сути, Antigravity превращается в IDE, где дизайн и код живут в одном агентном цикле: описал фичу → агент с Nano Banana Pro нарисовал экран → вы его заапрувили → тот же агент пошёл писать реализацию под этот макет.

🔗 Видео: https://youtu.be/FB6HO7CZHWw
(если хотите контекст шире — ещё есть официальный пост Google про Nano Banana Pro и интеграцию в Antigravity).
🔥5
Так, ну я настроил себе Antigravity. За полчаса у меня закончился лимит gemini 3 pro (high). Гуглеры, а как тут докупаться? А?
😁4
Мой mcp config для разработки под flutter для Antigravity, вдруг кому пригодится:

{
"mcpServers": {
"dart-mcp-server": {
"command": "dart",
"args": [
"mcp-server"
],
"env": {}
},
"firebase-mcp-server": {
"command": "npx",
"args": [
"-y",
"firebase-tools@latest",
"mcp"
],
"env": {}
},
"serena": {
"type": "stdio",
"command": "uvx",
"args": [
"--from",
"git+https://github.com/oraios/serena",
"serena",
"start-mcp-server",
"--transport",
"stdio",
"--project",
".",
"--context",
"ide-assistant"
]
},
"context7": {
"serverUrl": "https://mcp.context7.com/mcp",
"headers": {
"CONTEXT7_API_KEY": ""
}
},
"perplexity-mcp": {
"type": "stdio",
"command": "perplexity-mcp",
"args": [
"--model",
"sonar-pro",
"--reasoning-model",
"sonar-reasoning-pro"
],
"env": {
"PERPLEXITY_API_KEY": ""
}
}
}
}
👍6🔥1
Короче Antigravity ни в коем разе не может хоть как-то сравняться с claude code на anthropic, я официально это заявляю. Только для нарезки дизайна. Ролики они конечно красивые сделали, но этому продукту еще нужно подрасти вместе с gemini 3 pro. Nano banana топ!
1👍21🤝1
Anthropic выкатили Claude Opus 4.5 🚀

Anthropic официально обновили флагман: Claude Opus 4.5 — модель, которую они сами называют лучшей в мире для кода, агентов и computer use и заметным шагом вперёд для ежедневной работы с таблицами, презентациями и ресёрчем.

Что важно разработчикам и тем, кто строит агентов:
🧠 Флагман для кода и агентов
Opus 4.5 показывает SOTA на реальных инженерных задачах (SWE-bench Verified) и опережает конкурентов вроде GPT-5.1 и Gemini 3 Pro на ключевых кодовых бенчмарках.
🏷️ Цена сильно упала
В API модель доступна как claude-opus-4-5-20251101 по цене $5 / $25 за 1M токенов (in/out) — это уже не «ультра-люкс», а вполне рабочая лошадка для продакшена.
⚙️ Новый параметр effort
В API можно крутить «уровень усилия» модели:
— на среднем effort Opus 4.5 матчит Sonnet 4.5 по SWE-bench, но использует на 76% меньше output-токенов;
— на максимальном effort даёт +4.3 п.п. к качеству и всё равно −48% токенов.
По сути, это ручка «быстрее и дешевле» vs «думает глубже, но всё равно экономно».
🧩 Долгоживущие агенты и память
В dev-платформе усилили context compaction, advanced tool use и memory: Opus 4.5 лучше держит длинные цепочки действий, умеет управлять командой сабагентов и в их внутренних тестах даёт +~15 п.п. на deep research-eval’ах при использовании нового стека контекст-менеджмента и памяти.
🛡 Безопасность и prompt injection
По результатам независимых тестов от Gray Swan, Opus 4.5 стал заметно устойчивее к сильным prompt-injection атакам и в целом показывает меньше «тревожного» поведения среди фронтир-моделей.
🛠 Апдейты продуктов вокруг
• Claude Code: улучшенный Plan Mode (генерит понятный plan.md и аккуратнее исполняет план), плюс Opus 4.5 как новый «мозг» для тяжёлых задач — рефакторинг, миграции, длинные кодовые сессии.
• Claude Code в десктопном приложении — можно гонять несколько локальных и удалённых сессий параллельно.
• В обычном Claude-чате длинные диалоги больше не «упираются в стену» — контекст автоматически сжимается.
• Claude for Chrome открывают всем Max-пользователям, а Claude for Excel расширяют для Max / Team / Enterprise.
☁️ Доступность
Opus 4.5 уже сейчас доступен в приложениях Claude, в API и на всех трёх крупных облаках (Azure/Foundry, Bedrock, Vertex).

Мой вывод:
Opus 4.5 — это уже не редкий «режим бога для особых случаев», а кандидат на дефолтную модель под серьёзные кодовые и агентные пайплайны, с нормальной ценой, ручкой effort и упором на долгоживущие, автономные сценарии.

👉 Оригинальный анонс Anthropic: https://www.anthropic.com/news/claude-opus-4-5
Ну и теперь Opus 4.5 - SOTA, и оно уже доступно в Claude Code и теперь SOTA с хуками, скилами и сабагентами!
👍2
В 3 раза сократили цену и как мы понимаем потребление у opus 4.5! 😍
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
💻 Claude Code Tutorial от Net Ninja — лучший старт для вайб-кодинга

Подписчик прислал отличный бесплатный плейлист по Claude Code от Net Ninja. Это такая мини-«профи»-школа, но прямо на YouTube: 10 коротких уроков, которые аккуратно проходят по всей основной магии Claude Code — от CLAUDE.md и /init до контекста, tools & permissions, планирования, MCP-серверов, сабагентов и интеграции с GitHub.

Если вы только заходите в экосистему Claude Code (или хотите систематизировать то, что уже щупали руками), плейлист можно просто смотреть по порядку и параллельно настраивать свой рабочий проект — автор как раз показывает, как встроить агент в обычный дев-флоу.

▶️ Плейлист: https://www.youtube.com/playlist?list=PL4cUxeGkcC9g4YJeBqChhFJwKQ9TRiivY
14🔥2👍1
Parallel — ещё один серьёзный игрок в «веб для ИИ-агентов» 👀

Бывший CEO Twitter Параг Агравал запускает Parallel Web Systems — инфраструктурный слой для ИИ, который даёт агентам нормальный доступ к живому вебу через специализированные API, а не через костыли поверх обычного поиска.

🔹 Что это такое
Parallel строит «web search для ИИ», а не для людей:
• Search API — поисковый движок, который сразу отдаёт урлы + плотные выдержки текста, заточенные под LLM-контекст.
• Extract API — превращает страницы и PDF в LLM-ready markdown (как выжимку, так и полный текст), умеет JS-сайты и сложные PDF.
• Task API / FindAll — «глубокие ресёрч-таски» и построение датасетов с веба по естественному запросу.
• Chat API — быстрые web-augmented ответы в формате, совместимом с OpenAI Chat Completions.
• Monitor API — постоянный мониторинг событий в вебе по заданному запросу (по сути «вечно включённый поиск»).

Всё это уже живёт как MCP-сервер, ставится в один клик в Cursor, VS Code Insiders, Claude Desktop и др., так что Parallel можно просто подключить как ещё один тул к агенту.

🔹 Почему все его обсуждают
• Parallel только что привлёк $100M Series A при оценке $740M, раунд возглавили Kleiner Perkins и Index Ventures.
• На своих бенчмарках по deep research он показывает до ~48–58% точности против 1–7% у GPT-4/Claude browsing и 14% у Exa/8% у Perplexity на BrowseComp и других тестах, при этом часто выигрывая по цене за запрос.
• Позиционируется как «evidence-backed инфра для ChatGPT/Claude/агентов»: всегда с цитатами, структурированными полями, confidence-скорингом и понятной ценой per request, а не per token (например, Search от $0.005 за запрос).

🔹 Как это может пригодиться нам
Если у вас:
• свой агент / ассистент для кода, ресёрча, sales, market / tech-аналитики,
• или вы строите мультиагентную систему с MCP/Agents SDK,

то Parallel по сути можно рассматривать как альтернативу Tavily/Exa/Perplexity-search, но с упором на:
• стабильные структурированные ответы (таблицы, поля, ссылки),
• нормальные бенчмарки под multi-hop и deep research,
• интеграцию «из коробки» в привычные IDE и агентные стеки.

Сайт: https://parallel.ai/ — там же есть playground и доки по всем API.

Будете ставить себе как MCP-поиск для агентов или пока хватит Tavily/Exa? 👇
👍1
🧵 Anthropic показали, как заставить агента реально работать неделями над одним проектом, а не притворяться

Anthropic выкатили очень практичный ресёрч-пост про harness для long-running агентов — как сделать так, чтобы Claude не терял нить между сессиями и уверенно допиливал большой проект до продакшена.

Проблема:
Даже Opus 4.5 в цикле на Agent SDK, если просто сказать «сделай клон claude.ai», ведёт себя по-человечески плохо:
• пытается с одного раза сделать всё приложение → забивается контекст → остаётся полусломанная фича без описания;
• позже другой запуск видит «что-то уже работает» и объявляет победу, хотя половины функционала нет.

Решение Anthropic — двухагентный harness:
1. 🧱 Initializer-агент (первый запуск)
Он один раз готовит среду:
• пишет feature_list / tests.json c подробным списком фич (в примере — 200+ штук), все с passes: false;
• создаёт init.sh, который поднимает dev-сервер и гоняет базовые тесты;
• заводит claude-progress.txt и первый git-коммит как точку отсчёта.
2. 🔁 Coding-агент (все последующие сессии)
Каждый заход живёт по строгому протоколу:
• pwd → читает claude-progress.txt, feature_list.json, свежий git log;
• запускает ./init.sh, чинит, если всё падает;
• выбирает одну непроходящую фичу из списка;
• реализует её и проверяет end-to-end (для веба — через Puppeteer MCP, как реальный пользователь);
• только после этого ставит passes: true, дописывает прогресс и делает чистый git-коммит.
Тесты запрещено ослаблять или удалять — только фиксить код.

Ключевая мысль: долгоживущий агент = не “бесконечный контекст”, а правильно спроектированный диск и протокол смены:
• JSON-файл фич/тестов как контракт,
• claude-progress.txt + git как память между окнами,
init.sh как единая точка входа,
• жёсткое правило «одна фича за сессию и чистое состояние на выходе».

Для нас это по сути готовый blueprint: такой harness можно повторить в Claude Code, Claude Agent SDK или любой своей multi-agent системе, даже без сложной оркестрации — просто через структуру репо и инструкции к агенту.

🔗 Оригинальная статья:
https://www.anthropic.com/engineering/effective-harnesses-for-long-running-agents

🔗 Обновленный гайд по промптингу:
https://platform.claude.com/docs/en/build-with-claude/prompt-engineering/claude-4-best-practices#multi-context-window-workflows
👍6🔥3😁1
🧵 Beads — память и тудушка для ваших код-агентов от Steve Yegge

Steve Yegge (ex-Amazon, ex-Google, сейчас Sourcegraph) выкатил Beads — минималистичную систему памяти и задач специально для код-агентов. Автор называет это «cognitive upgrade for your coding agent». Я раньше зачитывался его заметками о культуре Google, это был 2008 год…

Что это такое

Beads — это:
🧠 память для агентов на базе issue-трекера
🪢 граф задач: эпики, подзадачи и зависимости связываются “как бусины на нитке”
📁 один JSONL-файл в .beads/, версионируемый вместе с кодом в git
🤖 заточено под LLM-агентов (Claude Code, Amp, свои воркеры и т.п.), а не под людей

Идея: агент больше не пишет километры гниющих markdown-планов, а ведёт живой issue-трекер с зависимостями и “ready”-очередью.



Зачем это нужно

Классическая проблема агентов:
• план раздувается → контекст кончается
• часть задач теряется
• при следующем запуске агент “ничего не помнит” и заново переизобретает TODO.

С Beads агент:
• сам заводит задачи по ходу работы (“нашёл сломанные тесты — открыл issue”)
• строит цепочки зависимостей и эпиков
• в любой момент может ответить:
“какие у нас сейчас top-N готовых ready задач?”

Плюс: в последних версиях ввели hash-ID задач (вместо bd-1, bd-2…), чтобы несколько агентов и веток могли спокойно создавать задачи без конфликтов при merge. Это критично для multi-agent / multi-branch воркфлоу.



Как это выглядит в работе
1. Вы ставите CLI:

curl -fsSL https://raw.githubusercontent.com/steveyegge/beads/main/noscripts/install.sh | bash

2. В своём CLAUDE.md / AGENTS.md пишете что-то вроде:

“Для трекинга задач используй bd (Beads), а не markdown-файлы.
Если ещё не инициализировано — запусти bd quickstart.”

3. Дальше агенты сами:

• создают, обновляют, линкуют задачи
• на старте смотрят bd ready и выбирают, что делать
• по пути дописывают новые issues и связи

Для вас это выглядит как общая база знаний о работе, лежащая прямо в репо.



Почему это интересно
Сделано под vibe-coding/agentic воркфлоу как first-class citizen, а не адаптация Jira/Linear.
🧬 Прозрачный текстовый формат (JSONL + git) → легко анализировать, бэкапить, кормить в RAG.
🐜 Уже используется самим Yegge в его “колонии агентов” VC (AI-оркестратор для Amp/Claude Code и др.).



Ссылка

🔗 GitHub: https://github.com/steveyegge/beads
(в README есть быстрый старт, сравнение с классическими трекерами и детали про hash-ID, protected branches и т.д.)

Если вы уже строите свои пайплайны с Claude Code / Agents SDK / multi-agent системами — Beads выглядит как очень удачный кандидат на “единый мозг задач” для всех агентов в репозитории.
👍3🤔2
🛠 Claude Agent Toolkit — удобная обёртка для claude-code-sdk

Появился интересный проект — Claude Agent Toolkit (Python-фреймворк), который упрощает работу с claude-code-sdk и делает агентов более продакшн-готовыми.

⚙️ Что он даёт

• Декоратор-API для инструментов:
@tool вместо ручного описания MCP-инструментов и серверов.

• Автоматический запуск MCP-сервера — меньше инфраструктурной рутины.

• Выполнение инструментов в Docker-контейнерах, а не на хосте → изоляция и безопасность по умолчанию.

• Поддержка параллельного выполнения, таймаутов, контроля ресурсов.

🧠 Идея

Claude Code используется как «движок рассуждений», а Toolkit — как слой оркестрации:
инструменты, среда, sandbox, безопасность. Что-то вроде «LangGraph, но вокруг Claude Code».

🎯 Кому это может быть полезно

• Тем, кто строит агентов с доступом к файлам, БД, внешним API.
• Тем, кто хочет не просто скрипт, а стабильного продакшн-агента.
• Тем, кто не хочет руками поднимать и настраивать MCP-серверы.

📎 Репозиторий: https://github.com/cheolwanpark/claude-agent-toolkit
Есть ещё лёгкий вариант: cheolwanpark/claude-adk — тот же подход, но попроще.
👍2
🍏 Apple прокачал LLM на MacBook Pro M5: MLX + новые нейроускорители (или почему

Apple показали, как новые MacBook Pro на M5 гоняют большие модели прямо на ноуте с помощью фреймворка MLX и новых Neural Accelerators в GPU. Это уже не «маркетинг про ИИ», а реальные цифры по Qwen, GPT-OSS и FLUX.



🔧 Что такое MLX

MLX — open-source фреймворк от Apple под Apple Silicon:
• работает на всех M-чипах
• использует единую (unified) память — CPU и GPU видят одни и те же массивы
• API напоминает NumPy
• есть модули для нейросетей, оптимизаторов, автодиффа и граф-оптимизаций
• есть фронтенды для Python и Swift

Установка:

pip install mlx




🤖 MLX LM: запуск LLM на Mac

Сверху MLX есть отдельный слой — MLX LM:
• поддерживает большинство LLM с Hugging Face
• умеет квантовку (4-бит и т.п.)
• позволяет запускать модели буквально из терминала (mlx_lm.chat)

Пример квантовки Mistral 7B в 4-бит:

mlx_lm.convert \
--hf-path mistralai/Mistral-7B-Instruct-v0.3 \
-q \
--upload-repo mlx-community/Mistral-7B-Instruct-v0.3-4bit




🚀 Что нового в M5

Главный апдейт — Neural Accelerators в GPU M5:
• отдельные блоки под матричные операции для ML
• MLX использует Tensor Operations + Metal Performance Primitives (Metal 4)
• всё это требует свежий macOS 26.2+



📊 Бенчмарки: M5 vs M4

Тесты на MacBook Pro M5 24GB против схожего M4:

Модели:
• Qwen 1.7B и Qwen 8B в BF16
• Qwen 8B и Qwen 14B в 4-битной квантовке
• Qwen 30B (MoE, 3B активных параметров, 4-бит)
• GPT OSS 20B в формате MXFP4

1️⃣ Time To First Token (TTFT)
• первый токен — чистый compute-bound
• для плотной 14B TTFT на M5 падает до < ~10 сек
• для 30B MoE — < ~3 сек
• максимум — до ~4× ускорения TTFT относительно M4

2️⃣ Скорость генерации дальше
• дальше всё упирается в память
• M5 даёт +19–27% скорости за счёт более широкой шины:
• M4: 120 GB/s
• M5: 153 GB/s (~+28% по bandwidth)

3️⃣ Какого размера модели влезают

На MacBook Pro 24GB нормально живут:
• Qwen 8B BF16
• Qwen 30B MoE 4-бит

и при этом модель + кэш укладываются примерно до 18 GB.



🖼 Не только текст: FLUX-dev

Для генерации картинок тоже профит:
• модель FLUX-dev-4bit (12B)
• генерация 1024×1024 на M5
• примерно 3.8× быстрее, чем на M4



🧑‍💻 Что это значит для нас

Комбо M5 + MLX даёт:
• нормальный запуск LLM 8B BF16 и MoE 30B 4-бит прямо на ноуте
• адекватный TTFT, так что локальный ассистент на Mac становится реально юзабельным
• удобную конвертацию и квантовку моделей (Qwen, GPT-OSS и др.)
• полноценный стек для локальных LLM/ML-экспериментов без облака для тех, кто живёт в экосистеме Apple



🏁 Как быстро попробовать
1. Установить MLX:

pip install mlx


2. Установить MLX LM:

pip install mlx-lm


3. Выбрать модель на Hugging Face (Qwen 1.7B / 8B / 14B, GPT-OSS, варианты под MLX).
4. При необходимости — сделать 4-бит квантовку через mlx_lm.convert и залить в свой репозиторий.
5. Запустить чат с моделью через mlx_lm.chat и посмотреть, как едет на вашем Mac.
💾🧠 Калькулятор VRAM для LLM: сколько реально потянет ваша видеокарта?

Если вы гоняете LLM-ы локально или проектируете продовый inference, вот удобный инструмент: LLM Inference: VRAM & Performance Calculator от ApX
👉 https://apxml.com/tools/vram-calculator

Он помогает ответить на вечный вопрос:

“А мой 12/16/24 GB GPU вообще вытянет эту модель с таким контекстом и нагрузкой?”



🧩 Что умеет калькулятор

По сути это интерактивный планировщик ресурса для LLM-ов:
• Выбор модели (включая MoE-архитектуры и большие модели >100B параметров).
• Режимы Inference / Fine-tuning.
• Квантование весов (FP16, 8-бит, 4-бит и т.п.) и отдельное квантование KV-кэша — сразу видно, как это экономит VRAM на длинных промптах.
• Железо: выбор GPU (включая NVIDIA и Apple Silicon) или кастомный объём VRAM.
• Batch size, sequence length и число одновременных пользователей — инструмент показывает, как растёт память и падает TPS при нагрузке.
• Опция offload’а на CPU/RAM или NVMe для тяжёлых конфигураций.

На выходе вы получаете:
• Оценку занятой VRAM / из доступной.
• Приблизительную скорость генерации (TPS) и Time to First Token (TTFT) — важно для UX и SLA.



📊 Как он считает

ApX явно пишет, что это теоретическая оценка, а не “до гигабайта в nvidia-smi”:
• Формулы учитывают архитектуру модели (параметры, слои, скрытые размерности, активные эксперты в MoE и т.д.), квантование, длину контекста, batch и распределённый режим.
• TPS считается по эмпирическим бенчмаркам и масштабируется под разные GPU.
• Значения немного завышены, т.к. не учитывают все трюки конкретных фреймворков по экономии памяти.

Отдельно в FAQ развеивают миф про MoE:

MoE-модели не “магически” экономят VRAM — экспертов всё равно нужно держать в памяти, экономия больше про вычисления, а не про память.



🛠 Практическое применение

Для чего это полезно:
• Планирование железа: понять, хватит ли одной 24GB карты или нужна пара 48GB / кластер.
• Дизайн продукта: подобрать такой контекст, batch и квантование, чтобы уложиться в бюджет по VRAM и задержкам.
• Выбор режима deploy’а: локально, on-prem, облако или микс с offload’ом на NVMe/CPU.
• Прикидка нагрузки: сколько одновременных пользователей вы реально выдержите на выбранной конфигурации.



🚀 Лейтмотив

Это не очередной “калькулятор ради калькулятора”, а рабочий инструмент для тех, кто делает LLM-сервисы и агентов в проде — помогает быстро прикинуть, какая модель на каком железе реально поедет и сколько пользователей вы на ней повесите, прежде чем покупать лишние GPU или падать по OOM.

🔗 Инструмент здесь: https://apxml.com/tools/vram-calculator
🔥3