RAG, который не сжигает бюджет: новый подход от Meta
Большинство RAG-систем просто жгут бюджет. Они вытаскивают 100 чанков, когда тебе реально нужно 10. Они заставляют LLM переваривать тысячи нерелевантных токенов. В итоге ты платишь за вычисления, которые вообще не нужны.
Meta AI это порешали.
Они сделали REFRAG, новый подход к RAG, который сжимает и фильтрует контекст еще до того, как он попадет в LLM.
Результаты звучат крайне интригующе:
▪️ в 30.85 раза быстрее time-to-first-token
▪️ контекстные окна в 16 раз больше
▪️ в 2-4 раза меньше обрабатываемых токенов
▪️ обгоняет LLaMA на 16 RAG-бенчмарках
Чем REFRAG отличается: классический RAG просто сваливает все в LLM. Каждый чанк. Каждый токен. Даже мусор, который не по делу.
А REFRAG работает на уровне эмбеддингов:
↳ сжимает каждый чанк в один эмбеддинг
↳ RL-политика (обученная через reinforcement learning) скорит каждый чанк по релевантности
↳ только лучшие чанки разворачиваются и отправляются в LLM
↳ остальное остается сжатым или вообще отфильтровывается
То есть LLM обрабатывает только то, что важно.
Пайплайн простой:
1. Закодируй документы и сохрани их в векторной базе
2. Когда приходит запрос, как обычно достань релевантные чанки
3. RL-политика оценивает сжатые эмбеддинги и выбирает лучшие
4. Выбранные чанки разворачиваются в полные token-эмбеддинги
5. Отклоненные чанки остаются одиночными сжатыми векторами
6. Все вместе уходит в LLM
Итог: можно прогонять в 16 раз больше контекста в 30 раз быстрее без потери точности.
Ссылка на доки📝
Большинство RAG-систем просто жгут бюджет. Они вытаскивают 100 чанков, когда тебе реально нужно 10. Они заставляют LLM переваривать тысячи нерелевантных токенов. В итоге ты платишь за вычисления, которые вообще не нужны.
Meta AI это порешали.
Они сделали REFRAG, новый подход к RAG, который сжимает и фильтрует контекст еще до того, как он попадет в LLM.
Результаты звучат крайне интригующе:
Чем REFRAG отличается: классический RAG просто сваливает все в LLM. Каждый чанк. Каждый токен. Даже мусор, который не по делу.
А REFRAG работает на уровне эмбеддингов:
↳ сжимает каждый чанк в один эмбеддинг
↳ RL-политика (обученная через reinforcement learning) скорит каждый чанк по релевантности
↳ только лучшие чанки разворачиваются и отправляются в LLM
↳ остальное остается сжатым или вообще отфильтровывается
То есть LLM обрабатывает только то, что важно.
Пайплайн простой:
1. Закодируй документы и сохрани их в векторной базе
2. Когда приходит запрос, как обычно достань релевантные чанки
3. RL-политика оценивает сжатые эмбеддинги и выбирает лучшие
4. Выбранные чанки разворачиваются в полные token-эмбеддинги
5. Отклоненные чанки остаются одиночными сжатыми векторами
6. Все вместе уходит в LLM
Итог: можно прогонять в 16 раз больше контекста в 30 раз быстрее без потери точности.
Ссылка на доки
Please open Telegram to view this post
VIEW IN TELEGRAM
Если тебя уже поджигало от того, что дефолтные сабагенты в Claude Code гоняются на Haiku-моделях, есть супер простой лайфхак, как навсегда это вырубить.
Просто ремапни alias через env vars в ~/.claude/settings.json:
По умолчанию Explore Agent садится на Haiku, а Task Agent берется из модели родителя. В больших и сложных репах это легко превращается в пропуски кусков важной логики, потому что Haiku чаще срезает углы.🥹
Просто ремапни alias через env vars в ~/.claude/settings.json:
{
"env": {
"ANTHROPIC_DEFAULT_HAIKU_MODEL": "claude-sonnet-4-5-20250929"
}
}По умолчанию Explore Agent садится на Haiku, а Task Agent берется из модели родителя. В больших и сложных репах это легко превращается в пропуски кусков важной логики, потому что Haiku чаще срезает углы.
Please open Telegram to view this post
VIEW IN TELEGRAM
В Kilo Code (CLI и VS Code) сделали GLM-5 бесплатным на ограниченный период времени 👏
Как получить:
1. Скачай CLI и выбери GLM 5 (free) из списка моделей.
2. Если пользуешься расширением для VS Code, выбери GLM 5 (free) в переключателе (model picker).
Если хочешь почитать подробнее про GLM-5, загляни сюда
Как получить:
1. Скачай CLI и выбери GLM 5 (free) из списка моделей.
2. Если пользуешься расширением для VS Code, выбери GLM 5 (free) в переключателе (model picker).
Если хочешь почитать подробнее про GLM-5, загляни сюда
Please open Telegram to view this post
VIEW IN TELEGRAM
3
This media is not supported in your browser
VIEW IN TELEGRAM
Хватит простыней: один чувак сделал Visual Explainer
Это skill для агентa + набор slash-команд, которые заставляют агента объяснять сложные темы не текстом в чатике, а в виде аккуратных HTML-страниц.💃
Внутри есть референсные шаблоны и библиотека CSS-паттернов, чтобы вывод всегда выглядел одинаково аккуратно и читабельно.
Исходники тут
Это skill для агентa + набор slash-команд, которые заставляют агента объяснять сложные темы не текстом в чатике, а в виде аккуратных HTML-страниц.
Внутри есть референсные шаблоны и библиотека CSS-паттернов, чтобы вывод всегда выглядел одинаково аккуратно и читабельно.
Исходники тут
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Кто-то собрал ИИ, который одновременно пишет код и лазит по вебу.
Называется Accomplish и работает локально, не сжигая API-кредиты.
Без Claude Desktop. Без Cursor. Без ежемесячных подписок.
100% open source.
Называется Accomplish и работает локально, не сжигая API-кредиты.
Без Claude Desktop. Без Cursor. Без ежемесячных подписок.
100% open source.
Вышел Qwen3.5-397B-A17B: первая модель с открытыми весами в серии Qwen3.5.
» Нативная мультимодальность. Обучена под реальных агентов.
» Гибрид: линейное attention + разреженный MoE, плюс масштабирование RL на больших средах.
» Декодинг быстрее в 8.6–19.0 раз по сравнению с Qwen3-Max.
» 201 язык и диалект.
» Лицензия Apache 2.0.
» Нативная мультимодальность. Обучена под реальных агентов.
» Гибрид: линейное attention + разреженный MoE, плюс масштабирование RL на больших средах.
» Декодинг быстрее в 8.6–19.0 раз по сравнению с Qwen3-Max.
» 201 язык и диалект.
» Лицензия Apache 2.0.
GitHub: https://github.com/QwenLM/Qwen3.5
Chat: https://chat.qwen.ai
API:https://modelstudio.console.alibabacloud.com/ap-southeast-1/?tab=doc#/doc/?type=model&url=2840914_2&modelId=group-qwen3.5-plus
Qwen Code: https://github.com/QwenLM/qwen-code
Hugging Face: https://huggingface.co/collections/Qwen/qwen35
ModelScope: https://modelscope.cn/collections/Qwen/Qwen35
blog: https://qwen.ai/blog?id=qwen3.5
Вышла Claude Sonnet 4.6 с контекстом 1M
Теперь можно поставить её дефолтом в Claude Code💚
UI:
~/.claude/settings.json:
Серьезно, ставь Sonnet везде вместо Haiku. Для продовых реп, которые большие и со сложной логикой, ты хочешь, чтобы работу делал именно Sonnet.
Контекст 1M становится дороже только когда объем контекста превышает 200K, но модель работает лучше, когда “знает”, что у нее есть запас по контексту.
Чтобы включить 1M контекст в Claude Code на подписочных планах, нужно активировать extra usage в своем плане.
Я тестировал модель до 639K контекста и могу подтвердить: никакие мои extra usage credits не тратились, то есть это покрывалось включенным лимитом подписки.
Теперь можно поставить её дефолтом в Claude Code
UI:
/model claude-sonnet-4-6[1m]~/.claude/settings.json:
{
"env": {
"ANTHROPIC_DEFAULT_HAIKU_MODEL": "claude-sonnet-4-6[1m]",
"ANTHROPIC_DEFAULT_SONNET_MODEL": "claude-sonnet-4-6[1m]"
}
}Серьезно, ставь Sonnet везде вместо Haiku. Для продовых реп, которые большие и со сложной логикой, ты хочешь, чтобы работу делал именно Sonnet.
Контекст 1M становится дороже только когда объем контекста превышает 200K, но модель работает лучше, когда “знает”, что у нее есть запас по контексту.
Чтобы включить 1M контекст в Claude Code на подписочных планах, нужно активировать extra usage в своем плане.
Я тестировал модель до 639K контекста и могу подтвердить: никакие мои extra usage credits не тратились, то есть это покрывалось включенным лимитом подписки.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
56
Вышел Codex 0.103 с экспериментальной поддержкой multi-agent.
TUI: включается в
config:
В комплекте 3 агента:
Можно заводить и кастомных агентов. Пример:
Бонус: сейчас дефолт это 6 agent threads на сессию.
Можно поменять так:
TUI: включается в
/experimental -> multi agentsconfig:
[features]
multi_agent = true
В комплекте 3 агента:
default для смешанных задач: "spawn default agent to debug the failure and propse fix"explorer для ресерча по кодовой базе: "spawn explorer to map payment flow and check risks, no edits"worker для кодинга и фиксов: "spawn worker for src/auth/* and implement token refresh & run tests"Можно заводить и кастомных агентов. Пример:
[features]
multi_agent = true
[agents.fast_worker]
denoscription = "Fast scoped implementation agent."
config_file = "/Users/<you>/.codex/agents/fast_worker.toml"
~/.codex/agents/fast_worker.tomlmodel = "gpt-5.3-spark"
model_reasoning_effort = "low"
model_verbosity = "low"
Бонус: сейчас дефолт это 6 agent threads на сессию.
Можно поменять так:
[agents]
max_threads = 12
This media is not supported in your browser
VIEW IN TELEGRAM
React Doctor уже тут
Сканируй свой React-код на анти-паттерны:
▪️ лишние useEffect-ы
▪️ исправляет проблемы с доступностью (a11y)
▪️ prop drilling вместо context / композиции
Запускается как CLI или как агент skill. Гоняешь снова и снова, пока всё не проходит. Полностью open source.
Запусти это в терминале, чтобы попробовать:
исходный код
Сканируй свой React-код на анти-паттерны:
Запускается как CLI или как агент skill. Гоняешь снова и снова, пока всё не проходит. Полностью open source.
Запусти это в терминале, чтобы попробовать:
npx -y react-doctor@latest
исходный код
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Claude наблюдает, как я пишу код вручную
7
This media is not supported in your browser
VIEW IN TELEGRAM
Теперь то, что ты собираешь в Claude Code, можно пушить прямо в Figma.
С последними обновлениями Figma MCP server процесс теперь бесшовный: сначала делаешь рабочий прототип в коде, потом отправляешь его на Figma canvas и там уже спокойно гоняешь несколько версий и вариантов.
Чтобы начать, установи Figma MCP server:
Дальше просто попроси Claude отправить страницу из твоего локального веб-приложения в Figma.
Подробности в доках
С последними обновлениями Figma MCP server процесс теперь бесшовный: сначала делаешь рабочий прототип в коде, потом отправляешь его на Figma canvas и там уже спокойно гоняешь несколько версий и вариантов.
Чтобы начать, установи Figma MCP server:
/plugin install figma@claude-plugin-directory
Дальше просто попроси Claude отправить страницу из твоего локального веб-приложения в Figma.
Подробности в доках
Кто-то выложил в опенсорс CLAUDE SKILL, который по словам автора, заставляет его перестать писать баговый код.
Называется MAKE NO MISTAKES.
Кидаешь один файл в проект, и Claude начинает ловить свои же ошибки еще до того, как ты их увидишь
Называется MAKE NO MISTAKES.
Кидаешь один файл в проект, и Claude начинает ловить свои же ошибки еще до того, как ты их увидишь
1
Media is too big
VIEW IN TELEGRAM
Гений потратил 2,54 МИЛЛИАРДА токенов, чтобы довести OpenClaw до идеала.
Юзкейсы, которые он по пути откопал, поменяли то, как он живёт и работает.
И теперь он делится этим со всеми.
Вот 21 сценарий:
0:00 Интро
0:50 Что такое OpenClaw?
1:35 MD-файлы
2:14 Система памяти
3:55 CRM-система
7:19 Fathom pipeline
9:18 Встреча → action items
10:46 Система базы знаний
13:51 Pipeline для ingestion из X
14:31 Business Advisory Council
16:13 Security Council
18:21 Трекинг соцсетей
19:18 Pipeline идей для видео
21:40 Daily briefing flow
22:23 Три совета (Three Councils)
22:57 Расписание автоматизаций
24:15 Слои безопасности
26:09 Базы данных и бэкапы
28:00 Генерация видео/картинок
29:14 Self-updates
29:56 Трекинг использования и стоимости
30:15 Prompt engineering
31:15 Инфраструктура для разработчиков
32:06 Дневник питания
- Бесплатная eBook с юзкейсами
- промпты
- SOUL
- IDENTITY
- PRD
Юзкейсы, которые он по пути откопал, поменяли то, как он живёт и работает.
И теперь он делится этим со всеми.
Вот 21 сценарий:
0:00 Интро
0:50 Что такое OpenClaw?
1:35 MD-файлы
2:14 Система памяти
3:55 CRM-система
7:19 Fathom pipeline
9:18 Встреча → action items
10:46 Система базы знаний
13:51 Pipeline для ingestion из X
14:31 Business Advisory Council
16:13 Security Council
18:21 Трекинг соцсетей
19:18 Pipeline идей для видео
21:40 Daily briefing flow
22:23 Три совета (Three Councils)
22:57 Расписание автоматизаций
24:15 Слои безопасности
26:09 Базы данных и бэкапы
28:00 Генерация видео/картинок
29:14 Self-updates
29:56 Трекинг использования и стоимости
30:15 Prompt engineering
31:15 Инфраструктура для разработчиков
32:06 Дневник питания
- Бесплатная eBook с юзкейсами
- промпты
- SOUL
- IDENTITY
- PRD
Gemini снова возвращается в топ кодинг-моделей: Google выкатили Gemini 3.1 Pro
Модель заметно прокачали в кодинге, reasoning и агентных задачах. Цифры говорят сами за себя:
— 77.1% на ARC-AGI-2 (было 31.1% у Gemini 3)
— 80.6% на SWE Verified (против 76.2%)
— 85.9% на BrowseComp (вместо 59.2%)
Уже доступно в приложении, на сайте, в Studio и по API🎉
Модель заметно прокачали в кодинге, reasoning и агентных задачах. Цифры говорят сами за себя:
— 77.1% на ARC-AGI-2 (было 31.1% у Gemini 3)
— 80.6% на SWE Verified (против 76.2%)
— 85.9% на BrowseComp (вместо 59.2%)
Уже доступно в приложении, на сайте, в Studio и по API
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Чувак собрал локальный движок инференса для LLM, который гоняет модель на 1B параметров на плате за $10 с 256 МБ RAM. Модель лежит на SD-карте и стримится по одному слою, при этом в оперативке держится примерно 45 МБ.
Можно использовать как локальный backend для модели в PicoClaw.
Без Python, без облака, без API-ключей.
80 КБ бинарник, чистый C, ноль зависимостей.
100% опенсорс😼
Можно использовать как локальный backend для модели в PicoClaw.
Без Python, без облака, без API-ключей.
80 КБ бинарник, чистый C, ноль зависимостей.
100% опенсорс
Please open Telegram to view this post
VIEW IN TELEGRAM
1
Одна команда, чтобы понять, что запустится на твоем железе:
Терминальная утилита, которая по твоей конфигурации RAM, CPU и GPU рекомендует LLM-модели, которые смогут у тебя запуститься.
Сейчас в базе 157 модели от 30 провайдеров: есть Llama, Mistral, Qwen, DeepSeek, Grok, Kimi и другие. Каждую модель оценивают по 4 метрикам:
- качество (число параметров, репутация семейства модели)
- скорость (примерная оценка tok/s)
- совместимость (насколько модель укладывается в память)
- контекст (размер контекстного окна)
Потом считают итоговый общий score, а то, что в память не влезает, автоматически уезжает вниз списка.
100% opensource🎉
llmfitТерминальная утилита, которая по твоей конфигурации RAM, CPU и GPU рекомендует LLM-модели, которые смогут у тебя запуститься.
Сейчас в базе 157 модели от 30 провайдеров: есть Llama, Mistral, Qwen, DeepSeek, Grok, Kimi и другие. Каждую модель оценивают по 4 метрикам:
- качество (число параметров, репутация семейства модели)
- скорость (примерная оценка tok/s)
- совместимость (насколько модель укладывается в память)
- контекст (размер контекстного окна)
Потом считают итоговый общий score, а то, что в память не влезает, автоматически уезжает вниз списка.
100% opensource
Please open Telegram to view this post
VIEW IN TELEGRAM
2
This media is not supported in your browser
VIEW IN TELEGRAM
Claude Code SKILL, с которым можно вообще забыть про PowerPoint.
После установки достаточно просто попросить Claude Code сделать презентацию, например:
-
-
-
исходный код😶
После установки достаточно просто попросить Claude Code сделать презентацию, например:
-
«Сделай 10 слайдов про тренды в возобновляемой энергетике»-
«Собери питч-дек/презентацию-предложение для SaaS-стартапа»-
«Сделай квартальный бизнес-ревью в виде презентации с графиками»исходный код
Please open Telegram to view this post
VIEW IN TELEGRAM