NEW BOT Телеграм, страница

Forwarded from Поляков считает: AI, код и кейсы

SGR-паттерн: как заставить маленькие модели работать как большие

В конце августа 2025 Валерий Ковальский (автор канала NeuralDeep) запилил готовую либу для SGR-паттерна на GitHub. Репозиторий быстро собрал звезды и оброс контрибьюторами — теперь его упоминают даже в самых неожиданных местах.

Сам Валерий считает, что на базе этого подхода появятся стартапы на миллион долларов. И я с ним соглашусь: если даже на банальном Structured Output по всему миру уже заработаны миллионы, то SGR открывает ещё больше возможностей.

💡 Проблема: я всё чаще встречаю, как SGR путают с альтернативой Structured Output. Это не так. Давайте разберемся, в чем реальный прорыв технологии.

🔍 Боль разработчиков: когда LLM пропускает шаги

Обычно нам недостаточно просто текста от модели. Нужно, чтобы она выполняла задачи: вызывала функцию расчета, искала в интернете или уточняла запрос у пользователя.

Привычные паттерны вроде ReAct это делают, но есть проблема: на маленьких моделях они пропускают шаги. Модель может не вызвать нужный инструмент, хотя должна была. На больших моделях это тоже бывает, но реже.

Хуже всего то, что это ломает пользовательский опыт. Разработчикам приходится городить костыли, а решения получаются слабыми и некрасивыми.

📊 Конкретные цифры провала Function Calling

Вот реальные данные из бенчмарка BFCL для семейства Qwen3 в режиме Agentic Web Search (когда модель сама решает, вызывать ли инструмент):

🔸 Qwen3-8B: только 15% точности

🔸 Qwen3-4B: всего 2% точности

🔸 Qwen3-1.7B: лишь 4.5% точности

Даже при нативной поддержке Function Calling маленькие модели не понимают, когда нужно вызывать инструменты. Типичный результат: {"tool_calls": null, "content": "Текст вместо вызова функции"}.

⚡ Как SGR решает проблему

SGR фактически разделяет два этапа: reasoning (рассуждения) и execution (исполнение).

На этапе reasoning модель через Structured Output жёстко описывает, какие инструменты нужно вызвать и почему. Затем эти инструменты вызываются программно, без участия LLM.

Такой подход формализует бизнес-логику вызова инструментов и делает эту задачу удобной для отладки. Все шаги рассуждений видны, проверяемы и воспроизводимы.

🎯 Буст точности 5-10% — это стандартный результат для SGR. А на маленьких моделях разница ещё выше.

🛠️ Готовая библиотека от комьюнити

Репозиторий SGR Deep Research — это не просто концепция, а готовая система с OpenAI-совместимым API. Можно отнаследоваться от BaseTool и передать свой кастомный набор инструментов в параметре toolkit агенту.

В либе реализовано 5 типов агентов: от чистого SGR до гибридных подходов с Function Calling. Есть поддержка стриминга, прерывания агента для уточнений и автоматическое сохранение отчетов.

🔐 Концепция гарантирующих паттернов

SGR можно назвать гарантирующим паттерном в работе с LLM. В данном случае он гарантирует вызов определённого инструмента даже на маленьких моделях.

Structured Output — тоже гарантирующий паттерн, но другой: он гарантирует, что ответ будет в чёткой структуре и полноте.

Это не альтернативы, а комплементарные техники. SGR использует SO для этапа рассуждений, а затем добавляет детерминированное исполнение.

🚀 Пушка для локальных моделей

Особенно важен SGR для локальных моделей, которые работают на приватных серверах. Они менее "умные" чем облачные GPT-5 или Claude Sonnet 4, но SGR помогает компенсировать это ограничение.

Если материал оказался полезным — ставьте реакции, пишите комментарии.

---

🔗 Оригинальная концепция SGR: https://abdullin.com/schema-guided-reasoning/

🔗 Репозиторий SGR Deep Research: https://github.com/vamplabAI/sgr-deep-research

----

Поляков считает — про ИИ, рекламу и аналитику.

👍1

677 views06:50

Generative Ai

Forwarded from Life2film

4:58

Media is too big

VIEW IN TELEGRAM

Эволюционное программирование!
Я до сих пор помню как на 1 курсе физмата… пробовали писать игру жизнь на паскаль. Вы тоже пробовали?

И вот, открытие последних недель для меня работа где скрестили подход LLM+эволюция!

ShinkaEvolve - https://sakana.ai/shinka-evolve/, помогает найти решение создавая мутации начального решения.

Вы даете ему начальное состояние программы… и он перебирает разные и ищет лучшее, выращивая поколения вашей программы…. наши дети будут лучше чем мы))

Это можно применять к разным областям и есть аналоги, закрытый вариант от Google AlphaEvolve и открый openevolve. Но мне больше всего полюбилась Shinka.

Что это такое, я попросил еще обяснить notebooklm и сделать видео-подкаст (да да сам удивлен что в 1 клик удобно сделали).

🔥3❤2👍1👎1

823 views14:12

Generative Ai

Forwarded from Технологии | Нейросети | Боты

0:58

This media is not supported in your browser

VIEW IN TELEGRAM

👍

Google мощно прокачали AI Studio.

Тут появились целые пресеты, с которыми готовое приложение можно создать в пару кликов:

— Выбираем, что подключить к проекту: Veo 3, Nano Banana, поиск, чат-бот и др;

— Пишем свой промпт или жмем "I’m Feeling Lucky", чтобы получить случайную идею проекта, которую сервис реализует;

— Ждем пару минут, чтобы Gemini сгенерил полноценную тулзу которую можно затестить и внести любые правки.

• Попробовать

#neural #нейросети

@aiaiai

Please open Telegram to view this post

VIEW IN TELEGRAM

👍2👎1

854 views20:45

Generative Ai

Forwarded from Machinelearning

⚡️ Glyph: масштабирование контекста через визуально-текстовую компрессию

В основе модели лежит простая идея : вместо того чтобы кормить модели километровый текст, Glyph превращает его в изображение и обрабатывает через vision-language модель.

Используется LLM-управляемый генетический алгоритм, чтобы подобрать наилучшие параметры визуального отображения текста (шрифт, плотность, макет), балансируя между сжатием и точностью.

Это радикально снижает вычислительные затраты, сохраняя при этом смысловую структуру текста.

При этом точность почти не падает: на задачах с длинным контекстом Glyph работает на уровне современных моделей вроде Qwen3-8B.

При экстремальном сжатии VLM с контекстом 128K может эффективно обрабатывать задачи, эквивалентные 1M+ токенов в традиционных LLM.

Фактически, длинный контекст становится мультимодальной задачей, а не чисто текстовой.

📄 Подробности: arxiv.org/abs/2510.17800

🧩 Веса: huggingface.co/zai-org/Glyph

👉 Репозиторий: github.com/thu-coai/Glyph

@ai_machinelearning_big_data

#AI #LLM #Multimodal #Research #DeepLearning

1👍3❤2🔥1

1.12K views17:46

Generative Ai

Forwarded from Neurogen (muzaffar)

OpenEnv

Meta и Hugging Face запустили отрытое сообщество и платформу для создания и обмена агентными средами

Агенты могут автономно выполнять тысячи задач, но как правило одной lm мало. Агентам нужен доступ к правильным инструментам, но предоставлять доступ к миллионам инструментов напрямую небезопасно и нерационально.

Решение: Агентные Среды

Агентные среды - это защищённые песочницы, которые определяют всё необходимое для выполнения задачи:
Инструменты и API - только то, что нужно для конкретной задачи
Безопасность - изолированное выполнение с гарантиями
Аутентификация - безопасный доступ к внешним сервисам
Чёткая семантика - понимание требований задачи

OpenEnv Hub интегрируется в новый пост-тренинговый стек от Meta вместе с библиотеками TRL, SkyRL и Unsloth.

Возможности для разработчиков:
✅Создавать и делиться средами, совместимыми с OpenEnv
✅Взаимодействовать с средами как человек-агент
✅Тестировать модели на решении задач в контролируемых условиях
✅Изучать доступные инструменты и структуру наблюдений

Спецификация и RFCs
Выпущена OpenEnv 0.1 Spec (RFC) для сбора отзывов сообщества. В разработке находятся:
RFC 001 - архитектура основных компонентов (Environment, Agent, Task)
RFC 002 - базовый интерфейс окружения, упаковка и изоляция
RFC 003 - поддержка MCP инструментов
RFC 004 - расширенная поддержка вызовов инструментов

Применение
RL пост-тренинг - обучение RL-агентов с TRL, TorchForge, VeRL
Создание сред - разработка и тестирование собственных окружений
Воспроизведение SOTA - репликация методов вроде Code World Model
Развёртывание - единая среда для тренировки и инференса

Интеграции
OpenEnv уже поддерживается:
TRL от Hugging Face
Unsloth
Lightning.AI

Ссылки на openenv
Hugging Face
GitHub репозиторий с примерами
Google Colab
обсуждение в Discord

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1🤯1

988 views18:05

Generative Ai

Forwarded from Библиотека баз данных

5:50

Media is too big

VIEW IN TELEGRAM

🔥 Hugging Face снова выкатили полезные материалы.

Вышел бесплатный плейбук о том, как изнутри строят SOTA-модели.

Без общих слов - только реальные решения и нюансы, которые обычно скрыты внутри исследовательских команд.

Это полноценный мастеркласс на 214 страниц для тех, кто хочет понимать, как устроены современные LLM.

Что внутри:
• Логика построения модели: зачем → что → как
• Как разработчики берут модель и по частям включают/выключают компоненты (или меняют их)
• Архитектура: ключевые выборы и trade-offs
• Искусство подбора и очистки данных
• Как проходит обучение моделей
• Пост-тренинг и RLHF в 2025
• Инфраструктура больших моделей

По первым страницам - уровень деталей как в Ultra-scale playbook.

Ссылка: https://huggingface.co/spaces/HuggingFaceTB/smol-training-playbook#designing-the-model-architecture

Видео: https://www.youtube.com/watch?v=LGzO-Mn0DJQ

#AI #LLM #MachineLearning #HuggingFace

@sql_lib - библиотека МЛ и ИИ книг

❤2👍2🔥2

1K views23:24

Generative Ai

Forwarded from Data Secrets

О, Гарвард опубликовал отличную книгу по ML-системам

Это не совсем обычный учебник по ML: акцент сделан не на моделях, а на инженерной стороне.

Тут найдете все про то, как строить, оптимизировать и поддерживать ML-решения на всех этапах – от данных и инфраструктуры до развёртывания и эксплуатации. Авторы объясняют, как связаны между собой алгоритмы, данные и железо, и почему одни пайплайны масштабируются, а другие ломаются под нагрузкой.

В общем, очень полезная и довольно редкая литература (особенно учитывая, что книга бесплатная). Забираем на долгие выходные.

pdf-ка и онлайн версия доступны здесь, репозиторий тут

1.19K views10:31

Generative Ai

Forwarded from LLM под капотом

Кейс с LLM под капотом - поиск видео для монтажа рекламы

Давайте расскажу вам еще про один кейс достаточно необычного использования LLM в продуктовых целях.

Итак, компания - это производитель популярной на рынке продукции, что-то вроде Red Bull. Они производят и публикуют очень много видео-рекламы. Для этого у них есть гигантская библиотека всякого рода заготовок - в виде отснятых в прошлом роликов или сгенерированных заставок.

Когда создается новый рекламный ролик, его обычно монтируют из старых и новых записей. Если чего-то подходящего в архивах нет, то приходится тратить время и ресурсы на запись нового. Либо можно подойти творчески и как-то интересно обыграть и обработать старую запись.

Соответственно, компании хочется, чтобы создатели новых роликов в компании могли лучше искать и переиспользовать существующий материал. Сейчас поиск работает немного похоже на Elastic Search - ролики помечаются тэгами и вручную “украшаются” свойствами с описаниями. Это долгая и муторная работа.

Команда реализации сначала сделала достаточно простую и очевидную вещь (пусть и дорогую, но всяко более дешевую, чем запись нового ролика) - они “скармливают” видео из архива в мощной LLM с video input и просят заполнить описание. Потом поиск ищет по этому описанию используя обычный векторный поиск и Query Expansion (когда просим LLM-ку “развернуть” запрос пользователя в нормальный запрос напрямую к БД, используя терминологию, в которой данные там проиндексированы).

Целевая метрика у компании - уменьшить количество времени, которое было потрачено на запись новых видео при монтаже рекламы.

А что тут можно сделать еще лучше?

(1) Начать со сбора данных - обвязать систему поиска интерфейсами так, чтобы можно было собирать телеметрию о том, какие результаты были использованы пользователями
(2) Построить пайплайн для извлечения структурированных данных о записи прошлых видео (какие видео люди искали, и какие элементы потом были использованы ими при монтаже). Благо все эти данные у них хранятся.
(3) Сделать так, чтобы разработчики могли быстро тестировать гипотезы и выкатывать их на проду с обратной связью, чтобы видеть - стали результаты поиска лучше или нет.

А дальше начинается самое интересное. Можно посмотреть на подход к реализации проекта “Кейс про агента-писателя” и переиспользовать подход к анализу оттуда в связке с идеей из кейса "про товары, которые невозможно найти". Пусть агент берет в качестве вводных данных не конкретное описание видео куска, а саму тему для рекламного ролика. И потом проходится по Schema-Guided Reasoning процессу:

(1) формулируем общую концепцию ролика
(2) ищем все потенциально подходящие ролики
(3) если нужно, прогоняем их через VLM с дополнительными запросами (эти метаданные сохраним в базе на будущее)
(4) прорабатываем outline финального ролика со скриптом и ссылками на ролики
(5) полуавтоматически “нарезаем” эти ролики прямо в timeline и грузим в проект для быстрого просмотра и редактирования

Тут две забавные вещи:
(1) Даже если человеку не понравится идея, он ее полностью выкинет и переделает, оставив только найденные материалы, то миссия уже выполнена. Целевая метрика - облегчить людям поиск подходящего видео.
(2) Эта концепция не нова. Ее уже используют в Amazon Prime для генерации кратких выжимок серий сериалов на платформе.

В принципе, команда и так уже двигалась в данном направлении, но им хотелось услышать независимое экспертное мнение и подтверждение того, что они двигаются правильно и не упустили какое-то секретное супер-решение. Плюс видение того, как можно контроллировать качество и развивать продукт дальше.

Ваш, @llm_under_hood 🤗

PS: Пост со списком всех кейсов

❤3

771 views12:12

Generative Ai

Forwarded from Neural Kovalskii

1:43:06

Media is too big

VIEW IN TELEGRAM

SGR Agent Core 0.4.0 + UI

Запись стрима!

YouTube
RuTube

Разработка агента для работы с корпоративным Confluence на базе SGR Agent Core 0.4.0 с использованием локальной модели Qwen3-30B на vLLM.

00:00:00 - Подготовка окружения
- Настройка OBS и серверов (Yandex Cloud + 2x4090(48гб))
- Развертывание vLLM с Qwen3-30B-A3B-Instruct

00:15:00 - Тестирование инфраструктуры
- Проверка работы Qwen через OpenWebUI (~86 tokens/sec)
- Настройка мониторинга GPU

00:27:00 - Настройка SGR Agent Core
- Клонирование репозитория на удаленный сервер
- Подключение через Cursor с SSH
- Конфигурация agents.yaml и config.yaml

00:38:00 - Первый запуск агента
- Тестирование базового SGR Tool Calling Agent
- Запрос цены биткоина - успешно ($96k)
- Разбор двухфазного reasoning

00:52:00 - Разработка Confluence toolkit
- Создание confluence_tools.py с Cursor AI
- Три инструмента: full_text_search, space_search, page_retrieval
- Фиксы с правами доступа

01:10:00 - Тестирование Agentic RAG
- Поиск информации о проекте Smart Platform
- Агент нашел страницы, извлек контент, создал отчет
- Всё без векторизации и чанкинга!

01:26:00 - Запуск фронтенда
- Установка Node.js, настройка портов
- Демонстрация веб-интерфейса

01:36:00 - Финальный тест
- Сравнительный анализ двух проектов
- Объяснение архитектуры решения

01:42:00 - Завершение
- Итог: рабочий агентный RAG за 1.5 часа
- "Когда-нибудь придумаю красивую концовку"

Стек: SGR Agent Core, vLLM, Qwen3-30B, Confluence REST API, Cursor AI, vLLM, guidance

Как результат Агент ищет в Confluence без традиционного RAG pipeline - никаких векторных БД, эмбеддингов и чанкинга!

❤1👍1🔥1

1.01K views13:16

Generative Ai

Forwarded from Инструменты программиста

SurfSense — это open‑source альтернатива NotebookLM, Perplexity и Glean: AI‑агент для исследований, который подключается к вашим личным источникам (поисковые движки, Slack, Linear, Jira, ClickUp, Confluence, Notion, Gmail, YouTube, GitHub, Discord, Airtable, Google Calendar, Luma, Elasticsearch и другие).

Для тех, кто проспал последний год, NotebookLM — это сервис Google, где вы загружаете свои документы, и AI (Gemini) помогает вам суммировать, отвечать на вопросы, создавать FAQ, учебные материалы и подкасты, опираясь только на ваши источники.

Что делает SurfSense:
🟣 Поддерживает 100+ LLM (включая локальные Ollama) и 6000+ моделей эмбеддингов.
🟣 Продвинутый RAG: иерархические индексы (2‑уровневый), гибридный поиск (семантический + полнотекстовый), ранжирование (Pinecone, Cohere, Flashrank).
🟣 Подкаст‑агент: создаёт 3‑минутный подкаст менее чем за 20 секунд, поддерживает локальные TTS (Kokoro) и облачных провайдеров.
🟣 Поддержка 50+ форматов файлов (PDF, DOCX, видео, аудио, email и т.д.).
🟣 Self‑hostable: можно поднять через Docker Compose или вручную.

Быстрый старт:
🟣 git clone https://github.com/MODSetter/SurfSense
🟣 Скопируйте .env.example в .env, добавьте API‑ключи (OpenAI, Tavily и т.д.).
🟣 docker compose up -d
🟣 Откройте http://localhost:3000

Где попробовать:
GitHub: https://github.com/MODSetter/SurfSense
Сайт: https://surfsense.com
Discord: https://discord.gg/ejRNvftDp9

Технический стек: FastAPI, PostgreSQL (pgvector), LangGraph, LangChain, Celery, Redis, Next.js 15, React 19, TypeScript, Docker.

@prog_tools

1:57

Media is too big

VIEW IN TELEGRAM

🔥2

926 views10:39

Generative Ai

Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)

0:50

This media is not supported in your browser

VIEW IN TELEGRAM

Introducing SAM 3D: Powerful 3D Reconstruction for Physical World Images

Ничего себе! Метачка разродилась целым набором проектов.

Meta Segment Anything Model 3 - с кодом, весами, датасетами и кодом для файнтюна. Видео-сегментация и композ.

Segment Anything Playground - это демо для всех этих проектов, пока работает быстро и даже без регистрации.

И наконец: SAM 3D: Powerful 3D Reconstruction for Physical World Images

И вот это уже прям 3Д-генератор.

Там есть две модели. SAM 3D Objects для реконструкции объектов и сцен, и SAM 3D Body для оценки тела и формы человека.

На входе фото, на выходе 3Д. Чем не 3Д-генератор.

Причем 3Д-болваны получаются сразу со скелетом.

Они так и пишут про целевую аудиторию: 3Д моделинг, VR\AR, геймдев.

Я думаю, что не стоит ждать прям высокополигональных деталей, это больше про 3D reconstructions, но надо разбираться.

Тьма ссылок, посмотрите хотя бы видосы, это новый уровень.

https://ai.meta.com/blog/sam-3d/

https://ai.meta.com/blog/segment-anything-model-3/

Демо-плейграунд:
https://www.aidemos.meta.com/segment-anything
(там есть и обычное вырезание объектов по видео)

Кодищще:
https://github.com/facebookresearch/sam3

Статья: SAM 3: Segment Anything with Concepts
https://ai.meta.com/research/publications/sam-3-segment-anything-with-concepts/

@cgevent

👍3

927 views20:27

Generative Ai

Forwarded from Data Secrets

⚡️

Иии… Anthropic выпустили Claude Opus 4.5

Это первая модель, которая пробила планку 80 на SWE bench verified. С ее 80.9% это теперь уверенная SOTA по кодингу.

Модель уже доступна в API, и, что самое приятное, цена относительно предыдущего Opus упала! Было 15$/75$, стало 5/25, ощутимое понижение.

Плюс, модель снова стала экономичнее относительно токенов: на среднем уровне ризонинга она достигает уровня Sonnet 4.5, используя на 76% меньше токенов. А при выкрученном на максимум бюджете обходит Sonnet аж на 4.3 процентных пункта (SWE bench), используя на 48% меньше токенов.

Anthropic пишут, что скормили Opus 4.5 внутренний экзамен, который они дают кандидатам при устройстве на работу. За 2 часа модель справилась с ним лучше, чем любой человек когда-либо в истории стартапа.

Что касается апдейтов в продукте:

– В Claude App добавили сжатие контекста, как в новом Codex. При достижении лимита старый контекст суммаризуется и передается в новое контекстное окно, и вы не упираетесь в конец диалога. Кроме того, теперь в десктопное приложение завезли Claude Code, и там его можно параллелить на разные задачки.

– Из беты вышли Claude для Chrome и для Excel.

– Теперь можно самостоятельно контролировать время размышлений, есть режимы low, high и medium.

🔥 www.anthropic.com/news/claude-opus-4-5

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

1.17K views23:00

Generative Ai

Forwarded from Neural Kovalskii

Лучшие практики и подходы для RAG
(буду наполнять)

Очередной раз спросили в чате канала что почитать про RAG (https://news.1rj.ru/str/neuraldeepchat)

Соберем тут все лучшее присылайте и ваши статьи и разборы

Тут материалы предыдущих ответов

1) https://news.1rj.ru/str/neuraldeepchat/3176
2) https://news.1rj.ru/str/neuraldeepchat/2953

1) Чанкование (sliding window) можно подглядеть концепты от langchain

2) Векторные бд от pgvector до qdrant можно начать с chroma (IVF_Flat или HNSW)

3) Векторные модели для ру
ai-sage/Giga-Embeddings-instruct
ai-forever/FRIDA
BAAI/bge-m3
intfloat/multilingual-e5-large
Qwen3-Embedding-8B

4) Реранкер после KNN сделать доп ранжирование
BAAI/bge-reranker-v2-m3
Qwen3-Reranker-8B

5) LLM + vLMM (база qwen-2.5-7b-instruct)
RefalMachine/RuadaptQwen2.5-14B-Instruct
t-tech/T-lite-it-1.0
t-tech/T-pro-it-2.0

Agentic RAG(Qwen3-30B-A3B-Instruct-2507)
РЕПО(https://github.com/vamplabAI/sgr-agent-core/tree/tool-confluence)

Презентация от Дяди
Построение RAG систем от исследований до индустрии

Хорошо описанные подходы от Богдана
https://news.1rj.ru/str/bogdanisssimo/2047

Лучшее решение РАГ по документации от Ильи(@IlyaRice) которое выиграло первое место на ERC2
https://github.com/IlyaRice/RAG-Challenge-2/tree/main

Готовые фреймворки одобренные нашим сообществом
https://github.com/langgenius/dify/
https://github.com/Marker-Inc-Korea/AutoRAG
https://github.com/run-llama/llama_index
https://github.com/mastra-ai/mastra

Кейс red_mad_robot по RAG (DCD) для строительной компании (t-lite)
https://habr.com/ru/companies/redmadrobot/articles/892882/

#RAG
#best_rag_practice

Сохраняй в избранное чтобы не потерять

Чат Kovalskii Варианты?

Ask about ALL
Чат канала @neuraldeep
Kovalskii на все ответит!

Никакой политики
Мат, первое предупреждение, потом бан

Уважайте друг друга

Реклама/Вакансии/Рефы через @VaKovaLskii или @mixaill76

🔥4👍1

1.34K views19:49

About

Blog

Apps

Platform