Forwarded from XOR
Сеньор-инженер из Google выпустил 400-страничный (!) гайд по архитектурным паттернам для AI-агентов — Agentic Design Patterns.
Внутри как правильно строить промпты, параллелить задачи, Также есть практические примеры с кодом, разбор MCP и многое другое.
Забираем🫡
@xor_journal
Внутри как правильно строить промпты, параллелить задачи, Также есть практические примеры с кодом, разбор MCP и многое другое.
Забираем
@xor_journal
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7🔥1
Forwarded from Data Secrets
Sakana AI сделали опенсорсный аналог AlphaEvolve – ShinkaEvolve
Это фреймворк для оптимизации и разработки сложных алгоритмов и архитектур. И, так как Sakana везде пытаются применять идеи эволюции (см этот пост со списком их статей), здесь без этого тоже не обошлось. «Shinka» (進化) с японского и есть "эволюция".
Работает это как нечто среднее между обычным генетическим алгоритмом и LLM-ным поиском по дереву:
Оставшихся прогоняем через оценщика и лучших добавляем в архив. А дальше – все с начала. Кстати, в архиве есть «острова» (несколько независимых популяций). Если система совсем встает в тупик и разнообразие решений начинает падать – можно осуществить между ними миграцию. Интересный инженерный ход.
Тестировали в четырех разничных областях. Результаты занятные:
1. На задаче математической оптимизации всего за 150 сэмплов система вывела новое решение для задачи Circle Packing, превосходящее аналогичные подходы.
2. При проектировании ИИ-агента за ~75 поколений фреймворк "изобрел" трехчастную архитектуру, которая побила бейзлайн на AIME.
3. На задачках из спортивного программирования система добавила много полезных оптимизаций, и в итоге дотянула до уровня серебрянного медалиста.
4. И еще проверяли, насколько хорошо ShinkaEvolve сможет обучить другую LLM. Это самое интересное: примерно 30 поколений система билась с лоссом для MoE, и внезапно вывела функцию потерь, которая по эффективности превзошла многие популярные решения.
И главное: в отличие от AlphaEvolve воспользоваться фреймворком можно прямо сейчас и бесплатно. Код вот тут. Просто переписываете
Это фреймворк для оптимизации и разработки сложных алгоритмов и архитектур. И, так как Sakana везде пытаются применять идеи эволюции (см этот пост со списком их статей), здесь без этого тоже не обошлось. «Shinka» (進化) с японского и есть "эволюция".
Работает это как нечто среднее между обычным генетическим алгоритмом и LLM-ным поиском по дереву:
1. Система получает на вход Seed-программу и верификатор, который считает метрики качества (фитнес). На каждом шаге свежие полученные скрипты добавляются в единый архив (это наш "банк" родителей).
2. LLM тут выступает мутационным оператором: на каждом шаге из банка берутся один или два родителя, и модель предлагает какие-то изменения в их коде в одном из определенных режимов: diff-патч поверх родителя, полная перезапись, кроссовер (смешивание идей из двух программ). Кстати, LLM выбирается не всегда одна и та же: есть специальный многорукий бандит, который смотрит, кто чаще приносит улучшения на данном типе задач при приемлемой цене, и подстраивает приоритеты.
3. Полученных кандидатов прогоняют через верификатор, но сначала они проходят дополнительный фильтр novelty-rejection. Считаются эмбеддинги программы, проверяется похожесть на архив. Слишком похожие идеи отбраковываются ещё до рассчета метрик, это резко экономит время и деньги.
Оставшихся прогоняем через оценщика и лучших добавляем в архив. А дальше – все с начала. Кстати, в архиве есть «острова» (несколько независимых популяций). Если система совсем встает в тупик и разнообразие решений начинает падать – можно осуществить между ними миграцию. Интересный инженерный ход.
Тестировали в четырех разничных областях. Результаты занятные:
1. На задаче математической оптимизации всего за 150 сэмплов система вывела новое решение для задачи Circle Packing, превосходящее аналогичные подходы.
2. При проектировании ИИ-агента за ~75 поколений фреймворк "изобрел" трехчастную архитектуру, которая побила бейзлайн на AIME.
3. На задачках из спортивного программирования система добавила много полезных оптимизаций, и в итоге дотянула до уровня серебрянного медалиста.
4. И еще проверяли, насколько хорошо ShinkaEvolve сможет обучить другую LLM. Это самое интересное: примерно 30 поколений система билась с лоссом для MoE, и внезапно вывела функцию потерь, которая по эффективности превзошла многие популярные решения.
И главное: в отличие от AlphaEvolve воспользоваться фреймворком можно прямо сейчас и бесплатно. Код вот тут. Просто переписываете
evaluate.py под вашу задачу, кладете initial.py и запускаете shinka_launch variant=experiment_name. Подробная инструкция тут.❤5👎1
Forwarded from эйай ньюз
Claude Sonnet 4.5
GPT-5 Codex уже побыла лучшей моделью для кодинга уже целых две недели, так что пришло время для нового лидера. Клода ещё больше прокачали в кодинге и агентных тасках, где видно достаточно сильный прирост по бенчам. Цену сохранили прежнюю, Anthropic всё ещё упорно отказывается сбрасывать цены, в отличие от всех конкурентов.
По заявлениям Anthropic, новый Sonnet может автономно работать над задачей до 30 часов, предыдущий рекорд — 7 часов. Я не уверен как именно это измеряют, поэтому конкретно к этой части отношусь скептично.
Вместе с моделью обновили Claude Code до версии 2.0. Теперь Claude Code делает чекпоинты кодбазы перед каждым изменением, так что их можно легко откатить. Кроме этого обновили интерфейс и сделали расширение для VS Code. И наконец-то добавили возможность видеть оставшиеся лимиты использования моделей.
@ai_newz
GPT-5 Codex уже побыла лучшей моделью для кодинга уже целых две недели, так что пришло время для нового лидера. Клода ещё больше прокачали в кодинге и агентных тасках, где видно достаточно сильный прирост по бенчам. Цену сохранили прежнюю, Anthropic всё ещё упорно отказывается сбрасывать цены, в отличие от всех конкурентов.
По заявлениям Anthropic, новый Sonnet может автономно работать над задачей до 30 часов, предыдущий рекорд — 7 часов. Я не уверен как именно это измеряют, поэтому конкретно к этой части отношусь скептично.
Вместе с моделью обновили Claude Code до версии 2.0. Теперь Claude Code делает чекпоинты кодбазы перед каждым изменением, так что их можно легко откатить. Кроме этого обновили интерфейс и сделали расширение для VS Code. И наконец-то добавили возможность видеть оставшиеся лимиты использования моделей.
@ai_newz
Forwarded from эйай ньюз
Sora 2: Новая SOTA и AI-TikTok
Sora 2 вышла и, похоже, это новая SOTA. Хотя чем дальше развиваются видеомодели, тем меньше становятся различия между ними. Как и в прошлый раз, Sora вышла с опозданием — после Veo 3 и Kling 2.5 она уже не вызывает такого вау-эффекта. Интересно, что будет на практике и как у неё с пониманием промпта.
Чтобы привнести хоть какую-то инновацию, OpenAI выкатили отдельное приложение для Sora — по сути, свой генеративный TikTok. Кто такое будет смотреть, не совсем понятно, хотя ленты и так уже наполовину генеративные. Вместе с этим челы переизобрели Elements, которые уже почти год являются стандартом индустрии. Но здесь обещают большую консистентность и, что действительно ново, — генерацию голоса. Теперь можно создать полноценного AI-аватара, который ходит по кадру, а не просто говорящую голову. На стриме сказали, что работает с животными и предметами, правда, там же ещё сказали, что в целях безопасности нужно будет пройти серию испытаний. Интересно, как очередной продукт с WB будет зачитывать аудиокод.
Качество генераций в черри-пиках, конечно, бомбическое: физика на уровне, картинка крайне реалистичная — полноценный ответ Veo 3. Но во время теста с аватаром Сэма на стриме лицо всё ещё выглядело жутковато. Зловещую долину пока не перешагнули. Возможно, дело в мешках под глазами Сэма, который, видимо, не спит и пилит AGI.
Судя по промо-роликам, в датасете было очень много видео, снятых на телефон. Может, поэтому и решили сделать AI-соцсеть? Видео выглядят более реалистично, но как у них с киношностью — большой вопрос.
Хигсфилд уже открыли вейтлист пишут, что Sora генерит видео в 1080p (там же правда, видео от комьюнити для презентации, но почему-то от wan 2.2). Если это идёт вкупе с хорошей физикой и коллизиями, и есть шанс, что Sora слушается промпта так же хорошо, как Veo, то это, конечно, разнос. Однако упор OpenAI в продуктовость настораживает, для них это нехарактерно.
Скачать Sora App можно будет уже сегодня, но только на iOS в США и Канаде. Схема доступа: сначала вейтлист, затем можно пригласить 4 друзей.
@ai_newz
Sora 2 вышла и, похоже, это новая SOTA. Хотя чем дальше развиваются видеомодели, тем меньше становятся различия между ними. Как и в прошлый раз, Sora вышла с опозданием — после Veo 3 и Kling 2.5 она уже не вызывает такого вау-эффекта. Интересно, что будет на практике и как у неё с пониманием промпта.
Чтобы привнести хоть какую-то инновацию, OpenAI выкатили отдельное приложение для Sora — по сути, свой генеративный TikTok. Кто такое будет смотреть, не совсем понятно, хотя ленты и так уже наполовину генеративные. Вместе с этим челы переизобрели Elements, которые уже почти год являются стандартом индустрии. Но здесь обещают большую консистентность и, что действительно ново, — генерацию голоса. Теперь можно создать полноценного AI-аватара, который ходит по кадру, а не просто говорящую голову. На стриме сказали, что работает с животными и предметами, правда, там же ещё сказали, что в целях безопасности нужно будет пройти серию испытаний. Интересно, как очередной продукт с WB будет зачитывать аудиокод.
Качество генераций в черри-пиках, конечно, бомбическое: физика на уровне, картинка крайне реалистичная — полноценный ответ Veo 3. Но во время теста с аватаром Сэма на стриме лицо всё ещё выглядело жутковато. Зловещую долину пока не перешагнули. Возможно, дело в мешках под глазами Сэма, который, видимо, не спит и пилит AGI.
Судя по промо-роликам, в датасете было очень много видео, снятых на телефон. Может, поэтому и решили сделать AI-соцсеть? Видео выглядят более реалистично, но как у них с киношностью — большой вопрос.
Хигсфилд уже открыли вейтлист пишут, что Sora генерит видео в 1080p (там же правда, видео от комьюнити для презентации, но почему-то от wan 2.2). Если это идёт вкупе с хорошей физикой и коллизиями, и есть шанс, что Sora слушается промпта так же хорошо, как Veo, то это, конечно, разнос. Однако упор OpenAI в продуктовость настораживает, для них это нехарактерно.
Скачать Sora App можно будет уже сегодня, но только на iOS в США и Канаде. Схема доступа: сначала вейтлист, затем можно пригласить 4 друзей.
@ai_newz
❤1👎1
Forwarded from XOR
Anthropic опубликовали бесплатный гайд, как выжать из ИИ-агентов максимум
Спойлер — всё дело в эффективном контекст-инженеринге: надо правильно структурировать, задавать агенту роль, дробить задачи. Внутри много советов по работе и примеров.
Вайбкодеры, сохраняем☕️
@xor_journal
Спойлер — всё дело в эффективном контекст-инженеринге: надо правильно структурировать, задавать агенту роль, дробить задачи. Внутри много советов по работе и примеров.
Вайбкодеры, сохраняем
@xor_journal
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
Позволяет создать нативные приложенийяпрямо внутри ChatGPT.
Идея простая: теперь не нужно выходить из ChatGPT, чтобы делать привычные вещи.
Можно прямо в чате работать с дизайном в Figma, создавать презентации в Canva, искать жильё на Booking или смотреть курсы на Coursera — всё в одном окне.
Платформа поддерживает авторизацию, оплату и подключение внешних сервисов,
а значит, ChatGPT становится центром, где совмещаются ИИ, приложения и автоматизация задач.
Скоро разработчики (вайбкодеры) смогут добавлять свои приложения и зарабатывать на них через ChatGPT SDK.
По сути это убийца n8n и Zapier.
Это интуитивно понятный**визуальный конструктор**, где можно создавать своих ИИ-агентов без единой строчки кода.
Просто перетаскиваешь блоки, подключаешь MCP и ChatKit — и агент сам ищет файлы, анализирует данные и выполняет задачи.
Инструмент уже доступен всем.
OpenAi умеют в дизайн, должно быть удобно.
Можно уже попробовать: https://platform.openai.com/agent-builder
Вышел из беты, получил интеграцию со Slack и собственный SDK.
На демо агент управлял светом и экраном голосом - без кода.
На презентации заявили, что теперь почти весь их код пишется с помощью Codex
Благодаря Codex разработчики OpenAI стали отправлять на 70% больше pull-request’ов в неделю, чем раньше.
Теперь у кодекса появляется интеграция со Slack и SDK, чтобы разработчики могли встраивать его в свои рабочие процессы.
Прямо в эфире Codex написал код для управления камерой, сам собрал интерфейс и **запустил готовое при
$15 за ввод и $120 за вывод за 1M токенов
Gpt-realtime-mini - на 70% дешевле, подходит для мгновенных ответов и потоковых задач
Можно будет генерировать видео прямо из кода
PS: Agent Builder выглядит действительно интересно - интуитивный, гибкий, инструмент с большим потенциало
м.
А вот насколько полезными окажутся приложения внутри ChatGPT, не особо понятно.
OpenAI не боится экспериментировать.
Они развивают ChatGPT как платформу, ищут
новые варианты захвата рынка и пробуют смелые идеи. Это дорогого стоит.
Их интерфейс просто топ: минимализм, аккуратность, почти в духе Apple. UX - на уровне искусства.
У OpenAI уже более 800 млн активных пользователей в неделю и они обрабатывают 6 миллиардов токенов в минуту!
К концу года число пользователей, похоже, вплотную подойдёт к 1 миллиарду.
Но гонка только начинается.
Google явно готовит ответ - Gemini 3 обещает быть топом. Другие игроки тоже не дремлют.
@ai_machinelearning_big_data
#openai #chatgpt #llm #ml #ai
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1👍1🔥1
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
Создание AI-агентов становится одной из самых востребованных профессий на рынке.
Теперь вы можете научиться этом на курсе.
Курс научит вас реализовывать четыре ключевых паттерна дизайна агентов:
- Reflection - как агент анализирует свои ответы и улучшает их
- Tool use - модель выбирает, какие инструменты использовать (поиск, почта, календарь, код и т.д.)
- **Planning**- ИИ планирует и разбивает задачу на подзадачи
- Multi-agent collaboration - взаимодействие нескольких агентов, как сотрудников в команде
Andrew Ng делает акцент на оценке (evals) и анализе ошибок - ключевых навыках для успешной отладки агентных систем.
В курсе есть практика, где можно создадите deep research-агента, который умеет искать, синтезировать и формировать отчёты, применяя все эти паттерны.
- Все уроки и код на Python
- Очень подробно и пошагало объяснены все вунтренности
- В курсе рассматриваются для самые популярные фреймворками для создания ИИ агентнов
Требование для учащихся - базовые знания Python
@ai_machinelearning_big_data
#AI #AgenticAI #AndrewNg #DeepLearningAI #AIagents
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3👍3🔥2
Forwarded from Нейронавт | Нейросети в творчестве
Tiny Recursive Model (TRM)
Samsung придумал новую архитектуру рекурсивного мышления для построения языковых моделей, которая при размере всего 7М параметров (!!!) — оказалась круче DeepSeek-R1, Gemini 2.5 Pro и o3-mini в тестах на логику и мышление.
Работает так:
1. Делает первый черновой ответ.
2. Думает над ним внутри себя.
3. Проверяет и исправляет свои мысли.
4. Перерабатывает ответ, чтобы он был точнее.
5. Повторяет, пока не будет уверен в своем решении.
* Маленькая: всего 7 миллионов параметров, это в 10 000 раз меньше, чем у современных LLM
* Эффективная: работает лучше больших моделей, но требует меньше ресурсов.
* Логика важнее всего: TRM показывает, что хорошая архитектура важнее объема данных.
* Доступная: может работать на слабых устройствах, не нужны мощные сервера.
Неплохо, в следующем году будем пользоваться модельками уровня DeepSeek локально на телефоне?
Гитхаб
Препринт
#research #llm #TRM
Samsung придумал новую архитектуру рекурсивного мышления для построения языковых моделей, которая при размере всего 7М параметров (!!!) — оказалась круче DeepSeek-R1, Gemini 2.5 Pro и o3-mini в тестах на логику и мышление.
Работает так:
1. Делает первый черновой ответ.
2. Думает над ним внутри себя.
3. Проверяет и исправляет свои мысли.
4. Перерабатывает ответ, чтобы он был точнее.
5. Повторяет, пока не будет уверен в своем решении.
* Маленькая: всего 7 миллионов параметров, это в 10 000 раз меньше, чем у современных LLM
* Эффективная: работает лучше больших моделей, но требует меньше ресурсов.
* Логика важнее всего: TRM показывает, что хорошая архитектура важнее объема данных.
* Доступная: может работать на слабых устройствах, не нужны мощные сервера.
Неплохо, в следующем году будем пользоваться модельками уровня DeepSeek локально на телефоне?
Гитхаб
Препринт
#research #llm #TRM
👎4🤯3
Forwarded from Neurogen (muzaffar)
This media is not supported in your browser
VIEW IN TELEGRAM
OpenAI выпустили недавно гайд по промптингу Sora 2. Нашел для вас готовый, собранный шаблон, по сути главный и самый лучший.
Свое видео сгенерированное по шаблону прикрепил к посту
Шаблон
Мой промпт к видео в посте:
И вот вам еще один сайт на котором можно получить код https://formbiz.biz/
Гайд по промпту
Свое видео сгенерированное по шаблону прикрепил к посту
Шаблон
[Prose scene denoscription in plain language. Describe characters, costumes, scenery, weather and other details. Be as denoscriptive to generate a video that matches your vision.]
Cinematography:
Camera shot: [framing and angle, e.g. wide establishing shot, eye level]
Mood: [overall tone, e.g. cinematic and tense, playful and suspenseful, luxurious anticipation]
Actions:
- [Action 1: a clear, specific beat or gesture]
- [Action 2: another distinct beat within the clip]
- [Action 3: another action or dialogue line]
Dialogue:
[If the shot has dialogue, add short natural lines here or as part of the actions list. Keep them brief so they match the clip length.]
Мой промпт к видео в посте:
[Prose scene denoscription in plain language]
A young woman stands on the rooftop of a neon-lit Tokyo building at night. Her silver jacket reflects the glow of digital billboards, and rain gently falls around her. The city stretches infinitely below — cars, lights, and holographic ads painting the skyline. Steam rises from nearby vents as wind blows strands of her wet hair across her face.
Cinematography:
Camera shot: Medium close-up, slowly dolly out to reveal the cityscape behind her.
Mood: Cinematic and melancholic, with a sense of quiet determination.
Actions:
She looks down at a glowing holographic wrist display, scanning incoming data.
She exhales, closes her eyes briefly, and lifts her head toward the horizon.
She whispers softly, “It’s time.”
Dialogue:
“It’s time.”
И вот вам еще один сайт на котором можно получить код https://formbiz.biz/
Гайд по промпту
Forwarded from Life2film
На той неделе решил поучаствовать в конкурсе - https://wundernn.io - предсказания для алгоритмической высокочастотной торговли на биржах. (В датасете нет подробностей что за данные и тп, просто рандомные названия для 32 сталбцов)
И добился для себя офигенных результатов!
Из 2000 участников уже 11…
А было вначале 200, потом 150, 140, 80, 40, 15, 11…
Чем ближе тем выше спортивный интерес))
Я использую для себя новые подходы, изучаю нейронки для предсказания на timeseries данных.
Если интересно, то за основу взял эту архитектуру… и ее развивал, ансамбли и тп.
https://github.com/ditschuk/pytorch-tsmixer
пытался более мощные и новые, типа этой https://github.com/SamsungSAILMontreal/TinyRecursiveModels
но пока из старичков хочу выжать…
Тк ограниченные условия:
1. Решение в архиве zip не более 20мб!
2. Время выполнения на 1 цпу не более часа…
И это жестко все ограничивает, но и делает интересным решением.
В итоге получаются нейронки небольшие которые на цпу могут предсказывать рынок!)
PS. Но подробности уже после конкурса 1 декабря, после результатов.
И добился для себя офигенных результатов!
Из 2000 участников уже 11…
А было вначале 200, потом 150, 140, 80, 40, 15, 11…
Чем ближе тем выше спортивный интерес))
Я использую для себя новые подходы, изучаю нейронки для предсказания на timeseries данных.
Если интересно, то за основу взял эту архитектуру… и ее развивал, ансамбли и тп.
https://github.com/ditschuk/pytorch-tsmixer
пытался более мощные и новые, типа этой https://github.com/SamsungSAILMontreal/TinyRecursiveModels
но пока из старичков хочу выжать…
Тк ограниченные условия:
1. Решение в архиве zip не более 20мб!
2. Время выполнения на 1 цпу не более часа…
И это жестко все ограничивает, но и делает интересным решением.
В итоге получаются нейронки небольшие которые на цпу могут предсказывать рынок!)
PS. Но подробности уже после конкурса 1 декабря, после результатов.
👍2🔥2
Forwarded from Russian OSINT
This media is not supported in your browser
VIEW IN TELEGRAM
С помощью технологии DeepSeek OCR мы извлекли все наборы данных из таблиц и диаграмм, содержащихся в более чем 500 000 научных работ по искусственному интеллекту на портале arXiv. Затраты на реализацию проекта составили 1000 долларов США.
Теперь вы можете отслеживать наиболее актуальные бенчмарки и находить наборы данных, о существовании которых ранее не было известно.
Для сравнения: выполнение аналогичной задачи с использованием технологии Mistral OCR обошлось бы в 7500 долларов США
На следующей неделе мы опубликуем набор данных статей arXiv в формате markdown, обработанных с помощью DeepSeek OCR.
Создан, чтобы предоставить преподавателям LLM высококачественный предварительный учебный ресурс, который не нагружает серверы arXiv ботами для сбора данных.
Посмотрите наши наборы данных и бенчмарки, проиндексированные DeepSeek OCR:
https://www.alphaxiv.org/?datasets=true
— делятся впечатлениями alphaXiv.
Особенность DeepSeek OCR в том, что технология не читает текст традиционным способом, а как бы фотографирует его, превращая в компактное изображение, затем анализирует изображение. Такой подход позволяет ИИ-решениям обрабатывать огромные объемы документов намного эффективнее. Главное новшество это способность сжимать текстовую информацию в 10, а иногда и в 20 раз. Модель преобразует тысячи текстовых токенов в несколько сотен визуальных токенов. Таким образом, снижается вычислительная нагрузка при обработке длинных документов, позволяя ИИ анализировать контекст быстрее и дешевле.
DeepSeek OCR умеет не просто распознавать текст, но и проводить глубокий синтаксический анализ, а также извлекать структурированную информацию из сложных элементов, таких как:
https://github.com/deepseek-ai/DeepSeek-OCR
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5
Forwarded from Поляков считает: AI, код и кейсы
SGR-паттерн: как заставить маленькие модели работать как большие
В конце августа 2025 Валерий Ковальский (автор канала NeuralDeep) запилил готовую либу для SGR-паттерна на GitHub. Репозиторий быстро собрал звезды и оброс контрибьюторами — теперь его упоминают даже в самых неожиданных местах.
Сам Валерий считает, что на базе этого подхода появятся стартапы на миллион долларов. И я с ним соглашусь: если даже на банальном Structured Output по всему миру уже заработаны миллионы, то SGR открывает ещё больше возможностей.
🔍 Боль разработчиков: когда LLM пропускает шаги
Обычно нам недостаточно просто текста от модели. Нужно, чтобы она выполняла задачи: вызывала функцию расчета, искала в интернете или уточняла запрос у пользователя.
Привычные паттерны вроде ReAct это делают, но есть проблема: на маленьких моделях они пропускают шаги. Модель может не вызвать нужный инструмент, хотя должна была. На больших моделях это тоже бывает, но реже.
Хуже всего то, что это ломает пользовательский опыт. Разработчикам приходится городить костыли, а решения получаются слабыми и некрасивыми.
📊 Конкретные цифры провала Function Calling
Вот реальные данные из бенчмарка BFCL для семейства Qwen3 в режиме Agentic Web Search (когда модель сама решает, вызывать ли инструмент):
🔸 Qwen3-8B: только 15% точности
🔸 Qwen3-4B: всего 2% точности
🔸 Qwen3-1.7B: лишь 4.5% точности
Даже при нативной поддержке Function Calling маленькие модели не понимают, когда нужно вызывать инструменты. Типичный результат: {"tool_calls": null, "content": "Текст вместо вызова функции"}.
⚡ Как SGR решает проблему
SGR фактически разделяет два этапа: reasoning (рассуждения) и execution (исполнение).
На этапе reasoning модель через Structured Output жёстко описывает, какие инструменты нужно вызвать и почему. Затем эти инструменты вызываются программно, без участия LLM.
Такой подход формализует бизнес-логику вызова инструментов и делает эту задачу удобной для отладки. Все шаги рассуждений видны, проверяемы и воспроизводимы.
🛠️ Готовая библиотека от комьюнити
Репозиторий SGR Deep Research — это не просто концепция, а готовая система с OpenAI-совместимым API. Можно отнаследоваться от BaseTool и передать свой кастомный набор инструментов в параметре toolkit агенту.
В либе реализовано 5 типов агентов: от чистого SGR до гибридных подходов с Function Calling. Есть поддержка стриминга, прерывания агента для уточнений и автоматическое сохранение отчетов.
🔐 Концепция гарантирующих паттернов
SGR можно назвать гарантирующим паттерном в работе с LLM. В данном случае он гарантирует вызов определённого инструмента даже на маленьких моделях.
Structured Output — тоже гарантирующий паттерн, но другой: он гарантирует, что ответ будет в чёткой структуре и полноте.
Это не альтернативы, а комплементарные техники. SGR использует SO для этапа рассуждений, а затем добавляет детерминированное исполнение.
🚀 Пушка для локальных моделей
Особенно важен SGR для локальных моделей, которые работают на приватных серверах. Они менее "умные" чем облачные GPT-5 или Claude Sonnet 4, но SGR помогает компенсировать это ограничение.
Если материал оказался полезным — ставьте реакции, пишите комментарии.
---
🔗 Оригинальная концепция SGR: https://abdullin.com/schema-guided-reasoning/
🔗 Репозиторий SGR Deep Research: https://github.com/vamplabAI/sgr-deep-research
----
Поляков считает — про ИИ, рекламу и аналитику.
В конце августа 2025 Валерий Ковальский (автор канала NeuralDeep) запилил готовую либу для SGR-паттерна на GitHub. Репозиторий быстро собрал звезды и оброс контрибьюторами — теперь его упоминают даже в самых неожиданных местах.
Сам Валерий считает, что на базе этого подхода появятся стартапы на миллион долларов. И я с ним соглашусь: если даже на банальном Structured Output по всему миру уже заработаны миллионы, то SGR открывает ещё больше возможностей.
💡 Проблема: я всё чаще встречаю, как SGR путают с альтернативой Structured Output. Это не так. Давайте разберемся, в чем реальный прорыв технологии.
🔍 Боль разработчиков: когда LLM пропускает шаги
Обычно нам недостаточно просто текста от модели. Нужно, чтобы она выполняла задачи: вызывала функцию расчета, искала в интернете или уточняла запрос у пользователя.
Привычные паттерны вроде ReAct это делают, но есть проблема: на маленьких моделях они пропускают шаги. Модель может не вызвать нужный инструмент, хотя должна была. На больших моделях это тоже бывает, но реже.
Хуже всего то, что это ломает пользовательский опыт. Разработчикам приходится городить костыли, а решения получаются слабыми и некрасивыми.
📊 Конкретные цифры провала Function Calling
Вот реальные данные из бенчмарка BFCL для семейства Qwen3 в режиме Agentic Web Search (когда модель сама решает, вызывать ли инструмент):
🔸 Qwen3-8B: только 15% точности
🔸 Qwen3-4B: всего 2% точности
🔸 Qwen3-1.7B: лишь 4.5% точности
Даже при нативной поддержке Function Calling маленькие модели не понимают, когда нужно вызывать инструменты. Типичный результат: {"tool_calls": null, "content": "Текст вместо вызова функции"}.
⚡ Как SGR решает проблему
SGR фактически разделяет два этапа: reasoning (рассуждения) и execution (исполнение).
На этапе reasoning модель через Structured Output жёстко описывает, какие инструменты нужно вызвать и почему. Затем эти инструменты вызываются программно, без участия LLM.
Такой подход формализует бизнес-логику вызова инструментов и делает эту задачу удобной для отладки. Все шаги рассуждений видны, проверяемы и воспроизводимы.
🎯 Буст точности 5-10% — это стандартный результат для SGR. А на маленьких моделях разница ещё выше.
🛠️ Готовая библиотека от комьюнити
Репозиторий SGR Deep Research — это не просто концепция, а готовая система с OpenAI-совместимым API. Можно отнаследоваться от BaseTool и передать свой кастомный набор инструментов в параметре toolkit агенту.
В либе реализовано 5 типов агентов: от чистого SGR до гибридных подходов с Function Calling. Есть поддержка стриминга, прерывания агента для уточнений и автоматическое сохранение отчетов.
🔐 Концепция гарантирующих паттернов
SGR можно назвать гарантирующим паттерном в работе с LLM. В данном случае он гарантирует вызов определённого инструмента даже на маленьких моделях.
Structured Output — тоже гарантирующий паттерн, но другой: он гарантирует, что ответ будет в чёткой структуре и полноте.
Это не альтернативы, а комплементарные техники. SGR использует SO для этапа рассуждений, а затем добавляет детерминированное исполнение.
🚀 Пушка для локальных моделей
Особенно важен SGR для локальных моделей, которые работают на приватных серверах. Они менее "умные" чем облачные GPT-5 или Claude Sonnet 4, но SGR помогает компенсировать это ограничение.
Если материал оказался полезным — ставьте реакции, пишите комментарии.
---
🔗 Оригинальная концепция SGR: https://abdullin.com/schema-guided-reasoning/
🔗 Репозиторий SGR Deep Research: https://github.com/vamplabAI/sgr-deep-research
----
Поляков считает — про ИИ, рекламу и аналитику.
👍1
Forwarded from Life2film
Media is too big
VIEW IN TELEGRAM
Эволюционное программирование!
Я до сих пор помню как на 1 курсе физмата… пробовали писать игру жизнь на паскаль. Вы тоже пробовали?
И вот, открытие последних недель для меня работа где скрестили подход LLM+эволюция!
ShinkaEvolve - https://sakana.ai/shinka-evolve/, помогает найти решение создавая мутации начального решения.
Вы даете ему начальное состояние программы… и он перебирает разные и ищет лучшее, выращивая поколения вашей программы…. наши дети будут лучше чем мы))
Это можно применять к разным областям и есть аналоги, закрытый вариант от Google AlphaEvolve и открый openevolve. Но мне больше всего полюбилась Shinka.
Что это такое, я попросил еще обяснить notebooklm и сделать видео-подкаст (да да сам удивлен что в 1 клик удобно сделали).
Я до сих пор помню как на 1 курсе физмата… пробовали писать игру жизнь на паскаль. Вы тоже пробовали?
И вот, открытие последних недель для меня работа где скрестили подход LLM+эволюция!
ShinkaEvolve - https://sakana.ai/shinka-evolve/, помогает найти решение создавая мутации начального решения.
Вы даете ему начальное состояние программы… и он перебирает разные и ищет лучшее, выращивая поколения вашей программы…. наши дети будут лучше чем мы))
Это можно применять к разным областям и есть аналоги, закрытый вариант от Google AlphaEvolve и открый openevolve. Но мне больше всего полюбилась Shinka.
Что это такое, я попросил еще обяснить notebooklm и сделать видео-подкаст (да да сам удивлен что в 1 клик удобно сделали).
🔥3❤2👍1👎1
Forwarded from Технологии | Нейросети | Боты
This media is not supported in your browser
VIEW IN TELEGRAM
Тут появились целые пресеты, с которыми готовое приложение можно создать в пару кликов:
— Выбираем, что подключить к проекту: Veo 3, Nano Banana, поиск, чат-бот и др;
— Пишем свой промпт или жмем "I’m Feeling Lucky", чтобы получить случайную идею проекта, которую сервис реализует;
— Ждем пару минут, чтобы Gemini сгенерил полноценную тулзу которую можно затестить и внести любые правки.
• Попробовать
#neural #нейросети
@aiaiai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2👎1
Forwarded from Machinelearning
⚡️ Glyph: масштабирование контекста через визуально-текстовую компрессию
В основе модели лежит простая идея : вместо того чтобы кормить модели километровый текст, Glyph превращает его в изображение и обрабатывает через vision-language модель.
Используется LLM-управляемый генетический алгоритм, чтобы подобрать наилучшие параметры визуального отображения текста (шрифт, плотность, макет), балансируя между сжатием и точностью.
Это радикально снижает вычислительные затраты, сохраняя при этом смысловую структуру текста.
При этом точность почти не падает: на задачах с длинным контекстом Glyph работает на уровне современных моделей вроде Qwen3-8B.
При экстремальном сжатии VLM с контекстом 128K может эффективно обрабатывать задачи, эквивалентные 1M+ токенов в традиционных LLM.
Фактически, длинный контекст становится мультимодальной задачей, а не чисто текстовой.
📄 Подробности: arxiv.org/abs/2510.17800
🧩 Веса: huggingface.co/zai-org/Glyph
👉 Репозиторий: github.com/thu-coai/Glyph
@ai_machinelearning_big_data
#AI #LLM #Multimodal #Research #DeepLearning
В основе модели лежит простая идея : вместо того чтобы кормить модели километровый текст, Glyph превращает его в изображение и обрабатывает через vision-language модель.
Используется LLM-управляемый генетический алгоритм, чтобы подобрать наилучшие параметры визуального отображения текста (шрифт, плотность, макет), балансируя между сжатием и точностью.
Это радикально снижает вычислительные затраты, сохраняя при этом смысловую структуру текста.
При этом точность почти не падает: на задачах с длинным контекстом Glyph работает на уровне современных моделей вроде Qwen3-8B.
При экстремальном сжатии VLM с контекстом 128K может эффективно обрабатывать задачи, эквивалентные 1M+ токенов в традиционных LLM.
Фактически, длинный контекст становится мультимодальной задачей, а не чисто текстовой.
📄 Подробности: arxiv.org/abs/2510.17800
🧩 Веса: huggingface.co/zai-org/Glyph
👉 Репозиторий: github.com/thu-coai/Glyph
@ai_machinelearning_big_data
#AI #LLM #Multimodal #Research #DeepLearning
1👍3❤2🔥1