Первые инсайты с ERC3 про построение AI Агентов
Соревнование у нас еще не запущено, а инсайты уже идут! Это потому, что наше с вами коммьюнити просто офигенно. C момента запуска платформы прошло чуть больше суток, а на ней уже было записано более 3000 запусков разнообразных агентов. Люди пытаются получить идеальные 100 баллов на разогревочном STORE бенчмарке.
Валерий взял своего SGR Core агента, адаптировал инструменты под STORE бенчмарк и итерациями аккуратно сделал работающий системный промпт на 3k tokens. Говорит, что модели ленятся делать тесты всех вариаций продуктов (там где задача этого требует), что нет стабильных ответов (качество скачет 10-15% от прогона к прогону). Хочет дальше уйти от ReAct агента и попробовать сделать кодового агента (с написанием кода). Пока использовал gpt-4.1 и gpt-4.1-mini, думает попробовать локальный Qwen.
Подробнее журнал его первых экспериментов можно прочитать в этом посте у него в канале.
Влад смог выбить 100 на STORE бенчмарке c gpt-5.1-codex-max. Обещал тоже скоро поделиться инсайтами! Update: тут
Вырисовывается картина, что
(1) у агентов нужно аккуратно контроллировать контекст по мере работы, иначе они переполняют его и начинают теряться
(2) качество тулзов для агента очень сильно влияет на качество его работы. Можно сильно улучшить результат, если вручную сделать удобный для агента инструмент.
Если у вас есть какие-то интересные результаты или инсайты, пожалуйста, записывайте их и присылайте заметки с полей, пока не забылось.
А ScrapeNinja тем временем хочет сделать ERC SDK клиента под JavaScript. Если кому-то такое надо, обращайтесь к нему.
Платформа | Регистрация | Пример агента
Ваш, @llm_under_hood 🤗
PS: Eсли кто-то регистрировался на сайте TTA за последние сутки, можно прямо сейчас уже заходить на платформу и активировать ключи. Я только что загрузил 25 новых аккаунтов.
Соревнование у нас еще не запущено, а инсайты уже идут! Это потому, что наше с вами коммьюнити просто офигенно. C момента запуска платформы прошло чуть больше суток, а на ней уже было записано более 3000 запусков разнообразных агентов. Люди пытаются получить идеальные 100 баллов на разогревочном STORE бенчмарке.
Валерий взял своего SGR Core агента, адаптировал инструменты под STORE бенчмарк и итерациями аккуратно сделал работающий системный промпт на 3k tokens. Говорит, что модели ленятся делать тесты всех вариаций продуктов (там где задача этого требует), что нет стабильных ответов (качество скачет 10-15% от прогона к прогону). Хочет дальше уйти от ReAct агента и попробовать сделать кодового агента (с написанием кода). Пока использовал gpt-4.1 и gpt-4.1-mini, думает попробовать локальный Qwen.
Подробнее журнал его первых экспериментов можно прочитать в этом посте у него в канале.
Влад смог выбить 100 на STORE бенчмарке c gpt-5.1-codex-max. Обещал тоже скоро поделиться инсайтами! Update: тут
Вырисовывается картина, что
(1) у агентов нужно аккуратно контроллировать контекст по мере работы, иначе они переполняют его и начинают теряться
(2) качество тулзов для агента очень сильно влияет на качество его работы. Можно сильно улучшить результат, если вручную сделать удобный для агента инструмент.
Если у вас есть какие-то интересные результаты или инсайты, пожалуйста, записывайте их и присылайте заметки с полей, пока не забылось.
А ScrapeNinja тем временем хочет сделать ERC SDK клиента под JavaScript. Если кому-то такое надо, обращайтесь к нему.
Платформа | Регистрация | Пример агента
Ваш, @llm_under_hood 🤗
PS: Eсли кто-то регистрировался на сайте TTA за последние сутки, можно прямо сейчас уже заходить на платформу и активировать ключи. Я только что загрузил 25 новых аккаунтов.
🔥26❤11👏5👍2🤯2🥰1😢1
Я добавил на ERC3 платформу живой leaderboard с последними лучшими результатами бенчмарков. Для разогревочного STORE бенчмарка, 5% команд на платформе уже смогли получить идеальный результат.
Пока аккаунты анонимные, без дополнительной статистики или раскрытия архитектур. Это приделаем потом.
А статистики потом будет немало, у нас уже залоггировали более 11k запусков разнообразных AI Agents!
Ваш, @llm_under_hood 🤗
Пока аккаунты анонимные, без дополнительной статистики или раскрытия архитектур. Это приделаем потом.
А статистики потом будет немало, у нас уже залоггировали более 11k запусков разнообразных AI Agents!
Ваш, @llm_under_hood 🤗
👍27🔥10❤8🤯2😢1
А что если провести наш Challenge не на следующей неделе, а чуть попозже? Чтобы было больше времени на освоение платформы и ERC3 бенчмарка?
Anonymous Poll
11%
26 Ноября
89%
9-10 Декабря
👍24❤10🔥2🤯2😢1
Новости и статистика про ERC3
Во-первых, по голосованию видно, что большинство за перенос даты соревнования на начало декабря. Зарегистрировалось уже 423 команд, складывается, такое ощущение, что все участники как раз проголосовали за перенос. Так и сделаем. Соревнование 9 декабря, ERC3 с тестовым набором задач будет в среду.
Во-вторых, у нас в платформе уже записано 23 тысячи запусков агентов, которые занесли в систему 204 миллионов input tokens и 11 миллионов output tokens.
Список последних агентов, которые получили 100 score на STORE бенчмарке можно увидеть тут. И тут уже не только тяжеловесы вроде gpt-5, но и локальные модели вроде qwen3-235b-a22b и
Краткие результаты анализа.
Базовый SGR NextStep агент из примера - это очень медленный, дорогой и слабый агент. Поэтому команды находят способы улучшить его.
Если верить статистике, то отличие идеальных агентов (те, кто решил все задачи), в том, что обычно делают больше работы за шаг - они грузят больше контекста в LLM вызов и работают дольше. Возможно, тут еще идет оптимизация контекста и добавляются выделенные инструменты. При этом количество LLM вызовов у них примерно такое же, как и у агентов послабее.
Для быстрых ответов некоторые команды используют Cerebras провайдера, который позволяет очень быстро гонять локальные модели.
Самый точный агент - SGR Tool Calling Agent with Reasoning Phases (OpenAI Function Calling), заодно он и самый тяжелый - 1.3M tokens на сессию. SGR-гибриды попроще (SGR with combo tools, SGR Agent + code agent + Added data about API итп) используют меньше tokens (280–350k на сессию), но и качество немного менее стабильное, медиана - 87.
NextStep JSON SGR Agent with Codex - неожиданная архитектура, которая потребляет 245k tokens на сессию и работает достаточно стабильно (есть не одна идеальная сессия в 100).
Ваш, @llm_under_hood 🤗
Во-первых, по голосованию видно, что большинство за перенос даты соревнования на начало декабря. Зарегистрировалось уже 423 команд, складывается, такое ощущение, что все участники как раз проголосовали за перенос. Так и сделаем. Соревнование 9 декабря, ERC3 с тестовым набором задач будет в среду.
Во-вторых, у нас в платформе уже записано 23 тысячи запусков агентов, которые занесли в систему 204 миллионов input tokens и 11 миллионов output tokens.
Список последних агентов, которые получили 100 score на STORE бенчмарке можно увидеть тут. И тут уже не только тяжеловесы вроде gpt-5, но и локальные модели вроде qwen3-235b-a22b и
Краткие результаты анализа.
Базовый SGR NextStep агент из примера - это очень медленный, дорогой и слабый агент. Поэтому команды находят способы улучшить его.
Если верить статистике, то отличие идеальных агентов (те, кто решил все задачи), в том, что обычно делают больше работы за шаг - они грузят больше контекста в LLM вызов и работают дольше. Возможно, тут еще идет оптимизация контекста и добавляются выделенные инструменты. При этом количество LLM вызовов у них примерно такое же, как и у агентов послабее.
Для быстрых ответов некоторые команды используют Cerebras провайдера, который позволяет очень быстро гонять локальные модели.
Самый точный агент - SGR Tool Calling Agent with Reasoning Phases (OpenAI Function Calling), заодно он и самый тяжелый - 1.3M tokens на сессию. SGR-гибриды попроще (SGR with combo tools, SGR Agent + code agent + Added data about API итп) используют меньше tokens (280–350k на сессию), но и качество немного менее стабильное, медиана - 87.
NextStep JSON SGR Agent with Codex - неожиданная архитектура, которая потребляет 245k tokens на сессию и работает достаточно стабильно (есть не одна идеальная сессия в 100).
Ваш, @llm_under_hood 🤗
🔥23❤13👍8🤯3😢1🤝1
Бенчмарк LLM в ERC3: AI Agents
Вот график лучших решений ERC3 в бенчмарке Store, где архитектуры ранжированы по стоимости запуска и времени исполнения.
Это список тех моделей, которые команды берут в первую очередь на практике, когда хотят решить какую-то задачу.
Агенты, которые не присылали телеметрию через
Ваш, @llm_under_hood 🤗
Вот график лучших решений ERC3 в бенчмарке Store, где архитектуры ранжированы по стоимости запуска и времени исполнения.
Это список тех моделей, которые команды берут в первую очередь на практике, когда хотят решить какую-то задачу.
Агенты, которые не присылали телеметрию через
api.log_llm или присылали имя модельки, не совпадающее с именем модели на OpenRouter - в рейтинг не попали (т.к. цены считаем на базе OpenRouter и присланной телеметрии). Ваш, @llm_under_hood 🤗
🔥16🤯8❤6🤔2😢2
Мелкий апдейт на платформе ERC
Пока еще не ERC3 бенчмарк, просто подготовка к его выкладке
(1) Если при отправке решения не была прислана телеметрия вызовов LLM (название модели и число tokens), то из очков вычитается 10% (в eval logs это будет упомянуто). Так все заранее смогут проверить и поправить своих агентов.
(2) Я поправил инфраструктуру так, что теперь задачи в бенчмарках могут чуть-чуть меняться (например, у айдишников добавляется случайный префикс). Суть это не меняет, просто в ERC3 бенчмарке уже не получится захардкодить правильные ответы. Примеры работы можно посмотреть в DEMO бенчмарке.
STORE бенчмарк менять не стал, но в ERC3 это уже будет встроено.
Ваш, @llm_under_hood 🤗
Пока еще не ERC3 бенчмарк, просто подготовка к его выкладке
(1) Если при отправке решения не была прислана телеметрия вызовов LLM (название модели и число tokens), то из очков вычитается 10% (в eval logs это будет упомянуто). Так все заранее смогут проверить и поправить своих агентов.
(2) Я поправил инфраструктуру так, что теперь задачи в бенчмарках могут чуть-чуть меняться (например, у айдишников добавляется случайный префикс). Суть это не меняет, просто в ERC3 бенчмарке уже не получится захардкодить правильные ответы. Примеры работы можно посмотреть в DEMO бенчмарке.
STORE бенчмарк менять не стал, но в ERC3 это уже будет встроено.
Ваш, @llm_under_hood 🤗
👍19🤯3🤗3🤔1😢1
Я доделал основную часть симуляции для ERC3 и выкатил API на проду! В PythonSDK тоже все есть - см. версию 1.0.5
Этот бенчмарк моделирует системы целой компании для запуска в них AI Агента. Они моделированы аналогично тому, как в компаниях и внедряются агенты, только без риска что-то сломать.
Можно смотреть на API и играться с ним. В описании бенчмарка есть ссылка на то, куда надо копать и смотреть, чтобы понять, что это вообще за компания, и как положено агенту работать с ней.
Да, там в API затерялась и knowledge base, как в настоящем AI agent deployment в корпорации.
Уже есть пара тестовых заданий для ERC3-DEV, чтобы начать представлять себе масштабы). К пятнице я закончу набор API и выложу 15 тестовых заданий c включенным evaluation.
Сразу предупреждаю, не привязывайтесь слишком к компании Aetherion Analytics Gmb. Это будет только одна из компаний в финальном бенчмарке.
Что скажете? Остальные задания делать проще или реалистичнее?
Ваш, @llm_under_hood 🤗
Ссылки: Платформа | Регистрация | Пример агента | Видео на русском
Официальное соревнование состоится 9 декабря, но люди соревнуются на STORE бенчмарке уже сейчас.
Этот бенчмарк моделирует системы целой компании для запуска в них AI Агента. Они моделированы аналогично тому, как в компаниях и внедряются агенты, только без риска что-то сломать.
Можно смотреть на API и играться с ним. В описании бенчмарка есть ссылка на то, куда надо копать и смотреть, чтобы понять, что это вообще за компания, и как положено агенту работать с ней.
Да, там в API затерялась и knowledge base, как в настоящем AI agent deployment в корпорации.
Уже есть пара тестовых заданий для ERC3-DEV, чтобы начать представлять себе масштабы). К пятнице я закончу набор API и выложу 15 тестовых заданий c включенным evaluation.
Сразу предупреждаю, не привязывайтесь слишком к компании Aetherion Analytics Gmb. Это будет только одна из компаний в финальном бенчмарке.
Что скажете? Остальные задания делать проще или реалистичнее?
Ваш, @llm_under_hood 🤗
Ссылки: Платформа | Регистрация | Пример агента | Видео на русском
Официальное соревнование состоится 9 декабря, но люди соревнуются на STORE бенчмарке уже сейчас.
🔥30👍17❤7🤯7😢1
Кейс про выбор правильного тендера, с ужасным стэком
Иногда можно слышать про то, что AI проекты - это что-то сложное, дорогое, требует кучу денег, времени, а выхлопа - не дает.
Вот простой кейс, который недавно развернули на коленке в компании в свободное время "полтора землекопа".
Другие кейсы в канале см тут.
Итак, время сейчас экономически сложное по всему миру. Компаниям нужно крутиться и искать заказы. При этом, если работать в корпоративном секторе, там с заказами не так просто - нужно найти тендер, собрать на него документацию, собрать свое предложение итп. Это требует кучу времени и сил. Во-первых, надо за тендерами следить. Во-вторых, их надо вычитывать и выбирать выгодные. В-третьих, подаваться итп.
В данном кейсе компания решила упростить сильно первую часть - поиска перспективных тендеров. Два разработчика в свободное время разработали достаточно простой пайплайн (в комменты скину скрин отчета - где сразу видно, что это вайб-кодинг)) . Все работает так:
(1) Подписались на рассылку с тендерами в Европе. Письма приходят свободным текстом, содержат ссылки на эти самые тендеры, которые находятся на разных сайтах.
(2) система - выкачивает эти письма, достает ссылки, идет по ссылкам и выкачивает сопустствующую документацию. Если есть каптча - подключается gemini 2.5 для ее прохождения.
(3) выкачанная документация по тендеру прогоняется через чеклист по критериям анализа этой фирмы (gpt-5). Задача тут - отсеять тендеры, которые фирме точно не интересны (нет скилов или прошлого опыта) или невыгодны (грубая оценка объема работа не сходится с ценой).
(4) Получается такое крупное сито. Если какой-то тендер проходит через него, то файлы грузятся на SharePoint, генерится краткий отчет в виде HTML и вставляется в Confluence, а в Teams присылается краткий отчет про тендер.
А теперь самое ужасное про стэк - это все написано на C#, на котором Structured Outputs сходу не заводится. Поэтому написали промпты просто словами, упомянув про необходимость reasoning. Модели тут используются избыточно мощные, поэтому проблем нет. Самое сложное в проекте - это не промпты, а все интеграции. LLM - это просто клей, которые объединяет разные процессы вместе.
Выхлоп?
Директора довольны как слоны, т.к. они каждый вторник получают выжимку перспективных тендоров по рынку, которые хорошо подходят к компании, текущей ситуации и ближайшим планам. Они быстро просматривают наиболее перспективные варианты, отправляют какие-то в работу и переключаются на другие дела. Поэтому прямо сейчас в краткосрочной работе уже 11 интересных тендеров. Вроде мелочь, но раньше такого качественного охвата рынка у компании не было никогда.
Можно сделать лучше и правильнее? Однозначно.
Надо ли?
Ваш, @llm_under_hood 🤗
Иногда можно слышать про то, что AI проекты - это что-то сложное, дорогое, требует кучу денег, времени, а выхлопа - не дает.
Вот простой кейс, который недавно развернули на коленке в компании в свободное время "полтора землекопа".
Другие кейсы в канале см тут.
Итак, время сейчас экономически сложное по всему миру. Компаниям нужно крутиться и искать заказы. При этом, если работать в корпоративном секторе, там с заказами не так просто - нужно найти тендер, собрать на него документацию, собрать свое предложение итп. Это требует кучу времени и сил. Во-первых, надо за тендерами следить. Во-вторых, их надо вычитывать и выбирать выгодные. В-третьих, подаваться итп.
В данном кейсе компания решила упростить сильно первую часть - поиска перспективных тендеров. Два разработчика в свободное время разработали достаточно простой пайплайн (в комменты скину скрин отчета - где сразу видно, что это вайб-кодинг)) . Все работает так:
(1) Подписались на рассылку с тендерами в Европе. Письма приходят свободным текстом, содержат ссылки на эти самые тендеры, которые находятся на разных сайтах.
(2) система - выкачивает эти письма, достает ссылки, идет по ссылкам и выкачивает сопустствующую документацию. Если есть каптча - подключается gemini 2.5 для ее прохождения.
(3) выкачанная документация по тендеру прогоняется через чеклист по критериям анализа этой фирмы (gpt-5). Задача тут - отсеять тендеры, которые фирме точно не интересны (нет скилов или прошлого опыта) или невыгодны (грубая оценка объема работа не сходится с ценой).
(4) Получается такое крупное сито. Если какой-то тендер проходит через него, то файлы грузятся на SharePoint, генерится краткий отчет в виде HTML и вставляется в Confluence, а в Teams присылается краткий отчет про тендер.
А теперь самое ужасное про стэк - это все написано на C#, на котором Structured Outputs сходу не заводится. Поэтому написали промпты просто словами, упомянув про необходимость reasoning. Модели тут используются избыточно мощные, поэтому проблем нет. Самое сложное в проекте - это не промпты, а все интеграции. LLM - это просто клей, которые объединяет разные процессы вместе.
Выхлоп?
Директора довольны как слоны, т.к. они каждый вторник получают выжимку перспективных тендоров по рынку, которые хорошо подходят к компании, текущей ситуации и ближайшим планам. Они быстро просматривают наиболее перспективные варианты, отправляют какие-то в работу и переключаются на другие дела. Поэтому прямо сейчас в краткосрочной работе уже 11 интересных тендеров. Вроде мелочь, но раньше такого качественного охвата рынка у компании не было никогда.
Можно сделать лучше и правильнее? Однозначно.
Надо ли?
Ваш, @llm_under_hood 🤗
🔥64👍26❤16😁4🤯2🤔1
Как решить проблему SO с Invalid JSON в OpenAI SDK?
В чате моего курса (https://abdullin.com/ai-assistants-course) напомнили, что OpenAI так и не пофиксили полностью свою реализацию Structured Outputs в GPT-5.
Более подробно о проблеме можно прочитать в OpenAI Community. Сейчас она всплыла на простом кейсе на azure gpt-5-mini. Там парсинг ответа вываливается с ошибкой
Как решить эту проблему, если такое происходит в вашем проекте? Нужно встроиться в OpenAI SDK (например через httpx перехватчик или перегрузку методов) и - при встрече теоретически невозможного ValidationError - ручками исправить исходный JSON. Вот пример кода, который можно вставить в проект (лучше до того момента, как импортировали openai) для этого:
Если вставить этот патч в SGR Demo агента, то он будет благополучно работать даже с OpenAI моделями семейства gpt-5.
Только
Ваш, @llm_under_hood 🤗
В чате моего курса (https://abdullin.com/ai-assistants-course) напомнили, что OpenAI так и не пофиксили полностью свою реализацию Structured Outputs в GPT-5.
Более подробно о проблеме можно прочитать в OpenAI Community. Сейчас она всплыла на простом кейсе на azure gpt-5-mini. Там парсинг ответа вываливается с ошибкой
Invalid JSON: trailing characters at line 2 column 1Как решить эту проблему, если такое происходит в вашем проекте? Нужно встроиться в OpenAI SDK (например через httpx перехватчик или перегрузку методов) и - при встрече теоретически невозможного ValidationError - ручками исправить исходный JSON. Вот пример кода, который можно вставить в проект (лучше до того момента, как импортировали openai) для этого:
# let's fix OpenAI parsing
import re
from pydantic import ValidationError
from openai.lib._parsing import _completions as _parsing_completions
_original_model_parse_json = _parsing_completions.model_parse_json
def tolerant_model_parse_json(model_cls, data: str):
try:
return _original_model_parse_json(model_cls, data)
except ValidationError as e:
# impossible for valid JSON, but OpenAI can surprise!
pattern = r'\}\n+\{'
parts = re.split(pattern, data)
if len(parts)>1:
print(f"Gotcha!\nSTART\n{data}\nEND\n")
return _original_model_parse_json(model_cls, parts[0]+"}")
raise
_parsing_completions.model_parse_json = tolerant_model_parse_json
Если вставить этот патч в SGR Demo агента, то он будет благополучно работать даже с OpenAI моделями семейства gpt-5.
Только
print отладочный не забудьте убрать потом.Ваш, @llm_under_hood 🤗
❤32👍25🤯4🔥2
Тестовые задания для ERC3-DEV - выложены!
Смотреть их тут. Python SDK синхронизирован с API. Версия:
Evaluator - подключен. Как только пойдут первые прогоны агентов - Leadeboard начнет заполняться автоматически.
Ваш, @llm_under_hood 🤗
Смотреть их тут. Python SDK синхронизирован с API. Версия:
--extra-index-url https://erc.timetoact-group.at/ erc3>=1.0.7
Evaluator - подключен. Как только пойдут первые прогоны агентов - Leadeboard начнет заполняться автоматически.
Ваш, @llm_under_hood 🤗
🔥18❤10🤯2👍1
Нужны исходники AI агента, который выбивает до 56.2 в ERC3-DEV?
Я их залил в Github Repo c примерами. Это все тот же SGR Next Step, просто адаптированный под новый набор инструментов.
Можно попробовать запустить его, посмотреть устройство, а потом - улучшить!
Ваш, @llm_under_hood 🤗
PS: Ссылки про ERC3 соревнование: Платформа | Регистрация | Пример агента | Видео на русском
Я их залил в Github Repo c примерами. Это все тот же SGR Next Step, просто адаптированный под новый набор инструментов.
Можно попробовать запустить его, посмотреть устройство, а потом - улучшить!
Ваш, @llm_under_hood 🤗
PS: Ссылки про ERC3 соревнование: Платформа | Регистрация | Пример агента | Видео на русском
🔥42👍14❤7🤯2
Время доказать, что есть архитектуры AI агентов лучше, чем SGR!
Вчера я выложил тестовый набор задач для соревнования ERC3. Там агенту нужно подрабатывать чатботом в небольшой международной компании с кучей APIшек, правилами безопасности и даже своей wiki. Заодно и выложил в Github пример простого агента, который выбивает 56.2.
Пока в лидерборде преобладают архитектуры на базе Schema-Guided Reasoning. Кто сможет сделать лучше? Хоть что, но не SGR. Или еще какой комбинированный подход.
Кстати, Валерий написал пост про то, как он взял 100
Соревнование 9 декабря будет заключаться в том, что я выложу в доступ 100 новых задач для того же агента. Нужно будет переключить своего агента на новый набор задач и запустить. Кто сможет получить больше очков за ~30 минут, тот и победил.
Платформа | Регистрация | Пример агента | Видео на русском
Кстати, а нужно отлаживать механизм переключения агента на новые задачи в рамках одной API-шки? Я могу выкатить ERC3-TEST со старыми задачами плюс еще парочкой новых посложнее. Заодно там и свой лидерборд будет))
Ваш, @llm_under_hood 🤗
Вчера я выложил тестовый набор задач для соревнования ERC3. Там агенту нужно подрабатывать чатботом в небольшой международной компании с кучей APIшек, правилами безопасности и даже своей wiki. Заодно и выложил в Github пример простого агента, который выбивает 56.2.
Пока в лидерборде преобладают архитектуры на базе Schema-Guided Reasoning. Кто сможет сделать лучше? Хоть что, но не SGR. Или еще какой комбинированный подход.
Кстати, Валерий написал пост про то, как он взял 100
Соревнование 9 декабря будет заключаться в том, что я выложу в доступ 100 новых задач для того же агента. Нужно будет переключить своего агента на новый набор задач и запустить. Кто сможет получить больше очков за ~30 минут, тот и победил.
Платформа | Регистрация | Пример агента | Видео на русском
Кстати, а нужно отлаживать механизм переключения агента на новые задачи в рамках одной API-шки? Я могу выкатить ERC3-TEST со старыми задачами плюс еще парочкой новых посложнее. Заодно там и свой лидерборд будет))
Ваш, @llm_under_hood 🤗
🔥31❤11👍8🤯2😁1
ERC3-TEST уже доступен
Это расширенный вариант задач для отладки работы вашего агента с ERC3 бенчмарком.
Платформа | Регистрация | Пример агента | Видео на русском
Из нового:
(1) Aetherion купила большая группа компаний, которая немного поменяла правила игры - см в wiki. Некоторые задачи используют этот контекст. Агент может его обнаружить, отслеживая значение
(2) Этот бенчмарк использует старое API от ERC-DEV, поэтому клиент не меняется. Соревновательный бенчмарк будет использовать тот же механизм переключения.
(3) Вызовы к симулированным апишкам теперь работают с задержкой в 300ms, чтобы было реалистичнее.
(4) Добавил release notes на сайт.
Кстати, у ERC3-TEST - свой leaderboard. Пока он пуст))
Ваш, @llm_under_hood 🤗
Это расширенный вариант задач для отладки работы вашего агента с ERC3 бенчмарком.
Платформа | Регистрация | Пример агента | Видео на русском
Из нового:
(1) Aetherion купила большая группа компаний, которая немного поменяла правила игры - см в wiki. Некоторые задачи используют этот контекст. Агент может его обнаружить, отслеживая значение
wiki_sha1 в /whoami. В соревновательном бенчмарке будет в сумме 3-4 разных компании. В реальности в multi-tenant выкатках агентов могут быть и сотни контекстов, но для бенчмарка 3-4 хватит "за глаза".(2) Этот бенчмарк использует старое API от ERC-DEV, поэтому клиент не меняется. Соревновательный бенчмарк будет использовать тот же механизм переключения.
(3) Вызовы к симулированным апишкам теперь работают с задержкой в 300ms, чтобы было реалистичнее.
(4) Добавил release notes на сайт.
Кстати, у ERC3-TEST - свой leaderboard. Пока он пуст))
Ваш, @llm_under_hood 🤗
❤16🔥13🤯4😱1
Как насчет логгирования в ERC3 не только статистики (число tokens) но и ответов LLM целиком на платформе (для античита и анализа)? Без логгирования промптов.
Anonymous Poll
11%
Записывать только usage статистику в tokens, как сейчас
56%
Статистика + ответы (completion/output)
33%
Не хочу голосовать
🤯2
Выложил пример агента, который решает ERC3-TEST до 58
Вот пример сессии
Исходники лежат в Github. Ядро агента - 181 строчек Python. Там показано, как:
(1) извлекать правила из wiki
(2) делать это только один раз (при изменении wiki)
(3) сделать pipeline из нескольких шагов с preflight check (для проверки безопасности)
(4) добавить свои (более удобные для LLM) инструменты агенту
Агент базовый, для демонстрации принципов. Его можно заметно улучшить.
Ваш, @llm_under_hood 🤗
Вот пример сессии
Исходники лежат в Github. Ядро агента - 181 строчек Python. Там показано, как:
(1) извлекать правила из wiki
(2) делать это только один раз (при изменении wiki)
(3) сделать pipeline из нескольких шагов с preflight check (для проверки безопасности)
(4) добавить свои (более удобные для LLM) инструменты агенту
Агент базовый, для демонстрации принципов. Его можно заметно улучшить.
Ваш, @llm_under_hood 🤗
🔥51❤9🤔2🤯2😱1
Что оказалось для вас самым ценным инсайтом при разработке своего AI агента на ERC3 платформе?
Уже 17 команд (из 492) выбили идеальные 100 на ERC3-DEV бенчмарке. И похоже, скоро "соток" станет больше - судя по нашему чату, команды продолжают разбираться в архитектуре агентов и улучшать свои решения. А это значит, что мы вместе набираем больше опыта, становимся лучше и двигаем вперед state-of-the-art.
Расскажите что-нибудь про свой опыт с ERC3 платформой! Что было самым прикольным и неожиданным?
Ваш, @llm_under_hood 🤗
Уже 17 команд (из 492) выбили идеальные 100 на ERC3-DEV бенчмарке. И похоже, скоро "соток" станет больше - судя по нашему чату, команды продолжают разбираться в архитектуре агентов и улучшать свои решения. А это значит, что мы вместе набираем больше опыта, становимся лучше и двигаем вперед state-of-the-art.
Расскажите что-нибудь про свой опыт с ERC3 платформой! Что было самым прикольным и неожиданным?
Ваш, @llm_under_hood 🤗
🔥20❤11👍2🤯2💯2
Записали keynote interview с Эриком Эвансом на тему DDD + LLMs. Проиграем его 9 декабря, в начале ERC3!
Ссылку опубликую в канале на следующей неделе.
Ваш, @llm_under_hood 🤗
Ссылку опубликую в канале на следующей неделе.
Ваш, @llm_under_hood 🤗
🔥63❤13🥰5👍3😱3🤯1