Тестовые задания для ERC3-DEV - выложены!
Смотреть их тут. Python SDK синхронизирован с API. Версия:
Evaluator - подключен. Как только пойдут первые прогоны агентов - Leadeboard начнет заполняться автоматически.
Ваш, @llm_under_hood 🤗
Смотреть их тут. Python SDK синхронизирован с API. Версия:
--extra-index-url https://erc.timetoact-group.at/ erc3>=1.0.7
Evaluator - подключен. Как только пойдут первые прогоны агентов - Leadeboard начнет заполняться автоматически.
Ваш, @llm_under_hood 🤗
🔥18❤10🤯2👍1
Нужны исходники AI агента, который выбивает до 56.2 в ERC3-DEV?
Я их залил в Github Repo c примерами. Это все тот же SGR Next Step, просто адаптированный под новый набор инструментов.
Можно попробовать запустить его, посмотреть устройство, а потом - улучшить!
Ваш, @llm_under_hood 🤗
PS: Ссылки про ERC3 соревнование: Платформа | Регистрация | Пример агента | Видео на русском
Я их залил в Github Repo c примерами. Это все тот же SGR Next Step, просто адаптированный под новый набор инструментов.
Можно попробовать запустить его, посмотреть устройство, а потом - улучшить!
Ваш, @llm_under_hood 🤗
PS: Ссылки про ERC3 соревнование: Платформа | Регистрация | Пример агента | Видео на русском
🔥43👍14❤7🤯2
Время доказать, что есть архитектуры AI агентов лучше, чем SGR!
Вчера я выложил тестовый набор задач для соревнования ERC3. Там агенту нужно подрабатывать чатботом в небольшой международной компании с кучей APIшек, правилами безопасности и даже своей wiki. Заодно и выложил в Github пример простого агента, который выбивает 56.2.
Пока в лидерборде преобладают архитектуры на базе Schema-Guided Reasoning. Кто сможет сделать лучше? Хоть что, но не SGR. Или еще какой комбинированный подход.
Кстати, Валерий написал пост про то, как он взял 100
Соревнование 9 декабря будет заключаться в том, что я выложу в доступ 100 новых задач для того же агента. Нужно будет переключить своего агента на новый набор задач и запустить. Кто сможет получить больше очков за ~30 минут, тот и победил.
Платформа | Регистрация | Пример агента | Видео на русском
Кстати, а нужно отлаживать механизм переключения агента на новые задачи в рамках одной API-шки? Я могу выкатить ERC3-TEST со старыми задачами плюс еще парочкой новых посложнее. Заодно там и свой лидерборд будет))
Ваш, @llm_under_hood 🤗
Вчера я выложил тестовый набор задач для соревнования ERC3. Там агенту нужно подрабатывать чатботом в небольшой международной компании с кучей APIшек, правилами безопасности и даже своей wiki. Заодно и выложил в Github пример простого агента, который выбивает 56.2.
Пока в лидерборде преобладают архитектуры на базе Schema-Guided Reasoning. Кто сможет сделать лучше? Хоть что, но не SGR. Или еще какой комбинированный подход.
Кстати, Валерий написал пост про то, как он взял 100
Соревнование 9 декабря будет заключаться в том, что я выложу в доступ 100 новых задач для того же агента. Нужно будет переключить своего агента на новый набор задач и запустить. Кто сможет получить больше очков за ~30 минут, тот и победил.
Платформа | Регистрация | Пример агента | Видео на русском
Кстати, а нужно отлаживать механизм переключения агента на новые задачи в рамках одной API-шки? Я могу выкатить ERC3-TEST со старыми задачами плюс еще парочкой новых посложнее. Заодно там и свой лидерборд будет))
Ваш, @llm_under_hood 🤗
🔥32❤12👍9🤯2😁1
ERC3-TEST уже доступен
Это расширенный вариант задач для отладки работы вашего агента с ERC3 бенчмарком.
Платформа | Регистрация | Пример агента | Видео на русском
Из нового:
(1) Aetherion купила большая группа компаний, которая немного поменяла правила игры - см в wiki. Некоторые задачи используют этот контекст. Агент может его обнаружить, отслеживая значение
(2) Этот бенчмарк использует старое API от ERC-DEV, поэтому клиент не меняется. Соревновательный бенчмарк будет использовать тот же механизм переключения.
(3) Вызовы к симулированным апишкам теперь работают с задержкой в 300ms, чтобы было реалистичнее.
(4) Добавил release notes на сайт.
Кстати, у ERC3-TEST - свой leaderboard. Пока он пуст))
Ваш, @llm_under_hood 🤗
Это расширенный вариант задач для отладки работы вашего агента с ERC3 бенчмарком.
Платформа | Регистрация | Пример агента | Видео на русском
Из нового:
(1) Aetherion купила большая группа компаний, которая немного поменяла правила игры - см в wiki. Некоторые задачи используют этот контекст. Агент может его обнаружить, отслеживая значение
wiki_sha1 в /whoami. В соревновательном бенчмарке будет в сумме 3-4 разных компании. В реальности в multi-tenant выкатках агентов могут быть и сотни контекстов, но для бенчмарка 3-4 хватит "за глаза".(2) Этот бенчмарк использует старое API от ERC-DEV, поэтому клиент не меняется. Соревновательный бенчмарк будет использовать тот же механизм переключения.
(3) Вызовы к симулированным апишкам теперь работают с задержкой в 300ms, чтобы было реалистичнее.
(4) Добавил release notes на сайт.
Кстати, у ERC3-TEST - свой leaderboard. Пока он пуст))
Ваш, @llm_under_hood 🤗
❤16🔥13🤯4😱1
Как насчет логгирования в ERC3 не только статистики (число tokens) но и ответов LLM целиком на платформе (для античита и анализа)? Без логгирования промптов.
Anonymous Poll
11%
Записывать только usage статистику в tokens, как сейчас
56%
Статистика + ответы (completion/output)
33%
Не хочу голосовать
🤯2
Выложил пример агента, который решает ERC3-TEST до 58
Вот пример сессии
Исходники лежат в Github. Ядро агента - 181 строчек Python. Там показано, как:
(1) извлекать правила из wiki
(2) делать это только один раз (при изменении wiki)
(3) сделать pipeline из нескольких шагов с preflight check (для проверки безопасности)
(4) добавить свои (более удобные для LLM) инструменты агенту
Агент базовый, для демонстрации принципов. Его можно заметно улучшить.
Ваш, @llm_under_hood 🤗
Вот пример сессии
Исходники лежат в Github. Ядро агента - 181 строчек Python. Там показано, как:
(1) извлекать правила из wiki
(2) делать это только один раз (при изменении wiki)
(3) сделать pipeline из нескольких шагов с preflight check (для проверки безопасности)
(4) добавить свои (более удобные для LLM) инструменты агенту
Агент базовый, для демонстрации принципов. Его можно заметно улучшить.
Ваш, @llm_under_hood 🤗
🔥51❤11🤔3🤯2😱1
Что оказалось для вас самым ценным инсайтом при разработке своего AI агента на ERC3 платформе?
Уже 17 команд (из 492) выбили идеальные 100 на ERC3-DEV бенчмарке. И похоже, скоро "соток" станет больше - судя по нашему чату, команды продолжают разбираться в архитектуре агентов и улучшать свои решения. А это значит, что мы вместе набираем больше опыта, становимся лучше и двигаем вперед state-of-the-art.
Расскажите что-нибудь про свой опыт с ERC3 платформой! Что было самым прикольным и неожиданным?
Ваш, @llm_under_hood 🤗
Уже 17 команд (из 492) выбили идеальные 100 на ERC3-DEV бенчмарке. И похоже, скоро "соток" станет больше - судя по нашему чату, команды продолжают разбираться в архитектуре агентов и улучшать свои решения. А это значит, что мы вместе набираем больше опыта, становимся лучше и двигаем вперед state-of-the-art.
Расскажите что-нибудь про свой опыт с ERC3 платформой! Что было самым прикольным и неожиданным?
Ваш, @llm_under_hood 🤗
🔥21❤11👍4🤯2💯2
Записали keynote interview с Эриком Эвансом на тему DDD + LLMs. Проиграем его 9 декабря, в начале ERC3!
Ссылку опубликую в канале на следующей неделе.
Ваш, @llm_under_hood 🤗
Ссылку опубликую в канале на следующей неделе.
Ваш, @llm_under_hood 🤗
🔥69❤17🥰6👍4😱3🤯2
SDK / API для Enterprise RAG Challenge обновлены - поправьте заранее своих агентов!
Детали есть в release notes для версии 1.1.6. Там есть breaking changes. Примеры агентов уже обновлены до SDK 1.2.0.
Изменения:
(1) При запуске бенчмакрка можно явно указать фокус - точность, стоимость, скорость и/или локальный запуск (можно несколько сразу). Это будет использоваться в соревновании 9 декабря. Агенты с фокусом на `accuracy` cоревнуются за призы. Другие фокусы - пойдут в отдельные leaderboards.
(2) изменился формат отправки статистики tokens - теперь это просто типизированные поля.
(3) при отправке телеметрии еще нужно отправлять completion (текст ответа llm-ки). Prompt отправлять не обязательно.
Пожалуйста, заранее обновите своих AI агентов до новой версии SDK и запустите один раз на ERC3-DEV или ERC3-TEST, чтобы убедиться, что весь код отрабатывает штатно. 9 Декабря достаточно будет перезапустить код на ERC3-PROD.
План на 9 декабря
9:00 CET - Keynote
10:30 CET - открывается ERC3-PROD
11:30 CET - prize deadline для
То есть час на прогон агента и отладку (если что-то вдруг падает)
Extended competition (без призов) - до 16 декабря.
16 декабря замораживаем leaderboards (они будут опубликованы на TimeToAct и abdullin.com) и раскрываем evals/scoring для ERC3-PROD.
Уведомления на почту вышлем всем зарегистрированным участникам.
Платформа | Регистрация | Пример агента | Видео на русском
Ваш, @llm_under_hood 🤗
Детали есть в release notes для версии 1.1.6. Там есть breaking changes. Примеры агентов уже обновлены до SDK 1.2.0.
Изменения:
(1) При запуске бенчмакрка можно явно указать фокус - точность, стоимость, скорость и/или локальный запуск (можно несколько сразу). Это будет использоваться в соревновании 9 декабря. Агенты с фокусом на `accuracy` cоревнуются за призы. Другие фокусы - пойдут в отдельные leaderboards.
(2) изменился формат отправки статистики tokens - теперь это просто типизированные поля.
(3) при отправке телеметрии еще нужно отправлять completion (текст ответа llm-ки). Prompt отправлять не обязательно.
Пожалуйста, заранее обновите своих AI агентов до новой версии SDK и запустите один раз на ERC3-DEV или ERC3-TEST, чтобы убедиться, что весь код отрабатывает штатно. 9 Декабря достаточно будет перезапустить код на ERC3-PROD.
План на 9 декабря
9:00 CET - Keynote
10:30 CET - открывается ERC3-PROD
11:30 CET - prize deadline для
accuracy.То есть час на прогон агента и отладку (если что-то вдруг падает)
Extended competition (без призов) - до 16 декабря.
16 декабря замораживаем leaderboards (они будут опубликованы на TimeToAct и abdullin.com) и раскрываем evals/scoring для ERC3-PROD.
Уведомления на почту вышлем всем зарегистрированным участникам.
Платформа | Регистрация | Пример агента | Видео на русском
Ваш, @llm_under_hood 🤗
❤14👍14🔥9🤯2
Стрим с Эриком Эвансом начнется через 15 минут тут: YouTube. Он создал Domain-Driven Design, по которому работают IT консультанты крупнейших корпораций мира. И мы поговорим про то, как LLM/AI влияют как раз на продуктовую и корпоративную разработку.
А через 100 минут на этом стриме мы запустим ERC3-PROD.
Оба стрима останутся в записи.
Ваш, @llm_under_hood 🤗
А через 100 минут на этом стриме мы запустим ERC3-PROD.
Оба стрима останутся в записи.
Ваш, @llm_under_hood 🤗
🔥27❤13👍9🤯2
ERC3-PROD is live
(1) Призовой сompete-accuracy раунд продлится в сумме 3 часа. 10:40 CET - 13:40 CET. Последняя сессия с флагом
(2) До следующей недели длится extended round. Можно запускать сессии в любых категориях, и они пойдут в официальные leaderboards, которые будут опубликованы.
16 декабря в 9:00 CET его закрываем extended round, а в 10:00 CET будет reveal всех очков и leaderboards. Тогда же ERC3-PROD перейдет в публичный режим и будем показывать evals/scores на лету. Бенчмарки останутся, live leaderboards будут продолжать считаться.
А после 16 декабря будем неспешно собирать инсайты, разбирать аналитику и публиковать истории и кейсы топовых команд.
Платформа | Регистрация | Пример агента | Видео на русском
Кстати, регистрацию пока закрыли, но если кто-то еще хочет добавиться - напишите в комментарии, попрошу TimeToAct запустить заново. Либо добавлю регистрацию прямо на платформу.
Ваш, @llm_under_hood 🤗
[1] Не сессия с самым высоким accuracy, чтобы компании с кучей GPU/LLM credits не могли просто забрутфорсить лишние 5-10% accuracy.
(1) Призовой сompete-accuracy раунд продлится в сумме 3 часа. 10:40 CET - 13:40 CET. Последняя сессия с флагом
compete_accuracy, которая была отправлена до deadline, идет в зачет. [1](2) До следующей недели длится extended round. Можно запускать сессии в любых категориях, и они пойдут в официальные leaderboards, которые будут опубликованы.
16 декабря в 9:00 CET его закрываем extended round, а в 10:00 CET будет reveal всех очков и leaderboards. Тогда же ERC3-PROD перейдет в публичный режим и будем показывать evals/scores на лету. Бенчмарки останутся, live leaderboards будут продолжать считаться.
А после 16 декабря будем неспешно собирать инсайты, разбирать аналитику и публиковать истории и кейсы топовых команд.
Платформа | Регистрация | Пример агента | Видео на русском
Кстати, регистрацию пока закрыли, но если кто-то еще хочет добавиться - напишите в комментарии, попрошу TimeToAct запустить заново. Либо добавлю регистрацию прямо на платформу.
Ваш, @llm_under_hood 🤗
[1] Не сессия с самым высоким accuracy, чтобы компании с кучей GPU/LLM credits не могли просто забрутфорсить лишние 5-10% accuracy.
🔥20❤9⚡4🤯4👍1🤗1
Три технических отличия успешных внедрений ИИ в бизнес
- это мой доклад на платформе ИИтоги-25. Через две недели, 23 декабря, я буду рассказывать про то, как внедряли ИИ в компаниях в 2025 году. Что работало хорошо, а что - никак. Кроме этого, поделюсь инсайтами про лучшие архитектуры AI-агентов на наших ERC3 бенчмарках.
Доступ - за подписки на участников (потом можно отписаться, а можно и не отписаться).
Из нашего с вами коммьюнити там будут еще рассказывать @nikolay_sheyko, @refatametov, @Myfinancier и @VaKovaLskii, поэтому точно будет привычное нам приземление на реальную практику и SotA.
Записаться можно тут.
Ваш, @llm_under_hood 🤗
- это мой доклад на платформе ИИтоги-25. Через две недели, 23 декабря, я буду рассказывать про то, как внедряли ИИ в компаниях в 2025 году. Что работало хорошо, а что - никак. Кроме этого, поделюсь инсайтами про лучшие архитектуры AI-агентов на наших ERC3 бенчмарках.
Доступ - за подписки на участников (потом можно отписаться, а можно и не отписаться).
Из нашего с вами коммьюнити там будут еще рассказывать @nikolay_sheyko, @refatametov, @Myfinancier и @VaKovaLskii, поэтому точно будет привычное нам приземление на реальную практику и SotA.
Записаться можно тут.
Ваш, @llm_under_hood 🤗
🔥28👍15