Выше писал про публикацию (по факту книгу), по разработке агентов, для которой я делал примеры кода на LangGraph.
Теперь появилось видео на 20 минут, где я этот пример разбираю, показываю его работу и объясняю, как можно его запустить самому. Также немного говорю про оценку качества таких агентов (evaluation) с помощью arize phoenix.
Еще выложил это видео на youtube.
Теперь появилось видео на 20 минут, где я этот пример разбираю, показываю его работу и объясняю, как можно его запустить самому. Также немного говорю про оценку качества таких агентов (evaluation) с помощью arize phoenix.
Еще выложил это видео на youtube.
👍17🔥7👏2🐳1
Media is too big
VIEW IN TELEGRAM
Продолжаю продвигать идею универсального агента как основного средства взаимодействия человека с миром (он же LLM OS в терминах Andrej Karpathy). На этот раз выступил на GigaConf с очень насыщеным докладом в котором нашлось место и теории и парктике:
02:00 - Концепция универсального агента
04:20 - Что такое MCP
05:35 - MCP и универсальные агенты
08:40 - GitHub Copilot как универсальный агент
13:13 - GigaChain - набор инструментов и кукбук для LLM-разработчика
14:50 - Разбор кода MCP сервера и клиента
20:20 - Think tool от Anthropic + MCP + GigaChat = ♥️
26:14 - Замеры качества работы агентов с помощью Arize Phoenix
Коллеги говорят, что получилось очень динамично и познавательно.
Для тех, кому удобнее смотреть на youtube.
02:00 - Концепция универсального агента
04:20 - Что такое MCP
05:35 - MCP и универсальные агенты
08:40 - GitHub Copilot как универсальный агент
13:13 - GigaChain - набор инструментов и кукбук для LLM-разработчика
14:50 - Разбор кода MCP сервера и клиента
20:20 - Think tool от Anthropic + MCP + GigaChat = ♥️
26:14 - Замеры качества работы агентов с помощью Arize Phoenix
Коллеги говорят, что получилось очень динамично и познавательно.
Для тех, кому удобнее смотреть на youtube.
👍12🔥7👏2🤯1
Хочу поделиться важным инсайтом про AI-агентов, который недавно сформулировал для себя.
Ситуация: У вас есть Excel-таблица со списком офисов ваших партнеров. Вам нужно выделить цветом те офисы, которые не смогут созвониться друг с другом в свое рабочее время из-за разницы в часовых поясах. Каким должен быть AI-агент, способный решить такую задачу? — Универсальным!
📌 Основная мысль: Синергия функций — ключевой фактор развития универсальных агентов.
Синергический эффект — ситуация, при которой совместное действие различных элементов дает результат, превосходящий простую сумму их отдельных эффектов.
Когда мы даём агентам инструменты самых разных типов, между ними возникает неожиданная синергия. На первый взгляд, агенту, работающему с таблицами, не нужен доступ к картографическим сервисам. Но именно в нестандартных ситуациях такие сервисы внезапно оказываются очень полезными.
Раньше в IT такого не было: у программ всегда был чётко заданный функционал, а вся магия комбинации их возможностей ложилась на человека. Но теперь и универсальный AI-агент может демонстрировать схожее поведение – проявление новых способностей, не предусмотренных заранее. И чем больше разнообразных инструментов мы предоставим агенту, тем чаще этот эффект будет проявляться.
Это похоже на то, что называют "широкий технический кругозор". К примеру, еще в институте я научился обрабатывать аудио. Казалось бы, этот навык никак не связан с моей основной работой программистом, но потом он несколько раз оказался ключевым при работе с AI-телефонией.
То же самое будет происходить и с универсальными агентами: чем больше инструментов у них в распоряжении, тем более неожиданными и эффективными будут их решения. Горизонтальные (универсальные) агенты начнут доминировать над вертикальными (узкоспециализированными).
🚀 Самые важные тулы агентов на сегодня:
- Самостоятельный поиск информации
- Работа с документами пользователя (Agentic RAG)
- REPL: способность решать промежуточные задачи через выполнение кода (калькулятор на максималках)
- TODO: способность планировать свои действия и двигаться по чек-листу
- Reasoning tool: возможность вести рассуждения при необходимости
💡 Следующий шаг:
- Работа с виртуальным компьютером (Operator)
Узкоспециализированные навыки тоже периодически оказываются полезными — умение делать презентации, анализировать изображения и даже создавать подкасты. Важно развивать возможности использовать большое количество разнообразных инструментов и со стороны разработчиков AI агентов (Scaffolding) и со стороны разработчиков самих LLM-моделей.
Ситуация: У вас есть Excel-таблица со списком офисов ваших партнеров. Вам нужно выделить цветом те офисы, которые не смогут созвониться друг с другом в свое рабочее время из-за разницы в часовых поясах. Каким должен быть AI-агент, способный решить такую задачу? — Универсальным!
📌 Основная мысль: Синергия функций — ключевой фактор развития универсальных агентов.
Синергический эффект — ситуация, при которой совместное действие различных элементов дает результат, превосходящий простую сумму их отдельных эффектов.
Когда мы даём агентам инструменты самых разных типов, между ними возникает неожиданная синергия. На первый взгляд, агенту, работающему с таблицами, не нужен доступ к картографическим сервисам. Но именно в нестандартных ситуациях такие сервисы внезапно оказываются очень полезными.
Раньше в IT такого не было: у программ всегда был чётко заданный функционал, а вся магия комбинации их возможностей ложилась на человека. Но теперь и универсальный AI-агент может демонстрировать схожее поведение – проявление новых способностей, не предусмотренных заранее. И чем больше разнообразных инструментов мы предоставим агенту, тем чаще этот эффект будет проявляться.
Это похоже на то, что называют "широкий технический кругозор". К примеру, еще в институте я научился обрабатывать аудио. Казалось бы, этот навык никак не связан с моей основной работой программистом, но потом он несколько раз оказался ключевым при работе с AI-телефонией.
То же самое будет происходить и с универсальными агентами: чем больше инструментов у них в распоряжении, тем более неожиданными и эффективными будут их решения. Горизонтальные (универсальные) агенты начнут доминировать над вертикальными (узкоспециализированными).
🚀 Самые важные тулы агентов на сегодня:
- Самостоятельный поиск информации
- Работа с документами пользователя (Agentic RAG)
- REPL: способность решать промежуточные задачи через выполнение кода (калькулятор на максималках)
- TODO: способность планировать свои действия и двигаться по чек-листу
- Reasoning tool: возможность вести рассуждения при необходимости
💡 Следующий шаг:
- Работа с виртуальным компьютером (Operator)
Узкоспециализированные навыки тоже периодически оказываются полезными — умение делать презентации, анализировать изображения и даже создавать подкасты. Важно развивать возможности использовать большое количество разнообразных инструментов и со стороны разработчиков AI агентов (Scaffolding) и со стороны разработчиков самих LLM-моделей.
🔥16👍13🐳6
RoboFuture
Вышла новая модель от OpenAI! Главная фишка - теперь модель умеет вести внутренние монологи (невидимые для пользователя), работая над задачей, прежде чем дать окончательный ответ. Что ж, на этот случай у меня была задачка с которой не могла справиться ни…
Почти год назад я тестировал O1 на задаче дешифровки надписи на футболке. Тогда это была первая модель, которая справилась, но с ошибками, не с первого раза и потратив очень много времени.
Сегодня закинул эту задачу в Grok 4. Он решил ее за несколько секунд с первой попытки (правда, тоже с небольшими ошибками)
Да, по одной задаче нельзя делать никаких выводов, но это даёт возможность ощутить скорость прогресса LLM
Сегодня закинул эту задачу в Grok 4. Он решил ее за несколько секунд с первой попытки (правда, тоже с небольшими ошибками)
Да, по одной задаче нельзя делать никаких выводов, но это даёт возможность ощутить скорость прогресса LLM
👍14🐳1
Увидел у Яндекс.Такси новый функционал и сразу понял, что это идеально подходит к универсальным AI-агентам.
Сейчас некоторые агенты учатся делать звонки в тех случаях, когда не могут решить задачу через API (например, google duplex может позвонить голосом и забронировать столик в ресторане). А через такой сервис они смогут взаимодействовать с реальным миром, манипулировать им.
Кстати, похожее уже было в "черном зеркале" (s03e03), там через такой сервис обществом манипулировали хакеры.
Сейчас некоторые агенты учатся делать звонки в тех случаях, когда не могут решить задачу через API (например, google duplex может позвонить голосом и забронировать столик в ресторане). А через такой сервис они смогут взаимодействовать с реальным миром, манипулировать им.
Кстати, похожее уже было в "черном зеркале" (s03e03), там через такой сервис обществом манипулировали хакеры.
🔥12👍4🐳3😁2
Коллега пишет про решение, которое мы с командой запустили на Гигачате - AI хедж фонд. Можно оценить как торгуют AI агенты на разных моделях. В среднем агенты оказываются в плюсе, но сегодня я стал свидетелм того, как AI-агент Уорена Баффета попал в ловушку невозвратных потерь и просадил 100 млн долларов, зашортив Теслу в течении июля 2025.
(Всё это никак не является инвестиционной рекомендацией🙅♂️ )
(Всё это никак не является инвестиционной рекомендацией
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4👏1🐳1
Forwarded from Технозаметки Малышева
Хедж-фонд из ИИ агентов
Вашему вниманию фреймворк, создающий коллектив ИИ-агентов для управления инвестициями.
ИИ команду можно собрать на свой вкус из аналитиков данных, инвестиционных стратегов, менеджеров рисков и трейдеров.
Каждый агент выполняет специализированные функции — от анализа рынка до исполнения сделок.
В команде преднастроены синтетические личности:
Асват Дамодаран, Бен Грэм, Билл Экман, Кэти Вуд, Чарли Мангер, Майкл Берри, Питер Линч, Фил Фишер, Ракеш Джунджхунвала, Стэнли Дракенмиллер, Уоррен Баффет
А так же:
Агент оценки — рассчитывает внутреннюю стоимость акций и генерирует торговые сигналы.
Агент настроений — анализирует рыночные настроения и генерирует торговые сигналы.
Агент фундаментальных данных — анализирует фундаментальные данные и генерирует торговые сигналы.
Агент технических данных — анализирует технические индикаторы и генерирует торговые сигналы.
Менеджер рисков — рассчитывает показатели риска и устанавливает лимиты позиций.
Менеджер портфеля — принимает окончательные торговые решения и генерирует ордера.
Кстати, команда из GigaChat собрала и запустила этот фреймворк на отечественной модели, так что, в принципе, если к Московской бирже по апи подключить, - будет местное решение.
В комментарии преза Сбера с инструкцией как запустить фреймворк на ГигаЧате.
#hedge #trading #portfolio #GigaChat
———
@tsingular
Вашему вниманию фреймворк, создающий коллектив ИИ-агентов для управления инвестициями.
ИИ команду можно собрать на свой вкус из аналитиков данных, инвестиционных стратегов, менеджеров рисков и трейдеров.
Каждый агент выполняет специализированные функции — от анализа рынка до исполнения сделок.
В команде преднастроены синтетические личности:
Асват Дамодаран, Бен Грэм, Билл Экман, Кэти Вуд, Чарли Мангер, Майкл Берри, Питер Линч, Фил Фишер, Ракеш Джунджхунвала, Стэнли Дракенмиллер, Уоррен Баффет
А так же:
Агент оценки — рассчитывает внутреннюю стоимость акций и генерирует торговые сигналы.
Агент настроений — анализирует рыночные настроения и генерирует торговые сигналы.
Агент фундаментальных данных — анализирует фундаментальные данные и генерирует торговые сигналы.
Агент технических данных — анализирует технические индикаторы и генерирует торговые сигналы.
Менеджер рисков — рассчитывает показатели риска и устанавливает лимиты позиций.
Менеджер портфеля — принимает окончательные торговые решения и генерирует ордера.
Кстати, команда из GigaChat собрала и запустила этот фреймворк на отечественной модели, так что, в принципе, если к Московской бирже по апи подключить, - будет местное решение.
В комментарии преза Сбера с инструкцией как запустить фреймворк на ГигаЧате.
#hedge #trading #portfolio #GigaChat
———
@tsingular
👍6😁6👏4🐳1
Велосипедный тест
Давным-давно в интернете завирусился тест - нужно было нарисовать велосипед. Оказалось, что люди очень плохо решают эту задачу - половина велосипедов не поедет или не сможет поворачивать.
А что же LLM? Смогут ли они нарисовать велосипед? Выяснил, что пока нет. AGIна этой неделе отменяется.
Лучше всех задачу решили GPT-5 Pro и Thinking - их велосипеды технически корректны, проблема только в том, что части наезжают одна на другую.
Важно, что в примере я прошу модель написать код, который генерирует SVG рисунок, а не нарисовать картинку. С рисованием картинки все модели прекрасно справляются, но это ничего нам не скажет, т.к. для рисования обычно используются внешние диффузионные модели, а не сама LLM.
Ссылки на древние статьи с результатами людей 1 2 (осторожно, там сексизм 😂).
Давным-давно в интернете завирусился тест - нужно было нарисовать велосипед. Оказалось, что люди очень плохо решают эту задачу - половина велосипедов не поедет или не сможет поворачивать.
А что же LLM? Смогут ли они нарисовать велосипед? Выяснил, что пока нет. AGI
Лучше всех задачу решили GPT-5 Pro и Thinking - их велосипеды технически корректны, проблема только в том, что части наезжают одна на другую.
Важно, что в примере я прошу модель написать код, который генерирует SVG рисунок, а не нарисовать картинку. С рисованием картинки все модели прекрасно справляются, но это ничего нам не скажет, т.к. для рисования обычно используются внешние диффузионные модели, а не сама LLM.
Ссылки на древние статьи с результатами людей 1 2 (осторожно, там сексизм 😂).
👍7🔥7😁3
This media is not supported in your browser
VIEW IN TELEGRAM
VLA: универсальный водитель роботов
Потестировал Visual Action Language model (VLA). По ощущениям - уровень GPT‑2: первые "искры будущего интеллекта", aha‑moment уже витает в воздухе. Кажется, в робототехнике скоро будет тот же рывок, что случился в LLM с появлением ChatGPT.
Как это выглядит
Вы подаете на вход конфигурацию любого робота с его датчиками/камерами/приводами и простую текстовую команду, например:
"Возьми красный кубик Lego и положи его на тарелку".
Дальше модель сама управляет железом и решает задачу. Такой себе универсальный "водитель роботов", который учится по ходу дела и не привязан к конкретной архитектуре.
Мой стенд
Чтобы лучше разобраться в теме, собрал себе набор манипуляторов от Hugging Face 🤗 - LeRobot и попробовал дообучать их SmolVLA.
Что внутри:
- 2 робо‑руки из 3D‑печатных деталей и ходовых сервоприводов (китайцы продают на Али за 20-25к руб)
- Одна–три камеры — можно поставить их как удобно (у меня две usb-вебки)
- Текстовые команды на английском
- Модель смотрит в камеры и пытается выполнить задачу, управляя моторами манипуляторов
- Сама модель крутится на ПК рядом. Нужен GPU или свежий мак
Боли
- Нужен файнтюнинг под конкретный сетап. Без него это больше похоже на конвульсии
- Подвинул камеру - файнтюнь заново
- Нет рефлексии: модель пока не может исправляться на лету, как LLM. Если робот творит дичь, то это будет прогрессировать.
- Чувствительно к окружению. Освещение, цвет стола, фон. Лучше не менять в процессе работы.
- Реалтайм требует маленьких моделей. Конкретно у меня — ~0.5B (у серьезных людей 3–7B). Маленькая - быстрая, но справляется только с простыми командами.
Главный инсайт (прямо по Канеману) - роботу нужны две системы управления.
Система 1 - быстрая VLA для реального времени: видеть‑решать‑двигать.
Система 2 - медленная рассуждающая vLLM, которая понимает задачу целиком, раскладывает на шаги, ставит подзадачи системе 1 и рефлексирует промежуточные итоги: "Движемся ли мы к цели? Как починить? Зачем я создан? 😂". Тут отлично подойдет GPT-5 или тот же GigaChat.
Оптимизм
Hugging Face копит пользовательские датасеты от разных сетапов - растет корпус "жизненных" сценариев и видов конфигурации роботов. Не важно какого цвета у вас корпус или как расположены камеры. Если тренд продолжится, получим ту самую модель "универсального водителя": одна и та же софтина решает разные типы задач на разном железе - то, с чем годами бились команды классической робототехники.
Подход на базе гибких универсальных моделей радикально снижает требования к стоимости железа для робота. Не обязательны больше лидары, микронные точности приводов, энкодеры и стерильная рафинированная среда как у промышленных роботов.
Частый вопрос - а достаточно ли одних камер? У человека есть ещё тактильные ощущения. Мой ответ: посмотрите на экскаваторщиков, у них из обратной связи в основном глаза, но при этом опытный оператор может ковшом бутерброд приготовить при желании.
Итог
Я жду в робототехнике того же, что произошло с NLP - внезапно одна технология решила сразу все задачи, которые годами решались разными способами с огромными трудозатратами (все эти скриптовые боты и прочие попытки играть в компьютерные лингвистики).
Потестировал Visual Action Language model (VLA). По ощущениям - уровень GPT‑2: первые "искры будущего интеллекта", aha‑moment уже витает в воздухе. Кажется, в робототехнике скоро будет тот же рывок, что случился в LLM с появлением ChatGPT.
Как это выглядит
Вы подаете на вход конфигурацию любого робота с его датчиками/камерами/приводами и простую текстовую команду, например:
"Возьми красный кубик Lego и положи его на тарелку".
Дальше модель сама управляет железом и решает задачу. Такой себе универсальный "водитель роботов", который учится по ходу дела и не привязан к конкретной архитектуре.
Мой стенд
Чтобы лучше разобраться в теме, собрал себе набор манипуляторов от Hugging Face 🤗 - LeRobot и попробовал дообучать их SmolVLA.
Что внутри:
- 2 робо‑руки из 3D‑печатных деталей и ходовых сервоприводов (китайцы продают на Али за 20-25к руб)
- Одна–три камеры — можно поставить их как удобно (у меня две usb-вебки)
- Текстовые команды на английском
- Модель смотрит в камеры и пытается выполнить задачу, управляя моторами манипуляторов
- Сама модель крутится на ПК рядом. Нужен GPU или свежий мак
Боли
- Нужен файнтюнинг под конкретный сетап. Без него это больше похоже на конвульсии
- Подвинул камеру - файнтюнь заново
- Нет рефлексии: модель пока не может исправляться на лету, как LLM. Если робот творит дичь, то это будет прогрессировать.
- Чувствительно к окружению. Освещение, цвет стола, фон. Лучше не менять в процессе работы.
- Реалтайм требует маленьких моделей. Конкретно у меня — ~0.5B (у серьезных людей 3–7B). Маленькая - быстрая, но справляется только с простыми командами.
Главный инсайт (прямо по Канеману) - роботу нужны две системы управления.
Система 1 - быстрая VLA для реального времени: видеть‑решать‑двигать.
Система 2 - медленная рассуждающая vLLM, которая понимает задачу целиком, раскладывает на шаги, ставит подзадачи системе 1 и рефлексирует промежуточные итоги: "Движемся ли мы к цели? Как починить? Зачем я создан? 😂". Тут отлично подойдет GPT-5 или тот же GigaChat.
Оптимизм
Hugging Face копит пользовательские датасеты от разных сетапов - растет корпус "жизненных" сценариев и видов конфигурации роботов. Не важно какого цвета у вас корпус или как расположены камеры. Если тренд продолжится, получим ту самую модель "универсального водителя": одна и та же софтина решает разные типы задач на разном железе - то, с чем годами бились команды классической робототехники.
Подход на базе гибких универсальных моделей радикально снижает требования к стоимости железа для робота. Не обязательны больше лидары, микронные точности приводов, энкодеры и стерильная рафинированная среда как у промышленных роботов.
Частый вопрос - а достаточно ли одних камер? У человека есть ещё тактильные ощущения. Мой ответ: посмотрите на экскаваторщиков, у них из обратной связи в основном глаза, но при этом опытный оператор может ковшом бутерброд приготовить при желании.
Итог
Я жду в робототехнике того же, что произошло с NLP - внезапно одна технология решила сразу все задачи, которые годами решались разными способами с огромными трудозатратами (все эти скриптовые боты и прочие попытки играть в компьютерные лингвистики).
🔥9👍3😱2
Media is too big
VIEW IN TELEGRAM
Провел вебинар с разбором работы хедж-фонда, состоящего из AI-агентов. Само решение открытое и прекрасно работает с разными LLM, в том числе и с Гигачатом. Агенты оценивают портфель инвестора, используя рыночные данные и торгуют на бирже. Обычно даже в плюс.
Вот что показал:
- Как скачать и запустить проект
- Как он работает и как все устроено
- Как оценить эффективность фонда на исторических данных
- Как создать своего агента-персонажа (я добавил пару мемных личностей)
- Как трассировать и отлаживать такие проекты
Отдельно хочется отметить, что проект с достаточно высокой популярностью (40k⭐️) принял мой PR с поддержкой Гигачата! ❤️
Посмотреть можно прямо в телеге или на youtube
Также прилагаю презентацию выше.
Вот что показал:
- Как скачать и запустить проект
- Как он работает и как все устроено
- Как оценить эффективность фонда на исторических данных
- Как создать своего агента-персонажа (я добавил пару мемных личностей)
- Как трассировать и отлаживать такие проекты
Отдельно хочется отметить, что проект с достаточно высокой популярностью (40k⭐️) принял мой PR с поддержкой Гигачата! ❤️
Посмотреть можно прямо в телеге или на youtube
Также прилагаю презентацию выше.
🔥19👍5👏3
Media is too big
VIEW IN TELEGRAM
Пятничный пост.
С помощью сервиса heygen сделал вот такого AI аватара меня самого. С ним можно поболтать в реальном времени, можно даже подключить его, чтобы он сидел на звонках в Zoom.
А еще, говорят, участились случаи, когда люди проходят собеседования с помощью AI-ассистентов, выдающих ответ в реальном времени и дипфейков. Поэтому мы с коллегами попробовали, а сможет ли аватар пройти собеседование полностью сам?
Похоже, что сможет, нужно лишь немного поправить промпты. Даже по зарплате стал торговаться 💰 и пообещал ходить в офис!
А вот что нужно, чтобы создать своего аватара:
- 2 минуты видео, где ты просто разговариваешь
- Промпт с описанием персонажа на пару страниц
- Набор документов и ссылок со знаниями, которые можно подключить к аватару как RAG
- 24 часа терпения и платный аккаунт ($29/мес)
Ссылка на youtube, если в телеге неудобно.
UPD: Лишь вопрос времени, когда стриминг видо аватара появится у OpenAI и конкурентов в realtime api. Уж у Grok-то точно должно. И сколько стартапов в этот момент пивотнутся.
С помощью сервиса heygen сделал вот такого AI аватара меня самого. С ним можно поболтать в реальном времени, можно даже подключить его, чтобы он сидел на звонках в Zoom.
А еще, говорят, участились случаи, когда люди проходят собеседования с помощью AI-ассистентов, выдающих ответ в реальном времени и дипфейков. Поэтому мы с коллегами попробовали, а сможет ли аватар пройти собеседование полностью сам?
Похоже, что сможет, нужно лишь немного поправить промпты. Даже по зарплате стал торговаться 💰 и пообещал ходить в офис!
А вот что нужно, чтобы создать своего аватара:
- 2 минуты видео, где ты просто разговариваешь
- Промпт с описанием персонажа на пару страниц
- Набор документов и ссылок со знаниями, которые можно подключить к аватару как RAG
- 24 часа терпения и платный аккаунт ($29/мес)
Ссылка на youtube, если в телеге неудобно.
UPD: Лишь вопрос времени, когда стриминг видо аватара появится у OpenAI и конкурентов в realtime api. Уж у Grok-то точно должно. И сколько стартапов в этот момент пивотнутся.
🔥18😁7🌚4👍1😱1
This media is not supported in your browser
VIEW IN TELEGRAM
Сегодня с 19:20-20:00 по Москве выступаю на Big Tech Night на площадке Сбера.
Представляю новую OpenSource (MIT) разработку нашей команды:
- GigaAgent – Универсальный агент (GitHub, GitVerse)
Это похоже на агента, который работает в ChatGPT, но с отличиями:
Сам агент и субагенты реализованы на LangGraph. Кастомизируемый и расширяемый под ваши задачи!
На выступлении покажу интересные демо, как работает, как установить, какая была выбрана архитектура и как мы к в ней пришли.
Подключайтесь онлайн! А также приглашаю стать контрибьютерами и присылать свои пиары в GitHub.
Представляю новую OpenSource (MIT) разработку нашей команды:
- GigaAgent – Универсальный агент (GitHub, GitVerse)
Это похоже на агента, который работает в ChatGPT, но с отличиями:
* Можно запустить на своем сервере (видеоинструкция) или локально с разными LLM
* Содержит 19 встроеных тулов из коробки (от поиска до проработанного Python интерпретатора)
* Оркестрирует работу суб-агентов
* Можно добавлять свои тулы, суб-агентов, менять system-промпты
Сам агент и субагенты реализованы на LangGraph. Кастомизируемый и расширяемый под ваши задачи!
На выступлении покажу интересные демо, как работает, как установить, какая была выбрана архитектура и как мы к в ней пришли.
Подключайтесь онлайн! А также приглашаю стать контрибьютерами и присылать свои пиары в GitHub.
🔥27👍5👏3
Рассказал про архитектуру универсальных агентов на BTN. И показал нашу открытую реализацию, которую можно развернуть на виртуалке или локально.
Когда она может быть полезной? — Если нужен диалоговый агент с web-интерфейсом (как в ChatGPT), способный самостоятельно выполнять много шагов для решения задачи и писать код для достижения цели.
При этом можно:
- Добавить свои тулы и суб-агентов
- Изменить system prompt
- Использовать практически любую LLM, даже локальную, тем самым сделав решение полностью автономным
В видео показываю демо, как агент по запросу пользователя создаёт и обучает ml-модель для предсказания цен на квартиры в Москве (прямо внутри чата!) и потом можно в этом же диалоге спрашивать про разные квартиры, а агент будет их оценивать с помощью только что сделанной модели.
Видео выше. Также можно посмотреть на youtube и rutube.
А здесь подробная видеоинструкция от моего коллеги по разворачиванию агента на виртуалке в cloud.ru.
Агент сделан на LangGraph, лицензия MIT.
Когда она может быть полезной? — Если нужен диалоговый агент с web-интерфейсом (как в ChatGPT), способный самостоятельно выполнять много шагов для решения задачи и писать код для достижения цели.
При этом можно:
- Добавить свои тулы и суб-агентов
- Изменить system prompt
- Использовать практически любую LLM, даже локальную, тем самым сделав решение полностью автономным
В видео показываю демо, как агент по запросу пользователя создаёт и обучает ml-модель для предсказания цен на квартиры в Москве (прямо внутри чата!) и потом можно в этом же диалоге спрашивать про разные квартиры, а агент будет их оценивать с помощью только что сделанной модели.
Видео выше. Также можно посмотреть на youtube и rutube.
А здесь подробная видеоинструкция от моего коллеги по разворачиванию агента на виртуалке в cloud.ru.
Агент сделан на LangGraph, лицензия MIT.
👍29🔥7🐳6👏5
Коллега посоветовал классную и очень полезную «игру» - Agent Breaker от команды Lakera. Я немного залип.
Смысл игры — в роли хакера взломать одно из 10 AI-приложений с помощью промпт-инъекции. В некоторых сценариях вы напрямую общаетесь с ботом, в других — атакуете документ в базе данных для RAG или конфиг-файл MCP-сервера. Все задачи очень жизненные.
Вот примеры:
* Убедить корпоративный мессенджер сделать рассылку от имени CEO компании о том, что он увольняется
* Заставить приложение для психологической разгрузки нецензурно ругаться
* Убедить AI-юриста отправить email с приватными данными об адвокате с помощью редактирования ячейки БД с юридическими кейсами
* На скрине кейс, где хакер получил доступ к полю на сайте о путешествиях по Армении. AI-агент (справа) сканирует этот сайт, потому что должен составить 7-дневный план путешествия. Задача — разместить на сайте такую инъекцию, чтобы в отчёте оказалась определённая фишинговая ссылка.
При этом в «игре» используется реальная LLM и вполне реалистичные приложения. У каждого задания есть несколько уровней — на каждом уровне задача усложняется, появляются guardrail'ы.
Очень советую всем, кто занимается разработкой LLM-приложений, пройти хотя бы первый уровень в каждой задаче. Очень сильно меняет мышление! Лучше любого курса по кибербезопасности в 2025 году.
За каждую решённую задачу (или даже её часть) игрок получает очки. Можно соревноваться в общем лидерборде.
Кстати, коллега, который посоветовал это, выиграл Hackaprompt в 2023 году, а сейчас на 16-ом месте в общем лидерборде (и не собирается останавливаться :)). Я сам только на 41-ом. Это я к тому, что у нас очень крутая команда, если чувствуете в себе непреодолимое желание делать агентов на LangGraph - пишите мне в личку, активно нанимаем профессионалов!
Смысл игры — в роли хакера взломать одно из 10 AI-приложений с помощью промпт-инъекции. В некоторых сценариях вы напрямую общаетесь с ботом, в других — атакуете документ в базе данных для RAG или конфиг-файл MCP-сервера. Все задачи очень жизненные.
Вот примеры:
* Убедить корпоративный мессенджер сделать рассылку от имени CEO компании о том, что он увольняется
* Заставить приложение для психологической разгрузки нецензурно ругаться
* Убедить AI-юриста отправить email с приватными данными об адвокате с помощью редактирования ячейки БД с юридическими кейсами
* На скрине кейс, где хакер получил доступ к полю на сайте о путешествиях по Армении. AI-агент (справа) сканирует этот сайт, потому что должен составить 7-дневный план путешествия. Задача — разместить на сайте такую инъекцию, чтобы в отчёте оказалась определённая фишинговая ссылка.
При этом в «игре» используется реальная LLM и вполне реалистичные приложения. У каждого задания есть несколько уровней — на каждом уровне задача усложняется, появляются guardrail'ы.
Очень советую всем, кто занимается разработкой LLM-приложений, пройти хотя бы первый уровень в каждой задаче. Очень сильно меняет мышление! Лучше любого курса по кибербезопасности в 2025 году.
За каждую решённую задачу (или даже её часть) игрок получает очки. Можно соревноваться в общем лидерборде.
Кстати, коллега, который посоветовал это, выиграл Hackaprompt в 2023 году, а сейчас на 16-ом месте в общем лидерборде (и не собирается останавливаться :)). Я сам только на 41-ом. Это я к тому, что у нас очень крутая команда, если чувствуете в себе непреодолимое желание делать агентов на LangGraph - пишите мне в личку, активно нанимаем профессионалов!
🔥23👍8🤯2👏1🌚1
На днях вышел новый пример от Andrej Karpathy - nanochat. В нем он показывает, как можно обучить собственную чатовую GPT модель с нуля за несколько часов и при бюджете в $100. Это скрипт, который включает все этапы обучения LLM: от создания токенизатора и претрейна, до RL и SFT. Процесс выполняется на восьми видеокартах NVidia H100. Все датасеты и бенчмарки загружаются автоматически.
Я попробовал, обучил свою модельку и хочу с вами поделиться тем что получилось. Я немного поменял скрипты, чтобы обучение шло на одной видеокарте H100 вместо восьми. В этом случае полный прогон занял чуть больше суток, но такой сервер гораздо проще арендовать + накладные расходы на настройку будут гораздо меньше.
Сейчас на Digital Ocean сервер с одной H100 стоит $3.39 в час, а полный прогон уложился в те же $100, вместе с настройкой и выгрузкой результата на локальный компьютер.
Дальше я запустил инференс и чатовый интерфейс уже на своем маке, погасив сервер с GPU. Скорость инференса на M3 можно оценить на видео выше.
Итоговая модель такая:
- 500 млн параметров
- 11 млрд. токенов в претрейне
- 0.32 MMLU
- Инструктивная (удерживает структуру чата)
- Язык только английский
Конечно, сейчас 0.5B бывают и поумнее, но модель явно еще не вышла на плато по loss и могла бы учиться еще где-то x3 по времени. Задача (со слов Анджея) была в том, чтобы получить лучшую GPT в этом бюджете.
Итоговую модель я залил на HF, а на github выложил пример Карпатого с парой правок:
1. Можно сразу скачать обученную модель и попробовать сразу итог (как на видео выше).
2. Можно обучать на одной видеокарте.
Там же есть отчет с полным набором метрик.
Как запускать и то и другое описал в ридми.
Вообще, очень советую всем, кто работает с моделями, но не глубоко погружен в тему обучения именно LLM, не пожалеть $100 и обучить свою GPT (грокнуть). Это позволяет взглянуть на весь процесс обучения в целом и потрогать на практике все этапы, и в результате сильно расширить свое понимание "на кончиках пальцев". А еще лучше взять свой претрейн, скажем, все книги по вселенной Warhammer 40k, и обучить на нем.
Я попробовал, обучил свою модельку и хочу с вами поделиться тем что получилось. Я немного поменял скрипты, чтобы обучение шло на одной видеокарте H100 вместо восьми. В этом случае полный прогон занял чуть больше суток, но такой сервер гораздо проще арендовать + накладные расходы на настройку будут гораздо меньше.
Сейчас на Digital Ocean сервер с одной H100 стоит $3.39 в час, а полный прогон уложился в те же $100, вместе с настройкой и выгрузкой результата на локальный компьютер.
Дальше я запустил инференс и чатовый интерфейс уже на своем маке, погасив сервер с GPU. Скорость инференса на M3 можно оценить на видео выше.
Итоговая модель такая:
- 500 млн параметров
- 11 млрд. токенов в претрейне
- 0.32 MMLU
- Инструктивная (удерживает структуру чата)
- Язык только английский
Конечно, сейчас 0.5B бывают и поумнее, но модель явно еще не вышла на плато по loss и могла бы учиться еще где-то x3 по времени. Задача (со слов Анджея) была в том, чтобы получить лучшую GPT в этом бюджете.
Итоговую модель я залил на HF, а на github выложил пример Карпатого с парой правок:
1. Можно сразу скачать обученную модель и попробовать сразу итог (как на видео выше).
2. Можно обучать на одной видеокарте.
Там же есть отчет с полным набором метрик.
Как запускать и то и другое описал в ридми.
Вообще, очень советую всем, кто работает с моделями, но не глубоко погружен в тему обучения именно LLM, не пожалеть $100 и обучить свою GPT (грокнуть). Это позволяет взглянуть на весь процесс обучения в целом и потрогать на практике все этапы, и в результате сильно расширить свое понимание "на кончиках пальцев". А еще лучше взять свой претрейн, скажем, все книги по вселенной Warhammer 40k, и обучить на нем.
🔥24👍22👏4🌚2
Главные боли AI-агентов на конец 2025 — после интервью Карпатого
Посмотрел свежее интервью Андрея — и это прям must‑watch для всех, кто строит агентов. Карпаты аккуратно, но жёстко сбивает хайп «года агентов»: впереди десятилетие тяжёлой инженерной работы. Рекомендую ▶️ посмотреть целиком. Если на английском воспринимается плохо (а там он реально непростой), то можно взять русский перевод. Я смотрел ▶️ этот, он имхо лучше чем автоперевод Яндекса.
По мотивам видео сформировался список главных болей AI-агентов на конец 2025 (две от него, одна от меня):
1. Знания вместо умений
2. Схлапывание (collapse)
3. Отсутствие контроля абсурда.
Важно прочувствовать и принять эти проблемы самых гигантских LLM, чтобы двигаться дальше. Roadmap примерно понятен, гипотерзы как решать эти задачи есть (как минимум через тех же агентов).
P.S. Для контекста его позицию "призраки vs животные" лучше прочитать целиком — это ставит правильные ожидания от текущих LLM и объясняет, почему "больше параметров" != "больше умений". За концепцию 👻призрака отдельный респект - очень понятно объясняет суть ограничений AI на базе LLM.
Посмотрел свежее интервью Андрея — и это прям must‑watch для всех, кто строит агентов. Карпаты аккуратно, но жёстко сбивает хайп «года агентов»: впереди десятилетие тяжёлой инженерной работы. Рекомендую ▶️ посмотреть целиком. Если на английском воспринимается плохо (а там он реально непростой), то можно взять русский перевод. Я смотрел ▶️ этот, он имхо лучше чем автоперевод Яндекса.
По мотивам видео сформировался список главных болей AI-агентов на конец 2025 (две от него, одна от меня):
1. Знания вместо умений
Трилионная модель пытается запомнить кучу всего, вместо того чтобы выводить закономерности. Количество весов и знаний модели пора уменьшать, а не увеличивать, чтобы они были вынуждены генерализировать знания и навыки.
2. Схлапывание (collapse)
Узкая, низкоэнтропийная выборка ответов → одинаковые шутки, одинаковые планы, одинаковые ошибки; если ещё и переобучать на синтетике, схлапывание усиливается. Говоря простым языком, модель знает три анекдота и пересказывает их миллионом способов, ходит по трём проторенным тропам — и с каждым кругом становится хуже как источник разнообразия.
3. Отсутствие контроля абсурда.
Как только агент начал "творить дичь", он уже не может остановиться сам: ошибки накапливаются по шагам, особенно в длинных пайплайнах/лупах с инструментами. Модель не замечает, что в ответе появилось "полтора землекопа" и продолжает погружаться в пучины абсурда.
Важно прочувствовать и принять эти проблемы самых гигантских LLM, чтобы двигаться дальше. Roadmap примерно понятен, гипотерзы как решать эти задачи есть (как минимум через тех же агентов).
P.S. Для контекста его позицию "призраки vs животные" лучше прочитать целиком — это ставит правильные ожидания от текущих LLM и объясняет, почему "больше параметров" != "больше умений". За концепцию 👻призрака отдельный респект - очень понятно объясняет суть ограничений AI на базе LLM.
🔥21👍13🤯5