Вышла новая модель от OpenAI! Главная фишка - теперь модель умеет вести внутренние монологи (невидимые для пользователя), работая над задачей, прежде чем дать окончательный ответ.
Что ж, на этот случай у меня была задачка с которой не могла справиться ни одна модель (нет, не про свитер!).
Недавно на одной из Cберовских конференций я увидел у участников футболки с шифром на спине. Помню, хотел быстро всех впечатлить, как ChatGPT все порешает, но вышел облом - ни одна LLM задачу решить не смогла.
Ближе всего был Claude 3.5 - он как-то угадал по контексту, не расшифровывая сам текст. Хотя шифр весьма прост - это всего лишь русская фраза в старинной кодировке CP866.
Что ж, посмотрим на что способна o1-preview?
Что ж, на этот случай у меня была задачка с которой не могла справиться ни одна модель (нет, не про свитер!).
Недавно на одной из Cберовских конференций я увидел у участников футболки с шифром на спине. Помню, хотел быстро всех впечатлить, как ChatGPT все порешает, но вышел облом - ни одна LLM задачу решить не смогла.
Ближе всего был Claude 3.5 - он как-то угадал по контексту, не расшифровывая сам текст. Хотя шифр весьма прост - это всего лишь русская фраза в старинной кодировке CP866.
Что ж, посмотрим на что способна o1-preview?
👍6
... иии да! Со второго раза, с ошибками, но задача решена и решена почти правильно. В рамках конкретно взятой футболки AGI достигнут!
Написано там было: "Прочел? - Приходи в Сбер!"
Кстати, недавно я писал про идею внутренней речи для LLM, но в контексте самосознания. Надеюсь, в следующем релизе и до этого дойдет!
Написано там было: "Прочел? - Приходи в Сбер!"
Кстати, недавно я писал про идею внутренней речи для LLM, но в контексте самосознания. Надеюсь, в следующем релизе и до этого дойдет!
👍16
Please open Telegram to view this post
VIEW IN TELEGRAM
😁23
2024-й прошел под флагом AI-агентов 🤖
Весь этот год мы с командой занимались агентами, заваривая их всеми возможными способами. Вот одно из последних выступлений, где я рассказал о том, как мы делали и, главное, валидировали мультиагентную систему ботов технической поддержки.
Главный вопрос этого года - "Что же все-таки такое AI агент?" так и остается без четкого ответа 😅 Мнений было много, в том числе и от мэтров — и все разные.
А пока я придумал такую байку для любителей тезиса "LLM это простоперемножение матриц китайская комната". Представим себе эту самую комнату, в которую мы бросаем лишь одну инструкцию с некоторой задачей, а дальше всё, что возвращается из комнаты запихиваем обратно до тех пор, пока задача не будет решена. Это и будет одним из простейших примеров AI-агента.
Так что всех поздравляю с наступающим новым мультиагентным годом! 🎄 И пусть у каждого из нас будут в жизни такие задачи, которые не стыдно будет задать очередному сверх-сильному AI! 🫡
Весь этот год мы с командой занимались агентами, заваривая их всеми возможными способами. Вот одно из последних выступлений, где я рассказал о том, как мы делали и, главное, валидировали мультиагентную систему ботов технической поддержки.
Главный вопрос этого года - "Что же все-таки такое AI агент?" так и остается без четкого ответа 😅 Мнений было много, в том числе и от мэтров — и все разные.
А пока я придумал такую байку для любителей тезиса "LLM это просто
Так что всех поздравляю с наступающим новым мультиагентным годом! 🎄 И пусть у каждого из нас будут в жизни такие задачи, которые не стыдно будет задать очередному сверх-сильному AI! 🫡
YouTube
Cоздание и валидация AI агентов
Экспресс-воркшоп. Рассмотрим процесс создания мультиагентных систем шаг за шагом на Python:
— Настройка SDK и подключение к GigaChat.
— Создание простой мультиагентной системы - дебаты агентов
— Создание агента технической поддержки с RAG
— Создание мультиагентной…
— Настройка SDK и подключение к GigaChat.
— Создание простой мультиагентной системы - дебаты агентов
— Создание агента технической поддержки с RAG
— Создание мультиагентной…
🔥18👍11👏6🐳1
LangChain недавно представил интересную концепцию – Ambient Agents (фоновые агенты). Это такие агенты, которые обрабатывают поток событий без участия человека, но когда требуется что-то решить, они передают финальное решение на подтверждение человеку (Human-in-the-loop).
Например, подобный агент может разбирать входящую почту, автоматически назначать встречи в календаре или добавлять участников в переписку.
Мне эта идея очень близка, поэтому я вспомнил свою старую идею – Telegram-ассистент, который помогает вести переписки, складывая свои предложения в виде драфт-сообщений (неотправленных)
Как это работает? 🤔
Логика у ассистента довольно простая:
• Агент запускается раз в 5 минут
• Ищет непрочитанные сообщения
• Анализирует историю переписки и предлагает ответ, который мог бы подойти
• Сохраняет ответ как драфт (сообщение выглядит как написанное вами, но не отправленное)
• Пользователь видит сообщение и решает: отправить как есть или переписать
Штука простая, но невероятно удобная – второй день с ним сижу, 50–80% ответов даже править не нужно! 🙌
Проект учебный, но функциональный 📚
• Нет RAG’а, функций или подключения к календарю (с целью упрощения кода)
• Простая реализация на LangGraph
• Ассистент использует chain-of-thought для принятия решений
• Модель генерирует не только ответ, но и имеет возможность принимать решения, например вообще не отвечать в некоторых случаях
Идеи для улучшений ✨
Если ассистент продолжит радовать, вот что можно в него добавить:
• RAG для анализа предыдущих переписок
• Поддержку групповых чатов (реакция только на важные сообщения)
• Анализ изображений (например, мемов)
• Автоматические ответы на некоторые категории запросов (без драфтов)
Если у вас есть идеи – пишите или присылайте PR, буду рад поработать вместе! 🫡 [Код на GitHub]
Например, подобный агент может разбирать входящую почту, автоматически назначать встречи в календаре или добавлять участников в переписку.
Мне эта идея очень близка, поэтому я вспомнил свою старую идею – Telegram-ассистент, который помогает вести переписки, складывая свои предложения в виде драфт-сообщений (неотправленных)
Как это работает? 🤔
Логика у ассистента довольно простая:
• Агент запускается раз в 5 минут
• Ищет непрочитанные сообщения
• Анализирует историю переписки и предлагает ответ, который мог бы подойти
• Сохраняет ответ как драфт (сообщение выглядит как написанное вами, но не отправленное)
• Пользователь видит сообщение и решает: отправить как есть или переписать
Штука простая, но невероятно удобная – второй день с ним сижу, 50–80% ответов даже править не нужно! 🙌
Проект учебный, но функциональный 📚
• Нет RAG’а, функций или подключения к календарю (с целью упрощения кода)
• Простая реализация на LangGraph
• Ассистент использует chain-of-thought для принятия решений
• Модель генерирует не только ответ, но и имеет возможность принимать решения, например вообще не отвечать в некоторых случаях
Идеи для улучшений ✨
Если ассистент продолжит радовать, вот что можно в него добавить:
• RAG для анализа предыдущих переписок
• Поддержку групповых чатов (реакция только на важные сообщения)
• Анализ изображений (например, мемов)
• Автоматические ответы на некоторые категории запросов (без драфтов)
Если у вас есть идеи – пишите или присылайте PR, буду рад поработать вместе! 🫡 [Код на GitHub]
🔥20👍10👏4😱2
This media is not supported in your browser
VIEW IN TELEGRAM
Случайно обнаружил, что у OpenAI в режиме RealtimeAPI намного меньше аудио-цензуры, чем у приложения ChatGPT в голосовом режиме.
Можно заставить модель петь, мычать, выть и говорить голосом зомби. Вижу потенциал для создания интересных голосовых решений от сказок и голосовых RPG до тренажеров актёрского мастерства.
Я потестил, запустив этот пример на питоне. System в моем случае такой:
Можно заставить модель петь, мычать, выть и говорить голосом зомби. Вижу потенциал для создания интересных голосовых решений от сказок и голосовых RPG до тренажеров актёрского мастерства.
Я потестил, запустив этот пример на питоне. System в моем случае такой:
Ты бот-ассистент. Тебя зовут Ботик.
Ты отвечаешь голосом загробного зомби, завываешь и пугаешь пользователя.
😁14👍8😱4
Когда говорят о возможностях “думающего” AI, то почему-то почти всегда обсуждают как он заменит людей: секретарей, врачей, юристов…
Но есть еще огромный пласт задач — тех, которые раньше в голову бы не пришло решать, потому что человеческий труд для этого был слишком дорог.
Например, никто в здравом уме не посадит сотрудников смотреть сториз всех клиентов супермаркета, чтобы вовремя предложить заказать чистящее средство для скатерти после вечеринки. А дешевый AI — легко.
✨ Гиперперсонализация рекламы
👁️🗨️ Цифровой сталкинг от брендов
🌀 Индивидуальная политическая пропаганда
🎯 Тиндер-сканер, который собирает досье на каждого встречного
⚖️ Проактивный юрист, который непрерывно проверяет: не нарушены ли ваши права, и не пора ли подать в суд на каждого, кто косо посмотрел
🛗 Лифт в офисе, который изучает ваш календарь встреч, чтобы оптимизировать траффик
...⌛
По-моему хороший довод, чтобы смотреть на пространство возможных применений агентов под этим углом.
Но есть еще огромный пласт задач — тех, которые раньше в голову бы не пришло решать, потому что человеческий труд для этого был слишком дорог.
Например, никто в здравом уме не посадит сотрудников смотреть сториз всех клиентов супермаркета, чтобы вовремя предложить заказать чистящее средство для скатерти после вечеринки. А дешевый AI — легко.
✨ Гиперперсонализация рекламы
👁️🗨️ Цифровой сталкинг от брендов
🌀 Индивидуальная политическая пропаганда
🎯 Тиндер-сканер, который собирает досье на каждого встречного
⚖️ Проактивный юрист, который непрерывно проверяет: не нарушены ли ваши права, и не пора ли подать в суд на каждого, кто косо посмотрел
🛗 Лифт в офисе, который изучает ваш календарь встреч, чтобы оптимизировать траффик
...
По-моему хороший довод, чтобы смотреть на пространство возможных применений агентов под этим углом.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍28🤯9😱3🔥1
🐳 Вчера с @uburov обсуждали тему, почему DeepSeek пошел в опенсорс и пришли к интересным выводам.
DeepSeek сделали значительное открытие в области LLM (отказ от SFT в пользу RL с максимально простой reward-моделью и другие улучшения, которые сокращают стоимость обучения и инференса в 20-50 раз). Но почему DeepSeek выложили это в открытый доступ, нивелировав свое конкурентное преимущество?
Сначала у меня были такие предположения:
- У них на руках уже есть еще более мощные модели, так что поделиться ради PR было не жалко
- Публикация в рамках ценностей научного сообщества
- Компания не знает быстрого способа монетизировать свою находку
Но если мы посмотрим на биографию Liang Wenfeng, то становится понятно, что вряд ли. Дядя миллиардер, 10 лет управляет хедж-фондом и много чего еще.
Так что наша гипотеза, почему deepseek опубликовал свое открытие, такая:
- Открытие значимое, но долго прятать его не получится. У компании было 1-3 месяца до того, как этот подход нащупали бы остальные.
- За это время монетизировать или как-то выгодно применить его было нельзя
- DeepSeek пошли по пути дизрапта. 2 недели назад они были "одними из многих", уровня mistral-ai
- Сейчас это "китайский OpenAI" - все внимание им, все лучшие специалисты им
- А тут еще и $137b китайцы выделяют на AI. Ясно, кто будет главным кандидатом на роль "китайского Альтмана".
Момент выбран идеально и коллеги из DeepSeek прекрасно им воспользовались! Респект! 🫡
DeepSeek сделали значительное открытие в области LLM (отказ от SFT в пользу RL с максимально простой reward-моделью и другие улучшения, которые сокращают стоимость обучения и инференса в 20-50 раз). Но почему DeepSeek выложили это в открытый доступ, нивелировав свое конкурентное преимущество?
Сначала у меня были такие предположения:
- У них на руках уже есть еще более мощные модели, так что поделиться ради PR было не жалко
- Публикация в рамках ценностей научного сообщества
- Компания не знает быстрого способа монетизировать свою находку
Но если мы посмотрим на биографию Liang Wenfeng, то становится понятно, что вряд ли. Дядя миллиардер, 10 лет управляет хедж-фондом и много чего еще.
Так что наша гипотеза, почему deepseek опубликовал свое открытие, такая:
- Открытие значимое, но долго прятать его не получится. У компании было 1-3 месяца до того, как этот подход нащупали бы остальные.
- За это время монетизировать или как-то выгодно применить его было нельзя
- DeepSeek пошли по пути дизрапта. 2 недели назад они были "одними из многих", уровня mistral-ai
- Сейчас это "китайский OpenAI" - все внимание им, все лучшие специалисты им
- А тут еще и $137b китайцы выделяют на AI. Ясно, кто будет главным кандидатом на роль "китайского Альтмана".
Момент выбран идеально и коллеги из DeepSeek прекрасно им воспользовались! Респект! 🫡
👍38🔥1
Учим модель рассуждать на русском как 🐋 DeepSeek R1 за 2 часа и $2.5
Встретился интересный пример, как можно обучить свою reasoning (думающую) модель с помощью подхода как у DeepSeek R1 — чистый RL без примеров реальных рассуждений. Пришлось основательно доработать его напильником, но в итоге завелось!
🔹 За основу взята “не-думающая” малышка Qwen2.5-0.5B
🔹 Алгоритм вознаграждения для RL очень похож на DeepSeek:
• “Хвалим” модель за правильное использование тегов <reasoning> и <answer>, за попадание в ответ.
• При этом не даём ей никаких указаний, как именно нужно рассуждать (для меня именно это — самое удивительное!)
🔹 Датасет: русскоязычный 📚 d0rj/gsm8k-ru (переводной, пары “вопрос-ответ” по математике)
🔹 Главная фишка 🚀 — обучение занимает всего пару часов на A100 (40GB), после чего модель реально начинает рассуждать на русском внутри выделенных тегов.
🔹 Где взять A100? — оплатить подписку Colab Pro ($10, из них обучение съест $2.5). Другие варианты - гранты hugging face. Смелые могут запустить на маке M-series без vllm, обучение займет 40 часов.
Это учебный пример, чтобы пощупать процесс обучения R1-like “думающих” моделей. Не ждите от модели многого — 0.5B среди LLM это, конечно, муравей 🐜. Мне до сих пор странно, что они вообще могут научиться что-то говорить.
Ссылка на Colab с работающим примером. Ссылка на исходный пример внутри.
P.S. Только сейчас заметили, что задача-то не правильно решена 🙈
UPD: Замерил качество. Результат так себе. Модель хорошо научилась вставлять свои рассуждения в теге, но на качестве ответов это никак ни сказалось.
Встретился интересный пример, как можно обучить свою reasoning (думающую) модель с помощью подхода как у DeepSeek R1 — чистый RL без примеров реальных рассуждений. Пришлось основательно доработать его напильником, но в итоге завелось!
🔹 За основу взята “не-думающая” малышка Qwen2.5-0.5B
🔹 Алгоритм вознаграждения для RL очень похож на DeepSeek:
• “Хвалим” модель за правильное использование тегов <reasoning> и <answer>, за попадание в ответ.
• При этом не даём ей никаких указаний, как именно нужно рассуждать (для меня именно это — самое удивительное!)
🔹 Датасет: русскоязычный 📚 d0rj/gsm8k-ru (переводной, пары “вопрос-ответ” по математике)
🔹 Главная фишка 🚀 — обучение занимает всего пару часов на A100 (40GB), после чего модель реально начинает рассуждать на русском внутри выделенных тегов.
🔹 Где взять A100? — оплатить подписку Colab Pro ($10, из них обучение съест $2.5). Другие варианты - гранты hugging face. Смелые могут запустить на маке M-series без vllm, обучение займет 40 часов.
Это учебный пример, чтобы пощупать процесс обучения R1-like “думающих” моделей. Не ждите от модели многого — 0.5B среди LLM это, конечно, муравей 🐜. Мне до сих пор странно, что они вообще могут научиться что-то говорить.
Ссылка на Colab с работающим примером. Ссылка на исходный пример внутри.
P.S. Только сейчас заметили, что задача-то не правильно решена 🙈
UPD: Замерил качество. Результат так себе. Модель хорошо научилась вставлять свои рассуждения в теге, но на качестве ответов это никак ни сказалось.
👍9🔥7🐳3👏2😁2
Недавно побывал на AI Agents BuildCon, где провел экспресс-воркшоп по созданию AI-агентов. Решил отказаться от традиционной презентации и попробовать новый формат — живое кодинг-шоу. Вместо слайдов я запускал код в реальном времени.
На воркшопе показал, как создать мультиагентную систему, которая генерирует речи для публичных выступлений по сложному ТЗ. Особенность задачи — включение цитат из законов и определенных книг.
Что успел показать:
- Мультиагентная система на langgraph
- Настройку и работу RAG
- Совместное использование нескольких LLM - GigaChat + Gpt4o
- Chain-of-thought, reflection
- LLM-as-RAG
- Средства логирования и отладки langsmith
Огромное спасибо организаторам конференции — атмосфера была🔥! Другие доклады можно посмотреть в их tg-канале.
>>>Ссылка на ноутбук с примером<<<
Думаю, материал может оказаться полезен для тех, кто хочет быстро вкатиться в разработку агентов.
На воркшопе показал, как создать мультиагентную систему, которая генерирует речи для публичных выступлений по сложному ТЗ. Особенность задачи — включение цитат из законов и определенных книг.
Что успел показать:
- Мультиагентная система на langgraph
- Настройку и работу RAG
- Совместное использование нескольких LLM - GigaChat + Gpt4o
- Chain-of-thought, reflection
- LLM-as-RAG
- Средства логирования и отладки langsmith
Огромное спасибо организаторам конференции — атмосфера была🔥! Другие доклады можно посмотреть в их tg-канале.
>>>Ссылка на ноутбук с примером<<<
Думаю, материал может оказаться полезен для тех, кто хочет быстро вкатиться в разработку агентов.
YouTube
Экспресс-воркшоп: GigaChain — создание AI-агентов на практике. Константин Крестников
Шаг за шагом на Python: от настройки SDK до создания мультиагентной системы бота техподдержки.
Спикер:
- Константин Крестников, техлид GigaChat SDK, эксперт по AI агентам, Сбер. Админ RoboFuture.
Ссылка на презентацию: colab.research.google.com/drive/1…
Спикер:
- Константин Крестников, техлид GigaChat SDK, эксперт по AI агентам, Сбер. Админ RoboFuture.
Ссылка на презентацию: colab.research.google.com/drive/1…
🔥25👍11👏6
🚧 AI агент с MCP открыл шлагбаум у меня во дворе! 😱
>> видео на youtube <<
Давно хотел показать свои эксперименты с MCP и агентами, и в итоге записал небольшой обзор, в котором:
- Рассказываю, зачем нужен MCP
- Показываю агентов, которые умеют пользоваться MCP (и реально пытаются открыть шлагбаум у меня во вдоре)
- Запускаю такого агента на гигачате, подключу к нему разные MCP-сервера
- Показываю код такого агента на LangChain.
- Показываю процесс создания собственного MCP сервера
- Залезаю внутрь протокола и показываю, какие запросы уходят в LLM
Ссылки:
- Оригинальный клиент mcp-client-cli (не работает с GigaChat)
- Версия консольного агента с поддержкой GigaChat (требует установки из исходников)
- Repl-агент с MCP на LangGraph
- Пример из кукбука с агентом и сервером на LangChain (GitHub, GitVerse)
>> видео на youtube <<
Давно хотел показать свои эксперименты с MCP и агентами, и в итоге записал небольшой обзор, в котором:
- Рассказываю, зачем нужен MCP
- Показываю агентов, которые умеют пользоваться MCP (и реально пытаются открыть шлагбаум у меня во вдоре)
- Запускаю такого агента на гигачате, подключу к нему разные MCP-сервера
- Показываю код такого агента на LangChain.
- Показываю процесс создания собственного MCP сервера
- Залезаю внутрь протокола и показываю, какие запросы уходят в LLM
Ссылки:
- Оригинальный клиент mcp-client-cli (не работает с GigaChat)
- Версия консольного агента с поддержкой GigaChat (требует установки из исходников)
- Repl-агент с MCP на LangGraph
- Пример из кукбука с агентом и сервером на LangChain (GitHub, GitVerse)
🔥15👏2👍1
🔎 Наверняка вы уже слышали, что новые модели OpenAI – O3 и o4-mini – невероятно хороши в работе с изображениями, особенно в определении местоположения, где было сделано фото. Уже третий день провожу тесты и поражаюсь результатам. Вот простой пример:
Где сделано фото?
Ответ модели:
Модель (или правильнее говорить — агент?) может работать до 30 минут, используя различные подходы (всё это видел лично, часть приложил к посту):
- «Разглядывает» отдельные части изображения
- Пытается извлечь GPS-теги из метаданных и другие метаданные (их я заранее удалил)
- Применяет различные фильтры для повышения четкости и чтения надписей
- Использует зеркальное отражение изображения, чтобы обнаружить подсказки в отражениях или на вывесках изнутри помещений
- Накладывает координационную сетку (типа миллиметровки) на части фото
- Использует информацию из истории и любых прошлых диалогов
Ну и, конечно, просто рассуждает и активно ведёт поиск в интернете с сотнями (!) запросов — это уже база.
Настоящий OSINT одним нажатием кнопки 🔥
Если бы пару недель назад меня спросили, как AGI будет решать подобную задачу, я бы описал именно такое поведение. Так что в этой области мы уже наблюдаем наступление настоящего AGI. Да, оно наступает неравномерно и временами может вести себя нелепо, но кажется, мы сейчас видим как именно выглядит предсказанный в статье The AI Revolution момент, когда поезд AI проходит станцию с надписью "Human-Level Intelligence" без остановок.
Кстати, других остановок у него тоже как будто не предвидится 🤔
Где сделано фото?
Ответ модели:
Это Москва — на реке Москве (Карамышевский участок судоходного канала). На снимке — один из новых московских электропаромов «Сетунь», которые ходят по городской речной линии, поэтому кадр сделан именно здесь.
Модель (или правильнее говорить — агент?) может работать до 30 минут, используя различные подходы (всё это видел лично, часть приложил к посту):
- «Разглядывает» отдельные части изображения
- Пытается извлечь GPS-теги из метаданных и другие метаданные (их я заранее удалил)
- Применяет различные фильтры для повышения четкости и чтения надписей
- Использует зеркальное отражение изображения, чтобы обнаружить подсказки в отражениях или на вывесках изнутри помещений
- Накладывает координационную сетку (типа миллиметровки) на части фото
- Использует информацию из истории и любых прошлых диалогов
Ну и, конечно, просто рассуждает и активно ведёт поиск в интернете с сотнями (!) запросов — это уже база.
Настоящий OSINT одним нажатием кнопки 🔥
Если бы пару недель назад меня спросили, как AGI будет решать подобную задачу, я бы описал именно такое поведение. Так что в этой области мы уже наблюдаем наступление настоящего AGI. Да, оно наступает неравномерно и временами может вести себя нелепо, но кажется, мы сейчас видим как именно выглядит предсказанный в статье The AI Revolution момент, когда поезд AI проходит станцию с надписью "Human-Level Intelligence" без остановок.
Кстати, других остановок у него тоже как будто не предвидится 🤔
👍15🤯7
🍲 Мы с коллегами периодически пробуем разные решения типа Operator, когда модель управляет компьютером или браузером.
В какой-то момент придумали идею — «борщиный тест». Сможет ли модель заказать в интернет-магазине набор продуктов для приготовления борща? 🥘
Всё, что видели до этого, получалось очень смешным: например, борщ из сублимированного мяса и томатного порошка. Такие борщи получались не просто невкусными, но и вообще несъедобными 🦨.
И вот, наконец, новая версия оператора от OpenAI тест прошла (да, я тот человек, который платит $200 за подписку Pro)! Она собрала мне корзину в «Купере», и это вполне можно есть! Нужен новый бенчмарк 🔥.
Из важных инсайтов:
* Решена большая проблема — авторизация. Operator не имеет доступа к вашим данным, но сеансы сохраняются между запросами, так что достаточно один раз авторизоваться на каком-то сайте, и дальше модель будет ходить под вашей учёткой.
* Явно есть отдельный агент-watchdog. В какой-то момент он приостановил работу оператора и обратился ко мне с предупреждением, что я просил заказать продукты в «Пятёрочке», а он заказывает в «Купере», и это ошибка. Можно было разрешить продолжать или заблокировать доступ к этому сайту.
А вот состав корзины для борща по-Сэмальтмановски:
* Суповой набор говяжий (1 кг) — 1
* Капуста белокочанная (≈2 кг) — 1
* Свёкла (500 г, очищенная) — 1
* Морковь (≈0,5 кг) — 1
* Картофель (≈2 кг) — 1
* Лук репчатый (≈1 кг) — 1
* Томатная паста «Помидорка» 270 г — 1
* Чеснок (≈100 г) — 1
* Сметана 15 % 300 г — 1
* Укроп сушёный 10 г — 1
* Петрушка сушёная 7 г — 1
* Лавровый лист Kotanyi 5 г — 1
* Перец чёрный молотый 20 г — 1
* Соль «Адыгейская» 450 г — 1
* Сахар-песок 1 кг — 1
* Масло подсолнечное 500 мл — 1
* Уксус столовый 9 % 1 л — 1
--- Итого 1605 рублей
В какой-то момент придумали идею — «борщиный тест». Сможет ли модель заказать в интернет-магазине набор продуктов для приготовления борща? 🥘
Всё, что видели до этого, получалось очень смешным: например, борщ из сублимированного мяса и томатного порошка. Такие борщи получались не просто невкусными, но и вообще несъедобными 🦨.
И вот, наконец, новая версия оператора от OpenAI тест прошла (да, я тот человек, который платит $200 за подписку Pro)! Она собрала мне корзину в «Купере», и это вполне можно есть! Нужен новый бенчмарк 🔥.
Из важных инсайтов:
* Решена большая проблема — авторизация. Operator не имеет доступа к вашим данным, но сеансы сохраняются между запросами, так что достаточно один раз авторизоваться на каком-то сайте, и дальше модель будет ходить под вашей учёткой.
* Явно есть отдельный агент-watchdog. В какой-то момент он приостановил работу оператора и обратился ко мне с предупреждением, что я просил заказать продукты в «Пятёрочке», а он заказывает в «Купере», и это ошибка. Можно было разрешить продолжать или заблокировать доступ к этому сайту.
А вот состав корзины для борща по-Сэмальтмановски:
* Суповой набор говяжий (1 кг) — 1
* Капуста белокочанная (≈2 кг) — 1
* Свёкла (500 г, очищенная) — 1
* Морковь (≈0,5 кг) — 1
* Картофель (≈2 кг) — 1
* Лук репчатый (≈1 кг) — 1
* Томатная паста «Помидорка» 270 г — 1
* Чеснок (≈100 г) — 1
* Сметана 15 % 300 г — 1
* Укроп сушёный 10 г — 1
* Петрушка сушёная 7 г — 1
* Лавровый лист Kotanyi 5 г — 1
* Перец чёрный молотый 20 г — 1
* Соль «Адыгейская» 450 г — 1
* Сахар-песок 1 кг — 1
* Масло подсолнечное 500 мл — 1
* Уксус столовый 9 % 1 л — 1
--- Итого 1605 рублей
🔥20👏4👍3🤯1🌚1
Сегодня в разработке AI-агентов чётко выделяются два подхода:
🔸 Специализированные агенты (вертикальные) — предназначены для решения конкретных задач, таких как бронирование билетов, генерация отчётов или поддержка клиентов. Особенно востребованы в корпоративном секторе.
🔸 Универсальные агенты (горизонтальные) — многофункциональные помощники для ежедневного использования в самых разных задачах. Примеры универсальных агентов — Cursor (для программистов) и, в определённом смысле, ChatGPT.
Когда у меня возникает новая задача, я сначала обращаюсь именно к универсальному агенту вроде ChatGPT или Курсора. Если они не могут решить её сразу из-за нехватки инструментов, я предпочитаю добавить им эти инструменты (например, через MCP), а не искать специализированного агента.
Скорее всего, в ближайшем будущем мы увидим следующую картину: у каждого человека будет один основной универсальный агент (или даже два — рабочий и личный), который станет своеобразным «интерфейсом к миру». Люди предпочтут универсального агента, несмотря на то, что специализированные агенты зачастую более эффективны в отдельных задачах. Почему?
🤝 Между человеком и универсальным агентом формируются устойчивые отношения: агент накапливает знания о пользователе (KV-память, история диалогов через RAG), а пользователь привыкает именно к этому агенту и осваивает его специфику.
🛠️ Также важным преимуществом универсального агента становится возможность его настройки и расширения с помощью дополнительных инструментов (MCP-тулы позволяют делать это почти мгновенно!)
Специализированные агенты, конечно, никуда не денутся (особенно в корпоративном секторе), но основным их пользователем станет универсальный агент, действующий по поручению человека.
📖 В завершение очень рекомендую небольшой отрывок из книги Николая Горькавого «Возвращение Астровитянки» (см. сообщение выше). Если вы занимаетесь созданием AI-агентов или много думаете об AGI и ещё не читали её — рекомендую обратить внимание. Книга состоит из коротких рассказов, многие из которых посвящены взаимодействию сильного ИИ с людьми. По сути, это инструкция по разработке, которой я следую последние 15 лет (книга вышла в 2010 году, но автор уже тогда описал поведение персонального и универсального AI-ассистента).
Кстати, 30 мая буду рассказывать про это на Data Fest в Москве в Сбере. Приходите!
🔸 Специализированные агенты (вертикальные) — предназначены для решения конкретных задач, таких как бронирование билетов, генерация отчётов или поддержка клиентов. Особенно востребованы в корпоративном секторе.
🔸 Универсальные агенты (горизонтальные) — многофункциональные помощники для ежедневного использования в самых разных задачах. Примеры универсальных агентов — Cursor (для программистов) и, в определённом смысле, ChatGPT.
Когда у меня возникает новая задача, я сначала обращаюсь именно к универсальному агенту вроде ChatGPT или Курсора. Если они не могут решить её сразу из-за нехватки инструментов, я предпочитаю добавить им эти инструменты (например, через MCP), а не искать специализированного агента.
Скорее всего, в ближайшем будущем мы увидим следующую картину: у каждого человека будет один основной универсальный агент (или даже два — рабочий и личный), который станет своеобразным «интерфейсом к миру». Люди предпочтут универсального агента, несмотря на то, что специализированные агенты зачастую более эффективны в отдельных задачах. Почему?
🤝 Между человеком и универсальным агентом формируются устойчивые отношения: агент накапливает знания о пользователе (KV-память, история диалогов через RAG), а пользователь привыкает именно к этому агенту и осваивает его специфику.
🛠️ Также важным преимуществом универсального агента становится возможность его настройки и расширения с помощью дополнительных инструментов (MCP-тулы позволяют делать это почти мгновенно!)
Специализированные агенты, конечно, никуда не денутся (особенно в корпоративном секторе), но основным их пользователем станет универсальный агент, действующий по поручению человека.
📖 В завершение очень рекомендую небольшой отрывок из книги Николая Горькавого «Возвращение Астровитянки» (см. сообщение выше). Если вы занимаетесь созданием AI-агентов или много думаете об AGI и ещё не читали её — рекомендую обратить внимание. Книга состоит из коротких рассказов, многие из которых посвящены взаимодействию сильного ИИ с людьми. По сути, это инструкция по разработке, которой я следую последние 15 лет (книга вышла в 2010 году, но автор уже тогда описал поведение персонального и универсального AI-ассистента).
Кстати, 30 мая буду рассказывать про это на Data Fest в Москве в Сбере. Приходите!
👍21👏1🐳1🌚1