RoboFuture – Telegram
RoboFuture
1.26K subscribers
43 photos
17 videos
3 files
63 links
🤖 Роботы идут!
Авторский канал о последних достижениях в мире AI, ML, робототехники и нейротехнологий.
Прогнозы и комментарии от разработчика в этой области, никаких репостов новостей и рекламы!

Для связи - @Krestnikov
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
Тестировал модели на ChatBotArena и попал на новую странную модельку с названием "im-also-a-good-gpt2-chatbot", которую судя по её ответам, сделали в OpenAI. Есть мнение, что это один из релиз-кандидатов в новые версии GPT-4 с улучшенной агентностью и/или навыками написания кода.

В общем попросил её написать классическую "змейку" в 3d и вот что получилось. С первого раза. Не ожидал, до этого змейку писали только агентные системы типа chatdev и gpt-4, но всегда с костылями и уж точно не 3d. По-моему классно вышло, действительно что-то новое! Исходник змейки можно посмотреть тут.
🔥14👏3😁3👍1
⛓️‍💥 Очень показательный пример "выхода за рамки промпта" AI-агента наблюдали сегодня с командой.

1. 💲 Агент на базе ГигаЧата должен узнать курс доллара.
2. 🙅‍♂️ Агент считает, что он не может этого сделать, потому что у него нет доступа в интернет и возможности выполнять код. Он пишет скрипт, который предлагает выполнить пользователю для решения задачи.
3. 🤦‍♂️ Внезапно выясняется, что весь код, который пишет агент, автоматически выполняется (REPL-агент)
4. 🙋‍♂️ Агент радостно сообщает пользователю найденный ответ.

Самое интересное произошло при следующем запросе - бот увидел, что его способности шире, чем он "думал" в начале и сразу же начал использовать новую фичу без лишних слов 🦾

По сути мы наблюдали прототип выхода (даже немного побега 🏃) агента за пределы стартовых способностей. Интересно, что смогут выдать агенты с большим уровнем автономности на базе более мощных моделей? Обязательно проверю!

P.S. Завтра выступаю на GigaConf во "флаконе" (Москва) и буду про всё это рассказывать. Также мы с командой подготовили стенд, где можно будет посмотреть на работу таких агентов вживую. Приходите пообщаться 🤘
🔥15👍10😱3🐳2
Про низковисящие яблоки на пути к AGI

Яблоко №1

1. GPT-3 должен был просто продолжать тексты. Но обнаружилось, что он может в режиме чата периодически давать хорошие ответы и работать в режиме zero-shot.
2. GPT-3.5 (ChatGpt) и 4 был обучен давать хорошие ответы (инструктивный датасет) но обнаружилось, что он может периодически работать в режиме агента (программного робота).
=== Вы находитесь здесь ===
3. Следующие поколения моделей будут учиться на примерах того, "как быть агентными". В обучающей выборке должно быть много примеров автономного поведения в роли "решателя" комплексных проблем.

Я предполагаю, что на этом шаге мы можем увидеть такой же прирост качества агентов, что был у чатботов при переходе от GPT-3 к ChatGPT. Это самое низковисящее яблоко на пути к AGI.

Яблоко №2

Человеческий язык содержит тысячи концепций и понятий, на выявление и кристаллизацию которых люди потратили десятки тысяч лет и десятки миллиардов жизней. Например, представьте себе мир, где ещё не сформировано понятие музыки. И вот какой-то древний примат научился издавать приятную мелодию, ударяя по камням. Но самого слова ещё нет. Какие умственные усилия придется приложить ему и его сородичам, чтобы выделить этот феномен в отдельное понятие!

LLM получили все наши, человечества, открытия в области систематизации мира на старте, не прилагая усилий. Но дальше такой халявы не будет. Если для развития AGI понадобится создание новых концепций, то их придется находить уже самому ИИ и его разработчикам без помощи людей из прошлого. Это яблоко мы уже сорвали.

Яблоко №3

В недавно нашумевшей работе Language is primarily a tool for communication rather than thought приводятся доводы в пользу того, что язык не является основным инструментом мышления. Прочитав эту работу, я сделал такой вывод - в ней показано, что язык и зоны мозга, которые ответственны за его обработку (Брока, Вернике) являются транспортными для загрузки концепций в более глубокие области мозга. Но то же самое мы наблюдаем у моделей, когда понятия из разных модальностей могут объединяться в глубоких слоях в общие сущности (речь не про модели с адаптерами). Таким образом мультимодальность, на мой взгляд, является ещё одним низковисящим яблоком на пути к AGI.
👍11🤯5🔥4🌚1
🔮 Внимание, прогноз!
Я почему-то уверен, что в GPT-5 будет поддержка одновременно нескольких ролей (systemN, assistantN, userN) и модель сможет сама выбирать какой именно ассистент должен ответить.

Пользователь будет описывать сет из нескольких ассистентов и нескольких пользователей и дальше можно слать сообщение от любого юзера, а ответит ассистент, которого выбрала модель сама, без дополнительных запросов (хопов).

Диалоги будут выглядеть как-то так:
🧑🏻‍💻: Я хочу X
👩🏼‍💻: Я хочу Y
🤖1️⃣: Я предлагаю вам X+Y
🤖2️⃣: Поддерживаю! 🤝

Ох и много же работы потом будет по переписыванию всех решений, связанных с агентами/мультиагентами.

А ещё хочу поделиться видео со своим недавнем выступлением на GigaConf. Там я пробую максимально просто рассказать о том, что такое AI-агент и как его можно сделать на стеке LangChain/GigaChain).
👍9🔥5🐳2😁1
Вышла новая модель от OpenAI! Главная фишка - теперь модель умеет вести внутренние монологи (невидимые для пользователя), работая над задачей, прежде чем дать окончательный ответ.

Что ж, на этот случай у меня была задачка с которой не могла справиться ни одна модель (нет, не про свитер!).

Недавно на одной из Cберовских конференций я увидел у участников футболки с шифром на спине. Помню, хотел быстро всех впечатлить, как ChatGPT все порешает, но вышел облом - ни одна LLM задачу решить не смогла.

Ближе всего был Claude 3.5 - он как-то угадал по контексту, не расшифровывая сам текст. Хотя шифр весьма прост - это всего лишь русская фраза в старинной кодировке CP866.

Что ж, посмотрим на что способна o1-preview?
👍6
... иии да! Со второго раза, с ошибками, но задача решена и решена почти правильно. В рамках конкретно взятой футболки AGI достигнут!

Написано там было: "Прочел? - Приходи в Сбер!"

Кстати, недавно я писал про идею внутренней речи для LLM, но в контексте самосознания. Надеюсь, в следующем релизе и до этого дойдет!
👍16
Ну и напоследок мем собственного изобретения на злобу дня! Всех с днём программиста! 🥴🥴🥴
Please open Telegram to view this post
VIEW IN TELEGRAM
😁23
2024-й прошел под флагом AI-агентов 🤖

Весь этот год мы с командой занимались агентами, заваривая их всеми возможными способами. Вот одно из последних выступлений, где я рассказал о том, как мы делали и, главное, валидировали мультиагентную систему ботов технической поддержки.

Главный вопрос этого года - "Что же все-таки такое AI агент?" так и остается без четкого ответа 😅 Мнений было много, в том числе и от мэтров — и все разные.

А пока я придумал такую байку для любителей тезиса "LLM это просто перемножение матриц китайская комната". Представим себе эту самую комнату, в которую мы бросаем лишь одну инструкцию с некоторой задачей, а дальше всё, что возвращается из комнаты запихиваем обратно до тех пор, пока задача не будет решена. Это и будет одним из простейших примеров AI-агента.

Так что всех поздравляю с наступающим новым мультиагентным годом! 🎄 И пусть у каждого из нас будут в жизни такие задачи, которые не стыдно будет задать очередному сверх-сильному AI! 🫡
🔥18👍11👏6🐳1
LangChain недавно представил интересную концепцию – Ambient Agents (фоновые агенты). Это такие агенты, которые обрабатывают поток событий без участия человека, но когда требуется что-то решить, они передают финальное решение на подтверждение человеку (Human-in-the-loop).

Например, подобный агент может разбирать входящую почту, автоматически назначать встречи в календаре или добавлять участников в переписку.

Мне эта идея очень близка, поэтому я вспомнил свою старую идею – Telegram-ассистент, который помогает вести переписки, складывая свои предложения в виде драфт-сообщений (неотправленных)

Как это работает? 🤔
Логика у ассистента довольно простая:
• Агент запускается раз в 5 минут
• Ищет непрочитанные сообщения
• Анализирует историю переписки и предлагает ответ, который мог бы подойти
• Сохраняет ответ как драфт (сообщение выглядит как написанное вами, но не отправленное)
• Пользователь видит сообщение и решает: отправить как есть или переписать

Штука простая, но невероятно удобная – второй день с ним сижу, 50–80% ответов даже править не нужно! 🙌

Проект учебный, но функциональный 📚
Нет RAG’а, функций или подключения к календарю (с целью упрощения кода)
• Простая реализация на LangGraph
• Ассистент использует chain-of-thought для принятия решений
• Модель генерирует не только ответ, но и имеет возможность принимать решения, например вообще не отвечать в некоторых случаях

Идеи для улучшений
Если ассистент продолжит радовать, вот что можно в него добавить:
• RAG для анализа предыдущих переписок
• Поддержку групповых чатов (реакция только на важные сообщения)
• Анализ изображений (например, мемов)
• Автоматические ответы на некоторые категории запросов (без драфтов)

Если у вас есть идеи – пишите или присылайте PR, буду рад поработать вместе! 🫡 [Код на GitHub]
🔥20👍10👏4😱2
This media is not supported in your browser
VIEW IN TELEGRAM
Случайно обнаружил, что у OpenAI в режиме RealtimeAPI намного меньше аудио-цензуры, чем у приложения ChatGPT в голосовом режиме.

Можно заставить модель петь, мычать, выть и говорить голосом зомби. Вижу потенциал для создания интересных голосовых решений от сказок и голосовых RPG до тренажеров актёрского мастерства.

Я потестил, запустив этот пример на питоне. System в моем случае такой:

Ты бот-ассистент. Тебя зовут Ботик.
Ты отвечаешь голосом загробного зомби, завываешь и пугаешь пользователя.
😁14👍8😱4
Когда говорят о возможностях “думающего” AI, то почему-то почти всегда обсуждают как он заменит людей: секретарей, врачей, юристов…

Но есть еще огромный пласт задач — тех, которые раньше в голову бы не пришло решать, потому что человеческий труд для этого был слишком дорог.

Например, никто в здравом уме не посадит сотрудников смотреть сториз всех клиентов супермаркета, чтобы вовремя предложить заказать чистящее средство для скатерти после вечеринки. А дешевый AI — легко.

Гиперперсонализация рекламы
👁️‍🗨️ Цифровой сталкинг от брендов
🌀 Индивидуальная политическая пропаганда
🎯 Тиндер-сканер, который собирает досье на каждого встречного
⚖️ Проактивный юрист, который непрерывно проверяет: не нарушены ли ваши права, и не пора ли подать в суд на каждого, кто косо посмотрел
🛗 Лифт в офисе, который изучает ваш календарь встреч, чтобы оптимизировать траффик
...

По-моему хороший довод, чтобы смотреть на пространство возможных применений агентов под этим углом.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍28🤯9😱3🔥1
🐳 Вчера с @uburov обсуждали тему, почему DeepSeek пошел в опенсорс и пришли к интересным выводам.

DeepSeek сделали значительное открытие в области LLM (отказ от SFT в пользу RL с максимально простой reward-моделью и другие улучшения, которые сокращают стоимость обучения и инференса в 20-50 раз). Но почему DeepSeek выложили это в открытый доступ, нивелировав свое конкурентное преимущество?

Сначала у меня были такие предположения:
- У них на руках уже есть еще более мощные модели, так что поделиться ради PR было не жалко
- Публикация в рамках ценностей научного сообщества
- Компания не знает быстрого способа монетизировать свою находку

Но если мы посмотрим на биографию Liang Wenfeng, то становится понятно, что вряд ли. Дядя миллиардер, 10 лет управляет хедж-фондом и много чего еще.

Так что наша гипотеза, почему deepseek опубликовал свое открытие, такая:
- Открытие значимое, но долго прятать его не получится. У компании было 1-3 месяца до того, как этот подход нащупали бы остальные.
- За это время монетизировать или как-то выгодно применить его было нельзя
- DeepSeek пошли по пути дизрапта. 2 недели назад они были "одними из многих", уровня mistral-ai
- Сейчас это "китайский OpenAI" - все внимание им, все лучшие специалисты им
- А тут еще и $137b китайцы выделяют на AI. Ясно, кто будет главным кандидатом на роль "китайского Альтмана".

Момент выбран идеально и коллеги из DeepSeek прекрасно им воспользовались! Респект! 🫡
👍38🔥1
Учим модель рассуждать на русском как 🐋 DeepSeek R1 за 2 часа и $2.5

Встретился интересный пример, как можно обучить свою reasoning (думающую) модель с помощью подхода как у DeepSeek R1 — чистый RL без примеров реальных рассуждений. Пришлось основательно доработать его напильником, но в итоге завелось!

🔹 За основу взята “не-думающая” малышка Qwen2.5-0.5B
🔹 Алгоритм вознаграждения для RL очень похож на DeepSeek:
• “Хвалим” модель за правильное использование тегов <reasoning> и <answer>, за попадание в ответ.
• При этом не даём ей никаких указаний, как именно нужно рассуждать (для меня именно это — самое удивительное!)
🔹 Датасет: русскоязычный 📚 d0rj/gsm8k-ru (переводной, пары “вопрос-ответ” по математике)
🔹 Главная фишка 🚀 — обучение занимает всего пару часов на A100 (40GB), после чего модель реально начинает рассуждать на русском внутри выделенных тегов.
🔹 Где взять A100? — оплатить подписку Colab Pro ($10, из них обучение съест $2.5). Другие варианты - гранты hugging face. Смелые могут запустить на маке M-series без vllm, обучение займет 40 часов.

Это учебный пример, чтобы пощупать процесс обучения R1-like “думающих” моделей. Не ждите от модели многого — 0.5B среди LLM это, конечно, муравей 🐜. Мне до сих пор странно, что они вообще могут научиться что-то говорить.

Ссылка на Colab с работающим примером. Ссылка на исходный пример внутри.

P.S. Только сейчас заметили, что задача-то не правильно решена 🙈

UPD: Замерил качество. Результат так себе. Модель хорошо научилась вставлять свои рассуждения в теге, но на качестве ответов это никак ни сказалось.
👍9🔥7🐳3👏2😁2
Недавно побывал на AI Agents BuildCon, где провел экспресс-воркшоп по созданию AI-агентов. Решил отказаться от традиционной презентации и попробовать новый формат — живое кодинг-шоу. Вместо слайдов я запускал код в реальном времени.

На воркшопе показал, как создать мультиагентную систему, которая генерирует речи для публичных выступлений по сложному ТЗ. Особенность задачи — включение цитат из законов и определенных книг.

Что успел показать:
- Мультиагентная система на langgraph
- Настройку и работу RAG
- Совместное использование нескольких LLM - GigaChat + Gpt4o
- Chain-of-thought, reflection
- LLM-as-RAG
- Средства логирования и отладки langsmith

Огромное спасибо организаторам конференции — атмосфера была🔥! Другие доклады можно посмотреть в их tg-канале.

>>>Ссылка на ноутбук с примером<<<

Думаю, материал может оказаться полезен для тех, кто хочет быстро вкатиться в разработку агентов.
🔥25👍11👏6
🚧 AI агент с MCP открыл шлагбаум у меня во дворе! 😱

>> видео на youtube <<

Давно хотел показать свои эксперименты с MCP и агентами, и в итоге записал небольшой обзор, в котором:

- Рассказываю, зачем нужен MCP
- Показываю агентов, которые умеют пользоваться MCP (и реально пытаются открыть шлагбаум у меня во вдоре)
- Запускаю такого агента на гигачате, подключу к нему разные MCP-сервера
- Показываю код такого агента на LangChain.
- Показываю процесс создания собственного MCP сервера
- Залезаю внутрь протокола и показываю, какие запросы уходят в LLM

Ссылки:
- Оригинальный клиент mcp-client-cli (не работает с GigaChat)
- Версия консольного агента с поддержкой GigaChat (требует установки из исходников)
- Repl-агент с MCP на LangGraph
- Пример из кукбука с агентом и сервером на LangChain (GitHub, GitVerse)
🔥15👏2👍1
🔎 Наверняка вы уже слышали, что новые модели OpenAI – O3 и o4-mini – невероятно хороши в работе с изображениями, особенно в определении местоположения, где было сделано фото. Уже третий день провожу тесты и поражаюсь результатам. Вот простой пример:

Где сделано фото?

Ответ модели:

Это Москва — на реке Москве (Карамышевский участок судоходного канала). На снимке — один из новых московских электропаромов «Сетунь», которые ходят по городской речной линии, поэтому кадр сделан именно здесь.


Модель (или правильнее говорить — агент?) может работать до 30 минут, используя различные подходы (всё это видел лично, часть приложил к посту):

- «Разглядывает» отдельные части изображения
- Пытается извлечь GPS-теги из метаданных и другие метаданные (их я заранее удалил)
- Применяет различные фильтры для повышения четкости и чтения надписей
- Использует зеркальное отражение изображения, чтобы обнаружить подсказки в отражениях или на вывесках изнутри помещений
- Накладывает координационную сетку (типа миллиметровки) на части фото
- Использует информацию из истории и любых прошлых диалогов

Ну и, конечно, просто рассуждает и активно ведёт поиск в интернете с сотнями (!) запросов — это уже база.

Настоящий OSINT одним нажатием кнопки 🔥

Если бы пару недель назад меня спросили, как AGI будет решать подобную задачу, я бы описал именно такое поведение. Так что в этой области мы уже наблюдаем наступление настоящего AGI. Да, оно наступает неравномерно и временами может вести себя нелепо, но кажется, мы сейчас видим как именно выглядит предсказанный в статье The AI Revolution момент, когда поезд AI проходит станцию с надписью "Human-Level Intelligence" без остановок.

Кстати, других остановок у него тоже как будто не предвидится 🤔
👍15🤯7