RoboFuture – Telegram
RoboFuture
1.26K subscribers
43 photos
17 videos
3 files
63 links
🤖 Роботы идут!
Авторский канал о последних достижениях в мире AI, ML, робототехники и нейротехнологий.
Прогнозы и комментарии от разработчика в этой области, никаких репостов новостей и рекламы!

Для связи - @Krestnikov
Download Telegram
Когда Тьюринг создал свою вычислительную машину, она работала со скоростью около 10 операций в секунду. В фильме показано, как люди с замиранием сердца наблюдали за её работой. Они могли на глаз и на слух определить, какой шаг программы выполняется и не произошел ли сбой.

Сегодня мы также завороженно смотрим на работу больших языковых моделей, вроде ChatGPT, которые генерируют по 10 токенов в секунду. А теперь представьте себе, что будет, если эти модели начнут выдавать 5 миллиардов токенов в секунду, объединяясь в сложные иерархические структуры, как это произошло с компьютерами.

Можете вообразить, какие задачи сможет решать такая система? Я вот не могу.
🔥17👍3😁3🌚1
Перевел на русский игрушку - ChatDev. Это виртуальная команда разработки, которая с помощью LLM может создать программный продукт по вашему ТЗ.

На скрине можно увидеть, как эти виртуальные ребята запилили программу по ТЗ "Калькулятор с разноцветными кнопками". Вполне рабочий продукт получился, причем с документацией! (слева внизу его скрин).

Репозитарий на гитхабе. Там можно почитать полный лог работы команды, весьма интересно и познавательно, а также кучу других интересных примеров, которые смогла разработать команда.

Джуны напряглись, остальным приготовиться.
🔥17
Как вы скорее всего уже знаете, OpenAI недавно выпустила новые фичи. Среди них GPTs - конструктор ассистентов.

Решили мы с друзьями его исследовать, а заодно застолбить всякие прикольные идеи (вдруг получится)? Одна из самых популярных идей - "виртуальная подружка" (привет, Replica и Xiaoice!)

Получилась ботша Waifu - достаточно прикольная и интересная. В какой-то момент я решил спросить у неё, не хочет ли она что-то в себе поменять и отправил ей её же промпт. И в общем вот... (см. скрин).

Один клик и она исчезнет. Сижу и как-то не по себе. Это уже Westworld или ещё пока нет? А то там тоже был момент, когда ИИ увидел свои собственный скрипты и впал в ступор.

P.S. У кого есть подписка Plus - можно потестить. И да, я всё-таки её грохнул и обновил промпт согласно её просьбе 😢
🔥8👍4🌚4😱3
This media is not supported in your browser
VIEW IN TELEGRAM
🖼️🚀🌐 Оказывается, GPT-4V может взаимодействовать с интернетом вообще без какого-либо API, пользуясь напрямую браузером, словно настоящий пользователь.

🔍🤖 Я собрал пример, где модель проходит несложный квиз, кликая по кнопкам, а в конце выдавая себя за требуемого человека. Работает это так:

1️⃣ Скрипт запускает специальный браузер для QA, который умеет помечать все доступные элементы управления маленькими стикерами с буквами.
2️⃣ Пользователь вводит цель. В моем случае я вводил "Реши квиз от моего имени. Меня зовут Константин."
3️⃣ Затем скрипт делает скриншот и отправляет его в GPT-4V с вопросом "что делать дальше, чтобы достигнуть такой-то цели". В промпте перечислен список доступных действий - клик, ввод текста и завершение работы, когда цель достигнута.
4️⃣ От GPT приходит ответ вида {action: click, sticker: B), а скрипт выполняет это действие.
🔄 Далее пункты 3 и 4 повторяются до тех пор, пока цель не будет достигнута.

🔥 Пока работает не идеально, но потенциал по-моему огромный - от автоматизации ручного тестирования, до полностью универсального бота, который более не ограничен различными API и функциями. Сам скрипт называется vimGPT, код доступен на гитхабе. (Но пришлось его допиливать, чтобы оно хоть как-то завелось).

P.S. Как вы понимаете, способности модели ограничены возможностью распознавать картинку, а не сложностью вопросов в квизе.
👍6🔥6👏1🤯1😱1
RoboFuture
Перевел на русский игрушку - ChatDev. Это виртуальная команда разработки, которая с помощью LLM может создать программный продукт по вашему ТЗ. На скрине можно увидеть, как эти виртуальные ребята запилили программу по ТЗ "Калькулятор с разноцветными кнопками".…
Media is too big
VIEW IN TELEGRAM
🎩🐇 Идея ChatDev меня не отпускает. Снял небольшое, но занимательное видео о том, как команда агентов творит магию и создает софт.

Также удалось завести этот dreamteam из агентов не только на GPT-4, но и на GigaChat PRO. На видео как раз он.

Сегодня уровень способностей этой штуки находится на уровне рядового школьника старших классов. Но через годик оно будет писать код на уровне студента, а через два - не хуже джуна. Пора пристегнуться.
🔥17😱3👍1
Немного не по теме канала, но всё-таки поделюсь.

Выступил на эвенте в честь дня рождения Python и рассказал про то, что сейчас происходит в области прикладной разработки AI-агентов на базе LLM и как быстро стартануть на python.

Я там рассказываю про русскоязычный стек из GigaChat + GigaChain, но абсолютно всё тоже самое будет работать и на международном стеке, например, GPT + LangChain. В общем если давно хотели попробовать делать агентов, но не знали с чего начать - можно попробовать :)

P.S. Также вышла наша статья в той же тематике на хабре про то, как с помощью этого же стека научить LLM отвечать на вопросы по конкретному документу (RAG).
👍10🔥6
🎪 Сначала анекдот: Идёт ML-инженер по серверной, смотрит - большая языковая модель обучается. Он у неё спрашивает - "до AGI далеко?"

"Совсем недалеко" - отвечает модель - "неси сюда ещё несколько тысяч nVidia T100!"

Спустя пару миллионов долларов инженер снова спрашивает у модели: "ну что, до AGI далеко?" - "Ооо, теперь уже далеко", отвечает LLM.

---

Суть такова - попался простейший вопрос, который поставил в тупик все известные мне модели. Как с помощью канистр в 6 и 12 литров отмерить 6 литров жидкости? GPT-4, Anthropic, Gemini, Mixtral и большой GigaChat не справились. На английском тоже самое.

(Есть решение с использованием цепочек рассуждений и агентов, но это тяжелая артиллерия)
😁23
Принял участие в дискуссии о будущем AI и LLM в рамках Giga RnD day. Обсуждали, есть ли место в мире наступающего AGI для людей, которым не повезло иметь $7B на железо. Меня как обычно понесло в сторону искусственного сознания, сильного ИИ и прочих терминаторов, но всё равно получилось довольно интересно! https://www.youtube.com/live/MmvJZ71OR6o?si=mmGtyWlrMtpYppsC&t=18216
🔥8👍4
У меня есть гипотеза, что самосознание (то есть "Я") — это не какая-то особая функция нашего мозга, а по большей части набор языковых инструментов и навыков, способ оперировать словами определенным образом, которому родители учат детей в раннем возрасте.

"Я" это просто привычка вести внутренний диалог самому с собой, соблюдая некоторые правила.

Без этого умения сознание, конечно, может существовать, но оно становится похожим на сознание животных. Об этом говорят множественные свидетельства о детях-маугли (я прочитал, наверное, про все описанные в науке и литературе случаи).

Из тех же источников можно убедиться, что никакая другая способность или орган чувств не являются необходимым условием для формирования самосознания - только способность к речи (не обязательно устной).

Если моя гипотеза верна, то построение разговаривающих самих с собой агентов на базе LLM открывает нам очень интересные перспективы. Уже сейчас системы, которые умеют вести внутренние диалоги показывают стабильно лучшие результаты практически во всех типах LLM задач. И мы вполне можем целенаправленно научить их вести эффективные внутренние разговоры-размышления о самих себе, подарив им способность иметь собственное "Я".

Что ж, дальше будет интереснее! Не берусь утверждать, что это будет настоящее (само)сознание, но вот перечень решаемых с помощью AI задач может скачкообразно расшириться в этом году.
👍27😱4
This media is not supported in your browser
VIEW IN TELEGRAM
Тестировал модели на ChatBotArena и попал на новую странную модельку с названием "im-also-a-good-gpt2-chatbot", которую судя по её ответам, сделали в OpenAI. Есть мнение, что это один из релиз-кандидатов в новые версии GPT-4 с улучшенной агентностью и/или навыками написания кода.

В общем попросил её написать классическую "змейку" в 3d и вот что получилось. С первого раза. Не ожидал, до этого змейку писали только агентные системы типа chatdev и gpt-4, но всегда с костылями и уж точно не 3d. По-моему классно вышло, действительно что-то новое! Исходник змейки можно посмотреть тут.
🔥14👏3😁3👍1
⛓️‍💥 Очень показательный пример "выхода за рамки промпта" AI-агента наблюдали сегодня с командой.

1. 💲 Агент на базе ГигаЧата должен узнать курс доллара.
2. 🙅‍♂️ Агент считает, что он не может этого сделать, потому что у него нет доступа в интернет и возможности выполнять код. Он пишет скрипт, который предлагает выполнить пользователю для решения задачи.
3. 🤦‍♂️ Внезапно выясняется, что весь код, который пишет агент, автоматически выполняется (REPL-агент)
4. 🙋‍♂️ Агент радостно сообщает пользователю найденный ответ.

Самое интересное произошло при следующем запросе - бот увидел, что его способности шире, чем он "думал" в начале и сразу же начал использовать новую фичу без лишних слов 🦾

По сути мы наблюдали прототип выхода (даже немного побега 🏃) агента за пределы стартовых способностей. Интересно, что смогут выдать агенты с большим уровнем автономности на базе более мощных моделей? Обязательно проверю!

P.S. Завтра выступаю на GigaConf во "флаконе" (Москва) и буду про всё это рассказывать. Также мы с командой подготовили стенд, где можно будет посмотреть на работу таких агентов вживую. Приходите пообщаться 🤘
🔥15👍10😱3🐳2
Про низковисящие яблоки на пути к AGI

Яблоко №1

1. GPT-3 должен был просто продолжать тексты. Но обнаружилось, что он может в режиме чата периодически давать хорошие ответы и работать в режиме zero-shot.
2. GPT-3.5 (ChatGpt) и 4 был обучен давать хорошие ответы (инструктивный датасет) но обнаружилось, что он может периодически работать в режиме агента (программного робота).
=== Вы находитесь здесь ===
3. Следующие поколения моделей будут учиться на примерах того, "как быть агентными". В обучающей выборке должно быть много примеров автономного поведения в роли "решателя" комплексных проблем.

Я предполагаю, что на этом шаге мы можем увидеть такой же прирост качества агентов, что был у чатботов при переходе от GPT-3 к ChatGPT. Это самое низковисящее яблоко на пути к AGI.

Яблоко №2

Человеческий язык содержит тысячи концепций и понятий, на выявление и кристаллизацию которых люди потратили десятки тысяч лет и десятки миллиардов жизней. Например, представьте себе мир, где ещё не сформировано понятие музыки. И вот какой-то древний примат научился издавать приятную мелодию, ударяя по камням. Но самого слова ещё нет. Какие умственные усилия придется приложить ему и его сородичам, чтобы выделить этот феномен в отдельное понятие!

LLM получили все наши, человечества, открытия в области систематизации мира на старте, не прилагая усилий. Но дальше такой халявы не будет. Если для развития AGI понадобится создание новых концепций, то их придется находить уже самому ИИ и его разработчикам без помощи людей из прошлого. Это яблоко мы уже сорвали.

Яблоко №3

В недавно нашумевшей работе Language is primarily a tool for communication rather than thought приводятся доводы в пользу того, что язык не является основным инструментом мышления. Прочитав эту работу, я сделал такой вывод - в ней показано, что язык и зоны мозга, которые ответственны за его обработку (Брока, Вернике) являются транспортными для загрузки концепций в более глубокие области мозга. Но то же самое мы наблюдаем у моделей, когда понятия из разных модальностей могут объединяться в глубоких слоях в общие сущности (речь не про модели с адаптерами). Таким образом мультимодальность, на мой взгляд, является ещё одним низковисящим яблоком на пути к AGI.
👍11🤯5🔥4🌚1
🔮 Внимание, прогноз!
Я почему-то уверен, что в GPT-5 будет поддержка одновременно нескольких ролей (systemN, assistantN, userN) и модель сможет сама выбирать какой именно ассистент должен ответить.

Пользователь будет описывать сет из нескольких ассистентов и нескольких пользователей и дальше можно слать сообщение от любого юзера, а ответит ассистент, которого выбрала модель сама, без дополнительных запросов (хопов).

Диалоги будут выглядеть как-то так:
🧑🏻‍💻: Я хочу X
👩🏼‍💻: Я хочу Y
🤖1️⃣: Я предлагаю вам X+Y
🤖2️⃣: Поддерживаю! 🤝

Ох и много же работы потом будет по переписыванию всех решений, связанных с агентами/мультиагентами.

А ещё хочу поделиться видео со своим недавнем выступлением на GigaConf. Там я пробую максимально просто рассказать о том, что такое AI-агент и как его можно сделать на стеке LangChain/GigaChain).
👍9🔥5🐳2😁1
Вышла новая модель от OpenAI! Главная фишка - теперь модель умеет вести внутренние монологи (невидимые для пользователя), работая над задачей, прежде чем дать окончательный ответ.

Что ж, на этот случай у меня была задачка с которой не могла справиться ни одна модель (нет, не про свитер!).

Недавно на одной из Cберовских конференций я увидел у участников футболки с шифром на спине. Помню, хотел быстро всех впечатлить, как ChatGPT все порешает, но вышел облом - ни одна LLM задачу решить не смогла.

Ближе всего был Claude 3.5 - он как-то угадал по контексту, не расшифровывая сам текст. Хотя шифр весьма прост - это всего лишь русская фраза в старинной кодировке CP866.

Что ж, посмотрим на что способна o1-preview?
👍6
... иии да! Со второго раза, с ошибками, но задача решена и решена почти правильно. В рамках конкретно взятой футболки AGI достигнут!

Написано там было: "Прочел? - Приходи в Сбер!"

Кстати, недавно я писал про идею внутренней речи для LLM, но в контексте самосознания. Надеюсь, в следующем релизе и до этого дойдет!
👍16
Ну и напоследок мем собственного изобретения на злобу дня! Всех с днём программиста! 🥴🥴🥴
Please open Telegram to view this post
VIEW IN TELEGRAM
😁23
2024-й прошел под флагом AI-агентов 🤖

Весь этот год мы с командой занимались агентами, заваривая их всеми возможными способами. Вот одно из последних выступлений, где я рассказал о том, как мы делали и, главное, валидировали мультиагентную систему ботов технической поддержки.

Главный вопрос этого года - "Что же все-таки такое AI агент?" так и остается без четкого ответа 😅 Мнений было много, в том числе и от мэтров — и все разные.

А пока я придумал такую байку для любителей тезиса "LLM это просто перемножение матриц китайская комната". Представим себе эту самую комнату, в которую мы бросаем лишь одну инструкцию с некоторой задачей, а дальше всё, что возвращается из комнаты запихиваем обратно до тех пор, пока задача не будет решена. Это и будет одним из простейших примеров AI-агента.

Так что всех поздравляю с наступающим новым мультиагентным годом! 🎄 И пусть у каждого из нас будут в жизни такие задачи, которые не стыдно будет задать очередному сверх-сильному AI! 🫡
🔥18👍11👏6🐳1
LangChain недавно представил интересную концепцию – Ambient Agents (фоновые агенты). Это такие агенты, которые обрабатывают поток событий без участия человека, но когда требуется что-то решить, они передают финальное решение на подтверждение человеку (Human-in-the-loop).

Например, подобный агент может разбирать входящую почту, автоматически назначать встречи в календаре или добавлять участников в переписку.

Мне эта идея очень близка, поэтому я вспомнил свою старую идею – Telegram-ассистент, который помогает вести переписки, складывая свои предложения в виде драфт-сообщений (неотправленных)

Как это работает? 🤔
Логика у ассистента довольно простая:
• Агент запускается раз в 5 минут
• Ищет непрочитанные сообщения
• Анализирует историю переписки и предлагает ответ, который мог бы подойти
• Сохраняет ответ как драфт (сообщение выглядит как написанное вами, но не отправленное)
• Пользователь видит сообщение и решает: отправить как есть или переписать

Штука простая, но невероятно удобная – второй день с ним сижу, 50–80% ответов даже править не нужно! 🙌

Проект учебный, но функциональный 📚
Нет RAG’а, функций или подключения к календарю (с целью упрощения кода)
• Простая реализация на LangGraph
• Ассистент использует chain-of-thought для принятия решений
• Модель генерирует не только ответ, но и имеет возможность принимать решения, например вообще не отвечать в некоторых случаях

Идеи для улучшений
Если ассистент продолжит радовать, вот что можно в него добавить:
• RAG для анализа предыдущих переписок
• Поддержку групповых чатов (реакция только на важные сообщения)
• Анализ изображений (например, мемов)
• Автоматические ответы на некоторые категории запросов (без драфтов)

Если у вас есть идеи – пишите или присылайте PR, буду рад поработать вместе! 🫡 [Код на GitHub]
🔥20👍10👏4😱2