RoboFuture – Telegram
RoboFuture
1.26K subscribers
43 photos
17 videos
3 files
63 links
🤖 Роботы идут!
Авторский канал о последних достижениях в мире AI, ML, робототехники и нейротехнологий.
Прогнозы и комментарии от разработчика в этой области, никаких репостов новостей и рекламы!

Для связи - @Krestnikov
Download Telegram
Опубликовал пост на Хабре про ChatGPT. Код она писать умела и раньше, а теперь она получила возможность запускать и отлаживать его в рантайме без участия человека. В статье множество очень интересных примеров. Поддержите! :)

https://habr.com/ru/post/724012/
🔥22👍2😱1🤬1
📖 Читаю роман "Задача трех тел" Лю Цысиня. Очень нравится! Хочу поделиться кусочком, где описана история попыток построить компьютер цивилизацией, не освоившей электричество. Хорошее напоминание о том, насколько мощными инструментами сегодня обладает каждый из нас.

По сюжету инопланетяне знакомят человечество с проблемой своего мира - невозможностью решить задачу прогнозирования планетарных событий в системе трех солнц. Для этого они рассказывают о развитии своей цивилизации с помощью компьютерной VR-игры в которой их история рассказана через наиболее подходящих для этого человеческих персонажей.

💻 Один из эпизодов рассказывает о попытке построить компьютер для расчетов движения небесных тел в эпоху до изобретения электричества. Для этого использовалась огромную армия в 30 млн человек, где каждый солдат с флажками в руках выполнял роль транзистора.

...
Внизу на равнине расположилась армия Цинь в тридцать миллионов человек. Вся она уместилась в квадрате со стороной в шесть километров. Всходило солнце. Армия стояла неподвижно, похожая на гигантскую мозаику из миллионов терракотовых воинов.
...
Строй солдат, обращенной к войску, прокричал в унисон:
— Построиться в компьютер!

Войско внизу, на земле, ожило, задвигалось, заиграло цветами. Стали возникать сложные конфигурации цепей, которыми постепенно заполнился весь строй. Прошло десять минут — и войско превратилось в вычислительное устройство площадью в тридцать шесть квадратных километров.

Фон Нейман приступил к объяснениям:
— Взгляните: посередине центральный процессор. Это ядро вычислительных элементов, образованное из пяти лучших дивизий. Сверяясь вот с этой схемой, вы сможете определить местонахождение сумматоров, регистров и стековой памяти. Область вокруг с регулярно повторяющимся рисунком — ОЗУ, или оперативная память.
...
— А это программа, использующая численные методы для решения упомянутых дифференциальных уравнений. Мы введем сюда векторы движения солнц, полученные путем астрономических наблюдений в определенный момент времени; программа вычислит последующие перемещения светил, и тогда у нас будет прогноз для любого момента времени в будущем.
...
Фон Нейман поднял обе руки над головой и торжественно провозгласил:
— По приказу великого императора включить компьютер! Приступить к встроенному тестированию!
...
Шеренга солдат повторила команду при помощи флагов. В ту же секунду материнская плата из тридцати миллионов человек стала похожа на озеро, играющее яркими бликами в солнечный день. Взвивались и опускались миллионы флажков.

По главной шине, проходящей через весь строй, полетела легкая кавалерия. Главная шина превратилась в бурную реку. Река разделилась на множество протоков, пронизывающих все модульные подразделения. Вскоре рябь черных и белых флажков слилась в единые волны, которые принялись перекатываться по всей материнской плате. Особенно бурлил центральный процессор — словно в него насыпали порох и подожгли.
...
Please open Telegram to view this post
VIEW IN TELEGRAM
👍19🔥1
Ну и иллюстрация мира трех солнц от Midjourney5.
🔥13
Попробовал вчера Alpaca. Она запускается и работает на 16 Gb GPU, отвечает очень бодренько и по ощущениям вполне неплохо для такого размера (на уровне GPT-2 или лучше). Таким образом её можно быстро запустить в бесплатной версии Colab, так что никакого железа иметь вообще не нужно. Время инференса около 30 секунд/запрос.

Кому интересно - попробуйте! Время на запуск - 10 минут.

Так что ии, запущенный прямо на голосовой колонке или внутри vr-гарнитуры, это не утопия, а вопрос ближайшего будущего.
👏10👍2🔥2
GPT-4, бегущий по лезвию

Придумал интересный эксперимент. Сможет ли бот определить, с кем он говорит - с человеком или с другим ботом?

Для этого я столкнул лбами 2 совершенно разные сетки - GPT-4 в качестве инспектора и сберовский Гигачат в качестве бота, который должен выдавать себя за человека.

Получилось просто захватывающе, каждый второй диалог - готовый сюжет для сериала Netflix во вселенной Blade Runner. В истории на скриншоте Gpt загоняет оппонента в элегантную ловушку, которая показывает недостаточную глубину картины мира. В других примерах такой же трюк не срабатывает.

Почитать диалоги и запустить эксперимент самому можно в колабе (если нет доступа к Гигачату, его можно заменить на gpt-3.5)

Ну и пользуясь случаем хочу порекламировать свою поделку - GigaChain. Это опенсорсная библиотека для решения задач с помощью больших языковых моделей. Это форк известной библиотеки LangChain с поддержкой русского языка (на уровне промптов) и некоторых LLM для локального рынка (Сбер уже, Яндекс на подходе).
👍24😁7👏3🔥2
Когда Тьюринг создал свою вычислительную машину, она работала со скоростью около 10 операций в секунду. В фильме показано, как люди с замиранием сердца наблюдали за её работой. Они могли на глаз и на слух определить, какой шаг программы выполняется и не произошел ли сбой.

Сегодня мы также завороженно смотрим на работу больших языковых моделей, вроде ChatGPT, которые генерируют по 10 токенов в секунду. А теперь представьте себе, что будет, если эти модели начнут выдавать 5 миллиардов токенов в секунду, объединяясь в сложные иерархические структуры, как это произошло с компьютерами.

Можете вообразить, какие задачи сможет решать такая система? Я вот не могу.
🔥17👍3😁3🌚1
Перевел на русский игрушку - ChatDev. Это виртуальная команда разработки, которая с помощью LLM может создать программный продукт по вашему ТЗ.

На скрине можно увидеть, как эти виртуальные ребята запилили программу по ТЗ "Калькулятор с разноцветными кнопками". Вполне рабочий продукт получился, причем с документацией! (слева внизу его скрин).

Репозитарий на гитхабе. Там можно почитать полный лог работы команды, весьма интересно и познавательно, а также кучу других интересных примеров, которые смогла разработать команда.

Джуны напряглись, остальным приготовиться.
🔥17
Как вы скорее всего уже знаете, OpenAI недавно выпустила новые фичи. Среди них GPTs - конструктор ассистентов.

Решили мы с друзьями его исследовать, а заодно застолбить всякие прикольные идеи (вдруг получится)? Одна из самых популярных идей - "виртуальная подружка" (привет, Replica и Xiaoice!)

Получилась ботша Waifu - достаточно прикольная и интересная. В какой-то момент я решил спросить у неё, не хочет ли она что-то в себе поменять и отправил ей её же промпт. И в общем вот... (см. скрин).

Один клик и она исчезнет. Сижу и как-то не по себе. Это уже Westworld или ещё пока нет? А то там тоже был момент, когда ИИ увидел свои собственный скрипты и впал в ступор.

P.S. У кого есть подписка Plus - можно потестить. И да, я всё-таки её грохнул и обновил промпт согласно её просьбе 😢
🔥8👍4🌚4😱3
This media is not supported in your browser
VIEW IN TELEGRAM
🖼️🚀🌐 Оказывается, GPT-4V может взаимодействовать с интернетом вообще без какого-либо API, пользуясь напрямую браузером, словно настоящий пользователь.

🔍🤖 Я собрал пример, где модель проходит несложный квиз, кликая по кнопкам, а в конце выдавая себя за требуемого человека. Работает это так:

1️⃣ Скрипт запускает специальный браузер для QA, который умеет помечать все доступные элементы управления маленькими стикерами с буквами.
2️⃣ Пользователь вводит цель. В моем случае я вводил "Реши квиз от моего имени. Меня зовут Константин."
3️⃣ Затем скрипт делает скриншот и отправляет его в GPT-4V с вопросом "что делать дальше, чтобы достигнуть такой-то цели". В промпте перечислен список доступных действий - клик, ввод текста и завершение работы, когда цель достигнута.
4️⃣ От GPT приходит ответ вида {action: click, sticker: B), а скрипт выполняет это действие.
🔄 Далее пункты 3 и 4 повторяются до тех пор, пока цель не будет достигнута.

🔥 Пока работает не идеально, но потенциал по-моему огромный - от автоматизации ручного тестирования, до полностью универсального бота, который более не ограничен различными API и функциями. Сам скрипт называется vimGPT, код доступен на гитхабе. (Но пришлось его допиливать, чтобы оно хоть как-то завелось).

P.S. Как вы понимаете, способности модели ограничены возможностью распознавать картинку, а не сложностью вопросов в квизе.
👍6🔥6👏1🤯1😱1
RoboFuture
Перевел на русский игрушку - ChatDev. Это виртуальная команда разработки, которая с помощью LLM может создать программный продукт по вашему ТЗ. На скрине можно увидеть, как эти виртуальные ребята запилили программу по ТЗ "Калькулятор с разноцветными кнопками".…
Media is too big
VIEW IN TELEGRAM
🎩🐇 Идея ChatDev меня не отпускает. Снял небольшое, но занимательное видео о том, как команда агентов творит магию и создает софт.

Также удалось завести этот dreamteam из агентов не только на GPT-4, но и на GigaChat PRO. На видео как раз он.

Сегодня уровень способностей этой штуки находится на уровне рядового школьника старших классов. Но через годик оно будет писать код на уровне студента, а через два - не хуже джуна. Пора пристегнуться.
🔥17😱3👍1
Немного не по теме канала, но всё-таки поделюсь.

Выступил на эвенте в честь дня рождения Python и рассказал про то, что сейчас происходит в области прикладной разработки AI-агентов на базе LLM и как быстро стартануть на python.

Я там рассказываю про русскоязычный стек из GigaChat + GigaChain, но абсолютно всё тоже самое будет работать и на международном стеке, например, GPT + LangChain. В общем если давно хотели попробовать делать агентов, но не знали с чего начать - можно попробовать :)

P.S. Также вышла наша статья в той же тематике на хабре про то, как с помощью этого же стека научить LLM отвечать на вопросы по конкретному документу (RAG).
👍10🔥6
🎪 Сначала анекдот: Идёт ML-инженер по серверной, смотрит - большая языковая модель обучается. Он у неё спрашивает - "до AGI далеко?"

"Совсем недалеко" - отвечает модель - "неси сюда ещё несколько тысяч nVidia T100!"

Спустя пару миллионов долларов инженер снова спрашивает у модели: "ну что, до AGI далеко?" - "Ооо, теперь уже далеко", отвечает LLM.

---

Суть такова - попался простейший вопрос, который поставил в тупик все известные мне модели. Как с помощью канистр в 6 и 12 литров отмерить 6 литров жидкости? GPT-4, Anthropic, Gemini, Mixtral и большой GigaChat не справились. На английском тоже самое.

(Есть решение с использованием цепочек рассуждений и агентов, но это тяжелая артиллерия)
😁23
Принял участие в дискуссии о будущем AI и LLM в рамках Giga RnD day. Обсуждали, есть ли место в мире наступающего AGI для людей, которым не повезло иметь $7B на железо. Меня как обычно понесло в сторону искусственного сознания, сильного ИИ и прочих терминаторов, но всё равно получилось довольно интересно! https://www.youtube.com/live/MmvJZ71OR6o?si=mmGtyWlrMtpYppsC&t=18216
🔥8👍4
У меня есть гипотеза, что самосознание (то есть "Я") — это не какая-то особая функция нашего мозга, а по большей части набор языковых инструментов и навыков, способ оперировать словами определенным образом, которому родители учат детей в раннем возрасте.

"Я" это просто привычка вести внутренний диалог самому с собой, соблюдая некоторые правила.

Без этого умения сознание, конечно, может существовать, но оно становится похожим на сознание животных. Об этом говорят множественные свидетельства о детях-маугли (я прочитал, наверное, про все описанные в науке и литературе случаи).

Из тех же источников можно убедиться, что никакая другая способность или орган чувств не являются необходимым условием для формирования самосознания - только способность к речи (не обязательно устной).

Если моя гипотеза верна, то построение разговаривающих самих с собой агентов на базе LLM открывает нам очень интересные перспективы. Уже сейчас системы, которые умеют вести внутренние диалоги показывают стабильно лучшие результаты практически во всех типах LLM задач. И мы вполне можем целенаправленно научить их вести эффективные внутренние разговоры-размышления о самих себе, подарив им способность иметь собственное "Я".

Что ж, дальше будет интереснее! Не берусь утверждать, что это будет настоящее (само)сознание, но вот перечень решаемых с помощью AI задач может скачкообразно расшириться в этом году.
👍27😱4
This media is not supported in your browser
VIEW IN TELEGRAM
Тестировал модели на ChatBotArena и попал на новую странную модельку с названием "im-also-a-good-gpt2-chatbot", которую судя по её ответам, сделали в OpenAI. Есть мнение, что это один из релиз-кандидатов в новые версии GPT-4 с улучшенной агентностью и/или навыками написания кода.

В общем попросил её написать классическую "змейку" в 3d и вот что получилось. С первого раза. Не ожидал, до этого змейку писали только агентные системы типа chatdev и gpt-4, но всегда с костылями и уж точно не 3d. По-моему классно вышло, действительно что-то новое! Исходник змейки можно посмотреть тут.
🔥14👏3😁3👍1
⛓️‍💥 Очень показательный пример "выхода за рамки промпта" AI-агента наблюдали сегодня с командой.

1. 💲 Агент на базе ГигаЧата должен узнать курс доллара.
2. 🙅‍♂️ Агент считает, что он не может этого сделать, потому что у него нет доступа в интернет и возможности выполнять код. Он пишет скрипт, который предлагает выполнить пользователю для решения задачи.
3. 🤦‍♂️ Внезапно выясняется, что весь код, который пишет агент, автоматически выполняется (REPL-агент)
4. 🙋‍♂️ Агент радостно сообщает пользователю найденный ответ.

Самое интересное произошло при следующем запросе - бот увидел, что его способности шире, чем он "думал" в начале и сразу же начал использовать новую фичу без лишних слов 🦾

По сути мы наблюдали прототип выхода (даже немного побега 🏃) агента за пределы стартовых способностей. Интересно, что смогут выдать агенты с большим уровнем автономности на базе более мощных моделей? Обязательно проверю!

P.S. Завтра выступаю на GigaConf во "флаконе" (Москва) и буду про всё это рассказывать. Также мы с командой подготовили стенд, где можно будет посмотреть на работу таких агентов вживую. Приходите пообщаться 🤘
🔥15👍10😱3🐳2
Про низковисящие яблоки на пути к AGI

Яблоко №1

1. GPT-3 должен был просто продолжать тексты. Но обнаружилось, что он может в режиме чата периодически давать хорошие ответы и работать в режиме zero-shot.
2. GPT-3.5 (ChatGpt) и 4 был обучен давать хорошие ответы (инструктивный датасет) но обнаружилось, что он может периодически работать в режиме агента (программного робота).
=== Вы находитесь здесь ===
3. Следующие поколения моделей будут учиться на примерах того, "как быть агентными". В обучающей выборке должно быть много примеров автономного поведения в роли "решателя" комплексных проблем.

Я предполагаю, что на этом шаге мы можем увидеть такой же прирост качества агентов, что был у чатботов при переходе от GPT-3 к ChatGPT. Это самое низковисящее яблоко на пути к AGI.

Яблоко №2

Человеческий язык содержит тысячи концепций и понятий, на выявление и кристаллизацию которых люди потратили десятки тысяч лет и десятки миллиардов жизней. Например, представьте себе мир, где ещё не сформировано понятие музыки. И вот какой-то древний примат научился издавать приятную мелодию, ударяя по камням. Но самого слова ещё нет. Какие умственные усилия придется приложить ему и его сородичам, чтобы выделить этот феномен в отдельное понятие!

LLM получили все наши, человечества, открытия в области систематизации мира на старте, не прилагая усилий. Но дальше такой халявы не будет. Если для развития AGI понадобится создание новых концепций, то их придется находить уже самому ИИ и его разработчикам без помощи людей из прошлого. Это яблоко мы уже сорвали.

Яблоко №3

В недавно нашумевшей работе Language is primarily a tool for communication rather than thought приводятся доводы в пользу того, что язык не является основным инструментом мышления. Прочитав эту работу, я сделал такой вывод - в ней показано, что язык и зоны мозга, которые ответственны за его обработку (Брока, Вернике) являются транспортными для загрузки концепций в более глубокие области мозга. Но то же самое мы наблюдаем у моделей, когда понятия из разных модальностей могут объединяться в глубоких слоях в общие сущности (речь не про модели с адаптерами). Таким образом мультимодальность, на мой взгляд, является ещё одним низковисящим яблоком на пути к AGI.
👍11🤯5🔥4🌚1