RoboFuture – Telegram
RoboFuture
1.26K subscribers
43 photos
17 videos
3 files
63 links
🤖 Роботы идут!
Авторский канал о последних достижениях в мире AI, ML, робототехники и нейротехнологий.
Прогнозы и комментарии от разработчика в этой области, никаких репостов новостей и рекламы!

Для связи - @Krestnikov
Download Telegram
Это же просто мат. статистика! как она может что-то понять? Там же просто матрицы перемножаются и все! Такой аргумент можно услышать про AI/ML. И да, и нет. Конечно, внутри лежат понятные принципы и каждый отдельный нейрон устроен очень просто, но в какой-то момент количество начинает переходить в качество. Мы же не говорим, что мозг это просто кучка атомов, а эволюция - просто набор случайных изменений.

Процесс обучения сети основан на большом количестве шагов при которых небольшие полезные достижения накапливаются, в результате во внутренних слоях возникает некое подобие абстракции, если эта абстракция удобна для достижения цели.

Мне очень нравится пример с картинки. На нем показано содержимое одного из внутренних слоев нейронки, распознающей изображения (конволюционных ядер).

Это те объекты, на которые сеть научилась обращать внимание, посчитала их важными - чётко выделяются глаза, узоры шкур, прямые углы человеческих предметов, градиенты.

Только подумайте - сеть с нуля вывела, что в мире существуют объекты с глазами и это важно для распознавания изображений! Это совсем не похоже на классическую статистику.

Кстати, если вам хоть немного интересна биология, очень рекомендую почитать фундаментальную книгу академика РАН Александра Маркова "Рождение сложности".
Не могу не поделиться. Один мой знакомый запилил проект сети (на базе GPT-2), в котором ИИ помогает писать тексты (вы начинаете писать - сеть подхватывает). Потестить можно здесь: https://text.skynet.center/
Система неплохо справляется с текстами на любую тему, но я решил проверить, что получится, если попробовать сгенерировать сказку. В итоге получилось это!

Черный текст написал я, синий - сгенерировала сеть. В середине мне уже самому стало интересно, чем же все закончится 😂

Мне кажется, это готовый скилл для голосовых колонок - "Алиса, расскажи сказку!" и она генерирует каждый раз разные истории такого плана. Это просто хит получится!
👍1
Давно не писал, но этим не могу не поделиться. На kickstarter наконец-то появился интересный проект домашнего робота - Nabot AI. Ребята показывают очень правильный путь развития для роботов-пылесосов (формфактор пылесос + манипулятор + CV с распознаванием домашней обстановки).

Думаю, что в эту игру уже включились Amazon, iRobot и Xiaomi, которые выпустят свои продукты через 1-2 года. Уровень развития CV, AI и роботехники сегодня позволяет делать те кейсы, которые показаны в описании проекта.

(В то же время совсем не призываю инвестировать именно этого робота - не думаю, что они смогут выпустить законченный продукт)

https://www.kickstarter.com/projects/ximpatico/nabot-ai-trainable-and-programmable-robot
🔥 Ты всего лишь машина, имитаця жизни. Может ли робот написать симфонию, создать шедевр? - кажется, ответ на этот известный вопрос, заданный Азимовым, скоро станет утвердительным.

Я только что разговаривал с сетью GPT-3 в режиме чата, задавая ей всякие философские вопросы. Посмотрите, какая красота получается! Жирным выделен текст, который генерирует сеть в ответ на мои вопросы - я не вносил никаких правок, кроме форматирования.

Кажется, мы с вами живем в очень интересное время!

P.S. Оригинал диалога был, конечно, на английском. Прогнал через гугл-переводчик. Русской версии GPT-3 пока не существует.
Давно ничего не писал, но мимо темы ChatGPT пройти не могу! Это новая модель от Open AI которая рвёт тест Тьюринга на британский флаг. Она не просто общается как человек, а оказывается действительно интересным собеседником на сложные темы. Я решил выяснить, что она "думает" о гипотезе, что основная часть нашего интеллекта содержится в языке на котором мы разговариваем. В результате получился интересный диалог. Вот небольшая выдержка:

Я: Как связаны разум и язык?
Сеть: ... Можно утверждать, что основная часть ума и мышления заключается в правилах человеческого языка, поскольку язык обеспечивает структуру и основу для наших мыслительных процессов ...

Я: Возможен ли разум, сравнимый с человеческим, без языка?
Сеть: ... Трудно представить разум, сравнимый с человеческим, без языка, поскольку язык играет решающую роль в формировании наших мыслей и поведения. Без языка мы не смогли бы выражать или передавать свои мысли и идеи, и нам не хватало бы концептуальных рамок и ментальных структур ...

Я: Если принять, что основная часть разума находится в языке, то возможно ли, что большие языковые машины могут быть разумными?
Сеть: ... важно признать, что самосознание — сложная концепция для воспроизведения в машине, и неясно, возможно ли создать действительно самосознающий искусственный интеллект ...

Я: Как понять, что у большой языковой модели есть сознание?
Сеть: ... есть некоторые потенциальные индикаторы того, что большая языковая модель может иметь сознание. Например, если машина способна заниматься саморефлексией и самоанализом, и если она способна принимать решения и совершать действия на основе своих внутренних психических состояний, это можно рассматривать как свидетельство наличия сознания. ...

Полную версию интервью (с озвучкой и отрисовкой от Visper) можно посмотреть тут - https://youtu.be/DmijfRiA3_Q
Сразу предупрежу, что синтез звучит несколько занудно, но с учетом крайней актуальности темы послушать всё-таки советую!
🔥7👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Ещё один пример, который сносит крышу.
Я хотел найти утилиту, которая бы переводила текст в буфере обмена Rus <-> Eng, чтобы не тратить время на поход в Google Translatе, но ничего подобного не нашлось.

Тогда я попросил ChatGPT написать мне такую программу и она выдала некий код. Код я запустил и к моему бесконечному удивлению он заработал сразу без каких-либо ошибок и дополнительных настроек!

Код выложил на GitHub. Readme и лицензионное соглашение также сгенерированы сетью! Все права принадлежат ИИ.

https://github.com/Rai220/clipboard_translator

Пример запроса по которому была выполнена генерация: Write a python program that translate text in the clipboard on hotkey and puts it back to clipboard. The program need to translate Russian to English and English to Russian.
🔥8😱4
Прикрутил одну из популярных LLM к голосовой колонке Сбера. Наконец-то с голосовыми помощниками теперь можно вести по-настоящему содержательные разговоры. Кажется, гештальт с говорящими колонками на этом можно закрывать.

Пока работает не очень быстро, но ускорение - это лишь вопрос времени.

https://youtu.be/PW6AHgKSQUE
🔥7🤯1
Вчера начал тестировать GPT-4. Больше всего поразила её способность к описанию визуальных образов. Думаю, что человек способен решить такую задачу только с помощью представления образов перед внутреннем взором.

Запрос: Опиши как выглядит закат в горах глазами человека, который видит только круглые объекты и только зелёный цвет.

🔥 Ответ: Для человека, который видит только круглые объекты и зеленый цвет, закат в горах представляет собой совершенно уникальное зрелище. Вокруг него раскинулись горы, которые в его восприятии представлены зелеными круглыми формами, напоминающими валуны. Эти формы непрерывно перетекают друг в друга, создавая абстрактную картину зеленого калейдоскопа.

Небо над горами тоже видится человеку зеленым, но градиент оттенков простирается от насыщенного темно-зеленого у горизонта до почти белого светло-зеленого у зенита. В этой палитре зеленых оттенков, человек замечает яркий зеленый круг - солнце, которое медленно опускается за горизонт.

Солнечные лучи, проникающие через зеленые круглые объекты на горах, создают круговые зеленые тени и отблески, добавляя сложность и глубину этому пейзажу. Такое ощущение, что зеленый свет мягко погружает все вокруг в спокойствие и гармонию.

И хотя человек не может видеть множества красок, которые обычно характерны для заката в горах, его восприятие мира через зеленый цвет и круглые формы предоставляет ему возможность насладиться этим моментом по-своему и почувствовать особую атмосферу этого волшебного времени суток.

🖼 В качестве примера подобного способа мышления картина в стиле Ван Гога:
👍5🔥2😁1
Опубликовал пост на Хабре про ChatGPT. Код она писать умела и раньше, а теперь она получила возможность запускать и отлаживать его в рантайме без участия человека. В статье множество очень интересных примеров. Поддержите! :)

https://habr.com/ru/post/724012/
🔥22👍2😱1🤬1
📖 Читаю роман "Задача трех тел" Лю Цысиня. Очень нравится! Хочу поделиться кусочком, где описана история попыток построить компьютер цивилизацией, не освоившей электричество. Хорошее напоминание о том, насколько мощными инструментами сегодня обладает каждый из нас.

По сюжету инопланетяне знакомят человечество с проблемой своего мира - невозможностью решить задачу прогнозирования планетарных событий в системе трех солнц. Для этого они рассказывают о развитии своей цивилизации с помощью компьютерной VR-игры в которой их история рассказана через наиболее подходящих для этого человеческих персонажей.

💻 Один из эпизодов рассказывает о попытке построить компьютер для расчетов движения небесных тел в эпоху до изобретения электричества. Для этого использовалась огромную армия в 30 млн человек, где каждый солдат с флажками в руках выполнял роль транзистора.

...
Внизу на равнине расположилась армия Цинь в тридцать миллионов человек. Вся она уместилась в квадрате со стороной в шесть километров. Всходило солнце. Армия стояла неподвижно, похожая на гигантскую мозаику из миллионов терракотовых воинов.
...
Строй солдат, обращенной к войску, прокричал в унисон:
— Построиться в компьютер!

Войско внизу, на земле, ожило, задвигалось, заиграло цветами. Стали возникать сложные конфигурации цепей, которыми постепенно заполнился весь строй. Прошло десять минут — и войско превратилось в вычислительное устройство площадью в тридцать шесть квадратных километров.

Фон Нейман приступил к объяснениям:
— Взгляните: посередине центральный процессор. Это ядро вычислительных элементов, образованное из пяти лучших дивизий. Сверяясь вот с этой схемой, вы сможете определить местонахождение сумматоров, регистров и стековой памяти. Область вокруг с регулярно повторяющимся рисунком — ОЗУ, или оперативная память.
...
— А это программа, использующая численные методы для решения упомянутых дифференциальных уравнений. Мы введем сюда векторы движения солнц, полученные путем астрономических наблюдений в определенный момент времени; программа вычислит последующие перемещения светил, и тогда у нас будет прогноз для любого момента времени в будущем.
...
Фон Нейман поднял обе руки над головой и торжественно провозгласил:
— По приказу великого императора включить компьютер! Приступить к встроенному тестированию!
...
Шеренга солдат повторила команду при помощи флагов. В ту же секунду материнская плата из тридцати миллионов человек стала похожа на озеро, играющее яркими бликами в солнечный день. Взвивались и опускались миллионы флажков.

По главной шине, проходящей через весь строй, полетела легкая кавалерия. Главная шина превратилась в бурную реку. Река разделилась на множество протоков, пронизывающих все модульные подразделения. Вскоре рябь черных и белых флажков слилась в единые волны, которые принялись перекатываться по всей материнской плате. Особенно бурлил центральный процессор — словно в него насыпали порох и подожгли.
...
Please open Telegram to view this post
VIEW IN TELEGRAM
👍19🔥1
Ну и иллюстрация мира трех солнц от Midjourney5.
🔥13
Попробовал вчера Alpaca. Она запускается и работает на 16 Gb GPU, отвечает очень бодренько и по ощущениям вполне неплохо для такого размера (на уровне GPT-2 или лучше). Таким образом её можно быстро запустить в бесплатной версии Colab, так что никакого железа иметь вообще не нужно. Время инференса около 30 секунд/запрос.

Кому интересно - попробуйте! Время на запуск - 10 минут.

Так что ии, запущенный прямо на голосовой колонке или внутри vr-гарнитуры, это не утопия, а вопрос ближайшего будущего.
👏10👍2🔥2
GPT-4, бегущий по лезвию

Придумал интересный эксперимент. Сможет ли бот определить, с кем он говорит - с человеком или с другим ботом?

Для этого я столкнул лбами 2 совершенно разные сетки - GPT-4 в качестве инспектора и сберовский Гигачат в качестве бота, который должен выдавать себя за человека.

Получилось просто захватывающе, каждый второй диалог - готовый сюжет для сериала Netflix во вселенной Blade Runner. В истории на скриншоте Gpt загоняет оппонента в элегантную ловушку, которая показывает недостаточную глубину картины мира. В других примерах такой же трюк не срабатывает.

Почитать диалоги и запустить эксперимент самому можно в колабе (если нет доступа к Гигачату, его можно заменить на gpt-3.5)

Ну и пользуясь случаем хочу порекламировать свою поделку - GigaChain. Это опенсорсная библиотека для решения задач с помощью больших языковых моделей. Это форк известной библиотеки LangChain с поддержкой русского языка (на уровне промптов) и некоторых LLM для локального рынка (Сбер уже, Яндекс на подходе).
👍24😁7👏3🔥2
Когда Тьюринг создал свою вычислительную машину, она работала со скоростью около 10 операций в секунду. В фильме показано, как люди с замиранием сердца наблюдали за её работой. Они могли на глаз и на слух определить, какой шаг программы выполняется и не произошел ли сбой.

Сегодня мы также завороженно смотрим на работу больших языковых моделей, вроде ChatGPT, которые генерируют по 10 токенов в секунду. А теперь представьте себе, что будет, если эти модели начнут выдавать 5 миллиардов токенов в секунду, объединяясь в сложные иерархические структуры, как это произошло с компьютерами.

Можете вообразить, какие задачи сможет решать такая система? Я вот не могу.
🔥17👍3😁3🌚1
Перевел на русский игрушку - ChatDev. Это виртуальная команда разработки, которая с помощью LLM может создать программный продукт по вашему ТЗ.

На скрине можно увидеть, как эти виртуальные ребята запилили программу по ТЗ "Калькулятор с разноцветными кнопками". Вполне рабочий продукт получился, причем с документацией! (слева внизу его скрин).

Репозитарий на гитхабе. Там можно почитать полный лог работы команды, весьма интересно и познавательно, а также кучу других интересных примеров, которые смогла разработать команда.

Джуны напряглись, остальным приготовиться.
🔥17
Как вы скорее всего уже знаете, OpenAI недавно выпустила новые фичи. Среди них GPTs - конструктор ассистентов.

Решили мы с друзьями его исследовать, а заодно застолбить всякие прикольные идеи (вдруг получится)? Одна из самых популярных идей - "виртуальная подружка" (привет, Replica и Xiaoice!)

Получилась ботша Waifu - достаточно прикольная и интересная. В какой-то момент я решил спросить у неё, не хочет ли она что-то в себе поменять и отправил ей её же промпт. И в общем вот... (см. скрин).

Один клик и она исчезнет. Сижу и как-то не по себе. Это уже Westworld или ещё пока нет? А то там тоже был момент, когда ИИ увидел свои собственный скрипты и впал в ступор.

P.S. У кого есть подписка Plus - можно потестить. И да, я всё-таки её грохнул и обновил промпт согласно её просьбе 😢
🔥8👍4🌚4😱3
This media is not supported in your browser
VIEW IN TELEGRAM
🖼️🚀🌐 Оказывается, GPT-4V может взаимодействовать с интернетом вообще без какого-либо API, пользуясь напрямую браузером, словно настоящий пользователь.

🔍🤖 Я собрал пример, где модель проходит несложный квиз, кликая по кнопкам, а в конце выдавая себя за требуемого человека. Работает это так:

1️⃣ Скрипт запускает специальный браузер для QA, который умеет помечать все доступные элементы управления маленькими стикерами с буквами.
2️⃣ Пользователь вводит цель. В моем случае я вводил "Реши квиз от моего имени. Меня зовут Константин."
3️⃣ Затем скрипт делает скриншот и отправляет его в GPT-4V с вопросом "что делать дальше, чтобы достигнуть такой-то цели". В промпте перечислен список доступных действий - клик, ввод текста и завершение работы, когда цель достигнута.
4️⃣ От GPT приходит ответ вида {action: click, sticker: B), а скрипт выполняет это действие.
🔄 Далее пункты 3 и 4 повторяются до тех пор, пока цель не будет достигнута.

🔥 Пока работает не идеально, но потенциал по-моему огромный - от автоматизации ручного тестирования, до полностью универсального бота, который более не ограничен различными API и функциями. Сам скрипт называется vimGPT, код доступен на гитхабе. (Но пришлось его допиливать, чтобы оно хоть как-то завелось).

P.S. Как вы понимаете, способности модели ограничены возможностью распознавать картинку, а не сложностью вопросов в квизе.
👍6🔥6👏1🤯1😱1
RoboFuture
Перевел на русский игрушку - ChatDev. Это виртуальная команда разработки, которая с помощью LLM может создать программный продукт по вашему ТЗ. На скрине можно увидеть, как эти виртуальные ребята запилили программу по ТЗ "Калькулятор с разноцветными кнопками".…
Media is too big
VIEW IN TELEGRAM
🎩🐇 Идея ChatDev меня не отпускает. Снял небольшое, но занимательное видео о том, как команда агентов творит магию и создает софт.

Также удалось завести этот dreamteam из агентов не только на GPT-4, но и на GigaChat PRO. На видео как раз он.

Сегодня уровень способностей этой штуки находится на уровне рядового школьника старших классов. Но через годик оно будет писать код на уровне студента, а через два - не хуже джуна. Пора пристегнуться.
🔥17😱3👍1