Метаверсище и ИИще – Telegram
Метаверсище и ИИще
46.7K subscribers
5.93K photos
4.34K videos
45 files
6.82K links
Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие.
Для связи: @SergeyTsyptsyn
Download Telegram
Вот это уже интересно и близко по замыслу к ИИ-телепатии. Читаем ниже
🔥17
Чтение мыслей по поводу чтения.
Про то, что добровольцев присовывают в фМРТ и дают им слушать музыку, смотреть картинки и даже видео, а потом пытаются реконструировать увиденное-услышанное, я уже писал.
Тут же эксперимент немного более "тонкий" и связанный с вопросом о том, как мы "мыслим на языке".
Теперь добровольцев присовывают в фМРТ и просят их читать книжки. То есть воздействуют на мозг не "прямыми" сигналами типа картинок и звука, а как бы "вторичными", пропущенными, через генерацию образов, возникающих в голове во время чтения. То есть, чтение порождает картинки в голове(ну или у кого как, назовем это триггеры-ассоциации в голове), а исследователи пытаются ухватить эти порожденные чтением сигналы.

"Когда мы думаем о словах или фразах, в голове активизируются участки мозга, контролирующие речь. Используя фМРТ-сканирование людей во время чтения и последующего обдумывания, исследователи обучили программу декодирования составлять карту речи и мышления каждого человека, что позволило ей распознавать сигналы мозга и переводить их в слова или фразы. Испытуемые читали в течение 16 часов, а программа-декодер отображала каждый образ мозга и ассоциировала его со словом или фразой."

Получилась карта связей, которая включала три подмножества активированного мозга: речевой, ассоциативный и префронтальный. Сложность заключалась в том, что каждый участок мозга при анализе дешифратором выдавал разные последовательности слов. Предполагается, что это связано с тем, что слов гораздо больше, чем возможных изображений мозга, в результате чего дешифратор выдает наилучшую оценку на основе 16-часового набора данных по чтению.

Например, дешифратору была предложена следующая фраза: "Я нарисовал для тебя эту карту, и ты действительно находишься в полутора милях от дома". Левая префронтальная кора выдает следующую последовательность: "номер на карте и выяснить, как далеко им пришлось проехать, чтобы добраться до адреса", в то время как правая префронтальная кора выдает "просто посмотреть, сколько времени это займет, поэтому я проехал вниз по холму и к банку".

Исследователи быстро обнаружили, что точные переводы встречаются редко, поэтому они стремились к тому, чтобы дешифровщик смог передать как минимум основной смысл предложения. В большинстве случаев дешифровщик хорошо передавал общий смысл, заложенный в текст.

В статье напрямую обсуждаются невербальные коммуникации, то бишь аналоги телепатии. И это прям бодрит.

Ну и есть повод поумничать, и вспомнить Тютчева и «Мысль изрече́нная есть ложь...». Которую мы измеряем в фМРТ.

А также поразмыслить о том, как же здорово языковые (и дифузионные) модели имитируют кожаное мышление, сжимая информацию подобно джипегу (хотя бы в процессе токенизации), а при распаковке остается общий смысл, но детали могут теряться. Или вообще искажаться.
И у каждого в голове свой JPEG этого мира, пропущенный через язык, на котором мы думаем, с довольно сильной (огромной) степенью сжатия.

https://www.forbes.com/sites/williamhaseltine/2023/08/16/translating-thoughts-into-words-advances-in-brain-machine-communication/amp/
👍33🔥6
Сейчас все обсуждают статью от Microsoft "Рассвет больших языковых моделей: предварительные эксперименты с GPT-4V(ision)", где у GPT-4 появилось "зрение".

В кругах, которые занимаются Computer Vision легкий шок, от "а что так можно было" и "как же это круто" до "а что теперь делать/чем заниматься, если вдруг 90% планируемых к решению задач вдруг решены"(утрирую, конечно).

Но я хочу процитировать один пост, в котором рассматривается влияние этого прорыва на психологию. Как человек, больной на всю голову, я неровно дышу к идее изучения психологического устройства кожаного мешка через издевательства на большими языковыми моделями.

"Для нас как психологов особенно важными являются 7 и 8 параграфы, описывающие способность GPT-4V(ision) эффективно решать тесты на невербальный и эмоциональный интеллект, в которых стимулы предъявляются в зрительной модальности – так же, как и человеку. Описывается успешная работа GPT-4V(ision) с тестом Равена, тестом Векслера, тестом на распознавание лицевых экспрессий и др. В целом, когнитивный успех GPT-4V(ision) подтверждает стремительно множащиеся сейчас слухи, что в недрах OpenAI, на самом деле, уже создана сверхмощная мультимодальная модель, гораздо более приближенная к AGI, чем любая из публично представленных версий GPT-4"

Подробнее вот тут: https://news.1rj.ru/str/andrey_kiselnikov/714
Там же ссылка на саму статью.
👍21🔥7
Forwarded from эйай ньюз
🎙У некоторых уже появился доступ к аудио фичам в новом мультимодальном ChatGPT.

Он и на русском, и на иврите, и на китайском, и на пачке других языков могёт. OpenAI насобирали очень качественный голосовой датасет для тренировки.

Волосы двигаются на голове от осознания того, что ведёшь разговор с LLM, которая говорит так реалистично (особенно на первом видео). Как-то Siri и Google Assistant так реально не ощущались, да они и тупые в целом (пока).

Аудио доступно только в приложении ChatGPT на мобильниках. Для этого нужно его активировать в настройках аппки.

Интересно, откуда американский акцент на русском языке во втором видео? Байес датасета или так нативнее в контексте изучения языка иностранцем 🤔

@ai_newz
🔥18👍10
Media is too big
VIEW IN TELEGRAM
Decaf Mocap

А вот это уже похоже на что-то серьезное, в отличие от мамкиных нейромокапов.

Во-первых, это институт Макса Планка, во-вторых - это Valeo.ai, которые занимаются компьютерным зрением для автономных автомобилей, работая с огромным количеством датчиков.

На итоге - трехмерное восстановление 3D-движения рук и лица вместе с деформациями по одному видео с одной камеры!!!

Внутри вариационный автокодер, обеспечивающий предварительную оценку глубины лица и рук, и модули, управляющие 3D-слежением путем оценки контактов и деформаций.


https://vcai.mpi-inf.mpg.de/projects/Decaf/

Внутри детали и большое видео с объяснениями.
🔥31
Давно не было про Метаверсищще.

Я сам не продвинутый пользователь Роблокса, но глядя на то, как близлежащие дети сбиваются в стаи и рубятся в Роблокс, я всегда считал Роблокс одним из годных воплощений Метаверса, в котором есть, что делать, в отличие от влажных мечт Марка.

А тут вот интернетик принес такую новость: «Яндекс Маркет открыл школу в Roblox, в ней есть теннисный корт, баскетбольная площадка, фонтан, фотозона, школьный автобус и магазин с внутриигровыми предметами от маркетплейса».

Потом посмотрел, что в этом пространстве уже выпустили даже мерч нейросетки YandexGPT, который можно накрафтить, просто погоняв в игрушки. Выигрываешь 50 раз, получаешь читы, активируешь их в мерч-шопе - получаешь толстовку или худи. Мерч виртуальный, выиграл, надел и ну флексить, причем не только в яндекс-зоне, но и по всему Роблоксу.

Глянул первую попавшуюся статистику: 70% активных пользователей - дети и подростки до 17 лет. Вот им уж точно зайдут такие дофаминовые механики.

Не уверен, что у каждой компании будет свой Роблокс-мирок, но для тех кто целит в определенные аудитории, это может быть 3Д-альтернативой тик-токам и инстам.

Но взрослых туда будет загнать сложновато, имхо. Но возможно я просто староват и делаю сверх-обобщения.
🔥20👎7👍61
Stable Diffusion SDXL - одна картинка в секунду. Бесплатно. Без регистрации.
Не шутка. Не реклама.
Просто добрый Гугл взял свои недавно анонсированные TPU v5e и портировал Stable Diffusion на них.
А потом собрал на HuggingFace веб-морду для доступа к
Fast Stable Diffusion XL on TPU v5e.
Получился бесплатный дико быстрый генератор картинок на SDXL.
Крутится все это в облаке Гугла с нечеловеческой скоростью.
Я пробовал утром, я пробовал вечером - в среднем 4 картинки за 2-4 секунды. В 1024х1024.
Это быстрее, чем на A100 или еще где-то.
Для гиков: вот тут подробности, как портировали, как обгоняли, как подрезали.
Для всех:
1. Еще утром был только позитивный и негативный промпт и Guidance Scale. Сейчас подвезли стили. Похоже они занимаются проектом.
2. Еще утром модель прекрасно понимала nude и naked, сейчас уже ругается "изыди и зайди с другим промптом".
3. Мне трудно оценить на глаз разницу с ванильной SDXL. Кажется, что модель в процессе оптимизации потеряла толику точности(кватизация?), но, вероятно, это желание найти подвох.
4. В NSFW модель неохотно исполняет (есть трюкидля этого), причем там похоже есть защита не только в промпте, но и в самой пост-генерации - модель как будто специально ломает анатомию, как только видит сама у себя обнаженку.
5. Абстрактные дела, илюстрация и всякая анимещщина идут на ура, как в обычной SDXL.
6. Конечно нет (пока) никаких рулек и фиксов. Лица порой портит, разрешение квадратное, управлять можно только стилями.
7. Знает знаменитостей. Лица сразу правятся.
В общем давай-те оттестируем такой бесплатный подарок. Навалите туда своих промптов и расскажите, что получилось.

Как-то все это очень сладко, чтобы быть правдой - SDXL, в облаке, бесплатно, быстро, на тензорных ядрах от гугла. И никакой Нвидии посередине.
В чем подвох?

Я тут соорудил галерейку для не вошедшего в шапку, там nsfw, частицы и прочая хтонь, порожденная бездумным жмаканием на кнопку "Еще красиво". Будет 100 лайков, запощу.



Жмакаем сюда:
https://huggingface.co/spaces/google/sdxl
👍118🔥21