Титанический труд!
Сравнение Midjourney и Dalle3 на огромном количестве примеров.
С комментариями автора.
Респект!
https://atachkina.com/dalle3
Сравнение Midjourney и Dalle3 на огромном количестве примеров.
С комментариями автора.
Респект!
https://atachkina.com/dalle3
👍41🔥25
Чтение мыслей по поводу чтения.
Про то, что добровольцев присовывают в фМРТ и дают им слушать музыку, смотреть картинки и даже видео, а потом пытаются реконструировать увиденное-услышанное, я уже писал.
Тут же эксперимент немного более "тонкий" и связанный с вопросом о том, как мы "мыслим на языке".
Теперь добровольцев присовывают в фМРТ и просят их читать книжки. То есть воздействуют на мозг не "прямыми" сигналами типа картинок и звука, а как бы "вторичными", пропущенными, через генерацию образов, возникающих в голове во время чтения. То есть, чтение порождает картинки в голове(ну или у кого как, назовем это триггеры-ассоциации в голове), а исследователи пытаются ухватить эти порожденные чтением сигналы.
"Когда мы думаем о словах или фразах, в голове активизируются участки мозга, контролирующие речь. Используя фМРТ-сканирование людей во время чтения и последующего обдумывания, исследователи обучили программу декодирования составлять карту речи и мышления каждого человека, что позволило ей распознавать сигналы мозга и переводить их в слова или фразы. Испытуемые читали в течение 16 часов, а программа-декодер отображала каждый образ мозга и ассоциировала его со словом или фразой."
Получилась карта связей, которая включала три подмножества активированного мозга: речевой, ассоциативный и префронтальный. Сложность заключалась в том, что каждый участок мозга при анализе дешифратором выдавал разные последовательности слов. Предполагается, что это связано с тем, что слов гораздо больше, чем возможных изображений мозга, в результате чего дешифратор выдает наилучшую оценку на основе 16-часового набора данных по чтению.
Например, дешифратору была предложена следующая фраза: "Я нарисовал для тебя эту карту, и ты действительно находишься в полутора милях от дома". Левая префронтальная кора выдает следующую последовательность: "номер на карте и выяснить, как далеко им пришлось проехать, чтобы добраться до адреса", в то время как правая префронтальная кора выдает "просто посмотреть, сколько времени это займет, поэтому я проехал вниз по холму и к банку".
Исследователи быстро обнаружили, что точные переводы встречаются редко, поэтому они стремились к тому, чтобы дешифровщик смог передать как минимум основной смысл предложения. В большинстве случаев дешифровщик хорошо передавал общий смысл, заложенный в текст.
В статье напрямую обсуждаются невербальные коммуникации, то бишь аналоги телепатии. И это прям бодрит.
Ну и есть повод поумничать, и вспомнить Тютчева и «Мысль изрече́нная есть ложь...». Которую мы измеряем в фМРТ.
А также поразмыслить о том, как же здорово языковые (и дифузионные) модели имитируют кожаное мышление, сжимая информацию подобно джипегу (хотя бы в процессе токенизации), а при распаковке остается общий смысл, но детали могут теряться. Или вообще искажаться.
И у каждого в голове свой JPEG этого мира, пропущенный через язык, на котором мы думаем, с довольно сильной(огромной) степенью сжатия.
https://www.forbes.com/sites/williamhaseltine/2023/08/16/translating-thoughts-into-words-advances-in-brain-machine-communication/amp/
Про то, что добровольцев присовывают в фМРТ и дают им слушать музыку, смотреть картинки и даже видео, а потом пытаются реконструировать увиденное-услышанное, я уже писал.
Тут же эксперимент немного более "тонкий" и связанный с вопросом о том, как мы "мыслим на языке".
Теперь добровольцев присовывают в фМРТ и просят их читать книжки. То есть воздействуют на мозг не "прямыми" сигналами типа картинок и звука, а как бы "вторичными", пропущенными, через генерацию образов, возникающих в голове во время чтения. То есть, чтение порождает картинки в голове(ну или у кого как, назовем это триггеры-ассоциации в голове), а исследователи пытаются ухватить эти порожденные чтением сигналы.
"Когда мы думаем о словах или фразах, в голове активизируются участки мозга, контролирующие речь. Используя фМРТ-сканирование людей во время чтения и последующего обдумывания, исследователи обучили программу декодирования составлять карту речи и мышления каждого человека, что позволило ей распознавать сигналы мозга и переводить их в слова или фразы. Испытуемые читали в течение 16 часов, а программа-декодер отображала каждый образ мозга и ассоциировала его со словом или фразой."
Получилась карта связей, которая включала три подмножества активированного мозга: речевой, ассоциативный и префронтальный. Сложность заключалась в том, что каждый участок мозга при анализе дешифратором выдавал разные последовательности слов. Предполагается, что это связано с тем, что слов гораздо больше, чем возможных изображений мозга, в результате чего дешифратор выдает наилучшую оценку на основе 16-часового набора данных по чтению.
Например, дешифратору была предложена следующая фраза: "Я нарисовал для тебя эту карту, и ты действительно находишься в полутора милях от дома". Левая префронтальная кора выдает следующую последовательность: "номер на карте и выяснить, как далеко им пришлось проехать, чтобы добраться до адреса", в то время как правая префронтальная кора выдает "просто посмотреть, сколько времени это займет, поэтому я проехал вниз по холму и к банку".
Исследователи быстро обнаружили, что точные переводы встречаются редко, поэтому они стремились к тому, чтобы дешифровщик смог передать как минимум основной смысл предложения. В большинстве случаев дешифровщик хорошо передавал общий смысл, заложенный в текст.
В статье напрямую обсуждаются невербальные коммуникации, то бишь аналоги телепатии. И это прям бодрит.
Ну и есть повод поумничать, и вспомнить Тютчева и «Мысль изрече́нная есть ложь...». Которую мы измеряем в фМРТ.
А также поразмыслить о том, как же здорово языковые (и дифузионные) модели имитируют кожаное мышление, сжимая информацию подобно джипегу (хотя бы в процессе токенизации), а при распаковке остается общий смысл, но детали могут теряться. Или вообще искажаться.
И у каждого в голове свой JPEG этого мира, пропущенный через язык, на котором мы думаем, с довольно сильной
https://www.forbes.com/sites/williamhaseltine/2023/08/16/translating-thoughts-into-words-advances-in-brain-machine-communication/amp/
Forbes
Translating Thoughts Into Words: Advances In Brain-Machine Communication
This story is part of a series on the current A new brain-computer interface decoder enables researchers to construct continuous language using only MRI brain scans.
👍33🔥6
Сейчас все обсуждают статью от Microsoft "Рассвет больших языковых моделей: предварительные эксперименты с GPT-4V(ision)", где у GPT-4 появилось "зрение".
В кругах, которые занимаются Computer Vision легкий шок, от "а что так можно было" и "как же это круто" до "а что теперь делать/чем заниматься, если вдруг 90% планируемых к решению задач вдруг решены"(утрирую, конечно).
Но я хочу процитировать один пост, в котором рассматривается влияние этого прорыва на психологию. Как человек, больной на всю голову, я неровно дышу к идее изучения психологического устройства кожаного мешка через издевательства на большими языковыми моделями.
"Для нас как психологов особенно важными являются 7 и 8 параграфы, описывающие способность GPT-4V(ision) эффективно решать тесты на невербальный и эмоциональный интеллект, в которых стимулы предъявляются в зрительной модальности – так же, как и человеку. Описывается успешная работа GPT-4V(ision) с тестом Равена, тестом Векслера, тестом на распознавание лицевых экспрессий и др. В целом, когнитивный успех GPT-4V(ision) подтверждает стремительно множащиеся сейчас слухи, что в недрах OpenAI, на самом деле, уже создана сверхмощная мультимодальная модель, гораздо более приближенная к AGI, чем любая из публично представленных версий GPT-4"
Подробнее вот тут: https://news.1rj.ru/str/andrey_kiselnikov/714
Там же ссылка на саму статью.
В кругах, которые занимаются Computer Vision легкий шок, от "а что так можно было" и "как же это круто" до "а что теперь делать/чем заниматься, если вдруг 90% планируемых к решению задач вдруг решены"(утрирую, конечно).
Но я хочу процитировать один пост, в котором рассматривается влияние этого прорыва на психологию. Как человек, больной на всю голову, я неровно дышу к идее изучения психологического устройства кожаного мешка через издевательства на большими языковыми моделями.
"Для нас как психологов особенно важными являются 7 и 8 параграфы, описывающие способность GPT-4V(ision) эффективно решать тесты на невербальный и эмоциональный интеллект, в которых стимулы предъявляются в зрительной модальности – так же, как и человеку. Описывается успешная работа GPT-4V(ision) с тестом Равена, тестом Векслера, тестом на распознавание лицевых экспрессий и др. В целом, когнитивный успех GPT-4V(ision) подтверждает стремительно множащиеся сейчас слухи, что в недрах OpenAI, на самом деле, уже создана сверхмощная мультимодальная модель, гораздо более приближенная к AGI, чем любая из публично представленных версий GPT-4"
Подробнее вот тут: https://news.1rj.ru/str/andrey_kiselnikov/714
Там же ссылка на саму статью.
Telegram
Новости психофизиологии
Вышел очень интересный препринт исследователей из Microsoft "Рассвет больших языковых моделей: предварительные эксперименты с GPT-4V(ision)", в котором исследуется новая версия GPT-4, оснащенная способностью эффективно работать со зрительной модальностью.…
👍21🔥7
Forwarded from эйай ньюз
🎙У некоторых уже появился доступ к аудио фичам в новом мультимодальном ChatGPT.
Он и на русском, и на иврите, и на китайском, и на пачке других языков могёт. OpenAI насобирали очень качественный голосовой датасет для тренировки.
Волосы двигаются на голове от осознания того, что ведёшь разговор с LLM, которая говорит так реалистично (особенно на первом видео). Как-то Siri и Google Assistant так реально не ощущались, да они и тупые в целом (пока).
Аудио доступно только в приложении ChatGPT на мобильниках. Для этого нужно его активировать в настройках аппки.
Интересно, откуда американский акцент на русском языке во втором видео? Байес датасета или так нативнее в контексте изучения языка иностранцем 🤔
@ai_newz
Он и на русском, и на иврите, и на китайском, и на пачке других языков могёт. OpenAI насобирали очень качественный голосовой датасет для тренировки.
Волосы двигаются на голове от осознания того, что ведёшь разговор с LLM, которая говорит так реалистично (особенно на первом видео). Как-то Siri и Google Assistant так реально не ощущались, да они и тупые в целом (пока).
Аудио доступно только в приложении ChatGPT на мобильниках. Для этого нужно его активировать в настройках аппки.
Интересно, откуда американский акцент на русском языке во втором видео? Байес датасета или так нативнее в контексте изучения языка иностранцем 🤔
@ai_newz
🔥18👍10
Media is too big
VIEW IN TELEGRAM
Decaf Mocap
А вот это уже похоже на что-то серьезное, в отличие от мамкиных нейромокапов.
Во-первых, это институт Макса Планка, во-вторых - это Valeo.ai, которые занимаются компьютерным зрением для автономных автомобилей, работая с огромным количеством датчиков.
На итоге - трехмерное восстановление 3D-движения рук и лица вместе с деформациями по одному видео с одной камеры!!!
Внутри вариационный автокодер, обеспечивающий предварительную оценку глубины лица и рук, и модули, управляющие 3D-слежением путем оценки контактов и деформаций.
https://vcai.mpi-inf.mpg.de/projects/Decaf/
Внутри детали и большое видео с объяснениями.
А вот это уже похоже на что-то серьезное, в отличие от мамкиных нейромокапов.
Во-первых, это институт Макса Планка, во-вторых - это Valeo.ai, которые занимаются компьютерным зрением для автономных автомобилей, работая с огромным количеством датчиков.
На итоге - трехмерное восстановление 3D-движения рук и лица вместе с деформациями по одному видео с одной камеры!!!
Внутри вариационный автокодер, обеспечивающий предварительную оценку глубины лица и рук, и модули, управляющие 3D-слежением путем оценки контактов и деформаций.
https://vcai.mpi-inf.mpg.de/projects/Decaf/
Внутри детали и большое видео с объяснениями.
🔥31
Давно не было про Метаверсищще.
Я сам не продвинутый пользователь Роблокса, но глядя на то, как близлежащие дети сбиваются в стаи и рубятся в Роблокс, я всегда считал Роблокс одним из годных воплощений Метаверса, в котором есть, что делать, в отличие от влажных мечт Марка.
А тут вот интернетик принес такую новость: «Яндекс Маркет открыл школу в Roblox, в ней есть теннисный корт, баскетбольная площадка, фонтан, фотозона, школьный автобус и магазин с внутриигровыми предметами от маркетплейса».
Потом посмотрел, что в этом пространстве уже выпустили даже мерч нейросетки YandexGPT, который можно накрафтить, просто погоняв в игрушки. Выигрываешь 50 раз, получаешь читы, активируешь их в мерч-шопе - получаешь толстовку или худи. Мерч виртуальный, выиграл, надел и ну флексить, причем не только в яндекс-зоне, но и по всему Роблоксу.
Глянул первую попавшуюся статистику: 70% активных пользователей - дети и подростки до 17 лет. Вот им уж точно зайдут такие дофаминовые механики.
Не уверен, что у каждой компании будет свой Роблокс-мирок, но для тех кто целит в определенные аудитории, это может быть 3Д-альтернативой тик-токам и инстам.
Но взрослых туда будет загнать сложновато, имхо. Но возможно я просто староват и делаю сверх-обобщения.
Я сам не продвинутый пользователь Роблокса, но глядя на то, как близлежащие дети сбиваются в стаи и рубятся в Роблокс, я всегда считал Роблокс одним из годных воплощений Метаверса, в котором есть, что делать, в отличие от влажных мечт Марка.
А тут вот интернетик принес такую новость: «Яндекс Маркет открыл школу в Roblox, в ней есть теннисный корт, баскетбольная площадка, фонтан, фотозона, школьный автобус и магазин с внутриигровыми предметами от маркетплейса».
Потом посмотрел, что в этом пространстве уже выпустили даже мерч нейросетки YandexGPT, который можно накрафтить, просто погоняв в игрушки. Выигрываешь 50 раз, получаешь читы, активируешь их в мерч-шопе - получаешь толстовку или худи. Мерч виртуальный, выиграл, надел и ну флексить, причем не только в яндекс-зоне, но и по всему Роблоксу.
Глянул первую попавшуюся статистику: 70% активных пользователей - дети и подростки до 17 лет. Вот им уж точно зайдут такие дофаминовые механики.
Не уверен, что у каждой компании будет свой Роблокс-мирок, но для тех кто целит в определенные аудитории, это может быть 3Д-альтернативой тик-токам и инстам.
Но взрослых туда будет загнать сложновато, имхо. Но возможно я просто староват и делаю сверх-обобщения.
🔥20👎7👍6❤1
Stable Diffusion SDXL - одна картинка в секунду. Бесплатно. Без регистрации.
Не шутка. Не реклама.
Просто добрый Гугл взял свои недавно анонсированные TPU v5e и портировал Stable Diffusion на них.
А потом собрал на HuggingFace веб-морду для доступа к
Fast Stable Diffusion XL on TPU v5e.
Получился бесплатный дико быстрый генератор картинок на SDXL.
Крутится все это в облаке Гугла с нечеловеческой скоростью.
Я пробовал утром, я пробовал вечером - в среднем 4 картинки за 2-4 секунды. В 1024х1024.
Это быстрее, чем на A100 или еще где-то.
Для гиков: вот тут подробности, как портировали, как обгоняли, как подрезали.
Для всех:
1. Еще утром был только позитивный и негативный промпт и Guidance Scale. Сейчас подвезли стили. Похоже они занимаются проектом.
2. Еще утром модель прекрасно понимала nude и naked, сейчас уже ругается "изыди и зайди с другим промптом".
3. Мне трудно оценить на глаз разницу с ванильной SDXL. Кажется, что модель в процессе оптимизации потеряла толику точности(кватизация?), но, вероятно, это желание найти подвох.
4. В NSFW модель неохотно исполняет (есть трюкидля этого), причем там похоже есть защита не только в промпте, но и в самой пост-генерации - модель как будто специально ломает анатомию, как только видит сама у себя обнаженку.
5. Абстрактные дела, илюстрация и всякая анимещщина идут на ура, как в обычной SDXL.
6. Конечно нет (пока) никаких рулек и фиксов. Лица порой портит, разрешение квадратное, управлять можно только стилями.
7. Знает знаменитостей. Лица сразу правятся.
В общем давай-те оттестируем такой бесплатный подарок. Навалите туда своих промптов и расскажите, что получилось.
Как-то все это очень сладко, чтобы быть правдой - SDXL, в облаке, бесплатно, быстро, на тензорных ядрах от гугла. И никакой Нвидии посередине.
В чем подвох?
Я тут соорудил галерейку для не вошедшего в шапку, там nsfw, частицы и прочая хтонь, порожденная бездумным жмаканием на кнопку "Еще красиво". Будет 100 лайков, запощу.
Жмакаем сюда:
https://huggingface.co/spaces/google/sdxl
Не шутка. Не реклама.
Просто добрый Гугл взял свои недавно анонсированные TPU v5e и портировал Stable Diffusion на них.
А потом собрал на HuggingFace веб-морду для доступа к
Fast Stable Diffusion XL on TPU v5e.
Получился бесплатный дико быстрый генератор картинок на SDXL.
Крутится все это в облаке Гугла с нечеловеческой скоростью.
Я пробовал утром, я пробовал вечером - в среднем 4 картинки за 2-4 секунды. В 1024х1024.
Это быстрее, чем на A100 или еще где-то.
Для гиков: вот тут подробности, как портировали, как обгоняли, как подрезали.
Для всех:
1. Еще утром был только позитивный и негативный промпт и Guidance Scale. Сейчас подвезли стили. Похоже они занимаются проектом.
2. Еще утром модель прекрасно понимала nude и naked, сейчас уже ругается "изыди и зайди с другим промптом".
3. Мне трудно оценить на глаз разницу с ванильной SDXL. Кажется, что модель в процессе оптимизации потеряла толику точности(кватизация?), но, вероятно, это желание найти подвох.
4. В NSFW модель неохотно исполняет (есть трюкидля этого), причем там похоже есть защита не только в промпте, но и в самой пост-генерации - модель как будто специально ломает анатомию, как только видит сама у себя обнаженку.
5. Абстрактные дела, илюстрация и всякая анимещщина идут на ура, как в обычной SDXL.
6. Конечно нет (пока) никаких рулек и фиксов. Лица порой портит, разрешение квадратное, управлять можно только стилями.
7. Знает знаменитостей. Лица сразу правятся.
В общем давай-те оттестируем такой бесплатный подарок. Навалите туда своих промптов и расскажите, что получилось.
Как-то все это очень сладко, чтобы быть правдой - SDXL, в облаке, бесплатно, быстро, на тензорных ядрах от гугла. И никакой Нвидии посередине.
В чем подвох?
Я тут соорудил галерейку для не вошедшего в шапку, там nsfw, частицы и прочая хтонь, порожденная бездумным жмаканием на кнопку "Еще красиво". Будет 100 лайков, запощу.
Жмакаем сюда:
https://huggingface.co/spaces/google/sdxl
👍118🔥21