This media is not supported in your browser
VIEW IN TELEGRAM
Учёные в США разработали свитер, сбивающий с толку алгоритмы распознавания лиц
👍2
Если можно перевести текст в картинку, и можно перевести текст в музыку, то можно и картинку в музыку!
#Image2music на базе Mubert и CLIP Interrogator
Следом будет несколько примеров
#Image2music на базе Mubert и CLIP Interrogator
Следом будет несколько примеров
Сгенерировано по кадрам из фильмов:
- Звездные Войны
- Джеймс Бонд
- Охотники за привидениями
- Криминальное чтиво
- Звездные Войны
- Джеймс Бонд
- Охотники за привидениями
- Криминальное чтиво
This media is not supported in your browser
VIEW IN TELEGRAM
MagicMix: Semantic Mixing with Diffusion Models
В отличие от переноса стиля, когда изображение стилизуется в соответствии с эталонным стилем без изменения содержания изображения, семантическое смешивание семантически смешивает две разные концепции для синтеза новой концепции при сохранении пространственного расположения и геометрии.
Кода нет
В отличие от переноса стиля, когда изображение стилизуется в соответствии с эталонным стилем без изменения содержания изображения, семантическое смешивание семантически смешивает две разные концепции для синтеза новой концепции при сохранении пространственного расположения и геометрии.
Кода нет
Коллективное нейротворчество в реальном времени.
Есть 50 разных комнат, можно зайти в любую
https://huggingface.co/spaces/huggingface-projects/stable-diffusion-multiplayer?roomid=room-1
Есть 50 разных комнат, можно зайти в любую
https://huggingface.co/spaces/huggingface-projects/stable-diffusion-multiplayer?roomid=room-1
Media is too big
VIEW IN TELEGRAM
Чистая магия
NeRFPlayer
Снимаешь сцену движущейся камерой, чтобы был параллакс.
И потом смотришь ее с любой точки!
Ждем код
NeRFPlayer
Снимаешь сцену движущейся камерой, чтобы был параллакс.
И потом смотришь ее с любой точки!
Ждем код
This media is not supported in your browser
VIEW IN TELEGRAM
#NeRF Модель объемного представления объектов с семантическим разбиением. То есть, она учится каждый объект в сцене воспринимать отдельно. Кода нет
gCoRF: Generative Compositional Radiance Fields
gCoRF: Generative Compositional Radiance Fields
This media is not supported in your browser
VIEW IN TELEGRAM
Синтез человеческого вокала
NNSVS: A Neural Network-Based Singing Voice Synthesis Toolkit
Звучит прилично на японском (?)
Судя по документации, можно прикручивать разные языки
Код
NNSVS: A Neural Network-Based Singing Voice Synthesis Toolkit
Звучит прилично на японском (?)
Судя по документации, можно прикручивать разные языки
Код
Forwarded from эйай ньюз
This media is not supported in your browser
VIEW IN TELEGRAM
Галя, тут GPT3 прямо в Экселе!
Чел интегрировал GPT3 в Гугл таблицы. Нужно только вместо формулы вписать =GPT3("..."), где указать что сделать с данными в качестве запроса.
Особенно понравилось, как автор просит сгенереть письма благодарности гостям в зависимости от того, что они подарили на свадьбу. Вот где прагматизм.
Однако, на запросе выдать почтовые индексы по имени городов GPT3 ошибается в 20% случаев 🌚. Будущее с AI будет великое, говорили они!
@ai_newz
Чел интегрировал GPT3 в Гугл таблицы. Нужно только вместо формулы вписать =GPT3("..."), где указать что сделать с данными в качестве запроса.
Особенно понравилось, как автор просит сгенереть письма благодарности гостям в зависимости от того, что они подарили на свадьбу. Вот где прагматизм.
Однако, на запросе выдать почтовые индексы по имени городов GPT3 ошибается в 20% случаев 🌚. Будущее с AI будет великое, говорили они!
@ai_newz
NVIDIA как всегда со своими семантическими масками. Сходите по ссылке, там есть на что посмотреть! https://deepimagination.cc/eDiffi/
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
иДиффи! Плюс Экспертные Шумодавы!
А вот и ответочка Нвидии на все эти Stable Diffusion, Midjourney и DALLE2.
И какая!
Для любопытных: Под капотом там всеми нами любимая Диффузия, когда из шума рождаются картинки, но Нвидия вводит понятие Expert Denoisers, когда на каждом шаге денойзинга используется своя модель.
При обучении традиционной диффузионной модели одна модель обучается шумоподавлению всего распределения шума. Нвидия обучает набор сеток Expert Denoisers, которые специализируются на шумоподавлении на разных интервалах генеративного процесса.
Для всех: над капотом там улучшенная производительность и качество (гусарам пока верят на слово). Картинки на сайте подобраны в лучших традициях сбор вишен.
А также две фишки: новая и старая.
Новая: рисование словами Paint with Words (неудачный термин имхо) - это когда вы берете часть вашей текстовой подсказки и а потом рисуете маску(область) на картинке и говорите "рисуй это тут", потом еще немного текста и другую область: "а это тут". Эдакий Multi Inpainting, когда каждой части промпта соответствует своя область на картинке. И тут мы видим реинканацию GauGAN-a, известного в миру как Гоген, той самой смешной рисовалки из 2018 года. UI конечно адовый, но вот если эту фичу прикрутить к Фотошопу или After Effects, то может быть бомба.
Поглядите видео в следующем посте, там поймете о чем речь.
Старая: Перенос стиля в котором Нвидия набила руку и который производится в "смысловом пространстве". Выглядит нарядно.
Будем сегодня разглядывать и гадать, как когда и где.
Много картинок и демок вот тут:
https://deepimagination.cc/eDiffi/
А вот и ответочка Нвидии на все эти Stable Diffusion, Midjourney и DALLE2.
И какая!
Для любопытных: Под капотом там всеми нами любимая Диффузия, когда из шума рождаются картинки, но Нвидия вводит понятие Expert Denoisers, когда на каждом шаге денойзинга используется своя модель.
При обучении традиционной диффузионной модели одна модель обучается шумоподавлению всего распределения шума. Нвидия обучает набор сеток Expert Denoisers, которые специализируются на шумоподавлении на разных интервалах генеративного процесса.
Для всех: над капотом там улучшенная производительность и качество (гусарам пока верят на слово). Картинки на сайте подобраны в лучших традициях сбор вишен.
А также две фишки: новая и старая.
Новая: рисование словами Paint with Words (неудачный термин имхо) - это когда вы берете часть вашей текстовой подсказки и а потом рисуете маску(область) на картинке и говорите "рисуй это тут", потом еще немного текста и другую область: "а это тут". Эдакий Multi Inpainting, когда каждой части промпта соответствует своя область на картинке. И тут мы видим реинканацию GauGAN-a, известного в миру как Гоген, той самой смешной рисовалки из 2018 года. UI конечно адовый, но вот если эту фичу прикрутить к Фотошопу или After Effects, то может быть бомба.
Поглядите видео в следующем посте, там поймете о чем речь.
Старая: Перенос стиля в котором Нвидия набила руку и который производится в "смысловом пространстве". Выглядит нарядно.
Будем сегодня разглядывать и гадать, как когда и где.
Много картинок и демок вот тут:
https://deepimagination.cc/eDiffi/
🔥3👍1
Я таки не ошибся начет коллаборации Phenaki и Imagen Video
Telegram
Зеленые роботы в резервации|Нейросети в творчестве
Да что же за день такой! Там в лабораториях прорвало трубу достижений. Горшочек не вари.
Еще одна нейросеть #text2video. Не, не такая как те!
Phenaki умеет генерировать видео по меняющемуся во времени промту. Это означает сюжетные видео (см следующие пару…
Еще одна нейросеть #text2video. Не, не такая как те!
Phenaki умеет генерировать видео по меняющемуся во времени промту. Это означает сюжетные видео (см следующие пару…
👍3
Forwarded from Нейросети и Блендер
This media is not supported in your browser
VIEW IN TELEGRAM
Google Presents: AI@ ‘22
Интересное новое видео с презентации от гугла, где совмещают алгоритм Phenaki и Imagen Video, с помощью объединения можно создавать прям из текстового описания видеоряд, в итоге картинка выходит цельной.
Запросы для видео примера:
Imagen - текст в изображения на диффузии
Parti - текст в изображения на VQGAN
DreamBooth - дообучение моделей с малым датасетом, сейчас по всему инету множется стартапы с DreamBooth архитектурой поверх Stable Diffusion, где в модельку SD можно закинуть себя, знакомых или даже своих животных
Imagen Video - текст в видео
Phenaki - текст в длинные видео, хотя статья анонимная, возможно это не от гугла.
И конечно же, то что я тестил последний месяц:
Dream Fields - текст в 3D, так же есть варианты обученные на SD, например, колаб Dream Fusion - 1 час на A100 и моделька готова.
Ожидаем релиза Imagen для сравнения на практике с основными сетками text2image. Если конечно когда-нибудь код и веса появятся.
Интересное новое видео с презентации от гугла, где совмещают алгоритм Phenaki и Imagen Video, с помощью объединения можно создавать прям из текстового описания видеоряд, в итоге картинка выходит цельной.
Запросы для видео примера:
Синий шарик застрял в ветвях красного дерева.
Камера перемещается от дерева с одним синим шариком к входу в зоопарк.
Камера показывает вход в зоопарк.
Камера очень быстро перемещается в зоопарк.
Вид от первого лица на полет в красивом саду.
Голова жирафа появляется сбоку.
Жираф идет к дереву.
Камера приближает пасть жирафа.
Жираф подходит к ветке и срывает синий шарик.
Одиночный гелиевый синий шар с белой нитью летит к голове жирафа.
Жираф жует синий шарик рядом.
Камера поворачивается вслед за улетающим синим шаром.
Гугл на данный момент не дает доступ даже к Imagen, text2image модели схожей с Dalle 2 и Stable Diffusion. Но статьи google ai research впечатляют, вот краткий список:Imagen - текст в изображения на диффузии
Parti - текст в изображения на VQGAN
DreamBooth - дообучение моделей с малым датасетом, сейчас по всему инету множется стартапы с DreamBooth архитектурой поверх Stable Diffusion, где в модельку SD можно закинуть себя, знакомых или даже своих животных
Imagen Video - текст в видео
Phenaki - текст в длинные видео, хотя статья анонимная, возможно это не от гугла.
И конечно же, то что я тестил последний месяц:
Dream Fields - текст в 3D, так же есть варианты обученные на SD, например, колаб Dream Fusion - 1 час на A100 и моделька готова.
Ожидаем релиза Imagen для сравнения на практике с основными сетками text2image. Если конечно когда-нибудь код и веса появятся.
👍1