This media is not supported in your browser
VIEW IN TELEGRAM
MagicMix: Semantic Mixing with Diffusion Models
В отличие от переноса стиля, когда изображение стилизуется в соответствии с эталонным стилем без изменения содержания изображения, семантическое смешивание семантически смешивает две разные концепции для синтеза новой концепции при сохранении пространственного расположения и геометрии.
Кода нет
В отличие от переноса стиля, когда изображение стилизуется в соответствии с эталонным стилем без изменения содержания изображения, семантическое смешивание семантически смешивает две разные концепции для синтеза новой концепции при сохранении пространственного расположения и геометрии.
Кода нет
Коллективное нейротворчество в реальном времени.
Есть 50 разных комнат, можно зайти в любую
https://huggingface.co/spaces/huggingface-projects/stable-diffusion-multiplayer?roomid=room-1
Есть 50 разных комнат, можно зайти в любую
https://huggingface.co/spaces/huggingface-projects/stable-diffusion-multiplayer?roomid=room-1
Media is too big
VIEW IN TELEGRAM
Чистая магия
NeRFPlayer
Снимаешь сцену движущейся камерой, чтобы был параллакс.
И потом смотришь ее с любой точки!
Ждем код
NeRFPlayer
Снимаешь сцену движущейся камерой, чтобы был параллакс.
И потом смотришь ее с любой точки!
Ждем код
This media is not supported in your browser
VIEW IN TELEGRAM
#NeRF Модель объемного представления объектов с семантическим разбиением. То есть, она учится каждый объект в сцене воспринимать отдельно. Кода нет
gCoRF: Generative Compositional Radiance Fields
gCoRF: Generative Compositional Radiance Fields
This media is not supported in your browser
VIEW IN TELEGRAM
Синтез человеческого вокала
NNSVS: A Neural Network-Based Singing Voice Synthesis Toolkit
Звучит прилично на японском (?)
Судя по документации, можно прикручивать разные языки
Код
NNSVS: A Neural Network-Based Singing Voice Synthesis Toolkit
Звучит прилично на японском (?)
Судя по документации, можно прикручивать разные языки
Код
Forwarded from эйай ньюз
This media is not supported in your browser
VIEW IN TELEGRAM
Галя, тут GPT3 прямо в Экселе!
Чел интегрировал GPT3 в Гугл таблицы. Нужно только вместо формулы вписать =GPT3("..."), где указать что сделать с данными в качестве запроса.
Особенно понравилось, как автор просит сгенереть письма благодарности гостям в зависимости от того, что они подарили на свадьбу. Вот где прагматизм.
Однако, на запросе выдать почтовые индексы по имени городов GPT3 ошибается в 20% случаев 🌚. Будущее с AI будет великое, говорили они!
@ai_newz
Чел интегрировал GPT3 в Гугл таблицы. Нужно только вместо формулы вписать =GPT3("..."), где указать что сделать с данными в качестве запроса.
Особенно понравилось, как автор просит сгенереть письма благодарности гостям в зависимости от того, что они подарили на свадьбу. Вот где прагматизм.
Однако, на запросе выдать почтовые индексы по имени городов GPT3 ошибается в 20% случаев 🌚. Будущее с AI будет великое, говорили они!
@ai_newz
NVIDIA как всегда со своими семантическими масками. Сходите по ссылке, там есть на что посмотреть! https://deepimagination.cc/eDiffi/
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
иДиффи! Плюс Экспертные Шумодавы!
А вот и ответочка Нвидии на все эти Stable Diffusion, Midjourney и DALLE2.
И какая!
Для любопытных: Под капотом там всеми нами любимая Диффузия, когда из шума рождаются картинки, но Нвидия вводит понятие Expert Denoisers, когда на каждом шаге денойзинга используется своя модель.
При обучении традиционной диффузионной модели одна модель обучается шумоподавлению всего распределения шума. Нвидия обучает набор сеток Expert Denoisers, которые специализируются на шумоподавлении на разных интервалах генеративного процесса.
Для всех: над капотом там улучшенная производительность и качество (гусарам пока верят на слово). Картинки на сайте подобраны в лучших традициях сбор вишен.
А также две фишки: новая и старая.
Новая: рисование словами Paint with Words (неудачный термин имхо) - это когда вы берете часть вашей текстовой подсказки и а потом рисуете маску(область) на картинке и говорите "рисуй это тут", потом еще немного текста и другую область: "а это тут". Эдакий Multi Inpainting, когда каждой части промпта соответствует своя область на картинке. И тут мы видим реинканацию GauGAN-a, известного в миру как Гоген, той самой смешной рисовалки из 2018 года. UI конечно адовый, но вот если эту фичу прикрутить к Фотошопу или After Effects, то может быть бомба.
Поглядите видео в следующем посте, там поймете о чем речь.
Старая: Перенос стиля в котором Нвидия набила руку и который производится в "смысловом пространстве". Выглядит нарядно.
Будем сегодня разглядывать и гадать, как когда и где.
Много картинок и демок вот тут:
https://deepimagination.cc/eDiffi/
А вот и ответочка Нвидии на все эти Stable Diffusion, Midjourney и DALLE2.
И какая!
Для любопытных: Под капотом там всеми нами любимая Диффузия, когда из шума рождаются картинки, но Нвидия вводит понятие Expert Denoisers, когда на каждом шаге денойзинга используется своя модель.
При обучении традиционной диффузионной модели одна модель обучается шумоподавлению всего распределения шума. Нвидия обучает набор сеток Expert Denoisers, которые специализируются на шумоподавлении на разных интервалах генеративного процесса.
Для всех: над капотом там улучшенная производительность и качество (гусарам пока верят на слово). Картинки на сайте подобраны в лучших традициях сбор вишен.
А также две фишки: новая и старая.
Новая: рисование словами Paint with Words (неудачный термин имхо) - это когда вы берете часть вашей текстовой подсказки и а потом рисуете маску(область) на картинке и говорите "рисуй это тут", потом еще немного текста и другую область: "а это тут". Эдакий Multi Inpainting, когда каждой части промпта соответствует своя область на картинке. И тут мы видим реинканацию GauGAN-a, известного в миру как Гоген, той самой смешной рисовалки из 2018 года. UI конечно адовый, но вот если эту фичу прикрутить к Фотошопу или After Effects, то может быть бомба.
Поглядите видео в следующем посте, там поймете о чем речь.
Старая: Перенос стиля в котором Нвидия набила руку и который производится в "смысловом пространстве". Выглядит нарядно.
Будем сегодня разглядывать и гадать, как когда и где.
Много картинок и демок вот тут:
https://deepimagination.cc/eDiffi/
🔥3👍1
Я таки не ошибся начет коллаборации Phenaki и Imagen Video
Telegram
Зеленые роботы в резервации|Нейросети в творчестве
Да что же за день такой! Там в лабораториях прорвало трубу достижений. Горшочек не вари.
Еще одна нейросеть #text2video. Не, не такая как те!
Phenaki умеет генерировать видео по меняющемуся во времени промту. Это означает сюжетные видео (см следующие пару…
Еще одна нейросеть #text2video. Не, не такая как те!
Phenaki умеет генерировать видео по меняющемуся во времени промту. Это означает сюжетные видео (см следующие пару…
👍3
Forwarded from Нейросети и Блендер
This media is not supported in your browser
VIEW IN TELEGRAM
Google Presents: AI@ ‘22
Интересное новое видео с презентации от гугла, где совмещают алгоритм Phenaki и Imagen Video, с помощью объединения можно создавать прям из текстового описания видеоряд, в итоге картинка выходит цельной.
Запросы для видео примера:
Imagen - текст в изображения на диффузии
Parti - текст в изображения на VQGAN
DreamBooth - дообучение моделей с малым датасетом, сейчас по всему инету множется стартапы с DreamBooth архитектурой поверх Stable Diffusion, где в модельку SD можно закинуть себя, знакомых или даже своих животных
Imagen Video - текст в видео
Phenaki - текст в длинные видео, хотя статья анонимная, возможно это не от гугла.
И конечно же, то что я тестил последний месяц:
Dream Fields - текст в 3D, так же есть варианты обученные на SD, например, колаб Dream Fusion - 1 час на A100 и моделька готова.
Ожидаем релиза Imagen для сравнения на практике с основными сетками text2image. Если конечно когда-нибудь код и веса появятся.
Интересное новое видео с презентации от гугла, где совмещают алгоритм Phenaki и Imagen Video, с помощью объединения можно создавать прям из текстового описания видеоряд, в итоге картинка выходит цельной.
Запросы для видео примера:
Синий шарик застрял в ветвях красного дерева.
Камера перемещается от дерева с одним синим шариком к входу в зоопарк.
Камера показывает вход в зоопарк.
Камера очень быстро перемещается в зоопарк.
Вид от первого лица на полет в красивом саду.
Голова жирафа появляется сбоку.
Жираф идет к дереву.
Камера приближает пасть жирафа.
Жираф подходит к ветке и срывает синий шарик.
Одиночный гелиевый синий шар с белой нитью летит к голове жирафа.
Жираф жует синий шарик рядом.
Камера поворачивается вслед за улетающим синим шаром.
Гугл на данный момент не дает доступ даже к Imagen, text2image модели схожей с Dalle 2 и Stable Diffusion. Но статьи google ai research впечатляют, вот краткий список:Imagen - текст в изображения на диффузии
Parti - текст в изображения на VQGAN
DreamBooth - дообучение моделей с малым датасетом, сейчас по всему инету множется стартапы с DreamBooth архитектурой поверх Stable Diffusion, где в модельку SD можно закинуть себя, знакомых или даже своих животных
Imagen Video - текст в видео
Phenaki - текст в длинные видео, хотя статья анонимная, возможно это не от гугла.
И конечно же, то что я тестил последний месяц:
Dream Fields - текст в 3D, так же есть варианты обученные на SD, например, колаб Dream Fusion - 1 час на A100 и моделька готова.
Ожидаем релиза Imagen для сравнения на практике с основными сетками text2image. Если конечно когда-нибудь код и веса появятся.
👍1
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
ИИ объясняет всем желающим, что же хотел сказать кожаный мешок.
Сегодня время текстовых историй, поэтому сорри за лонгриды.
Сначала история их жизни - Паша Мунтян рассказывал, как он писал кандидатскую диссертацию - научный руководитель, поглядев сказал: "материал отличный, но надо переписать это
Знакомо? Возможно всем, кто писал "заявки", "объяснительные", "обоснования" знаком этот феномен.
В результате интернет (и не только он) наводнен заумными текстами с мегатоннами воды.
Сделать умный вид, надуть щеки, пустить пыль во все отверстия - любимое занятие кожаного мешка, холящего свою значимость.
Один лингвист и один программист взяли GPT-3 и сделали сайт Explainpaper, который понятным (обычным людям) языком объясняет разного рода научные (и не очень) статьи и тексты.
Выяснилось, что GPT, которого учили на корпусах "понятных" текстов, гораздо лучше излагает мысли, чем кожаные мешки, пытающиеся сделать умный вид. Понятнее.
И когда его просят пересказать своИИми словами всю эту заумь, он отлично справляется.
На сайте пользователи могут загрузить статью и отметить отдельные предложения или абзацы в веб-интерфейсе, которые GPT-3 затем описывает в сокращенных, идеально простых терминах. Функция чата позволяет пользователям задавать более подробные вопросы(!).
Каково?
Explainpaper uses GPT-3 davinci-002 via the everyprompt platform. The GPT-3 model has not yet been fine-tuned, but that is expected to change soon:
Команда планирует использовать 100 000 точек данных explainpaper для оптимизации GPT-3 для понятных объяснений. Данные были собраны с момента запуска сайта. Текущая версия пока не может объяснять математические функции, но эта функция также планируется в последующих версиях.
Миссия проекта - заинтересовать больше людей наукой. В настоящее время основатель и основательница работают над Pro-версией программы, которая за 10 долларов в месяц будет предлагать некоторые удобные функции, такие как сохранение работы вместе с отмеченными пунктами и пояснениями. Также будет улучшена функция чтения PDF-файлов и усовершенствована модель для более точных ответов.
В общем, ИИ выводит кожаных на чистую воду, а точнее, выводит мутную воду из заумных текстов.
https://the-decoder.com/explainpaper-gpt-3-app-explains-complex-science-in-simple-terms/
https://twitter.com/amanjha__/status/1584628485510733825
https://www.explainpaper.com/
https://www.everyprompt.com/
Сегодня время текстовых историй, поэтому сорри за лонгриды.
Сначала история их жизни - Паша Мунтян рассказывал, как он писал кандидатскую диссертацию - научный руководитель, поглядев сказал: "материал отличный, но надо переписать это
умным языком, иначе не пройдешь совет". Знакомо? Возможно всем, кто писал "заявки", "объяснительные", "обоснования" знаком этот феномен.
В результате интернет (и не только он) наводнен заумными текстами с мегатоннами воды.
Сделать умный вид, надуть щеки, пустить пыль во все отверстия - любимое занятие кожаного мешка, холящего свою значимость.
Один лингвист и один программист взяли GPT-3 и сделали сайт Explainpaper, который понятным (обычным людям) языком объясняет разного рода научные (и не очень) статьи и тексты.
Выяснилось, что GPT, которого учили на корпусах "понятных" текстов, гораздо лучше излагает мысли, чем кожаные мешки, пытающиеся сделать умный вид. Понятнее.
И когда его просят пересказать своИИми словами всю эту заумь, он отлично справляется.
На сайте пользователи могут загрузить статью и отметить отдельные предложения или абзацы в веб-интерфейсе, которые GPT-3 затем описывает в сокращенных, идеально простых терминах. Функция чата позволяет пользователям задавать более подробные вопросы(!).
Каково?
Explainpaper uses GPT-3 davinci-002 via the everyprompt platform. The GPT-3 model has not yet been fine-tuned, but that is expected to change soon:
Команда планирует использовать 100 000 точек данных explainpaper для оптимизации GPT-3 для понятных объяснений. Данные были собраны с момента запуска сайта. Текущая версия пока не может объяснять математические функции, но эта функция также планируется в последующих версиях.
Миссия проекта - заинтересовать больше людей наукой. В настоящее время основатель и основательница работают над Pro-версией программы, которая за 10 долларов в месяц будет предлагать некоторые удобные функции, такие как сохранение работы вместе с отмеченными пунктами и пояснениями. Также будет улучшена функция чтения PDF-файлов и усовершенствована модель для более точных ответов.
В общем, ИИ выводит кожаных на чистую воду, а точнее, выводит мутную воду из заумных текстов.
https://the-decoder.com/explainpaper-gpt-3-app-explains-complex-science-in-simple-terms/
https://twitter.com/amanjha__/status/1584628485510733825
https://www.explainpaper.com/
https://www.everyprompt.com/
THE DECODER
GPT-3 web app "Explainpaper" explains complex science in simple terms
The GPT-3 based web app explainpaper does exactly what its name promises: it explains complex scientific jargon in simple terms.
🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Музыкальные нейросетки не отстают от визуальных.
Вот эта
Pop2Piano : Pop Audio-Based Piano Cover Generation
(там можно потыркать небольшое демо)
Генерирует пианинные каверы на песни. На вход берет аудио трек.
На видео показана сначала человеческая ручная аранжировка, потом примеры нейрокаверов.
Можно менять стиль аранжировщика.
Код
Колаб
#audio2audio
#music2music
#audio2music
#AImusic
Вот эта
Pop2Piano : Pop Audio-Based Piano Cover Generation
(там можно потыркать небольшое демо)
Генерирует пианинные каверы на песни. На вход берет аудио трек.
На видео показана сначала человеческая ручная аранжировка, потом примеры нейрокаверов.
Можно менять стиль аранжировщика.
Код
Колаб
#audio2audio
#music2music
#audio2music
#AImusic
👍1