Нейронавт | Нейросети в творчестве – Telegram
Нейронавт | Нейросети в творчестве
10.6K subscribers
4.47K photos
3.74K videos
41 files
4.78K links
Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus

Заявка на регистрацию в РКН № 6309426111
Download Telegram
А для генератора музыки Dance Diffusion появилась веб-демка на huggingface.
Попробовать
This media is not supported in your browser
VIEW IN TELEGRAM
#NeRF Модель объемного представления объектов с семантическим разбиением. То есть, она учится каждый объект в сцене воспринимать отдельно. Кода нет
gCoRF: Generative Compositional Radiance Fields
This media is not supported in your browser
VIEW IN TELEGRAM
Синтез человеческого вокала
NNSVS: A Neural Network-Based Singing Voice Synthesis Toolkit
Звучит прилично на японском (?)
Судя по документации, можно прикручивать разные языки
Код
Forwarded from эйай ньюз
This media is not supported in your browser
VIEW IN TELEGRAM
Галя, тут GPT3 прямо в Экселе!

Чел интегрировал GPT3 в Гугл таблицы. Нужно только вместо формулы вписать =GPT3("..."), где указать что сделать с данными в качестве запроса.

Особенно понравилось, как автор просит сгенереть письма благодарности гостям в зависимости от того, что они подарили на свадьбу. Вот где прагматизм.

Однако, на запросе выдать почтовые индексы по имени городов GPT3 ошибается в 20% случаев 🌚. Будущее с AI будет великое, говорили они!

@ai_newz
Реалистичная Lo-fi girl
5👍1
NVIDIA как всегда со своими семантическими масками. Сходите по ссылке, там есть на что посмотреть! https://deepimagination.cc/eDiffi/
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
иДиффи! Плюс Экспертные Шумодавы!

А вот и ответочка Нвидии на все эти Stable Diffusion, Midjourney и DALLE2.
И какая!

Для любопытных: Под капотом там всеми нами любимая Диффузия, когда из шума рождаются картинки, но Нвидия вводит понятие Expert Denoisers, когда на каждом шаге денойзинга используется своя модель.
При обучении традиционной диффузионной модели одна модель обучается шумоподавлению всего распределения шума. Нвидия обучает набор сеток Expert Denoisers, которые специализируются на шумоподавлении на разных интервалах генеративного процесса.

Для всех: над капотом там улучшенная производительность и качество (гусарам пока верят на слово). Картинки на сайте подобраны в лучших традициях сбор вишен.
А также две фишки: новая и старая.

Новая: рисование словами Paint with Words (неудачный термин имхо) - это когда вы берете часть вашей текстовой подсказки и а потом рисуете маску(область) на картинке и говорите "рисуй это тут", потом еще немного текста и другую область: "а это тут". Эдакий Multi Inpainting, когда каждой части промпта соответствует своя область на картинке. И тут мы видим реинканацию GauGAN-a, известного в миру как Гоген, той самой смешной рисовалки из 2018 года. UI конечно адовый, но вот если эту фичу прикрутить к Фотошопу или After Effects, то может быть бомба.
Поглядите видео в следующем посте, там поймете о чем речь.

Старая: Перенос стиля в котором Нвидия набила руку и который производится в "смысловом пространстве". Выглядит нарядно.

Будем сегодня разглядывать и гадать, как когда и где.

Много картинок и демок вот тут:
https://deepimagination.cc/eDiffi/
🔥3👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Google Presents: AI@ ‘22

Интересное новое видео с презентации от гугла, где совмещают алгоритм Phenaki и Imagen Video, с помощью объединения можно создавать прям из текстового описания видеоряд, в итоге картинка выходит цельной.
Запросы для видео примера:
Синий шарик застрял в ветвях красного дерева.
Камера перемещается от дерева с одним синим шариком к входу в зоопарк.
Камера показывает вход в зоопарк.
Камера очень быстро перемещается в зоопарк.
Вид от первого лица на полет в красивом саду.
Голова жирафа появляется сбоку.
Жираф идет к дереву.
Камера приближает пасть жирафа.
Жираф подходит к ветке и срывает синий шарик.
Одиночный гелиевый синий шар с белой нитью летит к голове жирафа.
Жираф жует синий шарик рядом.
Камера поворачивается вслед за улетающим синим шаром.

Гугл на данный момент не дает доступ даже к Imagen, text2image модели схожей с Dalle 2 и Stable Diffusion. Но статьи google ai research впечатляют, вот краткий список:

Imagen - текст в изображения на диффузии

Parti - текст в изображения на VQGAN

DreamBooth - дообучение моделей с малым датасетом, сейчас по всему инету множется стартапы с DreamBooth архитектурой поверх Stable Diffusion, где в модельку SD можно закинуть себя, знакомых или даже своих животных

Imagen Video - текст в видео

Phenaki - текст в длинные видео, хотя статья анонимная, возможно это не от гугла.

И конечно же, то что я тестил последний месяц:
Dream Fields - текст в 3D, так же есть варианты обученные на SD, например, колаб Dream Fusion - 1 час на A100 и моделька готова.

Ожидаем релиза Imagen для сравнения на практике с основными сетками text2image. Если конечно когда-нибудь код и веса появятся.
👍1
Lo-fi girl, но общим планом
😁3
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
ИИ объясняет всем желающим, что же хотел сказать кожаный мешок.

Сегодня время текстовых историй, поэтому сорри за лонгриды.

Сначала история их жизни - Паша Мунтян рассказывал, как он писал кандидатскую диссертацию - научный руководитель, поглядев сказал: "материал отличный, но надо переписать это умным языком, иначе не пройдешь совет".

Знакомо? Возможно всем, кто писал "заявки", "объяснительные", "обоснования" знаком этот феномен.

В результате интернет (и не только он) наводнен заумными текстами с мегатоннами воды.
Сделать умный вид, надуть щеки, пустить пыль во все отверстия - любимое занятие кожаного мешка, холящего свою значимость.

Один лингвист и один программист взяли GPT-3 и сделали сайт Explainpaper, который понятным (обычным людям) языком объясняет разного рода научные (и не очень) статьи и тексты.

Выяснилось, что GPT, которого учили на корпусах "понятных" текстов, гораздо лучше излагает мысли, чем кожаные мешки, пытающиеся сделать умный вид. Понятнее.

И когда его просят пересказать своИИми словами всю эту заумь, он отлично справляется.

На сайте пользователи могут загрузить статью и отметить отдельные предложения или абзацы в веб-интерфейсе, которые GPT-3 затем описывает в сокращенных, идеально простых терминах. Функция чата позволяет пользователям задавать более подробные вопросы(!).

Каково?

Explainpaper uses GPT-3 davinci-002 via the everyprompt platform. The GPT-3 model has not yet been fine-tuned, but that is expected to change soon:
Команда планирует использовать 100 000 точек данных explainpaper для оптимизации GPT-3 для понятных объяснений. Данные были собраны с момента запуска сайта. Текущая версия пока не может объяснять математические функции, но эта функция также планируется в последующих версиях.

Миссия проекта - заинтересовать больше людей наукой. В настоящее время основатель и основательница работают над Pro-версией программы, которая за 10 долларов в месяц будет предлагать некоторые удобные функции, такие как сохранение работы вместе с отмеченными пунктами и пояснениями. Также будет улучшена функция чтения PDF-файлов и усовершенствована модель для более точных ответов.

В общем, ИИ выводит кожаных на чистую воду, а точнее, выводит мутную воду из заумных текстов.

https://the-decoder.com/explainpaper-gpt-3-app-explains-complex-science-in-simple-terms/

https://twitter.com/amanjha__/status/1584628485510733825

https://www.explainpaper.com/

https://www.everyprompt.com/
🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Музыкальные нейросетки не отстают от визуальных.
Вот эта
Pop2Piano : Pop Audio-Based Piano Cover Generation
(там можно потыркать небольшое демо)
Генерирует пианинные каверы на песни. На вход берет аудио трек.
На видео показана сначала человеческая ручная аранжировка, потом примеры нейрокаверов.
Можно менять стиль аранжировщика.

Код
Колаб

#audio2audio
#music2music
#audio2music
#AImusic
👍1
У каждого есть знакомый который долго не отпускает твою руку при рукопожатии
😁1
расширитель промтов (запросов), дополняет ваш промт модификаторами для генерации лучших картинок.

На картинках пример генерации с одинковым сидом и настройками. На второй - дополненный промт

#prompt