Нейронавт | Нейросети в творчестве – Telegram
Нейронавт | Нейросети в творчестве
10.6K subscribers
4.43K photos
3.7K videos
41 files
4.74K links
Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus

Заявка на регистрацию в РКН № 6309426111
Download Telegram
Forwarded from Stable Diffusion | Text2img
В релиз вышел Kandinsky 2.1 - российская нейросеть на основе практик Dall-E 2, латентных диффузий и различных новых идей. Из фишек - понимает запросы на множестве языков, новое повышенное базовое разрешение - 768х768, инпаинтинг, аутпаинтинг и даже ремикс-мод, как в миджоурней.
Код для локальной установки находится здесь - https://github.com/ai-forever/Kandinsky-2
Модели к нему выложены тут - https://huggingface.co/sberbank-ai/Kandinsky_2.1/tree/main
Есть коллаб, что бы запустить т2и-генерацию https://colab.research.google.com/drive/1xSbu-b-EwYd6GdaFPRVgvXBX_mciZ41e
А так же специальный сайт, где можно погенерировать на основе Кандинского - https://fusionbrain.ai/diffusion
Forwarded from Complete AI (Andrey Kuznetsov)
🚀Kandinsky 2.1🚀
Наступил день, которого ждала вся команда (вовсе не тот, который стал всплывать в разных каналах на прошлой неделе😂). Сегодня мы официально выпускаем новую лучшую версию нашей диффузионной генеративной модели, которая претерпела существенные изменения относительно предшественницы 2.0.

Отличительные особенности включают:
📌3.3B параметров
📌Разрешение генераций - 768x768
📌Image prior трансформер
📌Новый автоэнкодер изображений MoVQ
📌Дообучение на очень чистом сете из 172M пар «текст-изображение»
📌Режимы работы: генерация по тексту, смешивание изображение, генерация изображений по образцу, изменение изображений по тексту, inpainting/outpainting

Всё это позволило добиться впечатляющего качества на различных доменах генераций.

FID на датасете COCO_30k достигает значения 8.21🔥 По публичным данным на сегодняшний день лучше только eDiffI (NVidia) и Imagen (Google Reseacrh).

Детально о модели можно прочитать в статье на Хабре, а протестировать Kandinsky 2.1 можно тут:
📍Телеграм-бот
📍FusionBrain.AI
📍GitHub
📍HuggingFace
📍rudalle.ru
📍MLSpace

Спасибо всей команде за слаженную и качественную работу - испытываю несказанное признание каждому🔥

@complete_ai
👍3🔥1
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
This media is not supported in your browser
VIEW IN TELEGRAM
Luma сделали плагин к UE, чтобы втаскивать в движок NeRFs и крутить их там как ассеты.
Применений тьма, игры, вирт продакшен, виарчег (пишут про запредельный комп для проворачивания этого).
Выглядит очень сладко. Снимаете на фото объект, локацию, неведомую хрень, кормите в Люму, оттуда в UE приезжает как бы трехмерный ассет.
Как я понял, в меш это не преобразуется и остается Нерфом, а плагин просто ловко визуализирует это дело.
Больше всего конкретики в этом твите:
https://twitter.com/LumaLabsAI/status/1642883558938411008
А сухие факты тут:
https://docs.lumalabs.ai/9DdnisfQaLN1sn
🔥1
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
Вот держите Продукт-Продукт.

Rask AI: перевод и дубляж с синхронизацией с речью спикера.
Берете свое видео (хорошо, чужое), кидаете в этот ИИ, он переводит всё ваше косноязычие на ЛЮБОЙ язык и ДУБЛИРУЕТ так, чтобы новый голос попадал в губы.
Дублирует ЛЮБЫМ голосом, в том числе вашим. То есть там встроен voice cloning.
Итого, клонирование голоса и перевод любого видео. Одной кнопкой.

А теперь представьте, что ваши гениальные видео на ютюбе можно локализовать на разные рынки и языки. Просто переозвучка в один клик.

Плюс это продукт, а не сервис за ацкия тыщщи, как у Flawless. Вы уже щас можете вгружать туда свои видосы и пробовать.

Neurodub от яндекса нервно закуривает овальные сигареты.

Выглядит слишком круто, поэтому я позвонил Маше Чмир, автору проекта в поисках подробностей и подвохов. Но она меня добила. Через месяц будет дипфейковый липсинк, то есть попадание губами в новый дубляж. Как продукт! Flawless рыдает.

В общем, если вы хотите, чтобы продукт поскорее вышел и полетел, срочно бегите на Product Hunt и жмите Upvote!

Это реально прорыв для тех, кто делает контент на одном языке. Блогеры, журналюги, медиа.

Машу знаю сто тысяч лет. DeepCake - это лучшие дипфейки в киношном качестве на планете. Жду продукта и похоже придется расчехлять ютюб канал.

След постом видос из продукта.
https://www.producthunt.com/posts/rask-ai-video-localization-dubbing-app
🔥2
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
AUDIT
Это как Stable Diffusion только для звука.

Новая работа от Микрософта.
Редактирование имеющегося звука промптами или даже генерация звука с нуля текстом.
Поглядите первые пары примеров: добавление звука в трек, выкусывание голоса, замена смеха на трубу(!), интпайнтинг(расцвечивание звука), Super-resolution.
И все это текстовым промптом!
За художников чуть не спились.
Теперь за звукорежей и звукарей пить полгода.
https://audit-demo.github.io/
Яндекс релизнул своё приложение для генерации картонок Шедеврум

Понимает русский и английский, модификаторы в промере приветствуются. Обучен на 280 млн картинок.
Под капотом диффузия.

При попытке что-то сгенерировать обещает прислать уведомление когда уже будет можно((

iOS
Андроид

#text2image
👍1
Forwarded from Earth&Climate Tech
This media is not supported in your browser
VIEW IN TELEGRAM
AI модель от Мета, которая может стать chatGPT3 в мире компьютерного зрения

Возможно это "chatGPT3-moment" для ИИ в области компьютерного зрения, посмотрим. Только что мета выкатила проект SAM - Segment Anything - модель обученная на самом большом датасете по выделению объектов на изображении. И модель и датасет выложены в открытый доступ.

🔥 SAM позволяет пользователям сегментировать объекты одним щелчком мыши.
🔥 SAM может автоматически находить и маскировать ВСЕ объекты на изображении.
🔥 SAM может генерировать маску сегментации для любой подсказки в режиме реального времени, что позволяет взаимодействовать с моделью в реальном времени.
🔥 Согласно статье работает замечательно для Zero-Shot Learning задач. То есть, когда надо настроить модель для своего датасете и очень быстро без трудоемкого обучения.

Они сделали даже демо, но оно, видимо, перегружено запросами, у меня пока не открылось.

В наших делах по интерпретации и выделению объектов - это может быть прорывна штука. Посмотрим.
🔥3
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
Stability AI выпустила превью новой модели под названием SDXL Beta (Stable Diffusion XL Beta).
Уже можно попробовать на https://beta.dreamstudio.ai/generate

Модель SDXL — это новая модель, которая все еще в процессе обучения. Это еще не готовая модель. Круто, что можно посмотреть, так сказать промежуточный чекпойнт, бета версию весов.
Это еще более конская модель с бОльшим количеством параметров чем V2.1, но это не V3.

Немного деталей.

1. Она умеет в текст. См. картинки.

2. Она гораздо лучше исполняет в руки-ноги, анатомию, позы и пропорции.

3. Портреты - на уровне тренированных как рексы моделей с Civitai

4. Короткие промпты. Закос под Midjourney. Меньше колдунства с многословным допиныванием до годного.

5. Политкорректность, будь она неладна. Как и в v2 выпилены жирномясые художники и основная часть знаменитостей. arnold shwarzenegger выглядит скорее как бюрократ. Что в каком-то смысле иронично. Хотя Том Круиз узнаваем (архетип, вестимо)

6. С пальцами по-прежнему беда.

Ну и держите очень классный ресурс, где очень много годноты про Stable Diffusion.

https://stable-diffusion-art.com/tutorials/
🔥4