NEW BOT Телеграм, страница - 455534915

Нейронавт | Нейросети в творчестве

@GreenNeuralRobots

10.6K subscribers

4.45K photos

3.72K videos

41 files

4.76K links

Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus

Заявка на регистрацию в РКН № 6309426111

Download Telegram

About

Blog

Apps

Platform

Нейронавт | Нейросети в творчестве

10.6K subscribers

Нейронавт | Нейросети в творчестве

Forwarded from эйай ньюз

This media is not supported in your browser

VIEW IN TELEGRAM

⚡DeepCache: Accelerating Diffusion Models for Free

Во время инференса диффузионной модели мы делаем десятки шагов солвера, чтобы сгенерить одну картинку. Понятно, что это не очень эффективно. Отсюда растут ноги у многих работ по ускорению диффузии и уменьшению количества шагов на инференсе. Хочется как-то уменьшить количество компьюта требуемых для генерации одной картинки.

Тут как раз вышла работа про кеширование промежуточных активаций в Latent Diffusion. Хай-левел суть в том, что можно закешировать часть выходов блоков с предыдущих шагов и переиспользовать их на следующих шагах солвера. Активации более шлубоких блоков, те что работают на более низком разрешении, сильно коррелированы между двумя последовательными шагами. А вот активации первых и последних блоков как правило меняются довольно сильно от шагу. Вот авторы и предложили не пересчитывать акттвации глубокизх блоков, а кешировать их.

Это позволяет ускорить инференс SD v1.5 до 2-3 раз без существенной потери качества.

Прикол в том, что мы написали статью на очень схожую тему (тоже про кешинг) - она скоро появится на архиве. Китайцы нас слегка опередили с загрузкой на Arxiv.

На гифке результаты SD v1.5. Слева: 50 PLMS шагов.
Справа: 2.3x ускорение 50 PLMS шагов с кешем.

Статья
Код

@ai_newz

🔥3👍1

745 views07:09

Нейронавт | Нейросети в творчестве

This media is not supported in your browser

VIEW IN TELEGRAM

Из Wonder Studio теперь можно экспортировать сцену в формате USD для цивилизованного редактирования в вашем любимом 3D пакете

#characteranimation #compositing #lighting #rendering #tools

👍1

980 viewsedited 09:55

Нейронавт | Нейросети в творчестве

This media is not supported in your browser

VIEW IN TELEGRAM

Media is too big

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

ReconFusion: 3D Reconstruction with Diffusion Priors

Метод восстановления сцены на основе #nerf, но ему нужно всего несколько исходных изображений (на сайте проекта - от всего 3 до 81), остальное он досинтезирует.
Из разнящихся несогласованных исходников (ветка качнулась между снимками, сменила положение) делает согласованную модель - см третье видео

Кода нет ☹️

#image2scene #imageto3D

👍5

999 views11:08

Нейронавт | Нейросети в творчестве

This media is not supported in your browser

VIEW IN TELEGRAM

DragVideo: Interactive Drag-style Video Editing

Тренд: техники обработки статичных изображений должны перейти на видео.

Редактирование видео перетаскиванием - вдохновлено DragGAN/DragonDiffusion

Пейпер
Кода нет

#video2video

956 views11:21

Нейронавт | Нейросети в творчестве

This media is not supported in your browser

VIEW IN TELEGRAM

DemoFusion: Democratising High-Resolution Image Generation With No $$$

Генерация изображений высокого разрешения
SDXL может синтезировать изображения с разрешением до 1024 × 1024, в то время как DemoFusion позволяет SDXL генерировать изображения с разрешением 4 ×, 16 × и даже выше без какой-либо настройки и значительных требований к памяти. Все сгенерированные изображения создаются с использованием одного RTX 3090

Код
Демо
Демо2
Колаб

#upscale #text2image

🔥6

6.11K viewsedited 11:28

Нейронавт | Нейросети в творчестве

This media is not supported in your browser

VIEW IN TELEGRAM

ArtSpew

Для тех кому нужна скорость.
Скоростная генерация картинок, 150шт в секунду на 4090.
4 step LCM, 512x512

реддит
Гитхаб

#text2image #realtime

👍3

1.06K views11:34

Нейронавт | Нейросети в творчестве

This media is not supported in your browser

VIEW IN TELEGRAM

LivePhoto: Real Image Animation with Text-guided Motion Control

Управление генерацией видео посредством текста

Код ждем

#image2video #text2video

👍2

1.23K viewsedited 11:40

Нейронавт | Нейросети в творчестве

#LLM #VLM #assistant

977 views15:19

Нейронавт | Нейросети в творчестве

Forwarded from Сиолошная

Свершилось, Google разродился своей моделью-конкурентом GPT-4.

https://blog.google/technology/ai/google-gemini-ai/

Доступны модели 3 форм-факторов: Ultra (самая большая), Pro и Nano (самая шустрая).

Заявляется State-of-the-Art качество на широком круге задач, но огромных разрывов на текстовых задачах нет (хотя в парочке всё же приятные приросты).

Модели семейства Gemini мультимодальны — поддерживают и картинки, и аудио, и даже видео. Например, распознавание голоса работает гораздо лучше, чем у OpenAI Whisper V2/V3.

PDF с тех. репортом: тык, но деталей вроде размера модели нет (однако, рассказывают про железо).

И конечно же, Geminin станет новой моделью под капотом Google Bard — там лежит Pro модель, поиграться можно тут. В начале 2025го года появится Bard Advanced, и там, как легко догадаться, будет модель Ultra.
А 13го декабря обещают доступ к API!

❤5😁3🎃1

849 views15:19

Нейронавт | Нейросети в творчестве

Forwarded from Сиолошная

UPD: чтобы попробовать Gemini, действительно нужно перейти по ссылке https://bard.google.com/chat

НО! Есть два предварительных шага:
1️⃣ вы должны быть в правильной стране. EU и UK на данный момент не получили обновление — у меня получилось с USA. Обычный VPN подходит, у меня стоял Browsec, вот ссылка для Google Chrome.

2️⃣нужно сменить язык Google-аккаунта на английский (для верности выбрать американский). Сделать можно вот по этой ссылке: https://myaccount.google.com/language

Если сделали всё правильно, то увидите при заходе светло-голубую плашку сверху: Bard has been updated in English with Gemini Pro.

Если не сработало, попробуйте сменить сервер VPN ещё раз, а также перезагрузить страницу со сбросом кэша (cmd/ctrl+shift+R ) и не забыть про cookies.

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5🤔1

796 views17:06

Нейронавт | Нейросети в творчестве

Forwarded from Сиолошная

This media is not supported in your browser

VIEW IN TELEGRAM

Может, я не понимаю маркетинг, может, не знают работяги в Google, а может технология очень сырая и появится не скоро — но я чуть не пропустил ОЧЕНЬ крутую фичу, которую представили вместе с Gemini. На странице анонса модели и в ключевом видео просто места не уделили...ужас.

Предлагаю посмотреть видео📹, а не читать слова...но если вы остались тут, то ОК!

Фича называется Bespoke UI, суть в том, что на ваш запрос модель сначала генерирует ИНТЕРФЕЙС, а затем его наполняет (реальным или сгенерированным контентом). По сути это такой маленький сделанный на заказ (bespoke 🤔) веб-сайт с разными блоками. И с каждым из них пользователь может углубить взаимодействие — выделить, попросить дописать или переписать.

Причём, по ходу этой генерации под капотом модель (сама? из-за тренировки? через промпты?) раскладывает весь процесс на шаги, вытягивая их в цепочку. Например, перед генерацией «сайта» модель сначала уточнит, а что а как а чего (по контенту ответа, не по форме сайта), потом, как сочтёт, что деталей достаточно — выдаст PRD (Product Requirements Document), и шаблон для наполнения. Здесь, мол, одна кликабельная карточка, у неё есть заголовок, основной текст, а также ссылка на открытие полного блока с информацией.

Так как LLM в некотором приближении это дистилляция всего интернета (плюс, Gemini умеет гуглить и «смотреть» видео на ютубе), то можно с натяжкой и верой в будущее сказать, что это — новый способ взаимодействия с сайтами: убрать всё лишнее, добавить контекстную рекламу (сгенерированную???), и выдать исключительно концентрированный контент. А если нужно что-то уточнить — выделяешь, просишь сгенерировать новую страницу, и всё.

Как думаете, зря не показали всем?)

Please open Telegram to view this post

VIEW IN TELEGRAM

723 views06:18

Нейронавт | Нейросети в творчестве

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

Gaussian Head Avatar: Ultra High-fidelity Head Avatar via Dynamic Gaussians

Сегодня пройдемся по головам.
Реконструкция аватара головы по нескольким ракурсам, вместе с мимикой и деформациями. В деле замешаны гауссианы.
На выходе - рендер разрешением 2К, не без помощи апскейлера. Но вы его тут видите?

Код ~~ждем~~ есть

#gaussian #image2head #rendering #imageto3D #head

🔥9👍2

1.28K views07:13

Нейронавт | Нейросети в творчестве

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

GAIA: Zero-shot Talking Avatar Generation

Теперь разработка Microsoft.
Говорящая голова. На вход нужна одна картинка и звук речи. Можно управлять позой, подать на вход управляющее видео или текст. А что еще можно придумать для управления говорящей головой?

Код ждем

#talkinghead #humananimation #humanavatar #image2head #image2video #head

❤6👍1

1.07K views07:26

Нейронавт | Нейросети в творчестве

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

Diffusion AvatarsDeferred Diffusion for High-fidelity 3D Head Avatars

Управляемый аватар головы с реалистичной мимикой.
Анимацей управляет управляющее видео или параметрическая модель (NPHM).
Diffusion Avatars обучали на датасете голов, снятых 16 камерами с разных ракурсов. Предположительно, для того чтобы использовать Diffusion Avatars на своих задачах, понадобится или многоракурсный датасет или соответствующий набор 3D данных.

[Update] Код
Полное видео, 3 минуты

#talkinghead #humananimation #humanavatar #image2head #image2video #head

1.14K views07:42