NEW BOT Телеграм, страница

Vid2DensePose

Здесь можно сделать из видео DensePose чтобы перенести анимацию в MagicAnimate

Гитхаб
Колаб
Демо

#video2motion #video2pose

🔥6👍1

1.29K viewsedited 06:49

Нейронавт | Нейросети в творчестве

Много работ появляется на оптимизацию диффузии. Некогда было писать, хорошо что соседний канал уже написал

#optimization #text2image

967 views07:09

Нейронавт | Нейросети в творчестве

Forwarded from эйай ньюз

This media is not supported in your browser

VIEW IN TELEGRAM

⚡DeepCache: Accelerating Diffusion Models for Free

Во время инференса диффузионной модели мы делаем десятки шагов солвера, чтобы сгенерить одну картинку. Понятно, что это не очень эффективно. Отсюда растут ноги у многих работ по ускорению диффузии и уменьшению количества шагов на инференсе. Хочется как-то уменьшить количество компьюта требуемых для генерации одной картинки.

Тут как раз вышла работа про кеширование промежуточных активаций в Latent Diffusion. Хай-левел суть в том, что можно закешировать часть выходов блоков с предыдущих шагов и переиспользовать их на следующих шагах солвера. Активации более шлубоких блоков, те что работают на более низком разрешении, сильно коррелированы между двумя последовательными шагами. А вот активации первых и последних блоков как правило меняются довольно сильно от шагу. Вот авторы и предложили не пересчитывать акттвации глубокизх блоков, а кешировать их.

Это позволяет ускорить инференс SD v1.5 до 2-3 раз без существенной потери качества.

Прикол в том, что мы написали статью на очень схожую тему (тоже про кешинг) - она скоро появится на архиве. Китайцы нас слегка опередили с загрузкой на Arxiv.

На гифке результаты SD v1.5. Слева: 50 PLMS шагов.
Справа: 2.3x ускорение 50 PLMS шагов с кешем.

Статья
Код

@ai_newz

🔥3👍1

745 views07:09

Нейронавт | Нейросети в творчестве

This media is not supported in your browser

VIEW IN TELEGRAM

Из Wonder Studio теперь можно экспортировать сцену в формате USD для цивилизованного редактирования в вашем любимом 3D пакете

#characteranimation #compositing #lighting #rendering #tools

👍1

980 viewsedited 09:55

Нейронавт | Нейросети в творчестве

0:08

This media is not supported in your browser

This media is not supported in your browser

VIEW IN TELEGRAM

ReconFusion: 3D Reconstruction with Diffusion Priors

Метод восстановления сцены на основе #nerf, но ему нужно всего несколько исходных изображений (на сайте проекта - от всего 3 до 81), остальное он досинтезирует.
Из разнящихся несогласованных исходников (ветка качнулась между снимками, сменила положение) делает согласованную модель - см третье видео

Кода нет ☹️

#image2scene #imageto3D

👍5

999 views11:08

Нейронавт | Нейросети в творчестве

This media is not supported in your browser

VIEW IN TELEGRAM

DragVideo: Interactive Drag-style Video Editing

Тренд: техники обработки статичных изображений должны перейти на видео.

Редактирование видео перетаскиванием - вдохновлено DragGAN/DragonDiffusion

Пейпер
Кода нет

#video2video

956 views11:21

Нейронавт | Нейросети в творчестве

1:39

This media is not supported in your browser

VIEW IN TELEGRAM

DemoFusion: Democratising High-Resolution Image Generation With No $$$

Генерация изображений высокого разрешения
SDXL может синтезировать изображения с разрешением до 1024 × 1024, в то время как DemoFusion позволяет SDXL генерировать изображения с разрешением 4 ×, 16 × и даже выше без какой-либо настройки и значительных требований к памяти. Все сгенерированные изображения создаются с использованием одного RTX 3090

Код
Демо
Демо2
Колаб

#upscale #text2image

🔥6

6.11K viewsedited 11:28

Нейронавт | Нейросети в творчестве

This media is not supported in your browser

VIEW IN TELEGRAM

ArtSpew

Для тех кому нужна скорость.
Скоростная генерация картинок, 150шт в секунду на 4090.
4 step LCM, 512x512

реддит
Гитхаб

#text2image #realtime

👍3

1.06K views11:34

Нейронавт | Нейросети в творчестве

1:21

This media is not supported in your browser

VIEW IN TELEGRAM

LivePhoto: Real Image Animation with Text-guided Motion Control

Управление генерацией видео посредством текста

Код ждем

#image2video #text2video

👍2

1.23K viewsedited 11:40

Нейронавт | Нейросети в творчестве

#LLM #VLM #assistant

977 views15:19

Нейронавт | Нейросети в творчестве

Forwarded from Сиолошная

Свершилось, Google разродился своей моделью-конкурентом GPT-4.

https://blog.google/technology/ai/google-gemini-ai/

Доступны модели 3 форм-факторов: Ultra (самая большая), Pro и Nano (самая шустрая).

Заявляется State-of-the-Art качество на широком круге задач, но огромных разрывов на текстовых задачах нет (хотя в парочке всё же приятные приросты).

Модели семейства Gemini мультимодальны — поддерживают и картинки, и аудио, и даже видео. Например, распознавание голоса работает гораздо лучше, чем у OpenAI Whisper V2/V3.

PDF с тех. репортом: тык, но деталей вроде размера модели нет (однако, рассказывают про железо).

И конечно же, Geminin станет новой моделью под капотом Google Bard — там лежит Pro модель, поиграться можно тут. В начале 2025го года появится Bard Advanced, и там, как легко догадаться, будет модель Ultra.
А 13го декабря обещают доступ к API!

❤5😁3🎃1

849 views15:19

Нейронавт | Нейросети в творчестве

Forwarded from Сиолошная

UPD: чтобы попробовать Gemini, действительно нужно перейти по ссылке https://bard.google.com/chat

НО! Есть два предварительных шага:
1️⃣ вы должны быть в правильной стране. EU и UK на данный момент не получили обновление — у меня получилось с USA. Обычный VPN подходит, у меня стоял Browsec, вот ссылка для Google Chrome.

2️⃣нужно сменить язык Google-аккаунта на английский (для верности выбрать американский). Сделать можно вот по этой ссылке: https://myaccount.google.com/language

Если сделали всё правильно, то увидите при заходе светло-голубую плашку сверху: Bard has been updated in English with Gemini Pro.

Если не сработало, попробуйте сменить сервер VPN ещё раз, а также перезагрузить страницу со сбросом кэша (cmd/ctrl+shift+R ) и не забыть про cookies.

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5🤔1

796 views17:06

Нейронавт | Нейросети в творчестве

Forwarded from Сиолошная

0:39

This media is not supported in your browser

VIEW IN TELEGRAM

Может, я не понимаю маркетинг, может, не знают работяги в Google, а может технология очень сырая и появится не скоро — но я чуть не пропустил ОЧЕНЬ крутую фичу, которую представили вместе с Gemini. На странице анонса модели и в ключевом видео просто места не уделили...ужас.

Предлагаю посмотреть видео📹, а не читать слова...но если вы остались тут, то ОК!

Фича называется Bespoke UI, суть в том, что на ваш запрос модель сначала генерирует ИНТЕРФЕЙС, а затем его наполняет (реальным или сгенерированным контентом). По сути это такой маленький сделанный на заказ (bespoke 🤔) веб-сайт с разными блоками. И с каждым из них пользователь может углубить взаимодействие — выделить, попросить дописать или переписать.

Причём, по ходу этой генерации под капотом модель (сама? из-за тренировки? через промпты?) раскладывает весь процесс на шаги, вытягивая их в цепочку. Например, перед генерацией «сайта» модель сначала уточнит, а что а как а чего (по контенту ответа, не по форме сайта), потом, как сочтёт, что деталей достаточно — выдаст PRD (Product Requirements Document), и шаблон для наполнения. Здесь, мол, одна кликабельная карточка, у неё есть заголовок, основной текст, а также ссылка на открытие полного блока с информацией.

Так как LLM в некотором приближении это дистилляция всего интернета (плюс, Gemini умеет гуглить и «смотреть» видео на ютубе), то можно с натяжкой и верой в будущее сказать, что это — новый способ взаимодействия с сайтами: убрать всё лишнее, добавить контекстную рекламу (сгенерированную???), и выдать исключительно концентрированный контент. А если нужно что-то уточнить — выделяешь, просишь сгенерировать новую страницу, и всё.

Как думаете, зря не показали всем?)

Please open Telegram to view this post

VIEW IN TELEGRAM

723 views06:18

Нейронавт | Нейросети в творчестве

0:12

This media is not supported in your browser

VIEW IN TELEGRAM

0:16

This media is not supported in your browser

VIEW IN TELEGRAM

Gaussian Head Avatar: Ultra High-fidelity Head Avatar via Dynamic Gaussians

Сегодня пройдемся по головам.
Реконструкция аватара головы по нескольким ракурсам, вместе с мимикой и деформациями. В деле замешаны гауссианы.
На выходе - рендер разрешением 2К, не без помощи апскейлера. Но вы его тут видите?

Код ~~ждем~~ есть

#gaussian #image2head #rendering #imageto3D #head

🔥9👍2

1.28K views07:13

Нейронавт | Нейросети в творчестве

0:09

This media is not supported in your browser

VIEW IN TELEGRAM

0:58

This media is not supported in your browser

VIEW IN TELEGRAM

0:26

This media is not supported in your browser

VIEW IN TELEGRAM

0:34

This media is not supported in your browser

VIEW IN TELEGRAM

GAIA: Zero-shot Talking Avatar Generation

Теперь разработка Microsoft.
Говорящая голова. На вход нужна одна картинка и звук речи. Можно управлять позой, подать на вход управляющее видео или текст. А что еще можно придумать для управления говорящей головой?

Код ждем

#talkinghead #humananimation #humanavatar #image2head #image2video #head

❤6👍1

1.07K views07:26

About

Blog

Apps

Platform