Нейронавт | Нейросети в творчестве – Telegram
Нейронавт | Нейросети в творчестве
10.6K subscribers
4.48K photos
3.75K videos
41 files
4.78K links
Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus

Заявка на регистрацию в РКН № 6309426111
Download Telegram
VibeVoice-Large-Q8

первая полностью рабочая модель VibeVoice с 8-битной квантизацией

Отличный звук, идентичный оригинальной модели
11,6 ГБ вместо 18,7 ГБ (-38%)
Используется ~12 ГБ видеопамяти вместо 20 ГБ
Работает на GPU с 12 ГБ (RTX 3060, 4070 Ti и т.д.)

VibeVoice ComfyUI Nodes

#podcast #voicecloning #tts #workflow #text2speech #text2podcast #comfyui
9👍2
Media is too big
VIEW IN TELEGRAM
Vidu Q2

Новая модель видеогенератора с фокусом на выразительность

Более четкие выражения, динамичные движения камеры, более высокая скорость, более глубокое понимание

Есть в API
На офсайте
и в мобильном приложении
iOS
Android

Из сторонних сервисов видел на Dzine

#text2video #image2video
👍61
CAP4D: Creating Animatable 4D Portrait Avatars with Morphable Multi-View Diffusion Models

Создание анимируемых портретных 4D-аватаров. Модель способна генерировать реалистичные 4D-аватары на основе любого количества эталонных изображений

Рендерится в реальном времени

На первом этапе создает много изображений с разных ракурсов при помощи SD 2.1. Далее собирает собственно 4D модель.

Под капотом 3D трекер лица FlowFace (код ждем), FLAME для выражений лица, GaussianAvatars для деформируемой головы на гауссианах

Аватар можно редактировать внешними средствами - упомянуты Stable-Makeup и IC-Light

Плюс ко всему, аватар может управляться звуком речи

Код - FlowFace работает в демо-режиме, только с лицами из демо-набора

#humanavatar #gaussian #head #portraitanimation #tracking #pose
🔥6👍5😁1
DeepSearch-1.5B

Модель для решения задач, требующих рассуждений и вычислений, новая #SOTA среди рассуждалок 1.5B параметров

На базе Nemotron-Research-Reasoning-Qwen-1.5B v2

Подходит для выполнения математических задач и решения логических головоломок, в образовательных и исследовательских целях, где требуется высокая точность и эффективность вычислений и оптимизация вычислительных ресурсов.

#assistant #reasoning
🔥8👍4
TTT3R: 3D Reconstruction as Test-Time Training

Метод улучшения 3D реконструкции CUT3R с использованием Test-Time Training (#TTT)

Вдвое улучшает оценку глобальной позы по сравнению с базовой моделью.

Обрабатывает тысячи изображений со скоростью 20 кадров в секунду, используя 6 ГБ VRAM

Пир этом избегает «забывания» данных

Гитхаб

#image2scene #video2scene #videoto4d #scenereconstruction #4d #novelview #imageto3d #image2scene #video2scene
🔥11👍2
Dreamina AI Avatars

Dreamina запустила функцию оживления портрета по звуку и промпту.
Работает с людьми, животными, аниме и др.
——————————————

А также делали бесплатный доступ к Seedream 4.0 до 9 октября.
Но только для правильных стран. Заходите через 3 буквы. Польша не подошла

#portraitanimation #characteranimation #avatar #speech2video #image2video #humanavatar #text2image
👍6
Мудрость из соседнего чата, проверить не могу ибо Соры у меня нет

Гайд: Как убрать водяной знак в Sora 2

Шаг 1: ➡️ Перейдите в веб-версию Sora ➡️ Нажмите «Use the Old Sora» (Использовать старую версию Sora)

Шаг 2:

➡️ Откройте раздел Activity Category (Активность)
➡️ Прямая ссылка:
sora.chatgpt.com/activity#sora

Шаг 3:

➡️ Выберите одно из ваших сгенерированных видео
➡️ Оно откроется в редакторе

Шаг 4:

➡️ В редакторе кликните правой кнопкой мыши и выберите нужный вариант

Способы сохранить видео:
✔️ Скопировать ссылку на видео
✔️ Сохранить видео напрямую

Спасибо @oxidizer05
6👍5🔥2👨‍💻2
SINQ: Sinkhorn-Normalized Quantization for LLMs

В Huawei придумали новый метод квантования языковых моделей, снижающий требования к ресурсам без потери качества. Может работать как с равномерной, так и с неравномерной квантизацией, а также сочетаться с методами калибровки или работать без калибровки.

Метод совместим с различными архитектурами моделей и не требует взаимодействия между слоями, его удалось применить например и к MoE. Прямо об этом не сказано, но архитектурная независимость, видимо, позволит применять его и к видео / аeдио/ картинко-генераторам

Короче говоря, есть надежда что видео (и прочие) генераторы будут более лучше квантоваться можно будет сжимать без потери качества чтобы впихнуть невпихуемое

#research #optimization
👍172🔥2
Media is too big
VIEW IN TELEGRAM
Ovi: Twin Backbone Cross-Modal Fusion for Audio-Video Generation

И еще один видеогенератор на базе #WAN22

Создает видео со звуком, как VEO3. По тексту, по картинке.
Может создавать звуковые эффекты и музыку, соответствующие визуалу

Хронометраж 5 сек, 24 кадра в секунду, разрешением 720×720, с различными соотношениями сторон (9:16, 16:9, 1:1, и т.д.)

Обещают выпустить модель с повышенным разрешением, повысить хронометраж, дистилл для быстрого инференса и скрипты обучения.

Гитхаб
HF

Спасибо @m_franz

#text2video #image2video #AV #text2Av #image2AV #sfx
🔥13👍31
This media is not supported in your browser
VIEW IN TELEGRAM
Браузер Comet сделали доступным для всех

Для бесплатных пользователей есть лимиты на запросы.

При установке он даже не спрашивает куда установиться, сам выбирает куда прописаться и вам не докладывает куда. А у меня может диск С на последнем издыхании. Видимо, ИИ-браузеры не для тех кто ограничен в дисковом пространстве.

Далее при первом запуске пытается подмять под себя все - хочет стать главным браузером, начальником почты, календаря и т д. И несмотря на мой отказ сделать его царь-браузером на моем компе он умудрился стереть выбор браузера по умолчанию из системы! "Так не достанься же ты никому!" При попытке открыть вебстраницу винда забыла чем открывать.

Зная что есть способы ободрать вас как липу через ИИ-инъекцию в почте, я не рискнул. Из любопытства посмотрю что там удобного-полезного. Но доступы раздавать не собираюсь

Отдаться в руки Perplexity

#search #browser
😁11🤷‍♂5👍4
Qwen-Image-Edit-Pruning

Обрезанная версия #QIE
Вырезали из оригинальной версии 20 слоев, оставили 40, снизив тем самым количество параметров до 13.6B

Есть оригинальная Edit и Edit-2509

Qwen-Image-Pruning - такая же лоботомия #Qwenimage до 12.7B параметров

Qwen-Image-Pruning-for-ComfyUI - версия для экселя. Шучу, для комфи конечно

#optimization #imageediting #text2image
👍11
Годнота от подписчика @SashaMelentev — генерилка датасета из одной фотки