NEW BOT Телеграм, страница

LaViDa-O: Elastic Large Masked Diffusion Models for Unified Multimodal Understanding and Generation

Унифицированная мультимодfльная модель для генерации / понимания / редактирования картинок при участии Adobe

Использует новую архитектуру Elastic Mixture-of-Transformers (Elastic-MoT, эластичный совет трансформеров), которая сочетает лёгкую ветвь генерации и более крупную ветвь понимания. Видимо, по аналогии с советом экспертов.

Планирует и итеративно размышляет. Превосходит Qwen2.5-VL и FluxKontext-dev по скорости вывода и качеству

Разрешение генерации 1024 пикселя

Код ждем

#multimidal #vlm #imageediting #captioning #text2image #image2text

👍5🥴1

1.55K views06:09

Нейронавт | Нейросети в творчестве

0:30

This media is not supported in your browser

VIEW IN TELEGRAM

ImagineArt 1.0

Агрегатор генерилок выпустил свою модель генерации картинок -

самую реалистичную модель на планете

Попробовать дают но совсем немного

#text2image #imageediting #online

👀4👍2👎2

1.54K views07:11

Нейронавт | Нейросети в творчестве

This media is not supported in your browser

VIEW IN TELEGRAM

0:37

This media is not supported in your browser

VIEW IN TELEGRAM

WorldExplorer: Towards Generating Fully Navigable 3D Scenes

Очередная генерилка миров. Сначала создает картинку по тексту, затем создает еще ракурсы и превращает в сцену на гауссианах

На сайте есть интерактивный вьюер где можно походить по примерам сцен

Может не так нарядно как у некоторых, зато честно

Приблизительное время для RTX 3090:

Генерация каркаса: ~5 минут (быстрый режим)
Расширение сцены: 6-7 часов (полная генерация 3D-сцены)

Гитхаб

#text2world #world #text2scene #gaussian

👍5

1.99K views08:11

Нейронавт | Нейросети в творчестве

1:59

Media is too big

VIEW IN TELEGRAM

Тилли Норвуд — первая AI-актриса, созданная студией Xicoia. Она дебютировала на Zurich Summit. В июле Тилли сыграла свою первую роль в комедийном скетче «AI Commissioner». Занятно что в скетче нет ни единого пикселя снятого живьем, все на 100% сгенерировано. Но промоутят именно Тилли. Её продюсер Элайн Ван дер Велден заявила, что цель проекта — сделать из Тилли следующую Скарлетт Йоханссон или Натали Портман, только дешевле и сговорчивее

В своем посте в LinkedIn Ван дер Велден написала: “Зрители? Их волнует история, а не то, есть ли у звезды пульс. Тилли уже привлекает интерес со стороны агентств по подбору талантов и поклонников. Эпоха синтетических актеров не "наступает" — она уже наступила".

#news

🥴13👎7😁6❤3👍2

1.85K views09:12

Нейронавт | Нейросети в творчестве

2:00

Media is too big

VIEW IN TELEGRAM

Rolling Forcing: Autoregressive Long Video Diffusion in Real Time

Авторегрессионный диффузный потоковый генератор видео в реальном времени на одном GPU.

Пишут о 16 кадрах в секунду, на каком GPU - не совсем понятно. В бумаге упоминают OOM на 80GB, так что скорее всего речь о H100 каком-нибудь.

Способен создавать несколько минут видео с минимальным накоплением ошибок. На сайте есть сравнение с конкурентами

Код - ждем в октябре

#text2video #realtime

👍4🔥3❤1

1.63K views10:13

Нейронавт | Нейросети в творчестве

0:05

This media is not supported in your browser

VIEW IN TELEGRAM

0:05

This media is not supported in your browser

VIEW IN TELEGRAM

0:05

This media is not supported in your browser

VIEW IN TELEGRAM

Wan2.2-Lightning

Четырехшаговая дистилляция #WAN22

Ограничения: При очень интенсивном движении будут артефакты

Сейчас только A14B
по тексту (Wan2.2-T2V-A14B-NFE4-V1.1)
и по картинке (Wan2.2-I2V-A14B-NFE4-V1)
5B готовят

воркфлоу по ссылке в описании модели

спасибо @m_franz

#text2video #image2video #optimization

👍9🔥5❤1🌚1

1.78K views13:19

Нейронавт | Нейросети в творчестве

Krea-CSG (Krea Foundation) Вышла модификация FLUX.1 Krea весом всего 6.5 ГБ, жестко оптимизированная под Nvidia, GGUF Дружественная к VRAM-беднякам Настройки: CFG 1 , Steps 30 - 45 , Eular , Sample / Beta (res2 pref) #gguf #text2image #optimization #workflow

Вчера удалил ссылку на воркфлоу Krea-CSG по жалобам на нерабочесть.

Проверил - работает. Лорами пользоваться необязательно, их можно отключить. Апскейл по умолчанию тоже отключил. ВФ закину в комменты.

Сравнил с таким же по весу квантом оригинальной Flux Krea dev q4_K_M - 6.5 ГБ

Результаты с лорой Flux_Krea_Blaze_Lora-rank128.safetensors 832 x 1216, 8 шагов:
картинка 1, Krea_CSG - 35 сек
картинка 2, Flux Krea dev q4_K_M - 43 сек
Выглядят идентично.

Без лоры, 832 x 1216, 20 шагов:
картинка 3, Krea_CSG - 69 сек
картинка 4, Flux Krea dev q4_K_M - 63 сек
Выглядят идентично.

картинка 5, Flux Krea Blaze - 64 сек - тоже решил сравнить, картинка отличается

Все на одном сиде

По итогу - ну небольшая экономия времени с лорой. Вероятно можно включить еще какие-то оптимизации. Krea Blaze потяжелее но результаты интереснее

#comparison #workflow #gguf #text2image #optimization

👍9😁2

1.6K views14:17

Нейронавт | Нейросети в творчестве

DC-Gen: Post-Training Diffusion Acceleration with Deeply Compressed Latent Space

Совместная разработка Han Lab (авторов Nunchaku) и NVIDIA

Новый тип автоэнкодеров — Deep Compression Autoencoder (DC-AE) для ускорения генераторов изображений высокого разрешения

Ускоряет генерацию изображений: на ImageNet с разрешением 512x512 вывод становится быстрее в 19,1 раза, а обучение — в 17,9 раза.

На 5090 с Flux Krea выдает 4K за 3.5 сек

Позволяет создавать изображения по тексту даже на ноутбуке.

Гитхаб
Демо - DC-Gen-Sana-4.8B 1024px

#text2image #optimization

🔥13

2.16K views14:47

About

Blog

Apps

Platform