Нейронавт | Нейросети в творчестве – Telegram
Нейронавт | Нейросети в творчестве
10.6K subscribers
4.45K photos
3.72K videos
41 files
4.76K links
Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus

Заявка на регистрацию в РКН № 6309426111
Download Telegram
Sana: Efficient High-Resolution Image Synthesis with Linear Diffusion Transformer

Генератор картинок по тексту от Nvidia и компании.

Может эффективно генерировать изображения с разрешением до 4096 × 4096.
Из фишек - скорость даже на GPU ноутбука, четкое следование промпту.

Sana-0.6B вполне конкурентоспособен с современной моделью гигантской диффузии (например, Flux-12B), поскольку в 20 раз меньше и более чем в 100 раз выше по измеряемой пропускной способности. Кроме того, Sana-0.6B может быть развернут на графическом процессоре ноутбука емкостью 16 ГБ, при этом для создания изображения с разрешением 1024 × 1024 требуется менее 1 секунды


Часть команды бывшие разработчики PixArt, которые присоединились к NVIDIA, а NVIDIA недавно выпустила конкурента GPT4 LLM с открытым исходным кодом - так что, похоже, есть вероятность что они опубликуют веса и код Sana.

Код ждем

#text2image
8👍3👏1
Cavia: Camera-controllable Multi-view Video Diffusion with View-Integrated Attention

Интересная разработка с участием Apple и Google, без кода

Генератор видео, позволяющий создавать несколько видеороликов одной сцены с точным контролем движения камеры, одновременно сохраняя движение объекта.

#text2video #multiview #cameracontrol
👍4👏1
Chat Edit 3D: Interactive 3D Scene Editing via Text Prompts

Это вообще законно?
Оно через ChatGPT рулит 30+ диффузионными нейронками для работы с 3D сценами.
Загляните на сайт. Там еще вагончик примеров того что оно может

Код

#3dediting #text2scene #nerf #textto3d #assistant #3dassistant
👍51
Pyramidal Flow Matching for Efficient Video Generative Modeling

На днях вышел новый опенсорсный видеогенератор по тексту и по изображению.
Разрешение 1280x768
От идеала далеко. Но эй, в опенсорсе и конкурентов негусто.
А авторы еще и обещают скоро выложить код обучения и новые с нуля обученные чекпойнты

Код
Демо
Веса

#text2video #image2video
13😁1
Из прочих новостей

Suno теперь умеет делать музыку из ваших картинок и видео. Но пока только в iOS приложении которое есть только в американском аппсторе

Pika вчера добавила новые эффекты в дополнение к тем которые завирусились на прошлой неделе (мне о них некогда было писать). Сами по себе такие эффекты мне представляются бесполезными, сфера применения очень узкая. Но посмотрим насколько у юзеров хватит выдумки. Видимо, на это и ставка. Как бы то ни было, Pika таким ходом отнишевалась от конкурентов

#news #image2music #video2music #image2video #image2effect
👍42
This media is not supported in your browser
VIEW IN TELEGRAM
D-Edit

Редактор изображений - на основе изображений, текста, масок и удаление элементов. Примеры с сайта кину в комменты

Все это через автоматическую сегментацию - вот и первое неудобство. Если что-то не попало в отдельный сегмент то и редактировать это отдельно мы не сможем. Ну ладно, сегментатор наверно можно прикрутить любой.

В демо кажется реализовано только редактирование текстом. Но редактор в отличие от аналогов учитывает контекст картинки. По крайней мере так заявлено в препринте

Демо

#imageediting #inpainting #image2image
🔥4
Vision Arena

Лидерборд-арену визуально-языковых моделей не хотите ли?

#vlm #leaderboard #comparison #shootout
4👍2
This media is not supported in your browser
VIEW IN TELEGRAM
В Krea.ai прикрутили все наши любимые видеогенераторы. При написании промпта можно выбрать выбрать, в чем продолжить генерацию: Luma, Runway, Kling, Minimax, Pika

#news #image2video
🤯8👍41