NEW BOT Телеграм, страница

SceneScript: an AI model and methodto understand and describe 3D spaces

Реконструкции окружающей среды и представления расположения физических пространств от запрещенной Meta и Reality Labs Research.

SceneScript позволяет устройствам дополненной реальности и искусственного интеллекта понимать геометрию физических пространств

Scene Script использует предсказание следующего токена, как LLM, но вместо естественного языка он использует архитектурные токены.

Скоро в вашем смартфоне?

Блог

#news #AR

🔥3

1.68K views10:22

Нейронавт | Нейросети в творчестве

Suno.ai v3 теперь доступен Всем пользователям

Основные улучшения:
- Высокое качество аудио
- Больше музыкальных стилей и жанров
- Улучшенное следование промпту, меньше ошибок и более логичные концовки треков
- Добавлена технология водяных знаков, которая может определить, создана ли песня в Suno.

Идет работа над v4.

Кидайте ваши песни к коменты

#text2music

🔥10

3.17K views11:33

Нейронавт | Нейросети в творчестве

1:41

This media is not supported in your browser

VIEW IN TELEGRAM

Sonauto AI

Нарисовался конкурент Suno. Генератор песен по тексту. Можно добавлять стиль, референс и исполнителя, сделать ремикс. Ну и да, можно делать инструментал.

Я просто попросил песню Бендера с самыми знаменитыми его цитатами.

Го тестить, кидайте музло в коменты

#text2music #music

🔥8👍2

9.43K viewsedited 13:52

Нейронавт | Нейросети в творчестве

Forwarded from эйай ньюз

⚡️SD3-Turbo: Fast High-Resolution Image Synthesis with Latent Adversarial Diffusion Distillation

Вслед за Stable Diffusion 3 мои друзья опуликовали препринт о дистилляции SD3 в 4-шага, сохраняя качество.

Новый метод - Latent Adversarial Diffusion Distillation (LADD), который похож на ADD (был пост про него), но с рядом отличий:

↪️ И учитель и студент тут на архитектуре SD3 на базе трансформеров. Самая большая и самая лучшая модель - 8B параметров.

↪️ Вместо DINOv2 дискриминатора, работающего на RGB пикселях, в этой статье предлагают всеже вернуться к дискриминатору в latent space, чтобы работало быстрее и жрало меньше памяти.

↪️ В качестве дискриминатора берут копию учителя (то есть дискриминатор тренировался не дискриминативно, как в случае DINO, а генеративно). После каждого attention блока добавляют голову дискриминатора с 2D conv слоями, классифицирующую real/fake. Таким образом дискриминатор смотрит не только на финалный результат, но и на все промежуточные фичи, что усиливает тренировочный сигнал.

↪️ Тренят на картинках с разным aspect ratio, а не только на квадратах 1:1.

↪️Убрали L2 reconstruction loss между выходами Учителя и Студента. Говорят, что тупо дискриминатора достаточно, если умно выбрать распределение семплирования шагов t.

↪️ Во время трейна более часто сеплируют t с большим шумом, чтобы студент лучше учился генерить глобальную структуру объектов.

↪️ Дистиллируют на синтетических данных, которые сгенерил учитель, а не на фото из датасета, как это было в ADD.

Еще из прикольного показали, что DPO-LoRA тюнинг хорошо так добрасывает в качество генераций студента.

Итого, получаем SD3-Turbo модель, которая за 4 шага выдает красивые картинки. Судя по небольшому Human Eval, который авторы провели всего на 128 промптах, по image quality студент сравним с учителем. А вот prompt alignment у студента хромает, что в целом ожидаемо.

Ещё показали, что SD3-Turbo лучше чем Midjourney 6 и по качеству и по prompt alignment, что удивляет 🫥. Ждем веса, чтобы провести reality check!

Статья

@ai_newz

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👏6👍2

1.35K views15:41

Нейронавт | Нейросети в творчестве

2:08

This media is not supported in your browser

VIEW IN TELEGRAM

‌SwiftBrush v2: Make Your One-step Diffusion Model Better Than Its Teacher

Дистилляция-ускорение диффузии с потерей качества у нас уже есть в разных вариантах.
Держите генерацию картинки за один шаг с качеством, сопоставимым с генерацией оригинальной моделью до дистилляции.

Вообще-то, в заголовке заявлено что у дистилляции по ‌SwiftBrush v2 качество лучше чем у модели-учителя. Но я не понимаю что это такое. Если бы я понимал что это такое...

Кода нет

#optimization #text2image

1.8K viewsedited 15:53

Нейронавт | Нейросети в творчестве

Сегодня без постов

❤31😭8💯7🤡4👍1

1.72K viewsedited 07:43

Нейронавт | Нейросети в творчестве

HeyGen 5.0

Что нового
- AI Studio 3.0 - плтформа редактирования видео
- Мгновенные аватары - цифровой аватар, который выглядит и звучит точно так же, как вы
- Перевод видео - конвертируйте видео на разные языки, сохраняя при этом голос оригинального диктора и движения губ
- Персонализированные видеоролики
- Аватар для стриминга

#text2video #video2videp #lipsync #talkinghead #humanavatar #translation #speech2speech

👍4

1.71K views07:13

Нейронавт | Нейросети в творчестве

ReNoise: Real Image Inversion Through Iterative Noising

Инверсия для редактирования изображений

Код ждем
Демо

#image2image

👍6

1.52K views07:27

Нейронавт | Нейросети в творчестве

1:00

Media is too big

VIEW IN TELEGRAM

Viggle

Контроль персонажа на видео - замена персонажа, анимация изображения

Попробовать в дискорде

#image2video #video2video #personalization

🔥9

1.71K views11:00

Нейронавт | Нейросети в творчестве

0:52

Media is too big

VIEW IN TELEGRAM

One-step Diffusion with
Distribution Matching Distillation

Еще один метод ускорения генерации изображений от MIT и Adobe. Генерация за один шаг и 0.09 сек против 2.5 сек и 50 шагов в обычном SD

Кода нет

#text2image #optimization

🔥14👍1

1.46K views13:06

Нейронавт | Нейросети в творчестве

0:20

This media is not supported in your browser

VIEW IN TELEGRAM

0:10

This media is not supported in your browser

VIEW IN TELEGRAM

AnyV2V: A Plug-and-Play Framework For Any Video-to-Video Editing Tasks

Редактирование видео по образцу, по текстовым указаниям, перенос стиля, персонализация

Работает это все пока только на A100, и чтобы попробовать на своих видео нужно менять конфиги:

template.yaml
group_config.json

- @monkeyinlaw

Код
Демо
Колаб

#video2video #personalization #videoediting #styletransfer

🔥4🥴2👍1

1.52K views15:51

Нейронавт | Нейросети в творчестве

0:18

This media is not supported in your browser

VIEW IN TELEGRAM

Stable Code Instruct 3B

Stability AI выкатили инженерную LLM, затюненную на инструкциях, на основе Stable Code 3B.

Умеет писать код, умеет в математику, умеет выполнять другие софт-инженерные задачи.

Бьет CodeLlama 7B Instruct и сопоставим с StarChat 15B

Доступно для коммерческого использования

Веса

#coding #llm

👍10❤1👎1👏1

1.83K views05:11

Нейронавт | Нейросети в творчестве

This media is not supported in your browser

Sora: First Impressions

OpenAI опубликовали работы и первые впечатления избранных представителей творческих профессий от Sora

#news

🔥17

1.52K views06:50

Нейронавт | Нейросети в творчестве

ComfyUI IPAdapter plus

Обновление IPAdapter для ComfyUI. В IPAdapter V2 полностью переписан код, старые воркфлоу не будут работать после обновления.

- multiple new IPAdapter nodes: regular (named "IPAdapter"), advanced ("IPAdapter Advanced"), and faceID ("IPAdapter FaceID);

- there's no need for a separate CLIPVision Model Loader node anymore, CLIPVision can be applied in a "IPAdapter Unified Loader" node;

- CLIPVision can be applied separately if "IPAdapter Unified Loader" is not used;

- new Weight Types;

- new Combine Embed types for multiple images inside of one IPAdapter node.

#text2image #image2image

GitHub

GitHub - cubiq/ComfyUI_IPAdapter_plus

Contribute to cubiq/ComfyUI_IPAdapter_plus development by creating an account on GitHub.

👍5

1.44K viewsedited 07:14

Нейронавт | Нейросети в творчестве

FlashFace: Human Image Personalization with High-fidelity Identity Preservation

Персонализация лучше чем InstantID, FaceID
- изменение возраста, пола
- делает реалистичные версии фантастических персонажей
- интерполяция персонажей
- стилизация
- контроль текстосвыми указаниями

Код ждем
Демо ждем

#personalization #stylization #image2image

👍2

1.55K views07:43

About

Blog

Apps

Platform