This media is not supported in your browser
VIEW IN TELEGRAM
SceneScript: an AI model and methodto understand and describe 3D spaces
Реконструкции окружающей среды и представления расположения физических пространств от запрещенной Meta и Reality Labs Research.
SceneScript позволяет устройствам дополненной реальности и искусственного интеллекта понимать геометрию физических пространств
Scene Script использует предсказание следующего токена, как LLM, но вместо естественного языка он использует архитектурные токены.
Скоро в вашем смартфоне?
Блог
#news #AR
Реконструкции окружающей среды и представления расположения физических пространств от запрещенной Meta и Reality Labs Research.
SceneScript позволяет устройствам дополненной реальности и искусственного интеллекта понимать геометрию физических пространств
Scene Script использует предсказание следующего токена, как LLM, но вместо естественного языка он использует архитектурные токены.
Скоро в вашем смартфоне?
Блог
#news #AR
🔥3
Suno.ai v3 теперь доступен Всем пользователям
Основные улучшения:
- Высокое качество аудио
- Больше музыкальных стилей и жанров
- Улучшенное следование промпту, меньше ошибок и более логичные концовки треков
- Добавлена технология водяных знаков, которая может определить, создана ли песня в Suno.
Идет работа над v4.
Кидайте ваши песни к коменты
#text2music
Основные улучшения:
- Высокое качество аудио
- Больше музыкальных стилей и жанров
- Улучшенное следование промпту, меньше ошибок и более логичные концовки треков
- Добавлена технология водяных знаков, которая может определить, создана ли песня в Suno.
Идет работа над v4.
Кидайте ваши песни к коменты
#text2music
🔥10
This media is not supported in your browser
VIEW IN TELEGRAM
Sonauto AI
Нарисовался конкурент Suno. Генератор песен по тексту. Можно добавлять стиль, референс и исполнителя, сделать ремикс. Ну и да, можно делать инструментал.
Я просто попросил песню Бендера с самыми знаменитыми его цитатами.
Го тестить, кидайте музло в коменты
#text2music #music
Нарисовался конкурент Suno. Генератор песен по тексту. Можно добавлять стиль, референс и исполнителя, сделать ремикс. Ну и да, можно делать инструментал.
Я просто попросил песню Бендера с самыми знаменитыми его цитатами.
Го тестить, кидайте музло в коменты
#text2music #music
🔥8👍2
Forwarded from эйай ньюз
⚡️SD3-Turbo: Fast High-Resolution Image Synthesis with Latent Adversarial Diffusion Distillation
Вслед за Stable Diffusion 3 мои друзья опуликовали препринт о дистилляции SD3 в 4-шага, сохраняя качество.
Новый метод - Latent Adversarial Diffusion Distillation (LADD), который похож на ADD (был пост про него), но с рядом отличий:
↪️ И учитель и студент тут на архитектуре SD3 на базе трансформеров. Самая большая и самая лучшая модель - 8B параметров.
↪️ Вместо DINOv2 дискриминатора, работающего на RGB пикселях, в этой статье предлагают всеже вернуться к дискриминатору в latent space, чтобы работало быстрее и жрало меньше памяти.
↪️ В качестве дискриминатора берут копию учителя (то есть дискриминатор тренировался не дискриминативно, как в случае DINO, а генеративно). После каждого attention блока добавляют голову дискриминатора с 2D conv слоями, классифицирующую real/fake. Таким образом дискриминатор смотрит не только на финалный результат, но и на все промежуточные фичи, что усиливает тренировочный сигнал.
↪️ Тренят на картинках с разным aspect ratio, а не только на квадратах 1:1.
↪️ Убрали L2 reconstruction loss между выходами Учителя и Студента. Говорят, что тупо дискриминатора достаточно, если умно выбрать распределение семплирования шагов t.
↪️ Во время трейна более часто сеплируют t с большим шумом, чтобы студент лучше учился генерить глобальную структуру объектов.
↪️ Дистиллируют на синтетических данных, которые сгенерил учитель, а не на фото из датасета, как это было в ADD.
Еще из прикольного показали, что DPO-LoRA тюнинг хорошо так добрасывает в качество генераций студента.
Итого, получаем SD3-Turbo модель, которая за 4 шага выдает красивые картинки. Судя по небольшому Human Eval, который авторы провели всего на 128 промптах, по image quality студент сравним с учителем. А вот prompt alignment у студента хромает, что в целом ожидаемо.
Ещё показали, что SD3-Turbo лучше чем Midjourney 6 и по качеству и по prompt alignment, что удивляет🫥 . Ждем веса, чтобы провести reality check!
Статья
@ai_newz
Вслед за Stable Diffusion 3 мои друзья опуликовали препринт о дистилляции SD3 в 4-шага, сохраняя качество.
Новый метод - Latent Adversarial Diffusion Distillation (LADD), который похож на ADD (был пост про него), но с рядом отличий:
Еще из прикольного показали, что DPO-LoRA тюнинг хорошо так добрасывает в качество генераций студента.
Итого, получаем SD3-Turbo модель, которая за 4 шага выдает красивые картинки. Судя по небольшому Human Eval, который авторы провели всего на 128 промптах, по image quality студент сравним с учителем. А вот prompt alignment у студента хромает, что в целом ожидаемо.
Ещё показали, что SD3-Turbo лучше чем Midjourney 6 и по качеству и по prompt alignment, что удивляет
Статья
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👏6👍2
This media is not supported in your browser
VIEW IN TELEGRAM
SwiftBrush v2: Make Your One-step Diffusion Model Better Than Its Teacher
Дистилляция-ускорение диффузии с потерей качества у нас уже есть в разных вариантах.
Держите генерацию картинки за один шаг с качеством, сопоставимым с генерацией оригинальной моделью до дистилляции.
Вообще-то, в заголовке заявлено что у дистилляции по SwiftBrush v2 качество лучше чем у модели-учителя. Но я не понимаю что это такое. Если бы я понимал что это такое...
Кода нет
#optimization #text2image
Дистилляция-ускорение диффузии с потерей качества у нас уже есть в разных вариантах.
Держите генерацию картинки за один шаг с качеством, сопоставимым с генерацией оригинальной моделью до дистилляции.
Вообще-то, в заголовке заявлено что у дистилляции по SwiftBrush v2 качество лучше чем у модели-учителя. Но я не понимаю что это такое. Если бы я понимал что это такое...
Кода нет
#optimization #text2image
HeyGen 5.0
Что нового
- AI Studio 3.0 - плтформа редактирования видео
- Мгновенные аватары - цифровой аватар, который выглядит и звучит точно так же, как вы
- Перевод видео - конвертируйте видео на разные языки, сохраняя при этом голос оригинального диктора и движения губ
- Персонализированные видеоролики
- Аватар для стриминга
#text2video #video2videp #lipsync #talkinghead #humanavatar #translation #speech2speech
Что нового
- AI Studio 3.0 - плтформа редактирования видео
- Мгновенные аватары - цифровой аватар, который выглядит и звучит точно так же, как вы
- Перевод видео - конвертируйте видео на разные языки, сохраняя при этом голос оригинального диктора и движения губ
- Персонализированные видеоролики
- Аватар для стриминга
#text2video #video2videp #lipsync #talkinghead #humanavatar #translation #speech2speech
👍4
ReNoise: Real Image Inversion Through Iterative Noising
Инверсия для редактирования изображений
Код ждем
Демо
#image2image
Инверсия для редактирования изображений
Код ждем
Демо
#image2image
👍6
Media is too big
VIEW IN TELEGRAM
Viggle
Контроль персонажа на видео - замена персонажа, анимация изображения
Попробовать в дискорде
#image2video #video2video #personalization
Контроль персонажа на видео - замена персонажа, анимация изображения
Попробовать в дискорде
#image2video #video2video #personalization
🔥9
Media is too big
VIEW IN TELEGRAM
One-step Diffusion with
Distribution Matching Distillation
Еще один метод ускорения генерации изображений от MIT и Adobe. Генерация за один шаг и 0.09 сек против 2.5 сек и 50 шагов в обычном SD
Кода нет
#text2image #optimization
Distribution Matching Distillation
Еще один метод ускорения генерации изображений от MIT и Adobe. Генерация за один шаг и 0.09 сек против 2.5 сек и 50 шагов в обычном SD
Кода нет
#text2image #optimization
🔥14👍1
AnyV2V: A Plug-and-Play Framework For Any Video-to-Video Editing Tasks
Редактирование видео по образцу, по текстовым указаниям, перенос стиля, персонализация
Работает это все пока только на A100, и чтобы попробовать на своих видео нужно менять конфиги:
Код
Демо
Колаб
#video2video #personalization #videoediting #styletransfer
Редактирование видео по образцу, по текстовым указаниям, перенос стиля, персонализация
Работает это все пока только на A100, и чтобы попробовать на своих видео нужно менять конфиги:
template.yaml
group_config.json - @monkeyinlawКод
Демо
Колаб
#video2video #personalization #videoediting #styletransfer
🔥4🥴2👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Stable Code Instruct 3B
Stability AI выкатили инженерную LLM, затюненную на инструкциях, на основе Stable Code 3B.
Умеет писать код, умеет в математику, умеет выполнять другие софт-инженерные задачи.
Бьет CodeLlama 7B Instruct и сопоставим с StarChat 15B
Доступно для коммерческого использования
Веса
#coding #llm
Stability AI выкатили инженерную LLM, затюненную на инструкциях, на основе Stable Code 3B.
Умеет писать код, умеет в математику, умеет выполнять другие софт-инженерные задачи.
Бьет CodeLlama 7B Instruct и сопоставим с StarChat 15B
Доступно для коммерческого использования
Веса
#coding #llm
👍10❤1👎1👏1
Sora: First Impressions
OpenAI опубликовали работы и первые впечатления избранных представителей творческих профессий от Sora
#news
OpenAI опубликовали работы и первые впечатления избранных представителей творческих профессий от Sora
#news
🔥17
ComfyUI IPAdapter plus
Обновление IPAdapter для ComfyUI. В IPAdapter V2 полностью переписан код, старые воркфлоу не будут работать после обновления.
- multiple new IPAdapter nodes: regular (named "IPAdapter"), advanced ("IPAdapter Advanced"), and faceID ("IPAdapter FaceID);
- there's no need for a separate CLIPVision Model Loader node anymore, CLIPVision can be applied in a "IPAdapter Unified Loader" node;
- CLIPVision can be applied separately if "IPAdapter Unified Loader" is not used;
- new Weight Types;
- new Combine Embed types for multiple images inside of one IPAdapter node.
#text2image #image2image
Обновление IPAdapter для ComfyUI. В IPAdapter V2 полностью переписан код, старые воркфлоу не будут работать после обновления.
- multiple new IPAdapter nodes: regular (named "IPAdapter"), advanced ("IPAdapter Advanced"), and faceID ("IPAdapter FaceID);
- there's no need for a separate CLIPVision Model Loader node anymore, CLIPVision can be applied in a "IPAdapter Unified Loader" node;
- CLIPVision can be applied separately if "IPAdapter Unified Loader" is not used;
- new Weight Types;
- new Combine Embed types for multiple images inside of one IPAdapter node.
#text2image #image2image
GitHub
GitHub - cubiq/ComfyUI_IPAdapter_plus
Contribute to cubiq/ComfyUI_IPAdapter_plus development by creating an account on GitHub.
👍5
FlashFace: Human Image Personalization with High-fidelity Identity Preservation
Персонализация лучше чем InstantID, FaceID
- изменение возраста, пола
- делает реалистичные версии фантастических персонажей
- интерполяция персонажей
- стилизация
- контроль текстосвыми указаниями
Код ждем
Демо ждем
#personalization #stylization #image2image
Персонализация лучше чем InstantID, FaceID
- изменение возраста, пола
- делает реалистичные версии фантастических персонажей
- интерполяция персонажей
- стилизация
- контроль текстосвыми указаниями
Код ждем
Демо ждем
#personalization #stylization #image2image
👍2