TurboSquid: AI 3D Generator
Генерация 3D по тексту/картинке от маркетплейса ассетов.
Заявлен доступ по API.
Киберпанк-кота не смог, зато сетка ниче.
Тест Бендера провален с наихудшим результатом - "низя! авторские права"
Записаться в вейтлист
Демо text-to-3D (утащил здесь)
#textto3D #imageto3D
Генерация 3D по тексту/картинке от маркетплейса ассетов.
Заявлен доступ по API.
Киберпанк-кота не смог, зато сетка ниче.
Тест Бендера провален с наихудшим результатом - "низя! авторские права"
Записаться в вейтлист
Демо text-to-3D (утащил здесь)
#textto3D #imageto3D
👍5
This media is not supported in your browser
VIEW IN TELEGRAM
Open-Sora:Sora Replication Solution with 46% Cost Reduction, Sequence Expansion to Nearly a Million
Помните когда появилась Dall-E 2, были попытки воспроизвести ее в опенсорсе?
Настало время опенсорсной Sora.
Веса частично основаны на PixArt-α. 724M параметров. Разрешение 512*512, 2 секунды
Это чем-то лучше других опенсорсных видеогенераторов?
#text2video
Помните когда появилась Dall-E 2, были попытки воспроизвести ее в опенсорсе?
Настало время опенсорсной Sora.
Веса частично основаны на PixArt-α. 724M параметров. Разрешение 512*512, 2 секунды
Это чем-то лучше других опенсорсных видеогенераторов?
#text2video
🔥4😁4
FRESCO: SPATIAL-TEMPORAL CORRESPONDENCE FOR ZERO-SHOT VIDEO TRANSLATION
Видео в видео без дообучения от авторов Rerender A Video
Совместим с Controlnet, LoRa
Код
#video2video
Видео в видео без дообучения от авторов Rerender A Video
Совместим с Controlnet, LoRa
Код
#video2video
👍11
img2img-turbo: One-Step Image Translation with Text-to-Image Models
редактирование изображений, инференс за один шаг. Эскиз в картинку, день в ночь, изменение погодных условий и т п
Код
Демо эскиз в картинку
#image2image #imageediting #sketch2image #stylization
редактирование изображений, инференс за один шаг. Эскиз в картинку, день в ночь, изменение погодных условий и т п
Код
Демо эскиз в картинку
#image2image #imageediting #sketch2image #stylization
❤10👍1
"Мы обновили условия оплаты чатгпт
За все время использования сервиса вы наобещали нейросети 1.37 ляма долларов в качестве награды, взятки, бонуса и т.д. для улучшения результатов. Мы добавим эту сумму к вашему следующему ежемесячному платежу 20 баксов"
#humor #яниначтоненамекаю
За все время использования сервиса вы наобещали нейросети 1.37 ляма долларов в качестве награды, взятки, бонуса и т.д. для улучшения результатов. Мы добавим эту сумму к вашему следующему ежемесячному платежу 20 баксов"
#humor #яниначтоненамекаю
😁47😱2👍1👌1
Google открыл бета-доступ к Gemini 1.5 Pro.
Контекстное окно миллион токенов.
Заходите через VPN. Рекомендуют Турцию. У меня сработало через Нидерланды
#assistant
Контекстное окно миллион токенов.
Заходите через VPN. Рекомендуют Турцию. У меня сработало через Нидерланды
#assistant
🔥8💯2
This media is not supported in your browser
VIEW IN TELEGRAM
Smooth Diffusion: Crafting Smooth Latent Spaces in Diffusion Models
Плавный переход через латентное пространство в диффузных моделях. Интегрируется как Lora в ваш SD
Полезно для
- интерполяции изображений
- инверсии изображений (объясните кто-нибудь что это такое)
- редактирования изображений
Код
Демо ждем
#image2image #interpolation #imageediting #text2image
Плавный переход через латентное пространство в диффузных моделях. Интегрируется как Lora в ваш SD
Полезно для
- интерполяции изображений
- инверсии изображений (объясните кто-нибудь что это такое)
- редактирования изображений
Код
Демо ждем
#image2image #interpolation #imageediting #text2image
👍2😱2🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
SceneScript: an AI model and methodto understand and describe 3D spaces
Реконструкции окружающей среды и представления расположения физических пространств от запрещенной Meta и Reality Labs Research.
SceneScript позволяет устройствам дополненной реальности и искусственного интеллекта понимать геометрию физических пространств
Scene Script использует предсказание следующего токена, как LLM, но вместо естественного языка он использует архитектурные токены.
Скоро в вашем смартфоне?
Блог
#news #AR
Реконструкции окружающей среды и представления расположения физических пространств от запрещенной Meta и Reality Labs Research.
SceneScript позволяет устройствам дополненной реальности и искусственного интеллекта понимать геометрию физических пространств
Scene Script использует предсказание следующего токена, как LLM, но вместо естественного языка он использует архитектурные токены.
Скоро в вашем смартфоне?
Блог
#news #AR
🔥3
Suno.ai v3 теперь доступен Всем пользователям
Основные улучшения:
- Высокое качество аудио
- Больше музыкальных стилей и жанров
- Улучшенное следование промпту, меньше ошибок и более логичные концовки треков
- Добавлена технология водяных знаков, которая может определить, создана ли песня в Suno.
Идет работа над v4.
Кидайте ваши песни к коменты
#text2music
Основные улучшения:
- Высокое качество аудио
- Больше музыкальных стилей и жанров
- Улучшенное следование промпту, меньше ошибок и более логичные концовки треков
- Добавлена технология водяных знаков, которая может определить, создана ли песня в Suno.
Идет работа над v4.
Кидайте ваши песни к коменты
#text2music
🔥10
This media is not supported in your browser
VIEW IN TELEGRAM
Sonauto AI
Нарисовался конкурент Suno. Генератор песен по тексту. Можно добавлять стиль, референс и исполнителя, сделать ремикс. Ну и да, можно делать инструментал.
Я просто попросил песню Бендера с самыми знаменитыми его цитатами.
Го тестить, кидайте музло в коменты
#text2music #music
Нарисовался конкурент Suno. Генератор песен по тексту. Можно добавлять стиль, референс и исполнителя, сделать ремикс. Ну и да, можно делать инструментал.
Я просто попросил песню Бендера с самыми знаменитыми его цитатами.
Го тестить, кидайте музло в коменты
#text2music #music
🔥8👍2
Forwarded from эйай ньюз
⚡️SD3-Turbo: Fast High-Resolution Image Synthesis with Latent Adversarial Diffusion Distillation
Вслед за Stable Diffusion 3 мои друзья опуликовали препринт о дистилляции SD3 в 4-шага, сохраняя качество.
Новый метод - Latent Adversarial Diffusion Distillation (LADD), который похож на ADD (был пост про него), но с рядом отличий:
↪️ И учитель и студент тут на архитектуре SD3 на базе трансформеров. Самая большая и самая лучшая модель - 8B параметров.
↪️ Вместо DINOv2 дискриминатора, работающего на RGB пикселях, в этой статье предлагают всеже вернуться к дискриминатору в latent space, чтобы работало быстрее и жрало меньше памяти.
↪️ В качестве дискриминатора берут копию учителя (то есть дискриминатор тренировался не дискриминативно, как в случае DINO, а генеративно). После каждого attention блока добавляют голову дискриминатора с 2D conv слоями, классифицирующую real/fake. Таким образом дискриминатор смотрит не только на финалный результат, но и на все промежуточные фичи, что усиливает тренировочный сигнал.
↪️ Тренят на картинках с разным aspect ratio, а не только на квадратах 1:1.
↪️ Убрали L2 reconstruction loss между выходами Учителя и Студента. Говорят, что тупо дискриминатора достаточно, если умно выбрать распределение семплирования шагов t.
↪️ Во время трейна более часто сеплируют t с большим шумом, чтобы студент лучше учился генерить глобальную структуру объектов.
↪️ Дистиллируют на синтетических данных, которые сгенерил учитель, а не на фото из датасета, как это было в ADD.
Еще из прикольного показали, что DPO-LoRA тюнинг хорошо так добрасывает в качество генераций студента.
Итого, получаем SD3-Turbo модель, которая за 4 шага выдает красивые картинки. Судя по небольшому Human Eval, который авторы провели всего на 128 промптах, по image quality студент сравним с учителем. А вот prompt alignment у студента хромает, что в целом ожидаемо.
Ещё показали, что SD3-Turbo лучше чем Midjourney 6 и по качеству и по prompt alignment, что удивляет🫥 . Ждем веса, чтобы провести reality check!
Статья
@ai_newz
Вслед за Stable Diffusion 3 мои друзья опуликовали препринт о дистилляции SD3 в 4-шага, сохраняя качество.
Новый метод - Latent Adversarial Diffusion Distillation (LADD), который похож на ADD (был пост про него), но с рядом отличий:
Еще из прикольного показали, что DPO-LoRA тюнинг хорошо так добрасывает в качество генераций студента.
Итого, получаем SD3-Turbo модель, которая за 4 шага выдает красивые картинки. Судя по небольшому Human Eval, который авторы провели всего на 128 промптах, по image quality студент сравним с учителем. А вот prompt alignment у студента хромает, что в целом ожидаемо.
Ещё показали, что SD3-Turbo лучше чем Midjourney 6 и по качеству и по prompt alignment, что удивляет
Статья
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👏6👍2
This media is not supported in your browser
VIEW IN TELEGRAM
SwiftBrush v2: Make Your One-step Diffusion Model Better Than Its Teacher
Дистилляция-ускорение диффузии с потерей качества у нас уже есть в разных вариантах.
Держите генерацию картинки за один шаг с качеством, сопоставимым с генерацией оригинальной моделью до дистилляции.
Вообще-то, в заголовке заявлено что у дистилляции по SwiftBrush v2 качество лучше чем у модели-учителя. Но я не понимаю что это такое. Если бы я понимал что это такое...
Кода нет
#optimization #text2image
Дистилляция-ускорение диффузии с потерей качества у нас уже есть в разных вариантах.
Держите генерацию картинки за один шаг с качеством, сопоставимым с генерацией оригинальной моделью до дистилляции.
Вообще-то, в заголовке заявлено что у дистилляции по SwiftBrush v2 качество лучше чем у модели-учителя. Но я не понимаю что это такое. Если бы я понимал что это такое...
Кода нет
#optimization #text2image
HeyGen 5.0
Что нового
- AI Studio 3.0 - плтформа редактирования видео
- Мгновенные аватары - цифровой аватар, который выглядит и звучит точно так же, как вы
- Перевод видео - конвертируйте видео на разные языки, сохраняя при этом голос оригинального диктора и движения губ
- Персонализированные видеоролики
- Аватар для стриминга
#text2video #video2videp #lipsync #talkinghead #humanavatar #translation #speech2speech
Что нового
- AI Studio 3.0 - плтформа редактирования видео
- Мгновенные аватары - цифровой аватар, который выглядит и звучит точно так же, как вы
- Перевод видео - конвертируйте видео на разные языки, сохраняя при этом голос оригинального диктора и движения губ
- Персонализированные видеоролики
- Аватар для стриминга
#text2video #video2videp #lipsync #talkinghead #humanavatar #translation #speech2speech
👍4
ReNoise: Real Image Inversion Through Iterative Noising
Инверсия для редактирования изображений
Код ждем
Демо
#image2image
Инверсия для редактирования изображений
Код ждем
Демо
#image2image
👍6