NEW BOT Телеграм, страница

Open-Sora：Sora Replication Solution with 46% Cost Reduction, Sequence Expansion to Nearly a Million

Помните когда появилась Dall-E 2, были попытки воспроизвести ее в опенсорсе?

Настало время опенсорсной Sora.
Веса частично основаны на PixArt-α. 724M параметров. Разрешение 512*512, 2 секунды

Это чем-то лучше других опенсорсных видеогенераторов?

#text2video

🔥4😁4

1.6K views11:09

0:09

0:06

FRESCO: SPATIAL-TEMPORAL CORRESPONDENCE FOR ZERO-SHOT VIDEO TRANSLATION

Видео в видео без дообучения от авторов Rerender A Video
Совместим с Controlnet, LoRa

Код

#video2video

👍11

1.86K views06:15

0:26

img2img-turbo: One-Step Image Translation with Text-to-Image Models

редактирование изображений, инференс за один шаг. Эскиз в картинку, день в ночь, изменение погодных условий и т п

Код
Демо эскиз в картинку

#image2image #imageediting #sketch2image #stylization

❤10👍1

1.77K views07:18

"Мы обновили условия оплаты чатгпт
За все время использования сервиса вы наобещали нейросети 1.37 ляма долларов в качестве награды, взятки, бонуса и т.д. для улучшения результатов. Мы добавим эту сумму к вашему следующему ежемесячному платежу 20 баксов"

#humor #яниначтоненамекаю

😁47😱2👍1👌1

3.49K views08:40

Google открыл бета-доступ к Gemini 1.5 Pro.
Контекстное окно миллион токенов.
Заходите через VPN. Рекомендуют Турцию. У меня сработало через Нидерланды

#assistant

🔥8💯2

2.31K viewsedited 13:48

Smooth Diffusion: Crafting Smooth Latent Spaces in Diffusion Models

Плавный переход через латентное пространство в диффузных моделях. Интегрируется как Lora в ваш SD

Полезно для
- интерполяции изображений
- инверсии изображений (объясните кто-нибудь что это такое)
- редактирования изображений

Код
Демо ждем

#image2image #interpolation #imageediting #text2image

👍2😱2🔥1

1.91K viewsedited 07:58

0:45

SceneScript: an AI model and methodto understand and describe 3D spaces

Реконструкции окружающей среды и представления расположения физических пространств от запрещенной Meta и Reality Labs Research.

SceneScript позволяет устройствам дополненной реальности и искусственного интеллекта понимать геометрию физических пространств

Scene Script использует предсказание следующего токена, как LLM, но вместо естественного языка он использует архитектурные токены.

Скоро в вашем смартфоне?

Блог

#news #AR

🔥3

1.68K views10:22

Suno.ai v3 теперь доступен Всем пользователям

Основные улучшения:
- Высокое качество аудио
- Больше музыкальных стилей и жанров
- Улучшенное следование промпту, меньше ошибок и более логичные концовки треков
- Добавлена технология водяных знаков, которая может определить, создана ли песня в Suno.

Идет работа над v4.

Кидайте ваши песни к коменты

#text2music

🔥10

3.17K views11:33

1:41

Sonauto AI

Нарисовался конкурент Suno. Генератор песен по тексту. Можно добавлять стиль, референс и исполнителя, сделать ремикс. Ну и да, можно делать инструментал.

Я просто попросил песню Бендера с самыми знаменитыми его цитатами.

Го тестить, кидайте музло в коменты

#text2music #music

🔥8👍2

9.43K viewsedited 13:52

Forwarded from эйай ньюз

⚡️SD3-Turbo: Fast High-Resolution Image Synthesis with Latent Adversarial Diffusion Distillation

Вслед за Stable Diffusion 3 мои друзья опуликовали препринт о дистилляции SD3 в 4-шага, сохраняя качество.

Новый метод - Latent Adversarial Diffusion Distillation (LADD), который похож на ADD (был пост про него), но с рядом отличий:

↪️ И учитель и студент тут на архитектуре SD3 на базе трансформеров. Самая большая и самая лучшая модель - 8B параметров.

↪️ Вместо DINOv2 дискриминатора, работающего на RGB пикселях, в этой статье предлагают всеже вернуться к дискриминатору в latent space, чтобы работало быстрее и жрало меньше памяти.

↪️ В качестве дискриминатора берут копию учителя (то есть дискриминатор тренировался не дискриминативно, как в случае DINO, а генеративно). После каждого attention блока добавляют голову дискриминатора с 2D conv слоями, классифицирующую real/fake. Таким образом дискриминатор смотрит не только на финалный результат, но и на все промежуточные фичи, что усиливает тренировочный сигнал.

↪️ Тренят на картинках с разным aspect ratio, а не только на квадратах 1:1.

↪️Убрали L2 reconstruction loss между выходами Учителя и Студента. Говорят, что тупо дискриминатора достаточно, если умно выбрать распределение семплирования шагов t.

↪️ Во время трейна более часто сеплируют t с большим шумом, чтобы студент лучше учился генерить глобальную структуру объектов.

↪️ Дистиллируют на синтетических данных, которые сгенерил учитель, а не на фото из датасета, как это было в ADD.

Еще из прикольного показали, что DPO-LoRA тюнинг хорошо так добрасывает в качество генераций студента.

Итого, получаем SD3-Turbo модель, которая за 4 шага выдает красивые картинки. Судя по небольшому Human Eval, который авторы провели всего на 128 промптах, по image quality студент сравним с учителем. А вот prompt alignment у студента хромает, что в целом ожидаемо.

Ещё показали, что SD3-Turbo лучше чем Midjourney 6 и по качеству и по prompt alignment, что удивляет 🫥. Ждем веса, чтобы провести reality check!

Статья

@ai_newz

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👏6👍2

1.35K views15:41

2:08