Нейронавт | Нейросети в творчестве – Telegram
Нейронавт | Нейросети в творчестве
10.6K subscribers
4.45K photos
3.72K videos
41 files
4.76K links
Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus

Заявка на регистрацию в РКН № 6309426111
Download Telegram
TurboSquid: AI 3D Generator

Генерация 3D по тексту/картинке от маркетплейса ассетов.
Заявлен доступ по API.
Киберпанк-кота не смог, зато сетка ниче.

Тест Бендера провален с наихудшим результатом - "низя! авторские права"

Записаться в вейтлист
Демо text-to-3D (утащил здесь)

#textto3D #imageto3D
👍5
This media is not supported in your browser
VIEW IN TELEGRAM
Open-Sora:Sora Replication Solution with 46% Cost Reduction, Sequence Expansion to Nearly a Million

Помните когда появилась Dall-E 2, были попытки воспроизвести ее в опенсорсе?

Настало время опенсорсной Sora.
Веса частично основаны на PixArt-α. 724M параметров. Разрешение 512*512, 2 секунды

Это чем-то лучше других опенсорсных видеогенераторов?

#text2video
🔥4😁4
img2img-turbo: One-Step Image Translation with Text-to-Image Models

редактирование изображений, инференс за один шаг. Эскиз в картинку, день в ночь, изменение погодных условий и т п

Код
Демо эскиз в картинку

#image2image #imageediting #sketch2image #stylization
10👍1
"Мы обновили условия оплаты чатгпт
За все время использования сервиса вы наобещали нейросети 1.37 ляма долларов в качестве награды, взятки, бонуса и т.д. для улучшения результатов. Мы добавим эту сумму к вашему следующему ежемесячному платежу 20 баксов"

#humor #яниначтоненамекаю
😁47😱2👍1👌1
Google открыл бета-доступ к Gemini 1.5 Pro.
Контекстное окно миллион токенов.
Заходите через VPN. Рекомендуют Турцию. У меня сработало через Нидерланды

#assistant
🔥8💯2
This media is not supported in your browser
VIEW IN TELEGRAM
Smooth Diffusion: Crafting Smooth Latent Spaces in Diffusion Models

Плавный переход через латентное пространство в диффузных моделях. Интегрируется как Lora в ваш SD

Полезно для
- интерполяции изображений
- инверсии изображений (объясните кто-нибудь что это такое)
- редактирования изображений

Код
Демо ждем

#image2image #interpolation #imageediting #text2image
👍2😱2🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
SceneScript: an AI model and methodto understand and describe 3D spaces

Реконструкции окружающей среды и представления расположения физических пространств от запрещенной Meta и Reality Labs Research.

SceneScript позволяет устройствам дополненной реальности и искусственного интеллекта понимать геометрию физических пространств

Scene Script использует предсказание следующего токена, как LLM, но вместо естественного языка он использует архитектурные токены.

Скоро в вашем смартфоне?

Блог

#news #AR
🔥3
Suno.ai v3 теперь доступен Всем пользователям

Основные улучшения:
- Высокое качество аудио
- Больше музыкальных стилей и жанров
- Улучшенное следование промпту, меньше ошибок и более логичные концовки треков
- Добавлена технология водяных знаков, которая может определить, создана ли песня в Suno.

Идет работа над v4.

Кидайте ваши песни к коменты

#text2music
🔥10
This media is not supported in your browser
VIEW IN TELEGRAM
Sonauto AI

Нарисовался конкурент Suno. Генератор песен по тексту. Можно добавлять стиль, референс и исполнителя, сделать ремикс. Ну и да, можно делать инструментал.

Я просто попросил песню Бендера с самыми знаменитыми его цитатами.

Го тестить, кидайте музло в коменты

#text2music #music
🔥8👍2
Forwarded from эйай ньюз
⚡️SD3-Turbo: Fast High-Resolution Image Synthesis with Latent Adversarial Diffusion Distillation

Вслед за Stable Diffusion 3 мои друзья опуликовали препринт о дистилляции SD3 в 4-шага, сохраняя качество.

Новый метод - Latent Adversarial Diffusion Distillation (LADD), который похож на ADD (был пост про него), но с рядом отличий:

↪️ И учитель и студент тут на архитектуре SD3 на базе трансформеров. Самая большая и самая лучшая модель - 8B параметров.

↪️ Вместо DINOv2 дискриминатора, работающего на RGB пикселях, в этой статье предлагают всеже вернуться к дискриминатору в latent space, чтобы работало быстрее и жрало меньше памяти.

↪️ В качестве дискриминатора берут копию учителя (то есть дискриминатор тренировался не дискриминативно, как в случае DINO, а генеративно). После каждого attention блока добавляют голову дискриминатора с 2D conv слоями, классифицирующую real/fake. Таким образом дискриминатор смотрит не только на финалный результат, но и на все промежуточные фичи, что усиливает тренировочный сигнал.

↪️ Тренят на картинках с разным aspect ratio, а не только на квадратах 1:1.

↪️Убрали  L2 reconstruction loss между выходами Учителя и Студента. Говорят, что тупо дискриминатора достаточно, если умно выбрать распределение семплирования шагов t.

↪️ Во время трейна более часто сеплируют t с большим шумом, чтобы студент лучше учился генерить глобальную структуру объектов.

↪️ Дистиллируют на синтетических данных, которые сгенерил учитель, а не на фото из датасета, как это было в ADD.

Еще из прикольного показали, что DPO-LoRA тюнинг хорошо так добрасывает в качество генераций студента.

Итого, получаем SD3-Turbo модель, которая за 4 шага выдает красивые картинки. Судя по небольшому Human Eval, который авторы провели всего на 128 промптах, по image quality студент сравним с учителем. А вот prompt alignment у студента хромает, что в целом ожидаемо.

Ещё показали, что SD3-Turbo лучше чем Midjourney 6 и по качеству и по prompt alignment, что удивляет 🫥. Ждем веса, чтобы провести reality check!

Статья

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👏6👍2
This media is not supported in your browser
VIEW IN TELEGRAM
‌SwiftBrush v2: Make Your One-step Diffusion Model Better Than Its Teacher

Дистилляция-ускорение диффузии с потерей качества у нас уже есть в разных вариантах.
Держите генерацию картинки за один шаг с качеством, сопоставимым с генерацией оригинальной моделью до дистилляции.

Вообще-то, в заголовке заявлено что у дистилляции по ‌SwiftBrush v2 качество лучше чем у модели-учителя. Но я не понимаю что это такое. Если бы я понимал что это такое...

Кода нет

#optimization #text2image