Нейронавт | Нейросети в творчестве – Telegram
Нейронавт | Нейросети в творчестве
10.6K subscribers
4.45K photos
3.71K videos
41 files
4.76K links
Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus

Заявка на регистрацию в РКН № 6309426111
Download Telegram
"Мы обновили условия оплаты чатгпт
За все время использования сервиса вы наобещали нейросети 1.37 ляма долларов в качестве награды, взятки, бонуса и т.д. для улучшения результатов. Мы добавим эту сумму к вашему следующему ежемесячному платежу 20 баксов"

#humor #яниначтоненамекаю
😁47😱2👍1👌1
Google открыл бета-доступ к Gemini 1.5 Pro.
Контекстное окно миллион токенов.
Заходите через VPN. Рекомендуют Турцию. У меня сработало через Нидерланды

#assistant
🔥8💯2
This media is not supported in your browser
VIEW IN TELEGRAM
Smooth Diffusion: Crafting Smooth Latent Spaces in Diffusion Models

Плавный переход через латентное пространство в диффузных моделях. Интегрируется как Lora в ваш SD

Полезно для
- интерполяции изображений
- инверсии изображений (объясните кто-нибудь что это такое)
- редактирования изображений

Код
Демо ждем

#image2image #interpolation #imageediting #text2image
👍2😱2🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
SceneScript: an AI model and methodto understand and describe 3D spaces

Реконструкции окружающей среды и представления расположения физических пространств от запрещенной Meta и Reality Labs Research.

SceneScript позволяет устройствам дополненной реальности и искусственного интеллекта понимать геометрию физических пространств

Scene Script использует предсказание следующего токена, как LLM, но вместо естественного языка он использует архитектурные токены.

Скоро в вашем смартфоне?

Блог

#news #AR
🔥3
Suno.ai v3 теперь доступен Всем пользователям

Основные улучшения:
- Высокое качество аудио
- Больше музыкальных стилей и жанров
- Улучшенное следование промпту, меньше ошибок и более логичные концовки треков
- Добавлена технология водяных знаков, которая может определить, создана ли песня в Suno.

Идет работа над v4.

Кидайте ваши песни к коменты

#text2music
🔥10
This media is not supported in your browser
VIEW IN TELEGRAM
Sonauto AI

Нарисовался конкурент Suno. Генератор песен по тексту. Можно добавлять стиль, референс и исполнителя, сделать ремикс. Ну и да, можно делать инструментал.

Я просто попросил песню Бендера с самыми знаменитыми его цитатами.

Го тестить, кидайте музло в коменты

#text2music #music
🔥8👍2
Forwarded from эйай ньюз
⚡️SD3-Turbo: Fast High-Resolution Image Synthesis with Latent Adversarial Diffusion Distillation

Вслед за Stable Diffusion 3 мои друзья опуликовали препринт о дистилляции SD3 в 4-шага, сохраняя качество.

Новый метод - Latent Adversarial Diffusion Distillation (LADD), который похож на ADD (был пост про него), но с рядом отличий:

↪️ И учитель и студент тут на архитектуре SD3 на базе трансформеров. Самая большая и самая лучшая модель - 8B параметров.

↪️ Вместо DINOv2 дискриминатора, работающего на RGB пикселях, в этой статье предлагают всеже вернуться к дискриминатору в latent space, чтобы работало быстрее и жрало меньше памяти.

↪️ В качестве дискриминатора берут копию учителя (то есть дискриминатор тренировался не дискриминативно, как в случае DINO, а генеративно). После каждого attention блока добавляют голову дискриминатора с 2D conv слоями, классифицирующую real/fake. Таким образом дискриминатор смотрит не только на финалный результат, но и на все промежуточные фичи, что усиливает тренировочный сигнал.

↪️ Тренят на картинках с разным aspect ratio, а не только на квадратах 1:1.

↪️Убрали  L2 reconstruction loss между выходами Учителя и Студента. Говорят, что тупо дискриминатора достаточно, если умно выбрать распределение семплирования шагов t.

↪️ Во время трейна более часто сеплируют t с большим шумом, чтобы студент лучше учился генерить глобальную структуру объектов.

↪️ Дистиллируют на синтетических данных, которые сгенерил учитель, а не на фото из датасета, как это было в ADD.

Еще из прикольного показали, что DPO-LoRA тюнинг хорошо так добрасывает в качество генераций студента.

Итого, получаем SD3-Turbo модель, которая за 4 шага выдает красивые картинки. Судя по небольшому Human Eval, который авторы провели всего на 128 промптах, по image quality студент сравним с учителем. А вот prompt alignment у студента хромает, что в целом ожидаемо.

Ещё показали, что SD3-Turbo лучше чем Midjourney 6 и по качеству и по prompt alignment, что удивляет 🫥. Ждем веса, чтобы провести reality check!

Статья

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👏6👍2
This media is not supported in your browser
VIEW IN TELEGRAM
‌SwiftBrush v2: Make Your One-step Diffusion Model Better Than Its Teacher

Дистилляция-ускорение диффузии с потерей качества у нас уже есть в разных вариантах.
Держите генерацию картинки за один шаг с качеством, сопоставимым с генерацией оригинальной моделью до дистилляции.

Вообще-то, в заголовке заявлено что у дистилляции по ‌SwiftBrush v2 качество лучше чем у модели-учителя. Но я не понимаю что это такое. Если бы я понимал что это такое...

Кода нет

#optimization #text2image
Сегодня без постов
31😭8💯7🤡4👍1
HeyGen 5.0

Что нового
- AI Studio 3.0 - плтформа редактирования видео
- Мгновенные аватары - цифровой аватар, который выглядит и звучит точно так же, как вы
- Перевод видео - конвертируйте видео на разные языки, сохраняя при этом голос оригинального диктора и движения губ
- Персонализированные видеоролики
- Аватар для стриминга

#text2video #video2videp #lipsync #talkinghead #humanavatar #translation #speech2speech
👍4
ReNoise: Real Image Inversion Through Iterative Noising

Инверсия для редактирования изображений

Код ждем
Демо

#image2image
👍6
Media is too big
VIEW IN TELEGRAM
Viggle

Контроль персонажа на видео - замена персонажа, анимация изображения

Попробовать в дискорде

#image2video #video2video #personalization
🔥9
Media is too big
VIEW IN TELEGRAM
One-step Diffusion with
Distribution Matching Distillation


Еще один метод ускорения генерации изображений от MIT и Adobe. Генерация за один шаг и 0.09 сек против 2.5 сек и 50 шагов в обычном SD

Кода нет

#text2image #optimization
🔥14👍1
AnyV2V: A Plug-and-Play Framework For Any Video-to-Video Editing Tasks

Редактирование видео по образцу, по текстовым указаниям, перенос стиля, персонализация

Работает это все пока только на A100, и чтобы попробовать на своих видео нужно менять конфиги:
template.yaml
group_config.json
- @monkeyinlaw

Код
Демо
Колаб

#video2video #personalization #videoediting #styletransfer
🔥4🥴2👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Stable Code Instruct 3B

Stability AI выкатили инженерную LLM, затюненную на инструкциях, на основе Stable Code 3B.

Умеет писать код, умеет в математику, умеет выполнять другие софт-инженерные задачи.

Бьет CodeLlama 7B Instruct и сопоставим с StarChat 15B

Доступно для коммерческого использования

Веса

#coding #llm
👍101👎1👏1
Sora: First Impressions

OpenAI опубликовали работы и первые впечатления избранных представителей творческих профессий от Sora

#news
🔥17