Derp Learning – Telegram
Derp Learning
13.1K subscribers
3.16K photos
912 videos
9 files
1.32K links
Используем ИИ строго не по назначению.
Заметки про ИИ, IT, компьютерные игры, и всякие инженерные интересности.
Download Telegram
В нейронке PixVerse появился фильтр, который превращает фотографии в видео, где вас обнимает Иисус.

Пользователи начали тестировать его на своих питомцах, татуировках и прочих вещах. Получилось максимально проклято.

Тоже можете попробовать. Там несколько генераций бесплатно
r/#aivideo
🤣33
Forwarded from NANDrei Panferov
😁22
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
This media is not supported in your browser
VIEW IN TELEGRAM
DiffusionRenderer: Neural Inverse and Forward Rendering with Video Diffusion Models

Вот прям хорошая работа от канадской Нвидии, оставшаяся незамеченной.

Прежде всего для композа.

Спойлер: кода нет, композера своего у Нвидии нет, так что это все скорее всего для их Omniverse.

Но красиво, обратный рендер получает на входе видос, вытаскивает оттуда глубину и пытается восстановить 3Д-объекты (трекинг?), причем даже с материалами.
А прямой рендер после этого, может перегенерить картинку с:
1. новым освещением
2. другим материалом на объекте
3. и даже вставить новый (свой, 3д из блендора) объект в эту "сцену", то есть в исходное видео.

Прям композкомпоз.

https://research.nvidia.com/labs/toronto-ai/DiffusionRenderer/

@cgevent
👍91
Forwarded from Neural Shit
Да ты же просто робот, имитация жизни. Разве робот сможет написать симфонию, сделать шедевр?
😁43🤣15🔥4
Forwarded from black_samorez
Претренить нужно в INT4

Выпустили статью где задизайнили новый способ обучения в низкой битности: QuEST. Если вкратце, аккуратно оптимизировали как производить округление на forward и как пропускать через него градиенты на backward. И это и для весов, и для активаций.

Результаты. Обнаружили, что самым оптимальным по трейдоффу качества претрена/скорости инференса из всех типов данных является INT4. Кроме того, модель даже стабильно обучается в W1A1, то есть и веса и активации и матричное умножение в bool. И это на гиперпараметрах (оптимайзер, lr, decay) таких же как BF16: гиперпараметры не надо тюнить отдельно.

Scaling laws. Затестили, что перформанс консистентен на моделях от 30M до 800M параметров. Квантизация дает очень предсказуемые изменения в лоссе и предсказуемо скалируется.

Код, текст. Статья доступна как преринт на arXiv. Код выложен на github: любой может воспроизвести претрены. Для этих экспериментов достаточно всего одной ноды с 8xH100!

Нынче выходит много работ по квантизации LLMок, но чтобы и веса, и активации и претрен - не так много.
👍16
Валентинки через Glif

Теперь каждый глиф стоит по-разному, но на старте вам дают 30 кредитов бесплатно и так же они ежедневно пополняются. А я подготовил для вас Глифы для Валентинок!

💰 В среднем 1 генерация в моих глифах тратит ~8 кредитов
💰 Оригинальный Glif — ~5 кредитов

Готовые глифы для Валентинок:
Оригинальный Glif — откуда я взял идею, генерирует картинку + милый текст через Sonnet. Из минусов — вотермарка.

Мой вариант. 2:3 размерность (1200x1600px) — Идеален для печати!
НО! Есть особенность сделал его с разделением промпта для Clip L и T5XXL.
Мне помогает вот этот промпт для любой LLM: Create prompts based on text for Clip L and T5XXL. Text: [Ваше описание или картинка]
Если не хочется заморачиваться с промптами для Clip L и T5XXL, просто вставьте одинаковый текст в оба поля.

Вариант с возможностью референс картинки. Добавил Redux туда.

HF Lora — для тех кто хочет локально погенерить

— Я распечатал эти открытки на акварельной бумаге, и они выглядят как настоящая пастель!
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10🤡71😱1
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
HunyuanVideo GP. GP = GPU POOR

Для гиков. Форк Хуньяня, который работает на картах с 12 Гиг VRAM.

https://github.com/deepbeepmeep/HunyuanVideoGP
🔥16
This media is not supported in your browser
VIEW IN TELEGRAM
Step-Video-T2V - opensource 30b text2video model (MIT)

What are you doing, StepFun?
Китайцы в очередной раз упоролись риса и выкатили в опенсорс здоровенную модель text2video.

Генерит до 544px992px204кадров, жрет 80gb VRAM, любит партию и вождя - все как мы любим.
Лицензия при этом MIT на код и модели (хотя веса и попахивают hunuyan)

hunuyan в девичестве генерил 720px1280px129f за 60gb VRAM, затем народные умельцы усмирили его аппетиты до 12gb - HunyuanVideoGP: Large Video Generation for the GPU Poor
Так что ждем gpu poor версию и погнали!

github
paper
model
demo (из поднебесной)

@derplearning
🔥9🫡1