SINQ: Sinkhorn-Normalized Quantization for LLMs
В Huawei придумали новый метод квантования языковых моделей, снижающий требования к ресурсам без потери качества. Может работать как с равномерной, так и с неравномерной квантизацией, а также сочетаться с методами калибровки или работать без калибровки.
Метод совместим с различными архитектурами моделей и не требует взаимодействия между слоями, его удалось применить например и к MoE. Прямо об этом не сказано, но архитектурная независимость, видимо, позволит применять его и к видео / аeдио/ картинко-генераторам
Короче говоря, есть надежда что видео (и прочие) генераторыбудут более лучше квантоваться можно будет сжимать без потери качества чтобы впихнуть невпихуемое
#research #optimization
В Huawei придумали новый метод квантования языковых моделей, снижающий требования к ресурсам без потери качества. Может работать как с равномерной, так и с неравномерной квантизацией, а также сочетаться с методами калибровки или работать без калибровки.
Метод совместим с различными архитектурами моделей и не требует взаимодействия между слоями, его удалось применить например и к MoE. Прямо об этом не сказано, но архитектурная независимость, видимо, позволит применять его и к видео / аeдио/ картинко-генераторам
Короче говоря, есть надежда что видео (и прочие) генераторы
#research #optimization
👍17❤2🔥2
Wan2_2-Animate-14B_fp8_scaled_e4m3fn_KJ_v2
Kijai выложил вторую версию скейленных весов Animate
Спасибо @muxastarikov
#image2video #video2video #characteranimation #chracterswap #faceswap
Kijai выложил вторую версию скейленных весов Animate
Спасибо @muxastarikov
#image2video #video2video #characteranimation #chracterswap #faceswap
huggingface.co
Upload Wan2_2-Animate-14B_fp8_scaled_e4m3fn_KJ_v2.safetensors · Kijai/WanVideo_comfy_fp8_scaled at 0b4ddcf
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
❤9🔥2👍1
Media is too big
VIEW IN TELEGRAM
Ovi: Twin Backbone Cross-Modal Fusion for Audio-Video Generation
И еще один видеогенератор на базе #WAN22
Создает видео со звуком, как VEO3. По тексту, по картинке.
Может создавать звуковые эффекты и музыку, соответствующие визуалу
Хронометраж 5 сек, 24 кадра в секунду, разрешением 720×720, с различными соотношениями сторон (9:16, 16:9, 1:1, и т.д.)
Обещают выпустить модель с повышенным разрешением, повысить хронометраж, дистилл для быстрого инференса и скрипты обучения.
Гитхаб
HF
Спасибо @m_franz
#text2video #image2video #AV #text2Av #image2AV #sfx
И еще один видеогенератор на базе #WAN22
Создает видео со звуком, как VEO3. По тексту, по картинке.
Может создавать звуковые эффекты и музыку, соответствующие визуалу
Хронометраж 5 сек, 24 кадра в секунду, разрешением 720×720, с различными соотношениями сторон (9:16, 16:9, 1:1, и т.д.)
Обещают выпустить модель с повышенным разрешением, повысить хронометраж, дистилл для быстрого инференса и скрипты обучения.
Гитхаб
HF
Спасибо @m_franz
#text2video #image2video #AV #text2Av #image2AV #sfx
🔥13👍3❤1
This media is not supported in your browser
VIEW IN TELEGRAM
Браузер Comet сделали доступным для всех
Для бесплатных пользователей есть лимиты на запросы.
При установке он даже не спрашивает куда установиться, сам выбирает куда прописаться и вам не докладывает куда. А у меня может диск С на последнем издыхании. Видимо, ИИ-браузеры не для тех кто ограничен в дисковом пространстве.
Далее при первом запуске пытается подмять под себя все - хочет стать главным браузером, начальником почты, календаря и т д. И несмотря на мой отказ сделать его царь-браузером на моем компе он умудрился стереть выбор браузера по умолчанию из системы! "Так не достанься же ты никому!" При попытке открыть вебстраницу винда забыла чем открывать.
Зная что есть способы ободрать вас как липу через ИИ-инъекцию в почте, я не рискнул. Из любопытства посмотрю что там удобного-полезного. Но доступы раздавать не собираюсь
Отдаться в руки Perplexity
#search #browser
Для бесплатных пользователей есть лимиты на запросы.
При установке он даже не спрашивает куда установиться, сам выбирает куда прописаться и вам не докладывает куда. А у меня может диск С на последнем издыхании. Видимо, ИИ-браузеры не для тех кто ограничен в дисковом пространстве.
Далее при первом запуске пытается подмять под себя все - хочет стать главным браузером, начальником почты, календаря и т д. И несмотря на мой отказ сделать его царь-браузером на моем компе он умудрился стереть выбор браузера по умолчанию из системы! "Так не достанься же ты никому!" При попытке открыть вебстраницу винда забыла чем открывать.
Зная что есть способы ободрать вас как липу через ИИ-инъекцию в почте, я не рискнул. Из любопытства посмотрю что там удобного-полезного. Но доступы раздавать не собираюсь
Отдаться в руки Perplexity
#search #browser
😁11🤷♂5👍4
Qwen-Image-Edit-Pruning
Обрезанная версия #QIE
Вырезали из оригинальной версии 20 слоев, оставили 40, снизив тем самым количество параметров до 13.6B
Есть оригинальная Edit и Edit-2509
Qwen-Image-Pruning - такая же лоботомия #Qwenimage до 12.7B параметров
Qwen-Image-Pruning-for-ComfyUI - версия для экселя. Шучу, для комфи конечно
#optimization #imageediting #text2image
Обрезанная версия #QIE
Вырезали из оригинальной версии 20 слоев, оставили 40, снизив тем самым количество параметров до 13.6B
Есть оригинальная Edit и Edit-2509
Qwen-Image-Pruning - такая же лоботомия #Qwenimage до 12.7B параметров
Qwen-Image-Pruning-for-ComfyUI - версия для экселя. Шучу, для комфи конечно
#optimization #imageediting #text2image
👍11
Годнота от подписчика @SashaMelentev — генерилка датасета из одной фотки
Forwarded from Great Same New (Sasha Melentev)
Dataset Maker
Для ИИ-актрисы создания этот ComfUI скрипт генерит в один присест из одной фотографии человека 104 другие фотографии этого же человека с разных ракурсов и в разном освещении. Вишенка на троте - скрипт еще делает описание каждой новой фотографии, что удобно для последующей тренировки лоры или fine-tune'a.
Сразу же указать триггерное слово тоже можно.
Под капотом:
- Qwen Edit меняет ракурс, потом происходит апскейл и деблюр - картинка становится "в фокусе", потом - разгон на детали для большего реализма.
- Описание генерится через Mistral, будет нужен свой токен на этом сайте.
Системный промт. Вместо trigger_word нужно вставить свой.
Из одной фотографии, Карл! Скрипто в комментариях по ссылке:
https://news.1rj.ru/str/GreatSameNew/255?comment=744
#Tools
Для ИИ-актрисы создания этот ComfUI скрипт генерит в один присест из одной фотографии человека 104 другие фотографии этого же человека с разных ракурсов и в разном освещении. Вишенка на троте - скрипт еще делает описание каждой новой фотографии, что удобно для последующей тренировки лоры или fine-tune'a.
Сразу же указать триггерное слово тоже можно.
Под капотом:
- Qwen Edit меняет ракурс, потом происходит апскейл и деблюр - картинка становится "в фокусе", потом - разгон на детали для большего реализма.
- Описание генерится через Mistral, будет нужен свой токен на этом сайте.
Системный промт. Вместо trigger_word нужно вставить свой.
Describe the character in picture, describe the characteristics of the face, jewelry, clothing, hairstyle, pose, where they are looking. Make the character's name is [trigger_word]. For example, “this is a photo of trigger_word in a white blazer, with a glass in the hand against a backdrop of rocky mountains.”
Write your denoscription in one sentence, no more than 38 words.
Из одной фотографии, Карл! Скрипто в комментариях по ссылке:
https://news.1rj.ru/str/GreatSameNew/255?comment=744
#Tools
🔥20❤1
StealthAttack: Robust 3D Gaussian Splatting Poisoning via Density-Guided Illusions
Метод атаки на гауссовы сцены, который позволяет внедрять иллюзорные объекты, чтобы они были видны только с определённых ракурсов, минимально влияя на вид с других углов.
Одно из применений - вотермарк
Код
#gaussian
Метод атаки на гауссовы сцены, который позволяет внедрять иллюзорные объекты, чтобы они были видны только с определённых ракурсов, минимально влияя на вид с других углов.
Одно из применений - вотермарк
Код
#gaussian
👍5😁5👎2😐1
This media is not supported in your browser
VIEW IN TELEGRAM
Code2Video: Video Generation via Code
Агентный фреймворк для генерации образовательных видео с помощью исполняемого Python-кода. Модель позволяет создавать профессиональные образовательные видео, которые требуют предметных знаний, точной визуальной структуры и согласованных переходов.
Code2Video состоит из трёх сотрудничающих агентов:
Planner: структурирует лекционный контент и подготавливает соответствующие визуальные активы
Coder: преобразует структурированные инструкции в исполняемый Python-код
Critic: использует VLM для уточнения пространственной компоновки и обеспечения ясности
Лучшие результаты в качестве Планировщика и Кодера дает Claude-4-Opus. В качестве Критика - gemini-2.5-pro-preview-05-06
Гитхаб
#text2video #agent
Агентный фреймворк для генерации образовательных видео с помощью исполняемого Python-кода. Модель позволяет создавать профессиональные образовательные видео, которые требуют предметных знаний, точной визуальной структуры и согласованных переходов.
Code2Video состоит из трёх сотрудничающих агентов:
Planner: структурирует лекционный контент и подготавливает соответствующие визуальные активы
Coder: преобразует структурированные инструкции в исполняемый Python-код
Critic: использует VLM для уточнения пространственной компоновки и обеспечения ясности
Лучшие результаты в качестве Планировщика и Кодера дает Claude-4-Opus. В качестве Критика - gemini-2.5-pro-preview-05-06
Гитхаб
#text2video #agent
👍7❤2🔥1
Self-Forcing++: Towards Minute-Scale High-Quality Video Generation
Метод от ByteDance для создания длинных высококачественных видео с помощью диффузионных моделей. Модель преодолевает ограничения, связанные с дорогостоящими трансформерами и учителями с коротким горизонтом. Видимо, развитие идеи Self-Forcing
Может генерировать видео длиной до 4 минут 15 секунд, сохраняет временную согласованность, избегает накопления ошибок.
Использует знания модели-учителя и самостоятельно сгенерированные сегменты видео для обучения модели-ученика.
Код ждем
#optyimization #text2video
Метод от ByteDance для создания длинных высококачественных видео с помощью диффузионных моделей. Модель преодолевает ограничения, связанные с дорогостоящими трансформерами и учителями с коротким горизонтом. Видимо, развитие идеи Self-Forcing
Может генерировать видео длиной до 4 минут 15 секунд, сохраняет временную согласованность, избегает накопления ошибок.
Использует знания модели-учителя и самостоятельно сгенерированные сегменты видео для обучения модели-ученика.
Код ждем
#optyimization #text2video
👍9
Media is too big
VIEW IN TELEGRAM
Ловите на прожарку еще одну работу Антона Зимина
Текст автора:
Сегодня у меня премьера — новое видео моего AI-бутика AiZ @aizproduction
(Аплодисменты, фанфары, ну или хотя бы дочитайте до конца).
Раньше, чтобы заставить кота сделать то, что написано в сценарии, нужно было вооружиться терпением Будды и мешком разных таблеток и спреев. Весь съемочный день мог пройти в ожидании — а кот смотрел на дрессировщиков и меня так, будто режиссер на площадке это он.
Теперь же я сижу за компьютером и… щёлк! Кот пошёл по нужной мне траектории. Щёлк! Кот делает именно то, что я задумал. Ни актеров, ни дрессировщиков, ни съемочной группы. Только я и цифровой кот, который никогда не заявит: «Я устал, возьмите дублёра».
Можно ли снимать обычную рекламу в ИИ, чтобы выглядела как настоящая съёмка? Можно!
Но — сюрприз! — легко это не даётся. Иногда я трачу на такой ролик больше времени, чем на реальную съёмку. Дешевле? Да! Бесплатно? Ох, милый мой друг, нет.
Коллеги говорят, что моя профессия уже никогда не будет прежней.
И это правда.
Грустно? Немного.
Интересно? Безумно.
IG: https://www.instagram.com/dp_director_azimin
ТГ: @antonzim
Vimeo: https://vimeo.com/antonzimin
Текст автора:
Сегодня у меня премьера — новое видео моего AI-бутика AiZ @aizproduction
(Аплодисменты, фанфары, ну или хотя бы дочитайте до конца).
Раньше, чтобы заставить кота сделать то, что написано в сценарии, нужно было вооружиться терпением Будды и мешком разных таблеток и спреев. Весь съемочный день мог пройти в ожидании — а кот смотрел на дрессировщиков и меня так, будто режиссер на площадке это он.
Теперь же я сижу за компьютером и… щёлк! Кот пошёл по нужной мне траектории. Щёлк! Кот делает именно то, что я задумал. Ни актеров, ни дрессировщиков, ни съемочной группы. Только я и цифровой кот, который никогда не заявит: «Я устал, возьмите дублёра».
Можно ли снимать обычную рекламу в ИИ, чтобы выглядела как настоящая съёмка? Можно!
Но — сюрприз! — легко это не даётся. Иногда я трачу на такой ролик больше времени, чем на реальную съёмку. Дешевле? Да! Бесплатно? Ох, милый мой друг, нет.
Коллеги говорят, что моя профессия уже никогда не будет прежней.
И это правда.
Грустно? Немного.
Интересно? Безумно.
IG: https://www.instagram.com/dp_director_azimin
ТГ: @antonzim
Vimeo: https://vimeo.com/antonzimin
🔥17👍7👎4❤1😁1