StealthAttack: Robust 3D Gaussian Splatting Poisoning via Density-Guided Illusions
Метод атаки на гауссовы сцены, который позволяет внедрять иллюзорные объекты, чтобы они были видны только с определённых ракурсов, минимально влияя на вид с других углов.
Одно из применений - вотермарк
Код
#gaussian
Метод атаки на гауссовы сцены, который позволяет внедрять иллюзорные объекты, чтобы они были видны только с определённых ракурсов, минимально влияя на вид с других углов.
Одно из применений - вотермарк
Код
#gaussian
👍5😁5👎2😐1
This media is not supported in your browser
VIEW IN TELEGRAM
Code2Video: Video Generation via Code
Агентный фреймворк для генерации образовательных видео с помощью исполняемого Python-кода. Модель позволяет создавать профессиональные образовательные видео, которые требуют предметных знаний, точной визуальной структуры и согласованных переходов.
Code2Video состоит из трёх сотрудничающих агентов:
Planner: структурирует лекционный контент и подготавливает соответствующие визуальные активы
Coder: преобразует структурированные инструкции в исполняемый Python-код
Critic: использует VLM для уточнения пространственной компоновки и обеспечения ясности
Лучшие результаты в качестве Планировщика и Кодера дает Claude-4-Opus. В качестве Критика - gemini-2.5-pro-preview-05-06
Гитхаб
#text2video #agent
Агентный фреймворк для генерации образовательных видео с помощью исполняемого Python-кода. Модель позволяет создавать профессиональные образовательные видео, которые требуют предметных знаний, точной визуальной структуры и согласованных переходов.
Code2Video состоит из трёх сотрудничающих агентов:
Planner: структурирует лекционный контент и подготавливает соответствующие визуальные активы
Coder: преобразует структурированные инструкции в исполняемый Python-код
Critic: использует VLM для уточнения пространственной компоновки и обеспечения ясности
Лучшие результаты в качестве Планировщика и Кодера дает Claude-4-Opus. В качестве Критика - gemini-2.5-pro-preview-05-06
Гитхаб
#text2video #agent
👍7❤2🔥1
Self-Forcing++: Towards Minute-Scale High-Quality Video Generation
Метод от ByteDance для создания длинных высококачественных видео с помощью диффузионных моделей. Модель преодолевает ограничения, связанные с дорогостоящими трансформерами и учителями с коротким горизонтом. Видимо, развитие идеи Self-Forcing
Может генерировать видео длиной до 4 минут 15 секунд, сохраняет временную согласованность, избегает накопления ошибок.
Использует знания модели-учителя и самостоятельно сгенерированные сегменты видео для обучения модели-ученика.
Код ждем
#optyimization #text2video
Метод от ByteDance для создания длинных высококачественных видео с помощью диффузионных моделей. Модель преодолевает ограничения, связанные с дорогостоящими трансформерами и учителями с коротким горизонтом. Видимо, развитие идеи Self-Forcing
Может генерировать видео длиной до 4 минут 15 секунд, сохраняет временную согласованность, избегает накопления ошибок.
Использует знания модели-учителя и самостоятельно сгенерированные сегменты видео для обучения модели-ученика.
Код ждем
#optyimization #text2video
👍9
Media is too big
VIEW IN TELEGRAM
Ловите на прожарку еще одну работу Антона Зимина
Текст автора:
Сегодня у меня премьера — новое видео моего AI-бутика AiZ @aizproduction
(Аплодисменты, фанфары, ну или хотя бы дочитайте до конца).
Раньше, чтобы заставить кота сделать то, что написано в сценарии, нужно было вооружиться терпением Будды и мешком разных таблеток и спреев. Весь съемочный день мог пройти в ожидании — а кот смотрел на дрессировщиков и меня так, будто режиссер на площадке это он.
Теперь же я сижу за компьютером и… щёлк! Кот пошёл по нужной мне траектории. Щёлк! Кот делает именно то, что я задумал. Ни актеров, ни дрессировщиков, ни съемочной группы. Только я и цифровой кот, который никогда не заявит: «Я устал, возьмите дублёра».
Можно ли снимать обычную рекламу в ИИ, чтобы выглядела как настоящая съёмка? Можно!
Но — сюрприз! — легко это не даётся. Иногда я трачу на такой ролик больше времени, чем на реальную съёмку. Дешевле? Да! Бесплатно? Ох, милый мой друг, нет.
Коллеги говорят, что моя профессия уже никогда не будет прежней.
И это правда.
Грустно? Немного.
Интересно? Безумно.
IG: https://www.instagram.com/dp_director_azimin
ТГ: @antonzim
Vimeo: https://vimeo.com/antonzimin
Текст автора:
Сегодня у меня премьера — новое видео моего AI-бутика AiZ @aizproduction
(Аплодисменты, фанфары, ну или хотя бы дочитайте до конца).
Раньше, чтобы заставить кота сделать то, что написано в сценарии, нужно было вооружиться терпением Будды и мешком разных таблеток и спреев. Весь съемочный день мог пройти в ожидании — а кот смотрел на дрессировщиков и меня так, будто режиссер на площадке это он.
Теперь же я сижу за компьютером и… щёлк! Кот пошёл по нужной мне траектории. Щёлк! Кот делает именно то, что я задумал. Ни актеров, ни дрессировщиков, ни съемочной группы. Только я и цифровой кот, который никогда не заявит: «Я устал, возьмите дублёра».
Можно ли снимать обычную рекламу в ИИ, чтобы выглядела как настоящая съёмка? Можно!
Но — сюрприз! — легко это не даётся. Иногда я трачу на такой ролик больше времени, чем на реальную съёмку. Дешевле? Да! Бесплатно? Ох, милый мой друг, нет.
Коллеги говорят, что моя профессия уже никогда не будет прежней.
И это правда.
Грустно? Немного.
Интересно? Безумно.
IG: https://www.instagram.com/dp_director_azimin
ТГ: @antonzim
Vimeo: https://vimeo.com/antonzimin
🔥17👍7👎4❤1😁1
ReconViaGen: Towards Accurate Multi-view 3D Object Reconstruction via Generation
Реконструкция 3D по нескольким видам
Код ждем
Демо
Спасибо @Dmitriy_Ru6ts0v
#image2scene #imageto3d #videoto3d #video2scene
Реконструкция 3D по нескольким видам
Код ждем
Демо
Спасибо @Dmitriy_Ru6ts0v
#image2scene #imageto3d #videoto3d #video2scene
👍7
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
DC-VideoGen: Efficient Video Generation with Deep Compression Video Autoencoder
Ускорятор предобученных видеогенераторов. Позволяет повысить эффективность предварительно обученных моделей за счёт адаптации к пространству глубокой компрессии с лёгкой доработкой
Достигает сжатия в 32–64 раза в пространственном и в 4 раза во временном измерении, сохраняя качество реконструкции и возможность работы с более длинными видео
Для адаптации предварительно подготовленной модели Wan-2.1-14B к DC-VideoGen на графическом процессоре NVIDIA H100 требуется 10 дней — получаем снижение задержки вывода до 14,8 раз по сравнению с базовым Wan-2.1-14B
Один H100 может выдавать видео с разрешением до 2160x3840
Код и Веса ждем после юридического ревью
Спасибо @m_franz
#text2video #image2video #optimization
Ускорятор предобученных видеогенераторов. Позволяет повысить эффективность предварительно обученных моделей за счёт адаптации к пространству глубокой компрессии с лёгкой доработкой
Достигает сжатия в 32–64 раза в пространственном и в 4 раза во временном измерении, сохраняя качество реконструкции и возможность работы с более длинными видео
Для адаптации предварительно подготовленной модели Wan-2.1-14B к DC-VideoGen на графическом процессоре NVIDIA H100 требуется 10 дней — получаем снижение задержки вывода до 14,8 раз по сравнению с базовым Wan-2.1-14B
'без потери качества'Один H100 может выдавать видео с разрешением до 2160x3840
Код и Веса ждем после юридического ревью
Спасибо @m_franz
#text2video #image2video #optimization
🔥13😱6❤2🤔1
Image to Video Generator with Ovi
Демоспейс видеогенератора со звуком Ovi
Поскольку он навайбкоженный, работает криво. Там нужна дополнительная авторизация и она может глючить. В этом случае попробуйте другой браузер
#text2video #image2video #AV #text2Av #image2AV #sfx
Демоспейс видеогенератора со звуком Ovi
Поскольку он навайбкоженный, работает криво. Там нужна дополнительная авторизация и она может глючить. В этом случае попробуйте другой браузер
#text2video #image2video #AV #text2Av #image2AV #sfx
huggingface.co
Ovi - a Hugging Face Space by akhaliq
Upload an image and provide a text prompt describing the desired motion to create a synchronized video with audio. The app uses AI to bring your image to life.
👍4🔥1😁1
Qwen3-VL-30B-A3B-Instruct & Thinking
Qwen выпустил младшую версию Qwen3-VL на 30B параметров из которых только 3B активные.
При этом конкурирует с GPT-5-Mini и Claude4-Sonnet, а в некоторых случаях превосходит их.
Есть Выпущена FP8 (в том числе и для Qwen3-VL-235B-A22B)
Код
Демо
HF
Чат
API
#VLM #OCR #assistant #reasoning #video2text #image2text #chat
Qwen выпустил младшую версию Qwen3-VL на 30B параметров из которых только 3B активные.
При этом конкурирует с GPT-5-Mini и Claude4-Sonnet, а в некоторых случаях превосходит их.
Есть Выпущена FP8 (в том числе и для Qwen3-VL-235B-A22B)
Код
Демо
HF
Чат
API
#VLM #OCR #assistant #reasoning #video2text #image2text #chat
👍7😱3
MusicGPT
Сервис генерации / редактирования музыки и звука, в том числе речи
Похоже что можно использовать известные голоса и треки просто указывая их в промпте
Не знаю сколько сейчас дают кредитов на старте, я давно зарегался, тогда выдали 500. За одну генерацию забрали 100. Негусто учитывая что бесплатного тарифа нет. Да еще за скачивание берут 50 кредитов(mp3 можно сграбить из браузера бесплатно)
Сами понимаете - не разгуляешься тестить. Мой скоропалительный вердикт: музыку делает плохую (закину в комменты). Мало того что скучную, так еще и с фальшивыми нотами и звучит как секвенсер дешевых сэмплов. Так что сразу указывайте интересный референс.
Тестовый трек закину в комменты. Также можете заценить монолог идущего к реке в исполнении Моргана Фримена и Фредди Меркьюри. Промпт писал на русском
Просто пишешь в промпте "Голос Фредди Меркюри говорит на чистом русском языке ..."
Русские голоса или знает мало или не знает. Отказался говорить голосом Кроша, Всеволода Кузнецова, Сергея Чонишвили по причине что не нашел их в базе.
#musicediting #text2music #tts #text2audio
Сервис генерации / редактирования музыки и звука, в том числе речи
Похоже что можно использовать известные голоса и треки просто указывая их в промпте
Не знаю сколько сейчас дают кредитов на старте, я давно зарегался, тогда выдали 500. За одну генерацию забрали 100. Негусто учитывая что бесплатного тарифа нет. Да еще за скачивание берут 50 кредитов
Сами понимаете - не разгуляешься тестить. Мой скоропалительный вердикт: музыку делает плохую (закину в комменты). Мало того что скучную, так еще и с фальшивыми нотами и звучит как секвенсер дешевых сэмплов. Так что сразу указывайте интересный референс.
Тестовый трек закину в комменты. Также можете заценить монолог идущего к реке в исполнении Моргана Фримена и Фредди Меркьюри. Промпт писал на русском
Просто пишешь в промпте "Голос Фредди Меркюри говорит на чистом русском языке ..."
Русские голоса или знает мало или не знает. Отказался говорить голосом Кроша, Всеволода Кузнецова, Сергея Чонишвили по причине что не нашел их в базе.
#musicediting #text2music #tts #text2audio
Musicgpt
MusicGPT - AI Music and Sound Generator
Create music, instrumentals, beats, vocals, sounds, soundcapes with AI. World’s best. Edit files with AI. AI Voice Changer. AI Stem Splitter. AI Audio Enhancements
❤5👍3🤔1
NeuTTS Air
Говорилка текста с возможностью мгновенного клонирования голоса на 0.7B параметров. Предназначена для локального использования на различных устройствах, "отличается реалистичностью звучания"
Построена на базе языковой модели Qwen 0.5B и использует собственный аудиокодек NeuCodec для высокого качества звука при низком битрейте
Генерирует речь в реальном времени на устройствах среднего уровня
Клонирует голос, используя всего 3 секунды аудио
Но боюсь, владеет только английским, монолог идущего к реке закину в комменты
GGUF Q8 и Q4
Гитхаб
Демо
#tts #text2speech #voicecloning #mobile #realtime
Говорилка текста с возможностью мгновенного клонирования голоса на 0.7B параметров. Предназначена для локального использования на различных устройствах, "отличается реалистичностью звучания"
Построена на базе языковой модели Qwen 0.5B и использует собственный аудиокодек NeuCodec для высокого качества звука при низком битрейте
Генерирует речь в реальном времени на устройствах среднего уровня
Клонирует голос, используя всего 3 секунды аудио
Но боюсь, владеет только английским, монолог идущего к реке закину в комменты
GGUF Q8 и Q4
Гитхаб
Демо
#tts #text2speech #voicecloning #mobile #realtime
👍10🔥3👀3
This media is not supported in your browser
VIEW IN TELEGRAM
Chaplin
Визуальное распознавание речи (VSR), инструмент считывает движения губ в режиме реального времени и переводит в текст
Работает полностью локально.
#VSR #video2text #lipreading #realtime
Визуальное распознавание речи (VSR), инструмент считывает движения губ в режиме реального времени и переводит в текст
Работает полностью локально.
#VSR #video2text #lipreading #realtime
🔥14👍4😱4🥴1
Media is too big
VIEW IN TELEGRAM
ControlHair: Physically-based Video Diffusion for Controllable Dynamic Hair Rendering
Управляемый рендер динамических волос с использованием физически обоснованной видеодиффузии. Модель позволяет контролировать движение волос с помощью сигналов, генерируемых физическим симулятором
Сначала создает покадровую симуляцию с заданными исходными (направление ветра, жесткость волос, движение человека и т п), потом заворачивает ее с заданным ракурсом камеры в управляющий контролнет, а контролнет отдает видеогенератору.
Прикручено к модифицированному Wan 2.1
Код ждем
#simulation #controlnet #conditioning #image2video
Управляемый рендер динамических волос с использованием физически обоснованной видеодиффузии. Модель позволяет контролировать движение волос с помощью сигналов, генерируемых физическим симулятором
Сначала создает покадровую симуляцию с заданными исходными (направление ветра, жесткость волос, движение человека и т п), потом заворачивает ее с заданным ракурсом камеры в управляющий контролнет, а контролнет отдает видеогенератору.
Прикручено к модифицированному Wan 2.1
Код ждем
#simulation #controlnet #conditioning #image2video
🔥8👍2