This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
LongCat-Video-Avatar
Генератор на базе LongCat-Video создаёт реалистичные длительные видеоролики с липсинком и сохранением идентичности персонажа
Генерирует видео на основе аудио и текста или аудио, текста и изображения
Умеет петь, продлять видео, делать мультидиалог, видеоподкасты, продающие видео
Гитхаб
HF
MS
#ati2v #at2v #avatar #longvideo #characteranimation #speech2animation #image2video
Генератор на базе LongCat-Video создаёт реалистичные длительные видеоролики с липсинком и сохранением идентичности персонажа
Генерирует видео на основе аудио и текста или аудио, текста и изображения
Умеет петь, продлять видео, делать мультидиалог, видеоподкасты, продающие видео
Гитхаб
HF
MS
#ati2v #at2v #avatar #longvideo #characteranimation #speech2animation #image2video
🔥13❤2
This media is not supported in your browser
VIEW IN TELEGRAM
Seedance 1.5
Еще одна обновка видеогенератора от ByteDance
Заявлены естественные диалоги и качественный липсинк
Ежедневные бесплатные генерации в СapCut
https://www.capcut.com/tools/seedance-1-5-ai-video-generator
https://dreamina.capcut.com/ai-tool/generate - Model 3.5
#text2video #image2video
Еще одна обновка видеогенератора от ByteDance
Заявлены естественные диалоги и качественный липсинк
Ежедневные бесплатные генерации в СapCut
https://www.capcut.com/tools/seedance-1-5-ai-video-generator
https://dreamina.capcut.com/ai-tool/generate - Model 3.5
#text2video #image2video
👍8😁2
DistillPatch LoRA
Восстанавливает истинную 8-шаговую скорость Turbo для любой LoRA, обученной на Z-Image Turbo
решает проблему ухудшения качества изображений (размытие) при использовании стандартной тренировки LoRA в Z-Image Turbo при параметрах steps=8 и cfg=1
HF
Демо
MS
MS Демо
Гитхаб
#lora #zimage #optimization
Восстанавливает истинную 8-шаговую скорость Turbo для любой LoRA, обученной на Z-Image Turbo
решает проблему ухудшения качества изображений (размытие) при использовании стандартной тренировки LoRA в Z-Image Turbo при параметрах steps=8 и cfg=1
HF
Демо
MS
MS Демо
Гитхаб
#lora #zimage #optimization
🔥9❤1😁1
Media is too big
VIEW IN TELEGRAM
TRELLIS.2
А вот и треллис обновился.
Генератор текстурировапнных PBR 3D моделей по картинке, разрешение до 1536³
4B параметров.
Обрабатывает сложные структуры: открытые поверхности, nonmanifold-геометрию, внутренние структуры
SC-VAE: Sparse Compression VAE - придумали 3D-VAE для сжатия воксельных данных.
Гитхаб
Демо
HF
#imageto3d #pbr
А вот и треллис обновился.
Генератор текстурировапнных PBR 3D моделей по картинке, разрешение до 1536³
4B параметров.
Обрабатывает сложные структуры: открытые поверхности, nonmanifold-геометрию, внутренние структуры
SC-VAE: Sparse Compression VAE - придумали 3D-VAE для сжатия воксельных данных.
Гитхаб
Демо
HF
#imageto3d #pbr
❤6👍5🔥4
EgoX: Egocentric Video Generation from a Single Exocentric Video
Еще одна работа на субъективный вид от первого лица (POV), от KAIST
Превращает видео с видом со стороны в видео от лица одного из персонажей
Лора на базе Wan 2.1 14B i2v
Код ждем
#video2pov #pov #video2video #cameracontrol #lora
Еще одна работа на субъективный вид от первого лица (POV), от KAIST
Превращает видео с видом со стороны в видео от лица одного из персонажей
Лора на базе Wan 2.1 14B i2v
Код ждем
#video2pov #pov #video2video #cameracontrol #lora
🔥4😱2👍1
chatterbox-turbo
Новая версия голосовой модели от Resemble AI, всего 350М параметров
Для естественности можно добавлять паралингвистические теги, например [cough], [laugh], [chuckle]
В аудиофайлы, созданные с помощью Chatterbox, встраиваются незаметные нейронные водяные знаки Perth, которые сохраняются при сжатии MP3, редактировании аудио и других манипуляциях
Ну и главное - есть мультиязычная версия модели на 500М параметров, поддерживающая более 23 языков, в том числе русский
HF
Демо
Демо мультиязычный - спасибо @Black_human
#voicecloning #tts #russian
Новая версия голосовой модели от Resemble AI, всего 350М параметров
Для естественности можно добавлять паралингвистические теги, например [cough], [laugh], [chuckle]
В аудиофайлы, созданные с помощью Chatterbox, встраиваются незаметные нейронные водяные знаки Perth, которые сохраняются при сжатии MP3, редактировании аудио и других манипуляциях
Ну и главное - есть мультиязычная версия модели на 500М параметров, поддерживающая более 23 языков, в том числе русский
HF
Демо
Демо мультиязычный - спасибо @Black_human
#voicecloning #tts #russian
🔥8👍2
Molmo 2: State-of-the-art video understanding, pointing, and tracking
Семейство пониматоров видео и изображений от AI2 (Allen AI)
#SOTA среди открытых моделей
— обгоняет Gemini 3 Pro и другие открытые модели в отслеживании объектов в видео
— поддерживает работу с одиночными изображениями, несколькими изображениями и видеоклипами разной длины
— указывает конкретные события и объекты в видео, а не просто даёт описательные ответы
— выполняет подсчёт объектов с указанием их местоположения, отслеживание нескольких объектов, плотную разметку видео, обнаружение аномалий и артефактов, работает с субтитрами в видео
Molmo 2 (8B) — лучшая общая модель для работы с видео
Molmo 2 (4B) — оптимизирована для эффективности
Эти две модели на базе Qwen 3
Molmo 2-O (7B) — полностью открытая модель с контролем над всеми компонентами
Playground
HF
#vlm #multimodal
Семейство пониматоров видео и изображений от AI2 (Allen AI)
#SOTA среди открытых моделей
— обгоняет Gemini 3 Pro и другие открытые модели в отслеживании объектов в видео
— поддерживает работу с одиночными изображениями, несколькими изображениями и видеоклипами разной длины
— указывает конкретные события и объекты в видео, а не просто даёт описательные ответы
— выполняет подсчёт объектов с указанием их местоположения, отслеживание нескольких объектов, плотную разметку видео, обнаружение аномалий и артефактов, работает с субтитрами в видео
Molmo 2 (8B) — лучшая общая модель для работы с видео
Molmo 2 (4B) — оптимизирована для эффективности
Эти две модели на базе Qwen 3
Molmo 2-O (7B) — полностью открытая модель с контролем над всеми компонентами
Playground
HF
#vlm #multimodal
👍6❤1🔥1
Нейронавт | Нейросети в творчестве
ChatGPT Images Быстрый и точный редактор картинок от Open AI Новый король? посмотрим Пробуем в ChatGPT #imageediting #text2image
Openai
Gpt-image-1.5 Prompting Guide | OpenAI Cookbook
gpt-image-1.5 is our latest image generation model, designed for production-quality visuals and highly controllable creative workflows. I...
👍4👎1
This media is not supported in your browser
VIEW IN TELEGRAM
Music Videos by Mozart AI
Короче вот в чем суть обновки у генератора музыки Mozart AI
Они теперь делают видеоклипы до минуты хронометража
Vibe Sessions — путь от идеи к готовой песне и музыкальному видео в формате чата
Studio Session — среда мультитрек, генерирует стемы и лупы, работает с MIDI-инструментами, эффектами, делает аутпейнтинг и расширения, использует микшер
Ну что ж, суно и удио ушли, на поляне стало просторнее
#music #vusicediting #music2video #musicvideo #midi
Короче вот в чем суть обновки у генератора музыки Mozart AI
Они теперь делают видеоклипы до минуты хронометража
Vibe Sessions — путь от идеи к готовой песне и музыкальному видео в формате чата
Studio Session — среда мультитрек, генерирует стемы и лупы, работает с MIDI-инструментами, эффектами, делает аутпейнтинг и расширения, использует микшер
Ну что ж, суно и удио ушли, на поляне стало просторнее
#music #vusicediting #music2video #musicvideo #midi
👍4🔥3
Gemini 3 Flash: frontier intelligence built for speed
Еще версия иишки от гугла
Мультимодальная модель почти на уровне Gemini 3 Pro но быстрее и дешевле
Тоже понимает картинки и видео, и аудио. Умеет кодить
#news #assistant
Еще версия иишки от гугла
Мультимодальная модель почти на уровне Gemini 3 Pro но быстрее и дешевле
Тоже понимает картинки и видео, и аудио. Умеет кодить
#news #assistant
❤9👍2
SAM Audio
Изолятор источников звука на аудио (или видео со звуком) в реальном времени от Meta (запрещено в РФ)
Принимает три типа подсказок: текстовые, визуальные и временные. Например кликаем на видео на источник звука чтобы выделить его
Умеет изолировать как повседневные шумы так и музыкальные инструменты
Гитхаб
HF - доступ к моделям по запросу, могут не дать
Playground
Блогпост
Спасибо @EvgenyiPerm
#audioseparation #music2stem #demix #unmix #segmentation #denoise #audio2audio #multimodal
Изолятор источников звука на аудио (или видео со звуком) в реальном времени от Meta (запрещено в РФ)
Принимает три типа подсказок: текстовые, визуальные и временные. Например кликаем на видео на источник звука чтобы выделить его
Умеет изолировать как повседневные шумы так и музыкальные инструменты
Гитхаб
HF - доступ к моделям по запросу, могут не дать
Playground
Блогпост
Спасибо @EvgenyiPerm
#audioseparation #music2stem #demix #unmix #segmentation #denoise #audio2audio #multimodal
🔥5👍3🤯2
Media is too big
VIEW IN TELEGRAM
V-RGBX: Video Editing with Accurate Controls over Intrinsic Properties
Комплексный редактор видео от Adobe на базе WAN2.1
Раскладывает видео на базовые компоненты (альбедо, нормали, материалы и освещённость), затем вносит изменения и применяет компоненты обратно.
Можно отредактировать один кадр и применить эти изменения ко всему видео.
Работает с разными задачами: от изменения внешнего вида объектов до переосвещения всей сцены
Код ждем
#videoediting #relighting #compositing #videoinpainting
Комплексный редактор видео от Adobe на базе WAN2.1
Раскладывает видео на базовые компоненты (альбедо, нормали, материалы и освещённость), затем вносит изменения и применяет компоненты обратно.
Можно отредактировать один кадр и применить эти изменения ко всему видео.
Работает с разными задачами: от изменения внешнего вида объектов до переосвещения всей сцены
Код ждем
#videoediting #relighting #compositing #videoinpainting
🔥6
This media is not supported in your browser
VIEW IN TELEGRAM
Qwen Code v0.5.0
Обновлен инструмент для кодинга
— интегрируется с VSCode, имеет улучшенную кросс-платформенную совместимость
— нативный TypeScript SDK для лёгкой интеграции с Node/TS
— автоматически сохраняет сессии и продолжает разговоры
— поддерживает модели рассуждений, совместимые с OpenAI, включая DeepSeek V3.2 и Kimi-K2
— позволяет управлять пользовательскими инструментами через серверы, размещённые на SDK
— имеет поддержку русского языка благодаря добавлению интернационализации
— улучшает пользовательский опыт: можно настроить звуковые уведомления и видеть команды для возобновления сессии
— обеспечивает лучшую поддержку оболочки Ubuntu, ускоряет тайм-ауты SDK и повышает стабильность тестирования.
установка в терминале
Гитхаб
#coding #assistant
Обновлен инструмент для кодинга
— интегрируется с VSCode, имеет улучшенную кросс-платформенную совместимость
— нативный TypeScript SDK для лёгкой интеграции с Node/TS
— автоматически сохраняет сессии и продолжает разговоры
— поддерживает модели рассуждений, совместимые с OpenAI, включая DeepSeek V3.2 и Kimi-K2
— позволяет управлять пользовательскими инструментами через серверы, размещённые на SDK
— имеет поддержку русского языка благодаря добавлению интернационализации
— улучшает пользовательский опыт: можно настроить звуковые уведомления и видеть команды для возобновления сессии
— обеспечивает лучшую поддержку оболочки Ubuntu, ускоряет тайм-ауты SDK и повышает стабильность тестирования.
установка в терминале
npm install -g @qwen-code/qwen-code
Гитхаб
#coding #assistant
👍2🔥2