DistillPatch LoRA
Восстанавливает истинную 8-шаговую скорость Turbo для любой LoRA, обученной на Z-Image Turbo
решает проблему ухудшения качества изображений (размытие) при использовании стандартной тренировки LoRA в Z-Image Turbo при параметрах steps=8 и cfg=1
HF
Демо
MS
MS Демо
Гитхаб
#lora #zimage #optimization
Восстанавливает истинную 8-шаговую скорость Turbo для любой LoRA, обученной на Z-Image Turbo
решает проблему ухудшения качества изображений (размытие) при использовании стандартной тренировки LoRA в Z-Image Turbo при параметрах steps=8 и cfg=1
HF
Демо
MS
MS Демо
Гитхаб
#lora #zimage #optimization
🔥9❤1😁1
Media is too big
VIEW IN TELEGRAM
TRELLIS.2
А вот и треллис обновился.
Генератор текстурировапнных PBR 3D моделей по картинке, разрешение до 1536³
4B параметров.
Обрабатывает сложные структуры: открытые поверхности, nonmanifold-геометрию, внутренние структуры
SC-VAE: Sparse Compression VAE - придумали 3D-VAE для сжатия воксельных данных.
Гитхаб
Демо
HF
#imageto3d #pbr
А вот и треллис обновился.
Генератор текстурировапнных PBR 3D моделей по картинке, разрешение до 1536³
4B параметров.
Обрабатывает сложные структуры: открытые поверхности, nonmanifold-геометрию, внутренние структуры
SC-VAE: Sparse Compression VAE - придумали 3D-VAE для сжатия воксельных данных.
Гитхаб
Демо
HF
#imageto3d #pbr
❤6👍5🔥4
EgoX: Egocentric Video Generation from a Single Exocentric Video
Еще одна работа на субъективный вид от первого лица (POV), от KAIST
Превращает видео с видом со стороны в видео от лица одного из персонажей
Лора на базе Wan 2.1 14B i2v
Код ждем
#video2pov #pov #video2video #cameracontrol #lora
Еще одна работа на субъективный вид от первого лица (POV), от KAIST
Превращает видео с видом со стороны в видео от лица одного из персонажей
Лора на базе Wan 2.1 14B i2v
Код ждем
#video2pov #pov #video2video #cameracontrol #lora
🔥5😱2👍1
chatterbox-turbo
Новая версия голосовой модели от Resemble AI, всего 350М параметров
Для естественности можно добавлять паралингвистические теги, например [cough], [laugh], [chuckle]
В аудиофайлы, созданные с помощью Chatterbox, встраиваются незаметные нейронные водяные знаки Perth, которые сохраняются при сжатии MP3, редактировании аудио и других манипуляциях
Ну и главное - есть мультиязычная версия модели на 500М параметров, поддерживающая более 23 языков, в том числе русский
HF
Демо
Демо мультиязычный - спасибо @Black_human
#voicecloning #tts #russian
Новая версия голосовой модели от Resemble AI, всего 350М параметров
Для естественности можно добавлять паралингвистические теги, например [cough], [laugh], [chuckle]
В аудиофайлы, созданные с помощью Chatterbox, встраиваются незаметные нейронные водяные знаки Perth, которые сохраняются при сжатии MP3, редактировании аудио и других манипуляциях
Ну и главное - есть мультиязычная версия модели на 500М параметров, поддерживающая более 23 языков, в том числе русский
HF
Демо
Демо мультиязычный - спасибо @Black_human
#voicecloning #tts #russian
🔥8👍2
Molmo 2: State-of-the-art video understanding, pointing, and tracking
Семейство пониматоров видео и изображений от AI2 (Allen AI)
#SOTA среди открытых моделей
— обгоняет Gemini 3 Pro и другие открытые модели в отслеживании объектов в видео
— поддерживает работу с одиночными изображениями, несколькими изображениями и видеоклипами разной длины
— указывает конкретные события и объекты в видео, а не просто даёт описательные ответы
— выполняет подсчёт объектов с указанием их местоположения, отслеживание нескольких объектов, плотную разметку видео, обнаружение аномалий и артефактов, работает с субтитрами в видео
Molmo 2 (8B) — лучшая общая модель для работы с видео
Molmo 2 (4B) — оптимизирована для эффективности
Эти две модели на базе Qwen 3
Molmo 2-O (7B) — полностью открытая модель с контролем над всеми компонентами
Playground
HF
#vlm #multimodal
Семейство пониматоров видео и изображений от AI2 (Allen AI)
#SOTA среди открытых моделей
— обгоняет Gemini 3 Pro и другие открытые модели в отслеживании объектов в видео
— поддерживает работу с одиночными изображениями, несколькими изображениями и видеоклипами разной длины
— указывает конкретные события и объекты в видео, а не просто даёт описательные ответы
— выполняет подсчёт объектов с указанием их местоположения, отслеживание нескольких объектов, плотную разметку видео, обнаружение аномалий и артефактов, работает с субтитрами в видео
Molmo 2 (8B) — лучшая общая модель для работы с видео
Molmo 2 (4B) — оптимизирована для эффективности
Эти две модели на базе Qwen 3
Molmo 2-O (7B) — полностью открытая модель с контролем над всеми компонентами
Playground
HF
#vlm #multimodal
👍6❤1🔥1
Нейронавт | Нейросети в творчестве
ChatGPT Images Быстрый и точный редактор картинок от Open AI Новый король? посмотрим Пробуем в ChatGPT #imageediting #text2image
Openai
Gpt-image-1.5 Prompting Guide | OpenAI Cookbook
gpt-image-1.5 is our latest image generation model, designed for production-quality visuals and highly controllable creative workflows. I...
👍4👎1
This media is not supported in your browser
VIEW IN TELEGRAM
Music Videos by Mozart AI
Короче вот в чем суть обновки у генератора музыки Mozart AI
Они теперь делают видеоклипы до минуты хронометража
Vibe Sessions — путь от идеи к готовой песне и музыкальному видео в формате чата
Studio Session — среда мультитрек, генерирует стемы и лупы, работает с MIDI-инструментами, эффектами, делает аутпейнтинг и расширения, использует микшер
Ну что ж, суно и удио ушли, на поляне стало просторнее
#music #vusicediting #music2video #musicvideo #midi
Короче вот в чем суть обновки у генератора музыки Mozart AI
Они теперь делают видеоклипы до минуты хронометража
Vibe Sessions — путь от идеи к готовой песне и музыкальному видео в формате чата
Studio Session — среда мультитрек, генерирует стемы и лупы, работает с MIDI-инструментами, эффектами, делает аутпейнтинг и расширения, использует микшер
Ну что ж, суно и удио ушли, на поляне стало просторнее
#music #vusicediting #music2video #musicvideo #midi
👍5🔥3
Gemini 3 Flash: frontier intelligence built for speed
Еще версия иишки от гугла
Мультимодальная модель почти на уровне Gemini 3 Pro но быстрее и дешевле
Тоже понимает картинки и видео, и аудио. Умеет кодить
#news #assistant
Еще версия иишки от гугла
Мультимодальная модель почти на уровне Gemini 3 Pro но быстрее и дешевле
Тоже понимает картинки и видео, и аудио. Умеет кодить
#news #assistant
❤9👍2
SAM Audio
Изолятор источников звука на аудио (или видео со звуком) в реальном времени от Meta (запрещено в РФ)
Принимает три типа подсказок: текстовые, визуальные и временные. Например кликаем на видео на источник звука чтобы выделить его
Умеет изолировать как повседневные шумы так и музыкальные инструменты
Гитхаб
HF - доступ к моделям по запросу, могут не дать
Playground
Блогпост
Спасибо @EvgenyiPerm
#audioseparation #music2stem #demix #unmix #segmentation #denoise #audio2audio #multimodal
Изолятор источников звука на аудио (или видео со звуком) в реальном времени от Meta (запрещено в РФ)
Принимает три типа подсказок: текстовые, визуальные и временные. Например кликаем на видео на источник звука чтобы выделить его
Умеет изолировать как повседневные шумы так и музыкальные инструменты
Гитхаб
HF - доступ к моделям по запросу, могут не дать
Playground
Блогпост
Спасибо @EvgenyiPerm
#audioseparation #music2stem #demix #unmix #segmentation #denoise #audio2audio #multimodal
🔥6👍4🤯2
Media is too big
VIEW IN TELEGRAM
V-RGBX: Video Editing with Accurate Controls over Intrinsic Properties
Комплексный редактор видео от Adobe на базе WAN2.1
Раскладывает видео на базовые компоненты (альбедо, нормали, материалы и освещённость), затем вносит изменения и применяет компоненты обратно.
Можно отредактировать один кадр и применить эти изменения ко всему видео.
Работает с разными задачами: от изменения внешнего вида объектов до переосвещения всей сцены
Код ждем
#videoediting #relighting #compositing #videoinpainting
Комплексный редактор видео от Adobe на базе WAN2.1
Раскладывает видео на базовые компоненты (альбедо, нормали, материалы и освещённость), затем вносит изменения и применяет компоненты обратно.
Можно отредактировать один кадр и применить эти изменения ко всему видео.
Работает с разными задачами: от изменения внешнего вида объектов до переосвещения всей сцены
Код ждем
#videoediting #relighting #compositing #videoinpainting
🔥6👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Qwen Code v0.5.0
Обновлен инструмент для кодинга
— интегрируется с VSCode, имеет улучшенную кросс-платформенную совместимость
— нативный TypeScript SDK для лёгкой интеграции с Node/TS
— автоматически сохраняет сессии и продолжает разговоры
— поддерживает модели рассуждений, совместимые с OpenAI, включая DeepSeek V3.2 и Kimi-K2
— позволяет управлять пользовательскими инструментами через серверы, размещённые на SDK
— имеет поддержку русского языка благодаря добавлению интернационализации
— улучшает пользовательский опыт: можно настроить звуковые уведомления и видеть команды для возобновления сессии
— обеспечивает лучшую поддержку оболочки Ubuntu, ускоряет тайм-ауты SDK и повышает стабильность тестирования.
установка в терминале
Гитхаб
#coding #assistant
Обновлен инструмент для кодинга
— интегрируется с VSCode, имеет улучшенную кросс-платформенную совместимость
— нативный TypeScript SDK для лёгкой интеграции с Node/TS
— автоматически сохраняет сессии и продолжает разговоры
— поддерживает модели рассуждений, совместимые с OpenAI, включая DeepSeek V3.2 и Kimi-K2
— позволяет управлять пользовательскими инструментами через серверы, размещённые на SDK
— имеет поддержку русского языка благодаря добавлению интернационализации
— улучшает пользовательский опыт: можно настроить звуковые уведомления и видеть команды для возобновления сессии
— обеспечивает лучшую поддержку оболочки Ubuntu, ускоряет тайм-ауты SDK и повышает стабильность тестирования.
установка в терминале
npm install -g @qwen-code/qwen-code
Гитхаб
#coding #assistant
👍4🔥2
Общение бесценно. На конференции всегда интересно поймать спикера и в кулуарах поспрашивать: «А как там у вас?». Иногда можно наткнуться на подход, о котором даже не думал, а иногда — разговориться и найти родную душу с теми же проблемами 🫂 .
Выбраться на конференцию получается редко, а узнать и поспрашивать про опыт нового человека хотелось бы почаще. Поэтому ребята из DeepSchool сделали канал, в котором ведущим каждую неделю становится новый человек. Каждую неделю: новая область и домен, новые истории и карьерные пути. Уже больше 20 человек рассказало о своём опыте.
Заглядывайте в канал! https://news.1rj.ru/str/+PMVsqTlY1bBlYWUy
#промо
Выбраться на конференцию получается редко, а узнать и поспрашивать про опыт нового человека хотелось бы почаще. Поэтому ребята из DeepSchool сделали канал, в котором ведущим каждую неделю становится новый человек. Каждую неделю: новая область и домен, новые истории и карьерные пути. Уже больше 20 человек рассказало о своём опыте.
Заглядывайте в канал! https://news.1rj.ru/str/+PMVsqTlY1bBlYWUy
#промо
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
DeepSchool / underthehood
Это канал школы deepschool.ru. Каждую неделю ведущим канала становится один из преподавателей или друзей школы. Каждую неделю: новый человек, новая область и домен, новые истории, наблюдения и рекомендации. Поддержка: @deepschool_support
👍3
TurboDiffusion
Ускорение диффузной видеогенерации в 100 раз
Заменили стандартный механизм внимания на микс из SageAttention2++ и Sparse-Linear Attention
Плюс, дистиллировали до 4 шагов.
На такой архитектуре сделали 3 модельки WAN 2.1 T2V и одну WAB 2.2 I2V
И пишут что это еще нефинальные
Теперь заживем
Гитхаб
HF
#text2video #image2video #optimization
Ускорение диффузной видеогенерации в 100 раз
Заменили стандартный механизм внимания на микс из SageAttention2++ и Sparse-Linear Attention
Плюс, дистиллировали до 4 шагов.
На такой архитектуре сделали 3 модельки WAN 2.1 T2V и одну WAB 2.2 I2V
И пишут что это еще нефинальные
Теперь заживем
Гитхаб
HF
#text2video #image2video #optimization
🤯4🔥3😱2👍1🍾1
ComfyUI обновил менеджер и прикрутил упрощенный интерфейс для скрытия структуры, лапши и вот этого всего
ComfyUI-Manager:
— может показывать подробную информацию о нодах до их установки, включая предварительный просмотр каждого узла в пакете
— устанавливает все недостающие узлы сразу, без необходимости делать это по одному
— обнаруживает конфликты зависимостей между пользовательскими узлами и показывает их с помощью визуальных индикаторов
— сканирует узлы и блокирует вредоносные, предупреждает пользователей о возможных угрозах
— ищет пользовательские узлы по названию пакета или имени отдельного узла
— поддерживает полную локализацию интерфейса
#comfyUI #news
ComfyUI-Manager:
— может показывать подробную информацию о нодах до их установки, включая предварительный просмотр каждого узла в пакете
— устанавливает все недостающие узлы сразу, без необходимости делать это по одному
— обнаруживает конфликты зависимостей между пользовательскими узлами и показывает их с помощью визуальных индикаторов
— сканирует узлы и блокирует вредоносные, предупреждает пользователей о возможных угрозах
— ищет пользовательские узлы по названию пакета или имени отдельного узла
— поддерживает полную локализацию интерфейса
#comfyUI #news
❤3