DistillPatch LoRA
Восстанавливает истинную 8-шаговую скорость Turbo для любой LoRA, обученной на Z-Image Turbo
решает проблему ухудшения качества изображений (размытие) при использовании стандартной тренировки LoRA в Z-Image Turbo при параметрах steps=8 и cfg=1
HF
Демо
MS
MS Демо
Гитхаб
#lora #zimage #optimization
Восстанавливает истинную 8-шаговую скорость Turbo для любой LoRA, обученной на Z-Image Turbo
решает проблему ухудшения качества изображений (размытие) при использовании стандартной тренировки LoRA в Z-Image Turbo при параметрах steps=8 и cfg=1
HF
Демо
MS
MS Демо
Гитхаб
#lora #zimage #optimization
🔥9❤1😁1
Media is too big
VIEW IN TELEGRAM
TRELLIS.2
А вот и треллис обновился.
Генератор текстурировапнных PBR 3D моделей по картинке, разрешение до 1536³
4B параметров.
Обрабатывает сложные структуры: открытые поверхности, nonmanifold-геометрию, внутренние структуры
SC-VAE: Sparse Compression VAE - придумали 3D-VAE для сжатия воксельных данных.
Гитхаб
Демо
HF
#imageto3d #pbr
А вот и треллис обновился.
Генератор текстурировапнных PBR 3D моделей по картинке, разрешение до 1536³
4B параметров.
Обрабатывает сложные структуры: открытые поверхности, nonmanifold-геометрию, внутренние структуры
SC-VAE: Sparse Compression VAE - придумали 3D-VAE для сжатия воксельных данных.
Гитхаб
Демо
HF
#imageto3d #pbr
❤6👍5🔥4
EgoX: Egocentric Video Generation from a Single Exocentric Video
Еще одна работа на субъективный вид от первого лица (POV), от KAIST
Превращает видео с видом со стороны в видео от лица одного из персонажей
Лора на базе Wan 2.1 14B i2v
Код ждем
#video2pov #pov #video2video #cameracontrol #lora
Еще одна работа на субъективный вид от первого лица (POV), от KAIST
Превращает видео с видом со стороны в видео от лица одного из персонажей
Лора на базе Wan 2.1 14B i2v
Код ждем
#video2pov #pov #video2video #cameracontrol #lora
🔥5😱2👍1
chatterbox-turbo
Новая версия голосовой модели от Resemble AI, всего 350М параметров
Для естественности можно добавлять паралингвистические теги, например [cough], [laugh], [chuckle]
В аудиофайлы, созданные с помощью Chatterbox, встраиваются незаметные нейронные водяные знаки Perth, которые сохраняются при сжатии MP3, редактировании аудио и других манипуляциях
Ну и главное - есть мультиязычная версия модели на 500М параметров, поддерживающая более 23 языков, в том числе русский
HF
Демо
Демо мультиязычный - спасибо @Black_human
#voicecloning #tts #russian
Новая версия голосовой модели от Resemble AI, всего 350М параметров
Для естественности можно добавлять паралингвистические теги, например [cough], [laugh], [chuckle]
В аудиофайлы, созданные с помощью Chatterbox, встраиваются незаметные нейронные водяные знаки Perth, которые сохраняются при сжатии MP3, редактировании аудио и других манипуляциях
Ну и главное - есть мультиязычная версия модели на 500М параметров, поддерживающая более 23 языков, в том числе русский
HF
Демо
Демо мультиязычный - спасибо @Black_human
#voicecloning #tts #russian
🔥8👍2
Molmo 2: State-of-the-art video understanding, pointing, and tracking
Семейство пониматоров видео и изображений от AI2 (Allen AI)
#SOTA среди открытых моделей
— обгоняет Gemini 3 Pro и другие открытые модели в отслеживании объектов в видео
— поддерживает работу с одиночными изображениями, несколькими изображениями и видеоклипами разной длины
— указывает конкретные события и объекты в видео, а не просто даёт описательные ответы
— выполняет подсчёт объектов с указанием их местоположения, отслеживание нескольких объектов, плотную разметку видео, обнаружение аномалий и артефактов, работает с субтитрами в видео
Molmo 2 (8B) — лучшая общая модель для работы с видео
Molmo 2 (4B) — оптимизирована для эффективности
Эти две модели на базе Qwen 3
Molmo 2-O (7B) — полностью открытая модель с контролем над всеми компонентами
Playground
HF
#vlm #multimodal
Семейство пониматоров видео и изображений от AI2 (Allen AI)
#SOTA среди открытых моделей
— обгоняет Gemini 3 Pro и другие открытые модели в отслеживании объектов в видео
— поддерживает работу с одиночными изображениями, несколькими изображениями и видеоклипами разной длины
— указывает конкретные события и объекты в видео, а не просто даёт описательные ответы
— выполняет подсчёт объектов с указанием их местоположения, отслеживание нескольких объектов, плотную разметку видео, обнаружение аномалий и артефактов, работает с субтитрами в видео
Molmo 2 (8B) — лучшая общая модель для работы с видео
Molmo 2 (4B) — оптимизирована для эффективности
Эти две модели на базе Qwen 3
Molmo 2-O (7B) — полностью открытая модель с контролем над всеми компонентами
Playground
HF
#vlm #multimodal
👍6❤1🔥1
Нейронавт | Нейросети в творчестве
ChatGPT Images Быстрый и точный редактор картинок от Open AI Новый король? посмотрим Пробуем в ChatGPT #imageediting #text2image
Openai
Gpt-image-1.5 Prompting Guide | OpenAI Cookbook
gpt-image-1.5 is our latest image generation model, designed for production-quality visuals and highly controllable creative workflows. I...
👍4👎1
This media is not supported in your browser
VIEW IN TELEGRAM
Music Videos by Mozart AI
Короче вот в чем суть обновки у генератора музыки Mozart AI
Они теперь делают видеоклипы до минуты хронометража
Vibe Sessions — путь от идеи к готовой песне и музыкальному видео в формате чата
Studio Session — среда мультитрек, генерирует стемы и лупы, работает с MIDI-инструментами, эффектами, делает аутпейнтинг и расширения, использует микшер
Ну что ж, суно и удио ушли, на поляне стало просторнее
#music #vusicediting #music2video #musicvideo #midi
Короче вот в чем суть обновки у генератора музыки Mozart AI
Они теперь делают видеоклипы до минуты хронометража
Vibe Sessions — путь от идеи к готовой песне и музыкальному видео в формате чата
Studio Session — среда мультитрек, генерирует стемы и лупы, работает с MIDI-инструментами, эффектами, делает аутпейнтинг и расширения, использует микшер
Ну что ж, суно и удио ушли, на поляне стало просторнее
#music #vusicediting #music2video #musicvideo #midi
👍4🔥3
Gemini 3 Flash: frontier intelligence built for speed
Еще версия иишки от гугла
Мультимодальная модель почти на уровне Gemini 3 Pro но быстрее и дешевле
Тоже понимает картинки и видео, и аудио. Умеет кодить
#news #assistant
Еще версия иишки от гугла
Мультимодальная модель почти на уровне Gemini 3 Pro но быстрее и дешевле
Тоже понимает картинки и видео, и аудио. Умеет кодить
#news #assistant
❤9👍2
SAM Audio
Изолятор источников звука на аудио (или видео со звуком) в реальном времени от Meta (запрещено в РФ)
Принимает три типа подсказок: текстовые, визуальные и временные. Например кликаем на видео на источник звука чтобы выделить его
Умеет изолировать как повседневные шумы так и музыкальные инструменты
Гитхаб
HF - доступ к моделям по запросу, могут не дать
Playground
Блогпост
Спасибо @EvgenyiPerm
#audioseparation #music2stem #demix #unmix #segmentation #denoise #audio2audio #multimodal
Изолятор источников звука на аудио (или видео со звуком) в реальном времени от Meta (запрещено в РФ)
Принимает три типа подсказок: текстовые, визуальные и временные. Например кликаем на видео на источник звука чтобы выделить его
Умеет изолировать как повседневные шумы так и музыкальные инструменты
Гитхаб
HF - доступ к моделям по запросу, могут не дать
Playground
Блогпост
Спасибо @EvgenyiPerm
#audioseparation #music2stem #demix #unmix #segmentation #denoise #audio2audio #multimodal
🔥5👍3🤯2
Media is too big
VIEW IN TELEGRAM
V-RGBX: Video Editing with Accurate Controls over Intrinsic Properties
Комплексный редактор видео от Adobe на базе WAN2.1
Раскладывает видео на базовые компоненты (альбедо, нормали, материалы и освещённость), затем вносит изменения и применяет компоненты обратно.
Можно отредактировать один кадр и применить эти изменения ко всему видео.
Работает с разными задачами: от изменения внешнего вида объектов до переосвещения всей сцены
Код ждем
#videoediting #relighting #compositing #videoinpainting
Комплексный редактор видео от Adobe на базе WAN2.1
Раскладывает видео на базовые компоненты (альбедо, нормали, материалы и освещённость), затем вносит изменения и применяет компоненты обратно.
Можно отредактировать один кадр и применить эти изменения ко всему видео.
Работает с разными задачами: от изменения внешнего вида объектов до переосвещения всей сцены
Код ждем
#videoediting #relighting #compositing #videoinpainting
🔥6
This media is not supported in your browser
VIEW IN TELEGRAM
Qwen Code v0.5.0
Обновлен инструмент для кодинга
— интегрируется с VSCode, имеет улучшенную кросс-платформенную совместимость
— нативный TypeScript SDK для лёгкой интеграции с Node/TS
— автоматически сохраняет сессии и продолжает разговоры
— поддерживает модели рассуждений, совместимые с OpenAI, включая DeepSeek V3.2 и Kimi-K2
— позволяет управлять пользовательскими инструментами через серверы, размещённые на SDK
— имеет поддержку русского языка благодаря добавлению интернационализации
— улучшает пользовательский опыт: можно настроить звуковые уведомления и видеть команды для возобновления сессии
— обеспечивает лучшую поддержку оболочки Ubuntu, ускоряет тайм-ауты SDK и повышает стабильность тестирования.
установка в терминале
Гитхаб
#coding #assistant
Обновлен инструмент для кодинга
— интегрируется с VSCode, имеет улучшенную кросс-платформенную совместимость
— нативный TypeScript SDK для лёгкой интеграции с Node/TS
— автоматически сохраняет сессии и продолжает разговоры
— поддерживает модели рассуждений, совместимые с OpenAI, включая DeepSeek V3.2 и Kimi-K2
— позволяет управлять пользовательскими инструментами через серверы, размещённые на SDK
— имеет поддержку русского языка благодаря добавлению интернационализации
— улучшает пользовательский опыт: можно настроить звуковые уведомления и видеть команды для возобновления сессии
— обеспечивает лучшую поддержку оболочки Ubuntu, ускоряет тайм-ауты SDK и повышает стабильность тестирования.
установка в терминале
npm install -g @qwen-code/qwen-code
Гитхаб
#coding #assistant
👍3🔥2
Общение бесценно. На конференции всегда интересно поймать спикера и в кулуарах поспрашивать: «А как там у вас?». Иногда можно наткнуться на подход, о котором даже не думал, а иногда — разговориться и найти родную душу с теми же проблемами 🫂 .
Выбраться на конференцию получается редко, а узнать и поспрашивать про опыт нового человека хотелось бы почаще. Поэтому ребята из DeepSchool сделали канал, в котором ведущим каждую неделю становится новый человек. Каждую неделю: новая область и домен, новые истории и карьерные пути. Уже больше 20 человек рассказало о своём опыте.
Заглядывайте в канал! https://news.1rj.ru/str/+PMVsqTlY1bBlYWUy
#промо
Выбраться на конференцию получается редко, а узнать и поспрашивать про опыт нового человека хотелось бы почаще. Поэтому ребята из DeepSchool сделали канал, в котором ведущим каждую неделю становится новый человек. Каждую неделю: новая область и домен, новые истории и карьерные пути. Уже больше 20 человек рассказало о своём опыте.
Заглядывайте в канал! https://news.1rj.ru/str/+PMVsqTlY1bBlYWUy
#промо
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
DeepSchool / underthehood
Это канал школы deepschool.ru. Каждую неделю ведущим канала становится один из преподавателей или друзей школы. Каждую неделю: новый человек, новая область и домен, новые истории, наблюдения и рекомендации. Поддержка: @deepschool_support