Нейронавт | Нейросети в творчестве – Telegram
Нейронавт | Нейросети в творчестве
10.7K subscribers
4.5K photos
3.8K videos
41 files
4.82K links
Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus

Заявка на регистрацию в РКН № 6309426111
Download Telegram
DistillPatch LoRA

Восстанавливает истинную 8-шаговую скорость Turbo для любой LoRA, обученной на Z-Image Turbo

решает проблему ухудшения качества изображений (размытие) при использовании стандартной тренировки LoRA в Z-Image Turbo при параметрах steps=8 и cfg=1

HF
Демо
MS
MS Демо
Гитхаб

#lora #zimage #optimization
🔥91😁1
Media is too big
VIEW IN TELEGRAM
TRELLIS.2

А вот и треллис обновился.

Генератор текстурировапнных PBR 3D моделей по картинке, разрешение до 1536³

4B параметров.
Обрабатывает сложные структуры: открытые поверхности, nonmanifold-геометрию, внутренние структуры

SC-VAE: Sparse Compression VAE - придумали 3D-VAE для сжатия воксельных данных.

Гитхаб
Демо
HF

#imageto3d #pbr
6👍5🔥4
EgoX: Egocentric Video Generation from a Single Exocentric Video

Еще одна работа на субъективный вид от первого лица (POV), от KAIST

Превращает видео с видом со стороны в видео от лица одного из персонажей

Лора на базе Wan 2.1 14B i2v

Код ждем

#video2pov #pov #video2video #cameracontrol #lora
🔥5😱2👍1
chatterbox-turbo

Новая версия голосовой модели от Resemble AI, всего 350М параметров

Для естественности можно добавлять паралингвистические теги, например [cough], [laugh], [chuckle]

В аудиофайлы, созданные с помощью Chatterbox, встраиваются незаметные нейронные водяные знаки Perth, которые сохраняются при сжатии MP3, редактировании аудио и других манипуляциях

Ну и главное - есть мультиязычная версия модели на 500М параметров, поддерживающая более 23 языков, в том числе русский

HF
Демо
Демо мультиязычный - спасибо @Black_human

#voicecloning #tts #russian
🔥8👍2
Molmo 2: State-of-the-art video understanding, pointing, and tracking

Семейство пониматоров видео и изображений от AI2 (Allen AI)

#SOTA среди открытых моделей

— обгоняет Gemini 3 Pro и другие открытые модели в отслеживании объектов в видео

— поддерживает работу с одиночными изображениями, несколькими изображениями и видеоклипами разной длины

— указывает конкретные события и объекты в видео, а не просто даёт описательные ответы

— выполняет подсчёт объектов с указанием их местоположения, отслеживание нескольких объектов, плотную разметку видео, обнаружение аномалий и артефактов, работает с субтитрами в видео

Molmo 2 (8B) — лучшая общая модель для работы с видео
Molmo 2 (4B) — оптимизирована для эффективности

Эти две модели на базе Qwen 3

Molmo 2-O (7B) — полностью открытая модель с контролем над всеми компонентами

Playground
HF

#vlm #multimodal
👍61🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Music Videos by Mozart AI

Короче вот в чем суть обновки у генератора музыки Mozart AI

Они теперь делают видеоклипы до минуты хронометража

Vibe Sessions — путь от идеи к готовой песне и музыкальному видео в формате чата

Studio Session — среда мультитрек, генерирует стемы и лупы, работает с MIDI-инструментами, эффектами, делает аутпейнтинг и расширения, использует микшер

Ну что ж, суно и удио ушли, на поляне стало просторнее

#music #vusicediting #music2video #musicvideo #midi
👍4🔥3
Gemini 3 Flash: frontier intelligence built for speed

Еще версия иишки от гугла

Мультимодальная модель почти на уровне Gemini 3 Pro но быстрее и дешевле

Тоже понимает картинки и видео, и аудио. Умеет кодить

#news #assistant
9👍2
SAM Audio

Изолятор источников звука на аудио (или видео со звуком) в реальном времени от Meta (запрещено в РФ)

Принимает три типа подсказок: текстовые, визуальные и временные. Например кликаем на видео на источник звука чтобы выделить его

Умеет изолировать как повседневные шумы так и музыкальные инструменты

Гитхаб
HF - доступ к моделям по запросу, могут не дать
Playground
Блогпост

Спасибо @EvgenyiPerm

#audioseparation #music2stem #demix #unmix #segmentation #denoise #audio2audio #multimodal
🔥5👍3🤯2
Media is too big
VIEW IN TELEGRAM
V-RGBX: Video Editing with Accurate Controls over Intrinsic Properties

Комплексный редактор видео от Adobe на базе WAN2.1

Раскладывает видео на базовые компоненты (альбедо, нормали, материалы и освещённость), затем вносит изменения и применяет компоненты обратно.

Можно отредактировать один кадр и применить эти изменения ко всему видео.

Работает с разными задачами: от изменения внешнего вида объектов до переосвещения всей сцены

Код ждем

#videoediting #relighting #compositing #videoinpainting
🔥6
This media is not supported in your browser
VIEW IN TELEGRAM
Qwen Code v0.5.0

Обновлен инструмент для кодинга

— интегрируется с VSCode, имеет улучшенную кросс-платформенную совместимость

— нативный TypeScript SDK для лёгкой интеграции с Node/TS

— автоматически сохраняет сессии и продолжает разговоры

— поддерживает модели рассуждений, совместимые с OpenAI, включая DeepSeek V3.2 и Kimi-K2

— позволяет управлять пользовательскими инструментами через серверы, размещённые на SDK

— имеет поддержку русского языка благодаря добавлению интернационализации

— улучшает пользовательский опыт: можно настроить звуковые уведомления и видеть команды для возобновления сессии

— обеспечивает лучшую поддержку оболочки Ubuntu, ускоряет тайм-ауты SDK и повышает стабильность тестирования.

установка в терминале
npm install -g @qwen-code/qwen-code


Гитхаб

#coding #assistant
👍3🔥2
Общение бесценно. На конференции всегда интересно поймать спикера и в кулуарах поспрашивать: «А как там у вас?». Иногда можно наткнуться на подход, о котором даже не думал, а иногда — разговориться и найти родную душу с теми же проблемами 🫂.

Выбраться на конференцию получается редко, а узнать и поспрашивать про опыт нового человека хотелось бы почаще. Поэтому ребята из DeepSchool сделали канал, в котором ведущим каждую неделю становится новый человек. Каждую неделю: новая область и домен, новые истории и карьерные пути. Уже больше 20 человек рассказало о своём опыте.

Заглядывайте в канал! https://news.1rj.ru/str/+PMVsqTlY1bBlYWUy

#промо
Please open Telegram to view this post
VIEW IN TELEGRAM