Нейронавт | Нейросети в творчестве – Telegram
Нейронавт | Нейросети в творчестве
10.6K subscribers
4.43K photos
3.71K videos
41 files
4.75K links
Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus

Заявка на регистрацию в РКН № 6309426111
Download Telegram
Technically Color Z-Image Turbo LoRA

А вот и лоры к Z-Image Turbo появляются

Лора для имитации стиля классических фильмов

Обучена в ai-toolkit.
Автор пишет что модель весьма обучабельна

HF
Cititai
воркфлоу автор использовал отсюда

#zimage #lora #workflow
🔥22👍91😱1💯1
Adv-GRPO

ByteDance ищет новые пути улучшения качества генерации картинок

Adv-GRPO — фреймворк для обучения с подкреплением (RL), который использует состязательное вознаграждение для улучшения генерации изображений по тексту

— применяет визуальные базовые модели (например, DINO) в качестве системы вознаграждения, что даёт более детальные визуальные сигналы для оптимизации

— позволяет проводить настройку стиля с помощью референсных наборов данных, направляя базовую модель к определённым визуальным стилям

— эффективнее борется с проблемой «хакерства вознаграждений», при которой модель получает высокие оценки, но не улучшает качество изображений

Прикрутили к #SD3 и превзошли его и Flow-GRPO

Гитхаб
HF
Демо

#research #text2image
4👍3🔥2
утащил из чата. BFL обделались примерно как в свое время Stability AI

#humor
😁2112👍4
ComfyUI_portable_torch_2.9.0_cu130_cp313_sageattention_triton

Портативная сборка #Comfyui от @stefanfalkok

torch 2.9.0
python 3.13.9
sageattention 2.2.0 + triton 3.5.1

а также есть основные предустановленные кастомные ноды и все его воркфлоу, даже тестовые

ComfyUI_portable_torch_2.9.1_cu130_cp313_sageattention_triton
все тоже самое, но на торче 2.9.1
19👍1
CoVT: Chain-of-Visual-Thought

Цепочка рассуждений для визуальных моделей (Chain-of-Visual-Thought)
Позволяет моделям #VLM лучше «видеть» и «думать», используя непрерывные визуальные токены,
рассуждать не только в текстовом, но и в визуальном пространстве

— использует компактные визуальные токены для кодирования перцептивных сигналов (сегментация, глубина, структура краёв и др.)

— обучает модели понимать и генерировать визуальные токены, которые затем можно декодировать в плотные предсказания для визуализации процесса рассуждения

— не полагается на внешние инструменты для визуального восприятия, а интегрирует восприятие в сам процесс рассуждения модели

— обеспечивает более точное и интерпретируемое мультимодальное понимание по сравнению с аналогами.

Базовая модель для экспериментов — Qwen2.5-VL-7B.

Сайт проекта вероятно появится когда-нибудь

HF - тут несколько разных моделей

#research #CoT #CoVT
🔥9👍3
Китайский робот AgiBot A2 три дня шел шел от Сучжоу до Шанхая, прошел 106 км.
Не туда шел, Сара Коннор в США, глупенький

Установил мировой рекорд, который отмечен в Книге рекордов Гиннесса как «Самый длинный путь, пройденный гуманоидным роботом»

Ждем новых рекордов. В беге, боксе, стрельбе

#news #robot
👍15😁1
Z-Image-Turbo Training Adapter

Тренировочный адаптер от Ostris для дообучения Z-Image-Turbo

Суть проблемы, которую исправляет адаптер, заключается в следующем: при непосредственном обучении на модели, прошедшей пошаговую дистилляцию, процесс дистилляции быстро нарушается. Это приводит к непредсказуемой потере результатов пошаговой дистилляции и снижению качества работы модели. Адаптер позволяет замедлить разрушение дистилляции, что даёт возможность проводить короткие обучающие циклы с сохранением достигнутых результатов и скорости работы модели

#finetuning #adapter #lora #zimage
🔥111👍1
This media is not supported in your browser
VIEW IN TELEGRAM
ComfyUI-SAM3DObjects

Пакет кастомных нод SAM 3D Objects , создает 3D меш по одному изображению.

#imageto3d #comfyui
👍9🔥4
Ровно 3 года исполняется сегодня ChatGPT.

Открытки от
1. ChatGPT
2. Nano- Banana Pro
3. Reve
4. Qwen3-MAX
5. Grok

#news
🍌13🍾11👍2