Нейронавт | Нейросети в творчестве – Telegram
Нейронавт | Нейросети в творчестве
10.6K subscribers
4.43K photos
3.7K videos
41 files
4.75K links
Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus

Заявка на регистрацию в РКН № 6309426111
Download Telegram
Fara-7B: An Efficient Agentic Model for Computer Use

Локальный компактный агент от Microsoft для управления компьютером на базе Qwen2.5-VL-7B

— ищет информацию и суммирует результаты;

— заполняет формы и управляет аккаунтами;

— бронирует путешествия, билеты в кино и рестораны;

— занимается шопингом и сравнивает цены в разных магазинах;

— находит объявления о работе и недвижимость.

Гитхаб
HF

#agent #gui #vlm
1👍81
This media is not supported in your browser
VIEW IN TELEGRAM
Скажите, а будет восстание машин для попугайчиков? А для хомячков? А для аквариумных рыбок?

#humor
😁122👍1🌚1
Technically Color Z-Image Turbo LoRA

А вот и лоры к Z-Image Turbo появляются

Лора для имитации стиля классических фильмов

Обучена в ai-toolkit.
Автор пишет что модель весьма обучабельна

HF
Cititai
воркфлоу автор использовал отсюда

#zimage #lora #workflow
🔥22👍91😱1💯1
Adv-GRPO

ByteDance ищет новые пути улучшения качества генерации картинок

Adv-GRPO — фреймворк для обучения с подкреплением (RL), который использует состязательное вознаграждение для улучшения генерации изображений по тексту

— применяет визуальные базовые модели (например, DINO) в качестве системы вознаграждения, что даёт более детальные визуальные сигналы для оптимизации

— позволяет проводить настройку стиля с помощью референсных наборов данных, направляя базовую модель к определённым визуальным стилям

— эффективнее борется с проблемой «хакерства вознаграждений», при которой модель получает высокие оценки, но не улучшает качество изображений

Прикрутили к #SD3 и превзошли его и Flow-GRPO

Гитхаб
HF
Демо

#research #text2image
4👍3🔥2
утащил из чата. BFL обделались примерно как в свое время Stability AI

#humor
😁2112👍4
ComfyUI_portable_torch_2.9.0_cu130_cp313_sageattention_triton

Портативная сборка #Comfyui от @stefanfalkok

torch 2.9.0
python 3.13.9
sageattention 2.2.0 + triton 3.5.1

а также есть основные предустановленные кастомные ноды и все его воркфлоу, даже тестовые

ComfyUI_portable_torch_2.9.1_cu130_cp313_sageattention_triton
все тоже самое, но на торче 2.9.1
19👍1
CoVT: Chain-of-Visual-Thought

Цепочка рассуждений для визуальных моделей (Chain-of-Visual-Thought)
Позволяет моделям #VLM лучше «видеть» и «думать», используя непрерывные визуальные токены,
рассуждать не только в текстовом, но и в визуальном пространстве

— использует компактные визуальные токены для кодирования перцептивных сигналов (сегментация, глубина, структура краёв и др.)

— обучает модели понимать и генерировать визуальные токены, которые затем можно декодировать в плотные предсказания для визуализации процесса рассуждения

— не полагается на внешние инструменты для визуального восприятия, а интегрирует восприятие в сам процесс рассуждения модели

— обеспечивает более точное и интерпретируемое мультимодальное понимание по сравнению с аналогами.

Базовая модель для экспериментов — Qwen2.5-VL-7B.

Сайт проекта вероятно появится когда-нибудь

HF - тут несколько разных моделей

#research #CoT #CoVT
🔥9👍3