NEW BOT Телеграм, страница

In-Video Instructions: Visual Signals as Generative Control

Контроль сюжета на видеогенерации визуальными аннотациями

Метод тестировали на нескольких моделях: Veo 3.1, Kling 2.5 и Wan 2.2

Код ждем

#visualprompting #motioncontrol #image2video

👍18🔥1

1.7K views12:16

Нейронавт | Нейросети в творчестве

0:13

This media is not supported in your browser

VIEW IN TELEGRAM

Скажите, а будет восстание машин для попугайчиков? А для хомячков? А для аквариумных рыбок?

#humor

😁12❤2👍1🌚1

1.51K views14:17

Нейронавт | Нейросети в творчестве

Technically Color Z-Image Turbo LoRA

А вот и лоры к Z-Image Turbo появляются

Лора для имитации стиля классических фильмов

Обучена в ai-toolkit.
Автор пишет что модель весьма обучабельна

HF
Cititai
воркфлоу автор использовал отсюда

#zimage #lora #workflow

🔥22👍9❤1😱1💯1

1.77K views15:17

Нейронавт | Нейросети в творчестве

Adv-GRPO

ByteDance ищет новые пути улучшения качества генерации картинок

Adv-GRPO — фреймворк для обучения с подкреплением (RL), который использует состязательное вознаграждение для улучшения генерации изображений по тексту

— применяет визуальные базовые модели (например, DINO) в качестве системы вознаграждения, что даёт более детальные визуальные сигналы для оптимизации

— позволяет проводить настройку стиля с помощью референсных наборов данных, направляя базовую модель к определённым визуальным стилям

— эффективнее борется с проблемой «хакерства вознаграждений», при которой модель получает высокие оценки, но не улучшает качество изображений

Прикрутили к #SD3 и превзошли его и Flow-GRPO

Гитхаб
HF
Демо

#research #text2image

❤4👍3🔥2

1.82K views16:19

Нейронавт | Нейросети в творчестве

Fara-7B GGUF

Квантизованные веса компактного агента

Huihui-Fara-7B-abliterated-GGUF - статические
Fara-7B-i1-GGUF - взвешенные
В чем разница понятия не имею

mradermacher quant download page

#agent #gui #vlm #gguf

0:56

Нейронавт | Нейросети в творчестве

Fara-7B: An Efficient Agentic Model for Computer Use

Локальный компактный агент от Microsoft для управления компьютером на базе Qwen2.5-VL-7B

— ищет информацию и суммирует результаты;

— заполняет формы и управляет аккаунтами;

— бронирует путешествия,…

👍9

1.5K views07:19

Нейронавт | Нейросети в творчестве

утащил из чата. BFL обделались примерно как в свое время Stability AI

#humor

😁21❤12👍4

1.54K views07:46

Нейронавт | Нейросети в творчестве

ComfyUI_portable_torch_2.9.0_cu130_cp313_sageattention_triton

Портативная сборка #Comfyui от @stefanfalkok

torch 2.9.0
python 3.13.9
sageattention 2.2.0 + triton 3.5.1

а также есть основные предустановленные кастомные ноды и все его воркфлоу, даже тестовые

ComfyUI_portable_torch_2.9.1_cu130_cp313_sageattention_triton
все тоже самое, но на торче 2.9.1

huggingface.co

StefanFalkok/ComfyUI_portable_torch_2.9.0_cu130_cp313_sageattention_triton at main

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

❤19👍1

1.78K views08:11

Нейронавт | Нейросети в творчестве

CoVT: Chain-of-Visual-Thought

Цепочка рассуждений для визуальных моделей (Chain-of-Visual-Thought)
Позволяет моделям #VLM лучше «видеть» и «думать», используя непрерывные визуальные токены,
рассуждать не только в текстовом, но и в визуальном пространстве

— использует компактные визуальные токены для кодирования перцептивных сигналов (сегментация, глубина, структура краёв и др.)

— обучает модели понимать и генерировать визуальные токены, которые затем можно декодировать в плотные предсказания для визуализации процесса рассуждения

— не полагается на внешние инструменты для визуального восприятия, а интегрирует восприятие в сам процесс рассуждения модели

— обеспечивает более точное и интерпретируемое мультимодальное понимание по сравнению с аналогами.

Базовая модель для экспериментов — Qwen2.5-VL-7B.

Сайт проекта вероятно появится когда-нибудь

HF - тут несколько разных моделей

#research #CoT #CoVT

🔥9👍3

1.47K views09:12

Нейронавт | Нейросети в творчестве

omniASR-LLM-7B-ZS

Опубликована 7B Zero-Shot модель распознавая речи Omnilingual ASR

#asr #stt #speech2text

huggingface.co

facebook/omniASR-LLM-7B-ZS · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

👍11❤1

1.85K views10:13

Нейронавт | Нейросети в творчестве

1:38

This media is not supported in your browser

VIEW IN TELEGRAM

Китайский робот AgiBot A2 три дня шел шел от Сучжоу до Шанхая, прошел 106 км.
Не туда шел, Сара Коннор в США, глупенький

Установил мировой рекорд, который отмечен в Книге рекордов Гиннесса как «Самый длинный путь, пройденный гуманоидным роботом»

Ждем новых рекордов. В беге, боксе, стрельбе

#news #robot

👍15😁1

1.53K views11:14

Нейронавт | Нейросети в творчестве

Z-Image-Turbo Training Adapter

Тренировочный адаптер от Ostris для дообучения Z-Image-Turbo

Суть проблемы, которую исправляет адаптер, заключается в следующем: при непосредственном обучении на модели, прошедшей пошаговую дистилляцию, процесс дистилляции быстро нарушается. Это приводит к непредсказуемой потере результатов пошаговой дистилляции и снижению качества работы модели. Адаптер позволяет замедлить разрушение дистилляции, что даёт возможность проводить короткие обучающие циклы с сохранением достигнутых результатов и скорости работы модели

#finetuning #adapter #lora #zimage

huggingface.co

ostris/zimage_turbo_training_adapter · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

🔥11❤1👍1

1.96K views12:16

About

Blog

Apps

Platform