NEW BOT Телеграм, страница

Fara-7B: An Efficient Agentic Model for Computer Use

Локальный компактный агент от Microsoft для управления компьютером на базе Qwen2.5-VL-7B

— ищет информацию и суммирует результаты;

— заполняет формы и управляет аккаунтами;

— бронирует путешествия, билеты в кино и рестораны;

— занимается шопингом и сравнивает цены в разных магазинах;

— находит объявления о работе и недвижимость.

Гитхаб
HF

#agent #gui #vlm

1👍8❤1

1.89K views11:14

Нейронавт | Нейросети в творчестве

#humor

😁11❤2💯2👍1

1.63K views11:46

Нейронавт | Нейросети в творчестве

0:08

This media is not supported in your browser

VIEW IN TELEGRAM

0:08

This media is not supported in your browser

VIEW IN TELEGRAM

0:08

This media is not supported in your browser

VIEW IN TELEGRAM

0:08

This media is not supported in your browser

VIEW IN TELEGRAM

In-Video Instructions: Visual Signals as Generative Control

Контроль сюжета на видеогенерации визуальными аннотациями

Метод тестировали на нескольких моделях: Veo 3.1, Kling 2.5 и Wan 2.2

Код ждем

#visualprompting #motioncontrol #image2video

👍18🔥1

1.7K views12:16

Нейронавт | Нейросети в творчестве

0:13

This media is not supported in your browser

VIEW IN TELEGRAM

Скажите, а будет восстание машин для попугайчиков? А для хомячков? А для аквариумных рыбок?

#humor

😁12❤2👍1🌚1

1.52K views14:17

Нейронавт | Нейросети в творчестве

Technically Color Z-Image Turbo LoRA

А вот и лоры к Z-Image Turbo появляются

Лора для имитации стиля классических фильмов

Обучена в ai-toolkit.
Автор пишет что модель весьма обучабельна

HF
Cititai
воркфлоу автор использовал отсюда

#zimage #lora #workflow

🔥22👍9❤1😱1💯1

1.77K views15:17

Нейронавт | Нейросети в творчестве

Adv-GRPO

ByteDance ищет новые пути улучшения качества генерации картинок

Adv-GRPO — фреймворк для обучения с подкреплением (RL), который использует состязательное вознаграждение для улучшения генерации изображений по тексту

— применяет визуальные базовые модели (например, DINO) в качестве системы вознаграждения, что даёт более детальные визуальные сигналы для оптимизации

— позволяет проводить настройку стиля с помощью референсных наборов данных, направляя базовую модель к определённым визуальным стилям

— эффективнее борется с проблемой «хакерства вознаграждений», при которой модель получает высокие оценки, но не улучшает качество изображений

Прикрутили к #SD3 и превзошли его и Flow-GRPO

Гитхаб
HF
Демо

#research #text2image

❤4👍3🔥2

1.82K views16:19

Нейронавт | Нейросети в творчестве

Fara-7B GGUF

Квантизованные веса компактного агента

Huihui-Fara-7B-abliterated-GGUF - статические
Fara-7B-i1-GGUF - взвешенные
В чем разница понятия не имею

mradermacher quant download page

#agent #gui #vlm #gguf

0:56

Нейронавт | Нейросети в творчестве

👍9

1.5K views07:19

Нейронавт | Нейросети в творчестве

утащил из чата. BFL обделались примерно как в свое время Stability AI

#humor

😁21❤12👍4

1.54K views07:46

Нейронавт | Нейросети в творчестве

ComfyUI_portable_torch_2.9.0_cu130_cp313_sageattention_triton

Портативная сборка #Comfyui от @stefanfalkok

torch 2.9.0
python 3.13.9
sageattention 2.2.0 + triton 3.5.1

а также есть основные предустановленные кастомные ноды и все его воркфлоу, даже тестовые

ComfyUI_portable_torch_2.9.1_cu130_cp313_sageattention_triton
все тоже самое, но на торче 2.9.1

huggingface.co

StefanFalkok/ComfyUI_portable_torch_2.9.0_cu130_cp313_sageattention_triton at main

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

❤19👍1

1.78K views08:11

Нейронавт | Нейросети в творчестве

CoVT: Chain-of-Visual-Thought

Цепочка рассуждений для визуальных моделей (Chain-of-Visual-Thought)
Позволяет моделям #VLM лучше «видеть» и «думать», используя непрерывные визуальные токены,
рассуждать не только в текстовом, но и в визуальном пространстве

— использует компактные визуальные токены для кодирования перцептивных сигналов (сегментация, глубина, структура краёв и др.)

— обучает модели понимать и генерировать визуальные токены, которые затем можно декодировать в плотные предсказания для визуализации процесса рассуждения

— не полагается на внешние инструменты для визуального восприятия, а интегрирует восприятие в сам процесс рассуждения модели

— обеспечивает более точное и интерпретируемое мультимодальное понимание по сравнению с аналогами.

Базовая модель для экспериментов — Qwen2.5-VL-7B.

Сайт проекта вероятно появится когда-нибудь

HF - тут несколько разных моделей

#research #CoT #CoVT

🔥9👍3

1.47K views09:12

About

Blog

Apps

Platform