Нейронавт | Нейросети в творчестве – Telegram
Нейронавт | Нейросети в творчестве
10.6K subscribers
4.46K photos
3.73K videos
41 files
4.77K links
Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus

Заявка на регистрацию в РКН № 6309426111
Download Telegram
OmniGen: Unified Image Generation

Новый генератор изображений. По тексту не выдает ничего интересного. Но главная его суперсила - он принимает на вход и картинки тоже. Картинки с описанием что с ними нужно сделать.

И вот тут можно развернуться, и он может сделать красиво. Мне выпал счастливый билет, второй день не могу получить из демо ни одной картинки, так что примеры с гитхаба

Для 1024*1024 жрет порядка 24Гб VRAM. Это не предел, если что. Ну и на скорость не рассчитывайте.

Код
Демо

#text2image #image2image #personalization #multimodal2image
👍41
Motion Inversion for Video Customization

Генерация видео с движением, заданным другим видео. Качество картинки не впечатляет. В демо на выбор несколько разных чекпойнтов под разные движения камеры. Это мне что, под каждое движение камеры нужен будет отдельный чекпойнт? неудобно

Код
Демо

#text2video #motion2video
👍51🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Moonshine

Распознаватор речи, бьет Whisper по нескольким параметрам.

Уже прикрутили в коммерческий переводчик Torre, там только английский и испанский.

Рейтинг и конкурентов кстати можно посмотреть в Open ASR Leaderboard - лидерборде распознаваторов речи

Гитхаб

#leaderboard #ASR #speech2text #stt
👍10
This media is not supported in your browser
VIEW IN TELEGRAM
VidToMe: Video Token Merging for Zero-Shot Video Editing

Манипуляции с видео: стилизация, замена фона/объекта.
Под капотом, похоже, SD2+controlnet

Код

#video2video #stylization
👍8🥴1
IntraPaint

Редактор картинок на базе Forge/A1111 (запускать с ключом --api). В будущем - и на ComfyUI

Гитхаб
Видео

#tools #imageediting #text2image #image2image #inpainting
🔥5🌚1
Flux.1 Lite alfa

альфа-версия Flux.1 Lite от Freepik с 8B параметров, дистилированной из FLUX.1-dev (а dev, напоминаю - дистилированная из pro). Эта версия использует на 7 ГБ меньше оперативной памяти и работает на 23% быстрее при сохранении той же точности (bfloat16), что и оригинальная модель.

Репозиторий на HF

#flux #text2image
7🔥3
This media is not supported in your browser
VIEW IN TELEGRAM
MFLUX-WEBUI

Для вас, маководы
GUI для работы с #Flux
Контролнет, интерграция с Civitai и прочие свистоперделки в комплекте

Есть в Pinokio

Гитхаб

#tools #mac
👍3🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Computer Use - OOTB

Уже слышали про Claude Computer Use?
Приложение-агент от Anthropic для автоматизации любых задач на локальном компьютере?

Вот вам способ установки без докера. Бонусом - удаленное управление компом с мобилки.

Код

Альтернатива: agent.exe

#assistant #agent #tools
👏21
This media is not supported in your browser
VIEW IN TELEGRAM
KlingAI Virtual Try-On

Если вам не хватало виртуальных примерочных то вот еще одна, на API клинга

Код

#image2image
👍21
OmniParser: Screen Parsing tool for Pure Vision Based GUI Agent

Познакомьтесь с OmniParser — компактным модулем анализа экрана, который может преобразовывать скриншоты пользовательского интерфейса в структурированные элементы. OmniParser можно использовать с различными моделями для создания агентов, способных выполнять действия в пользовательских интерфейсах. При использовании с GPT-4V он значительно повышает способность агента генерировать точные действия для областей интерфейса.

Иначе говоря, OmniParser+GPT-4V = конкурент Claude Computer Use

Код

#screen2text #agent #assistant
👍3
This media is not supported in your browser
VIEW IN TELEGRAM
Framer: Interactive Frame Interpolation

Интерполяция кадров с контролем траектории.
Кажется, пора уже вводить термин креативная интерполяция кадров

Код ждем 28 октября
Демо ждем

#frameinterpolation #slowmotion #motioncontrol
🔥8