Нейронавт | Нейросети в творчестве – Telegram
Нейронавт | Нейросети в творчестве
10.6K subscribers
4.45K photos
3.71K videos
41 files
4.76K links
Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus

Заявка на регистрацию в РКН № 6309426111
Download Telegram
Пока Perplexity пытается выкупить Chrome у Google за 34,5 млрд долларов, у нас новый игрок на рынке ИИ-браузеров

Основная фишка Strawberry - автоматизация. Он запоминает ваши действия и может повторять их. Ну и сам не промах - может исследовать компании, находить лиды в LinkedIn, работать с CRM, суммировать заметки, составлять последующие сообщения и автоматизировать задачи на любых сайтах.

Данные хранит локально, но при взаимодействии с AI-провайдерами (Google, OpenAI, Anthropic) информация обрабатывается через них.

Есть пробный период, а после его окончания доступ к функциям обойдётся в 30 долларов США в месяц.

Записаться в вейтлист

#browser #assistant
👍5🔥1
Media is too big
VIEW IN TELEGRAM
#ComfyUI теперь более лучше дружит с видеокартами AMD

твиттер

#news #amd
🔥7👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Stand-In: A Lightweight and Plug-and-Play Identity Control for Video Generation

Персонализация на видео от Tencent

генерация видео по текстовому описанию с сохранением идентичности персонажей (Identity-Preserving Text-to-Video Generation); 1

- создание видео с нечеловеческими субъектами

- генерация стилизованных видео

- замена лиц на видео

- генерация видео на основе заданной позы

Прикручено к WAN2.1. Ждем WAN2.2

Kijai уже интегрировал его в WanVideoWrapper, но имплементация отличается от оригинала, что может сказаться на результате. Авторы выпустили ноду препроцессора.

Код
HF
Stand-In Official Preprocessor ComfyUI Nodes

Kijai HF
воркфлоу

#workflow #comfyUI #personalization #referencing #faceswap #stylize
🔥6👍21
Qwen-Image Canny ControlNet

В полку контролнетов для #QwenImage прибыло.

Canny от команды DiffSynth-Studio

Если найдете ссылку на HF поделитесь пожалуйста чтоб не на китайском читать

[UPDATE]
HF

#controlnet
🔥9👍1
ComfyUI Wan2.2 Fun Native Support

Нативная поддержка Wan2.2-Fun (контролнет для видео) в #ComfyUI

+ поддержка Wan2.2 Fun InP - генерация видео от начального к конечному кадру

+поддержка LightX2V 4-Step LoRA

Ссылки на воркфлоу в статье

#controlnet #text2video #image2video #flf
🔥11👍4
GPT-OSS-120B on AMD MI300X

Не знаю зачем вам это, но вдруг кому-то нужно
Демоспейс GPT-OSS-120B от AMD

#assistant #chat
👍7😁7
Wan2.2-Fun-A14B-Control-GGUF

#gguf от QuantStack

Спасибо неизвестному подписчику

#wan22 #text2video #image2video
4👍3😁1
Media is too big
VIEW IN TELEGRAM
Hunyuan-GameCraft

"Игровой движок", о котором все писали в июне, вышел в опенсорс

Построен на базе на Hunyuan Video, в квантизированном виде запустится на 4090, но рилтайма на ней не ждите.

Гитхаб
HF
Демо ждем

#text2world #text2game
👍3
nunchaku в дискорде пообещали поддержку нового WAN

#news
🔥12👍4
This media is not supported in your browser
VIEW IN TELEGRAM
VyvoTTS-LFM2-350M-Jenny

Новая голосовая модель. 350М параметров.

Говорит на английском. Но для дообучения на новый язык или на новый голос достаточно 6Gb VRAM. А для работы всего 2Gb

Авторы планируют выпустить еще несколько моделей, и на HF уже не только Jenny. Работают над поддержкой vLLM и другими фичами прежде чем полностью выпустить проект в опенсорс

#text2speech #tts #voicecloning
1👍16🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
Higgsfield Draw-to-Video

У Higgsfield очередная обновка. Задаем промпт не текстом, а визуальными пометками на первом (и не только) кадре.

Работает с MiniMax, Veo 3 & Seedance Pro. За ваши деньги, разумеется.

#sketch2video #image2video #online
👍16
Marco-Voice: A Unified Framework for Expressive Speech Synthesis with Voice Cloning

Кросс-лингвальный генератор речи с эмоциями и клонированием голоса от Alibaba.
Модель научили разделять идентичность говорящего и эмоциональную составляющую в отдельные потоки обработки.

Говорит по английски и китайски.

Гитхаб - послушать примеры можно там

#text2speech #tts #voicecloning
👍72
Nano Banana

Новый генератор/редактор картинок, предположительно от Google.
Почему предположительно - потому что нет никакого релиза. Модель есть на https://lmarena.ai/ в разделе Battle - Image. А в лидерборде отсутствует...

Даем задание, можно просто по тексту, можно с исходной картинкой. Выбираем лучший результат из двух и видим название моделей.

Делает инпейнтинг, замену, генерацию по нескольким референсам. В общем, все то же что Flux Kontext но якобы лучше. На арене приходится кидать несколько запросов чтобы выпал банан, но вроде и правда лучше

Спасибо @iNevestenko

#text2image #image2image #imageediting
👍6🔥3
Skywork-UniPic

И еще один генератор-редактор. Но этот еще и пониматор картинок. Модель в количестве две штуки

UniPic-1 - авторегрессионная модель с нуля
UniPic-2 - основана эффективных архитектурах с диффузионным постобучением. Включает варианты SD3.5M-Kontext и MetaQuery

Умеет:

- генерация изображений по тексту

- редактирование изображений (бесшовная дорисовка, удаление объектов, манипуляция объектами);

- понимание изображений (устойчивые возможности восприятия для решения различных визуальных задач)

Явно уступает nano-banana по редактированию, но там опенсорсом не пахнет пока

Гитхаб

Демо UniPic-1
Демо UniPic-2

#vlm #imageediting #text2image #image2image
👍3👎3