NEW BOT Телеграм, страница

JAM: A Tiny Flow-based Song Generator with Fine-grained Controllability and Aesthetic Alignment

Компактная модель для генерации песен из готовых текстов.

Основная фишка - позволяет точно контролировать, когда и как долго звучат слова и слоги в песне — можно подгонять вокал под нужный ритм. А также полный контроль над структурой песни - ну там когда куплеты когда припевы

На примерах да, контроль заметен, слова и акценты расставляет как человек

Код
Веса - 2 Гб

#music #text2music

👍5🔥1

1.75K views09:08

Нейронавт | Нейросети в творчестве

Music Arena

Арена / лидерборд генераторов музыки.
Можно поиграть с генерацией коротких кусочков. Мне сгенерил 11с и 30с
Лидерборд пока пуст

#text2music #leaderboard

👍7

1.87K views10:13

Нейронавт | Нейросети в творчестве

0:10

This media is not supported in your browser

VIEW IN TELEGRAM

Wan 2.2 понимает указания, нарисованные на первом кадре, как и VEO 3

Автор

#image2video #news

🔥18👍2😁1

2.78K views12:16

Нейронавт | Нейросети в творчестве

Wan 2.2 14B T2V (GGUF Q8) против Flux.1 Dev (GGUF Q8) в генерации картинок

Слева WAN, справа Flux
Автор не черрипикал, брал первые результаты.
WAN 2.2 полностью обратно совместим с лорами WAN 2.1 (так пишут)

Напомню, что не так давно сообщество заинтересовалось способностью видеогенераторов к созданию изображений

~~Скрипач~~ Flux не нужен?

воркфлоу
Реддит

#shootout #comparison #text2image

🔥21👍5❤2🥴1💯1

2.59K views13:22

Нейронавт | Нейросети в творчестве

ARC-Hunyuan-Video-7B

Пониматор коротких видео от Tencent

Одновременно обрабатывает картинку и звук.

Знает не только что происходит, но и когда.

Умеет делать подписи к видео с таймкодами, суммировать события, искать нужные моменты.

Код
Веса
Демо - вход по китайскому номеру 🤩

#vlm #assistant #video2text

Please open Telegram to view this post

VIEW IN TELEGRAM

❤8👍2🤯2

2.06K viewsedited 15:51

Нейронавт | Нейросети в творчестве

1:47

Media is too big

VIEW IN TELEGRAM

ScenePainter: Semantically Consistent Perpetual 3D Scene Generation with Concept Relation Alignment

Генератор видео согласованных ракурсов сцены по одному исходному изображению

Выглядит как SD1.5, устаревше, а собака даже кринжово. Предположу что тут есть какие-то технические новшества, которые используют в других раболтах

Авторы использовали наработки WonderJourney, Break-A-Scene, Blended Diffusion, SAM

Код

#image2video #image2scene

👍2🔥1👀1

1.66K views17:21

Нейронавт | Нейросети в творчестве

0:26

This media is not supported in your browser

VIEW IN TELEGRAM

0:24

This media is not supported in your browser

VIEW IN TELEGRAM

Это Aleph

Все еще на стадии закрытого тестирования

#news

🔥24👍6😁5❤2🤯1

2.27K views18:46

Нейронавт | Нейросети в творчестве

Это Aleph Все еще на стадии закрытого тестирования #news

Из комментариев

#humor

😁11

2.09K viewsedited 21:16

Нейронавт | Нейросети в творчестве

This media is not supported in your browser

VIEW IN TELEGRAM

Study Mode

режим для изучения чего угодно с ИИ в ChatGPT

В этом режиме модель будет вести себя подобно учителю - не выдаст готовое решение сразу, а поэтапно проведет пользователя к самостоятельному решению. Задает наводящие вопросы, подстраивается под ваш уровень знаний, может составить квиз или тест.

Доступно для всех моделей

#assistant @stydy

❤8👍1

1.9K viewsedited 06:23

Нейронавт | Нейросети в творчестве

Wan 2.2 14B T2V (GGUF Q8) против Flux.1 Dev (GGUF Q8) в генерации картинок Слева WAN, справа Flux Автор не черрипикал, брал первые результаты. WAN 2.2 полностью обратно совместим с лорами WAN 2.1 (так пишут) Напомню, что не так давно сообщество заинтересовалось…

WAN 2.2 text2image updated

Автор выложил исправленный воркфлоу для генерации картинок в WAN 2.2

воркфлоу - кину в комменты на случай если удалят файл

Модели:

huggingface-cli download QuantStack/Wan2.2-T2V-A14B-GGUF HighNoise/Wan2.2-T2V-A14B-HighNoise-Q6_K.gguf --local-dir .

huggingface-cli download QuantStack/Wan2.2-T2V-A14B-GGUF LowNoise/Wan2.2-T2V-A14B-LowNoise-Q6_K.gguf --local-dir .

huggingface-cli download vrgamedevgirl84/Wan14BT2VFusioniX FusionX_LoRa/Wan2.1_T2V_14B_FusionX_LoRA.safetensors --local-dir .

huggingface-cli download Kijai/WanVideo_comfy Wan21_T2V_14B_lightx2v_cfg_step_distill_lora_rank32.safetensors --local-dir .

huggingface-cli download Comfy-Org/Wan_2.1_ComfyUI_repackaged split_files/text_encoders/umt5_xxl_fp8_e4m3fn_scaled.safetensors --local-dir .

huggingface-cli download Comfy-Org/Wan_2.1_ComfyUI_repackaged split_files/vae/wan_2.1_vae.safetensors --local-dir .

реддит

#text2image

❤15👍7

2.29K views06:44

Нейронавт | Нейросети в творчестве

0:37

This media is not supported in your browser

VIEW IN TELEGRAM

NotebookLM Video Overviews

В NotebookLM теперь можно генерировать видеообзоры из ваших материалов - слайдов, цитат, информации из ваших документов.

Лимиты те же что и для подкастов - 3 в день.

Попробовать - не забудьте притвориться что вы не в России

#text2video #docs2video

🔥5👍3

1.7K views09:12

Нейронавт | Нейросети в творчестве

X-Omni: Reinforcement Learning Makes Discrete Autoregressive Image Generative Models Great Again

Генератор картинок на авторегрессии от Tencent Hunyuan X
Вернее, это визульно-языковая модель, генерирует одновременно изображение и языковые данные

Декодер изображений X-Omni - #SOTA в генерации картинок языковой моделью с 7B параметров

Благодаря такой архитектуре хорошо следует инструкциям и умеет отображать на картинках длинные тексты на английском и китайском

Код
Веса ~20Gb
Демо

#multimodal #text2image

❤5👍2🔥1

1.82K views09:42

Нейронавт | Нейросети в творчестве

Instagirl v1 WAN 2.2/WAN 2.1

Начались первые приношения богу лор 2.2

#lora

👍18❤4😁4🔥3

2.18K views10:13

About

Blog

Apps

Platform