This media is not supported in your browser
VIEW IN TELEGRAM
JAM: A Tiny Flow-based Song Generator with Fine-grained Controllability and Aesthetic Alignment
Компактная модель для генерации песен из готовых текстов.
Основная фишка - позволяет точно контролировать, когда и как долго звучат слова и слоги в песне — можно подгонять вокал под нужный ритм. А также полный контроль над структурой песни - ну там когда куплеты когда припевы
На примерах да, контроль заметен, слова и акценты расставляет как человек
Код
Веса - 2 Гб
#music #text2music
Компактная модель для генерации песен из готовых текстов.
Основная фишка - позволяет точно контролировать, когда и как долго звучат слова и слоги в песне — можно подгонять вокал под нужный ритм. А также полный контроль над структурой песни - ну там когда куплеты когда припевы
На примерах да, контроль заметен, слова и акценты расставляет как человек
Код
Веса - 2 Гб
#music #text2music
👍5🔥1
Music Arena
Арена / лидерборд генераторов музыки.
Можно поиграть с генерацией коротких кусочков. Мне сгенерил 11с и 30с
Лидерборд пока пуст
#text2music #leaderboard
Арена / лидерборд генераторов музыки.
Можно поиграть с генерацией коротких кусочков. Мне сгенерил 11с и 30с
Лидерборд пока пуст
#text2music #leaderboard
👍7
Wan 2.2 14B T2V (GGUF Q8) против Flux.1 Dev (GGUF Q8) в генерации картинок
Слева WAN, справа Flux
Автор не черрипикал, брал первые результаты.
WAN 2.2 полностью обратно совместим с лорами WAN 2.1 (так пишут)
Напомню, что не так давно сообщество заинтересовалось способностью видеогенераторов к созданию изображений
Скрипач Flux не нужен?
воркфлоу
Реддит
#shootout #comparison #text2image
Слева WAN, справа Flux
Автор не черрипикал, брал первые результаты.
WAN 2.2 полностью обратно совместим с лорами WAN 2.1 (так пишут)
Напомню, что не так давно сообщество заинтересовалось способностью видеогенераторов к созданию изображений
воркфлоу
Реддит
#shootout #comparison #text2image
🔥21👍5❤2🥴1💯1
ARC-Hunyuan-Video-7B
Пониматор коротких видео от Tencent
Одновременно обрабатывает картинку и звук.
Знает не только что происходит, но и когда.
Умеет делать подписи к видео с таймкодами, суммировать события, искать нужные моменты.
Код
Веса
Демо - вход по китайскому номеру🤩
#vlm #assistant #video2text
Пониматор коротких видео от Tencent
Одновременно обрабатывает картинку и звук.
Знает не только что происходит, но и когда.
Умеет делать подписи к видео с таймкодами, суммировать события, искать нужные моменты.
Код
Веса
Демо - вход по китайскому номеру
#vlm #assistant #video2text
Please open Telegram to view this post
VIEW IN TELEGRAM
❤8👍2🤯2
Media is too big
VIEW IN TELEGRAM
ScenePainter: Semantically Consistent Perpetual 3D Scene Generation with Concept Relation Alignment
Генератор видео согласованных ракурсов сцены по одному исходному изображению
Выглядит как SD1.5, устаревше, а собака даже кринжово. Предположу что тут есть какие-то технические новшества, которые используют в других раболтах
Авторы использовали наработки WonderJourney, Break-A-Scene, Blended Diffusion, SAM
Код
#image2video #image2scene
Генератор видео согласованных ракурсов сцены по одному исходному изображению
Выглядит как SD1.5, устаревше, а собака даже кринжово. Предположу что тут есть какие-то технические новшества, которые используют в других раболтах
Авторы использовали наработки WonderJourney, Break-A-Scene, Blended Diffusion, SAM
Код
#image2video #image2scene
👍2🔥1👀1
🔥24👍6😁5❤2🤯1
This media is not supported in your browser
VIEW IN TELEGRAM
Study Mode
режим для изучения чего угодно с ИИ в ChatGPT
В этом режиме модель будет вести себя подобно учителю - не выдаст готовое решение сразу, а поэтапно проведет пользователя к самостоятельному решению. Задает наводящие вопросы, подстраивается под ваш уровень знаний, может составить квиз или тест.
Доступно для всех моделей
#assistant @stydy
режим для изучения чего угодно с ИИ в ChatGPT
В этом режиме модель будет вести себя подобно учителю - не выдаст готовое решение сразу, а поэтапно проведет пользователя к самостоятельному решению. Задает наводящие вопросы, подстраивается под ваш уровень знаний, может составить квиз или тест.
Доступно для всех моделей
#assistant @stydy
❤8👍1
Нейронавт | Нейросети в творчестве
Wan 2.2 14B T2V (GGUF Q8) против Flux.1 Dev (GGUF Q8) в генерации картинок Слева WAN, справа Flux Автор не черрипикал, брал первые результаты. WAN 2.2 полностью обратно совместим с лорами WAN 2.1 (так пишут) Напомню, что не так давно сообщество заинтересовалось…
WAN 2.2 text2image updated
Автор выложил исправленный воркфлоу для генерации картинок в WAN 2.2
воркфлоу - кину в комменты на случай если удалят файл
Модели:
реддит
#text2image
Автор выложил исправленный воркфлоу для генерации картинок в WAN 2.2
воркфлоу - кину в комменты на случай если удалят файл
Модели:
huggingface-cli download QuantStack/Wan2.2-T2V-A14B-GGUF HighNoise/Wan2.2-T2V-A14B-HighNoise-Q6_K.gguf --local-dir .
huggingface-cli download QuantStack/Wan2.2-T2V-A14B-GGUF LowNoise/Wan2.2-T2V-A14B-LowNoise-Q6_K.gguf --local-dir .
huggingface-cli download vrgamedevgirl84/Wan14BT2VFusioniX FusionX_LoRa/Wan2.1_T2V_14B_FusionX_LoRA.safetensors --local-dir .
huggingface-cli download Kijai/WanVideo_comfy Wan21_T2V_14B_lightx2v_cfg_step_distill_lora_rank32.safetensors --local-dir .
huggingface-cli download Comfy-Org/Wan_2.1_ComfyUI_repackaged split_files/text_encoders/umt5_xxl_fp8_e4m3fn_scaled.safetensors --local-dir .
huggingface-cli download Comfy-Org/Wan_2.1_ComfyUI_repackaged split_files/vae/wan_2.1_vae.safetensors --local-dir .
реддит
#text2image
❤15👍7
This media is not supported in your browser
VIEW IN TELEGRAM
NotebookLM Video Overviews
В NotebookLM теперь можно генерировать видеообзоры из ваших материалов - слайдов, цитат, информации из ваших документов.
Лимиты те же что и для подкастов - 3 в день.
Попробовать - не забудьте притвориться что вы не в России
#text2video #docs2video
В NotebookLM теперь можно генерировать видеообзоры из ваших материалов - слайдов, цитат, информации из ваших документов.
Лимиты те же что и для подкастов - 3 в день.
Попробовать - не забудьте притвориться что вы не в России
#text2video #docs2video
🔥5👍3
X-Omni: Reinforcement Learning Makes Discrete Autoregressive Image Generative Models Great Again
Генератор картинок на авторегрессии от Tencent Hunyuan X
Вернее, это визульно-языковая модель, генерирует одновременно изображение и языковые данные
Декодер изображений X-Omni - #SOTA в генерации картинок языковой моделью с 7B параметров
Благодаря такой архитектуре хорошо следует инструкциям и умеет отображать на картинках длинные тексты на английском и китайском
Код
Веса ~20Gb
Демо
#multimodal #text2image
Генератор картинок на авторегрессии от Tencent Hunyuan X
Вернее, это визульно-языковая модель, генерирует одновременно изображение и языковые данные
Декодер изображений X-Omni - #SOTA в генерации картинок языковой моделью с 7B параметров
Благодаря такой архитектуре хорошо следует инструкциям и умеет отображать на картинках длинные тексты на английском и китайском
Код
Веса ~20Gb
Демо
#multimodal #text2image
❤5👍2🔥1