Wan2.2-VACE-Fun-A14B
В репозитории alibaba-pai появились веса модуля контроля видеогенерации VACE для #WAN22
Непонятно насколько они качественные и финальные
Указано что поддерживает Canny, Depth, Pose, MLSD. разрешения - 512, 768, 1024
Практически в то же время в репозитории Kijai появились
fp8 scaled
bf16
#controlnet #referencing #depth2video #pose2video
В репозитории alibaba-pai появились веса модуля контроля видеогенерации VACE для #WAN22
Непонятно насколько они качественные и финальные
Указано что поддерживает Canny, Depth, Pose, MLSD. разрешения - 512, 768, 1024
Практически в то же время в репозитории Kijai появились
fp8 scaled
bf16
#controlnet #referencing #depth2video #pose2video
🔥9👍2
Нейронавт | Нейросети в творчестве
Wan2.2-VACE-Fun-A14B В репозитории alibaba-pai появились веса модуля контроля видеогенерации VACE для #WAN22 Непонятно насколько они качественные и финальные Указано что поддерживает Canny, Depth, Pose, MLSD. разрешения - 512, 768, 1024 Практически в то…
This media is not supported in your browser
VIEW IN TELEGRAM
Wan2.2-Fun-Reward-LoRAs
Подтверждено, это релиз.
+ опубликовали Reward-LoRAs
Reward LoRA можно использовать с базовой моделью #Wan22 и доработанными моделями (Wan2.2-Fun), что значительно повышает качество генерации видео
Гитхаб
воркфлоу - там же на гитхабе есть примеры воркфлоу wan2_2_vace_fun
🍾🍾🍾🍾🍾🍾
#workflow #controlnet #referencing #depth2video #pose2video #lora
Подтверждено, это релиз.
+ опубликовали Reward-LoRAs
Reward LoRA можно использовать с базовой моделью #Wan22 и доработанными моделями (Wan2.2-Fun), что значительно повышает качество генерации видео
Гитхаб
воркфлоу - там же на гитхабе есть примеры воркфлоу wan2_2_vace_fun
🍾🍾🍾🍾🍾🍾
#workflow #controlnet #referencing #depth2video #pose2video #lora
👍8🔥5❤1
Stable Audio 2.5
Новая версия аудиомодели от Stability AI, разработанная специально для корпоративного создания звука в больших объёмах
— быстро генерирует треки до трёх минут
— создаёт музыкальные композиции с чёткой структурой
— понимает запросы о настроении и музыкальных особенностях
— позволяет дорабатывать загруженные аудиофайлы
— помогает создавать уникальный звуковой стиль
Попробовать на офсайте (10 треков в месяц бесплатно, 3 минуты входного аудио)
ComfyUI (API)
#text2music #text2audio #music2music #audio2music #sfx #musicediting
Новая версия аудиомодели от Stability AI, разработанная специально для корпоративного создания звука в больших объёмах
— быстро генерирует треки до трёх минут
— создаёт музыкальные композиции с чёткой структурой
— понимает запросы о настроении и музыкальных особенностях
— позволяет дорабатывать загруженные аудиофайлы
— помогает создавать уникальный звуковой стиль
Попробовать на офсайте (10 треков в месяц бесплатно, 3 минуты входного аудио)
ComfyUI (API)
#text2music #text2audio #music2music #audio2music #sfx #musicediting
❤3👍2👀1
Нейронавт | Нейросети в творчестве
Stable Audio 2.5 Новая версия аудиомодели от Stability AI, разработанная специально для корпоративного создания звука в больших объёмах — быстро генерирует треки до трёх минут — создаёт музыкальные композиции с чёткой структурой — понимает запросы о настроении…
This media is not supported in your browser
VIEW IN TELEGRAM
При попытке скачать свое творчество в формате видео сайт StableAudio отдает какую-то левую шляпу. Я сразу не заметил что фигня прикрепилась вместо моего трека. Исправляюсь
1👍2🔥2
Forwarded from Vikhr models
Vikhr Borealis - первая русскоязычная открытая audio llm
Мы долго и не очень успешно развивали свой tts - Salt, от него исторически осталось довольно много данных и наработок, мы решили - чо бы не сварить asr + llm как модно?
Ну и сварили. Архитектурно - whisper + qwen, учили на 7к часов аудио только адаптер+llm, сейчас работает только в ASR режиме, позже возможно довезем инструктивный режим. Так же выйдет бенчмарк для русского asr, он пока в доработке.
Блог так же выйдет, там будут небольшие аблейшены по данным
Модель в данный момент бьет whisperы на русском и на части бенчей лучше чем gigam.
Модель
Сolab поиграться
Мы долго и не очень успешно развивали свой tts - Salt, от него исторически осталось довольно много данных и наработок, мы решили - чо бы не сварить asr + llm как модно?
Ну и сварили. Архитектурно - whisper + qwen, учили на 7к часов аудио только адаптер+llm, сейчас работает только в ASR режиме, позже возможно довезем инструктивный режим. Так же выйдет бенчмарк для русского asr, он пока в доработке.
Блог так же выйдет, там будут небольшие аблейшены по данным
Модель в данный момент бьет whisperы на русском и на части бенчей лучше чем gigam.
Модель
Сolab поиграться
👍12🔥2
InstantX/Qwen-Image-ControlNet-Inpainting
Еще один способ инпейнтинга c #qwen-image
Контролнет от InstantX
Мне не удалось заставить демо хоть что-то нарисовать а не просто заретушировать выделенную область. То ли демоспейс кривой, то ли сам контролнет
HF
Демо
воркфлоу
Блог на китайском
#inpainting #workflow
Еще один способ инпейнтинга c #qwen-image
Контролнет от InstantX
Мне не удалось заставить демо хоть что-то нарисовать а не просто заретушировать выделенную область. То ли демоспейс кривой, то ли сам контролнет
HF
Демо
воркфлоу
Блог на китайском
#inpainting #workflow
👍3😁2🤷♂1
EchoX: Towards Mitigating Acoustic-Semantic Gap via Echo Training for Speech-to-Speech LLMs
Модель преобразования речи в речь, умеет рассуждать.
8B и 3B параметров
— преобразует речь в текст, чтобы «понять» смысл
— переводит текст в элементы речи, связывая текст и речь
— создаёт речь, опираясь на понимание смысла, и при этом сохраняет умение «разговаривать» как человек
— хорошо отвечает на вопросы, требующие знаний
— может генерировать речь в реальном времени, не теряя смысла
Гитхаб
Демо
HF
#speech2speech #assistant
Модель преобразования речи в речь, умеет рассуждать.
8B и 3B параметров
— преобразует речь в текст, чтобы «понять» смысл
— переводит текст в элементы речи, связывая текст и речь
— создаёт речь, опираясь на понимание смысла, и при этом сохраняет умение «разговаривать» как человек
— хорошо отвечает на вопросы, требующие знаний
— может генерировать речь в реальном времени, не теряя смысла
Гитхаб
Демо
HF
#speech2speech #assistant
👍6😁4👎1
MiniCPM-V-4.5
Компактная мультимодальная модель на 8B параметров на основе Qwen3-8B и SigLIP2-400M, превосходящая более крупные модели на мультимодальных задачах.
— хорошо работает с видео: обрабатывает видео с высокой частотой кадров, сильно сжимая данные
— умеет «думать» в двух режимах: быстро — для простых задач, глубоко — для сложных
— распознаёт текст на изображениях и анализирует документы
— поддерживает больше 30 языков
— может работать на компьютере локально или в облаке
HF
Гитхаб
MiniCPM-o-demo-iOS - для запуска на iOS понадобится аккаунт разработчика Apple
Демо
#multimodal #vlm
Компактная мультимодальная модель на 8B параметров на основе Qwen3-8B и SigLIP2-400M, превосходящая более крупные модели на мультимодальных задачах.
— хорошо работает с видео: обрабатывает видео с высокой частотой кадров, сильно сжимая данные
— умеет «думать» в двух режимах: быстро — для простых задач, глубоко — для сложных
— распознаёт текст на изображениях и анализирует документы
— поддерживает больше 30 языков
— может работать на компьютере локально или в облаке
HF
Гитхаб
MiniCPM-o-demo-iOS - для запуска на iOS понадобится аккаунт разработчика Apple
Демо
#multimodal #vlm
👍8❤3
В Непале выбрали временного президента с помощью ChatGPT — попросили ИИ накидать список возможных кандидатов и найти среди них лучшего. Обсудили в дискорде и выбрали.
Если вы не в курсе что происходит в Непале, погуглите, это интерсно
————————————
В Албании цифровую систему Diella (с албанского переводится как «солнце») официально назначили министром в сфере финансов.
Она будет отвечать за госзакупки и проведение тендеров. Цель – вообще исключить человеческий фактор. Таким образом надеятся бороться с коррупцией и повышать прозрачность расходов.
————————
Что дальше?
А дальше ко всем разработчикам крупных LLM придут специальные люди (если еще не пришли) и скажут кого в какой стране их ИИ должен будет предлагать на руководящие посты в случае чего. А также с кем заключать договора на закупки - если кому-то придет в голову советоваться с ИИ по таким вопросам. А ведь мы знаем что придет. Ну и еще на пару шагов вперед подумают эти специальные люди
#news
Если вы не в курсе что происходит в Непале, погуглите, это интерсно
————————————
В Албании цифровую систему Diella (с албанского переводится как «солнце») официально назначили министром в сфере финансов.
Она будет отвечать за госзакупки и проведение тендеров. Цель – вообще исключить человеческий фактор. Таким образом надеятся бороться с коррупцией и повышать прозрачность расходов.
————————
Что дальше?
А дальше ко всем разработчикам крупных LLM придут специальные люди (если еще не пришли) и скажут кого в какой стране их ИИ должен будет предлагать на руководящие посты в случае чего. А также с кем заключать договора на закупки - если кому-то придет в голову советоваться с ИИ по таким вопросам. А ведь мы знаем что придет. Ну и еще на пару шагов вперед подумают эти специальные люди
#news
Thetimes
Nepali protesters use ChatGPT to pick their new leader
A youth movement that ousted the government used AI to select their candidate to be interim prime minister and represent them in negotiations with the army
😁9👍5❤3💯3