Нейронавт | Нейросети в творчестве
Stable Audio 2.5 Новая версия аудиомодели от Stability AI, разработанная специально для корпоративного создания звука в больших объёмах — быстро генерирует треки до трёх минут — создаёт музыкальные композиции с чёткой структурой — понимает запросы о настроении…
This media is not supported in your browser
VIEW IN TELEGRAM
При попытке скачать свое творчество в формате видео сайт StableAudio отдает какую-то левую шляпу. Я сразу не заметил что фигня прикрепилась вместо моего трека. Исправляюсь
1👍2🔥2
Forwarded from Vikhr models
Vikhr Borealis - первая русскоязычная открытая audio llm
Мы долго и не очень успешно развивали свой tts - Salt, от него исторически осталось довольно много данных и наработок, мы решили - чо бы не сварить asr + llm как модно?
Ну и сварили. Архитектурно - whisper + qwen, учили на 7к часов аудио только адаптер+llm, сейчас работает только в ASR режиме, позже возможно довезем инструктивный режим. Так же выйдет бенчмарк для русского asr, он пока в доработке.
Блог так же выйдет, там будут небольшие аблейшены по данным
Модель в данный момент бьет whisperы на русском и на части бенчей лучше чем gigam.
Модель
Сolab поиграться
Мы долго и не очень успешно развивали свой tts - Salt, от него исторически осталось довольно много данных и наработок, мы решили - чо бы не сварить asr + llm как модно?
Ну и сварили. Архитектурно - whisper + qwen, учили на 7к часов аудио только адаптер+llm, сейчас работает только в ASR режиме, позже возможно довезем инструктивный режим. Так же выйдет бенчмарк для русского asr, он пока в доработке.
Блог так же выйдет, там будут небольшие аблейшены по данным
Модель в данный момент бьет whisperы на русском и на части бенчей лучше чем gigam.
Модель
Сolab поиграться
👍12🔥2
InstantX/Qwen-Image-ControlNet-Inpainting
Еще один способ инпейнтинга c #qwen-image
Контролнет от InstantX
Мне не удалось заставить демо хоть что-то нарисовать а не просто заретушировать выделенную область. То ли демоспейс кривой, то ли сам контролнет
HF
Демо
воркфлоу
Блог на китайском
#inpainting #workflow
Еще один способ инпейнтинга c #qwen-image
Контролнет от InstantX
Мне не удалось заставить демо хоть что-то нарисовать а не просто заретушировать выделенную область. То ли демоспейс кривой, то ли сам контролнет
HF
Демо
воркфлоу
Блог на китайском
#inpainting #workflow
👍3😁2🤷♂1
EchoX: Towards Mitigating Acoustic-Semantic Gap via Echo Training for Speech-to-Speech LLMs
Модель преобразования речи в речь, умеет рассуждать.
8B и 3B параметров
— преобразует речь в текст, чтобы «понять» смысл
— переводит текст в элементы речи, связывая текст и речь
— создаёт речь, опираясь на понимание смысла, и при этом сохраняет умение «разговаривать» как человек
— хорошо отвечает на вопросы, требующие знаний
— может генерировать речь в реальном времени, не теряя смысла
Гитхаб
Демо
HF
#speech2speech #assistant
Модель преобразования речи в речь, умеет рассуждать.
8B и 3B параметров
— преобразует речь в текст, чтобы «понять» смысл
— переводит текст в элементы речи, связывая текст и речь
— создаёт речь, опираясь на понимание смысла, и при этом сохраняет умение «разговаривать» как человек
— хорошо отвечает на вопросы, требующие знаний
— может генерировать речь в реальном времени, не теряя смысла
Гитхаб
Демо
HF
#speech2speech #assistant
👍6😁4👎1
MiniCPM-V-4.5
Компактная мультимодальная модель на 8B параметров на основе Qwen3-8B и SigLIP2-400M, превосходящая более крупные модели на мультимодальных задачах.
— хорошо работает с видео: обрабатывает видео с высокой частотой кадров, сильно сжимая данные
— умеет «думать» в двух режимах: быстро — для простых задач, глубоко — для сложных
— распознаёт текст на изображениях и анализирует документы
— поддерживает больше 30 языков
— может работать на компьютере локально или в облаке
HF
Гитхаб
MiniCPM-o-demo-iOS - для запуска на iOS понадобится аккаунт разработчика Apple
Демо
#multimodal #vlm
Компактная мультимодальная модель на 8B параметров на основе Qwen3-8B и SigLIP2-400M, превосходящая более крупные модели на мультимодальных задачах.
— хорошо работает с видео: обрабатывает видео с высокой частотой кадров, сильно сжимая данные
— умеет «думать» в двух режимах: быстро — для простых задач, глубоко — для сложных
— распознаёт текст на изображениях и анализирует документы
— поддерживает больше 30 языков
— может работать на компьютере локально или в облаке
HF
Гитхаб
MiniCPM-o-demo-iOS - для запуска на iOS понадобится аккаунт разработчика Apple
Демо
#multimodal #vlm
👍8❤3
В Непале выбрали временного президента с помощью ChatGPT — попросили ИИ накидать список возможных кандидатов и найти среди них лучшего. Обсудили в дискорде и выбрали.
Если вы не в курсе что происходит в Непале, погуглите, это интерсно
————————————
В Албании цифровую систему Diella (с албанского переводится как «солнце») официально назначили министром в сфере финансов.
Она будет отвечать за госзакупки и проведение тендеров. Цель – вообще исключить человеческий фактор. Таким образом надеятся бороться с коррупцией и повышать прозрачность расходов.
————————
Что дальше?
А дальше ко всем разработчикам крупных LLM придут специальные люди (если еще не пришли) и скажут кого в какой стране их ИИ должен будет предлагать на руководящие посты в случае чего. А также с кем заключать договора на закупки - если кому-то придет в голову советоваться с ИИ по таким вопросам. А ведь мы знаем что придет. Ну и еще на пару шагов вперед подумают эти специальные люди
#news
Если вы не в курсе что происходит в Непале, погуглите, это интерсно
————————————
В Албании цифровую систему Diella (с албанского переводится как «солнце») официально назначили министром в сфере финансов.
Она будет отвечать за госзакупки и проведение тендеров. Цель – вообще исключить человеческий фактор. Таким образом надеятся бороться с коррупцией и повышать прозрачность расходов.
————————
Что дальше?
А дальше ко всем разработчикам крупных LLM придут специальные люди (если еще не пришли) и скажут кого в какой стране их ИИ должен будет предлагать на руководящие посты в случае чего. А также с кем заключать договора на закупки - если кому-то придет в голову советоваться с ИИ по таким вопросам. А ведь мы знаем что придет. Ну и еще на пару шагов вперед подумают эти специальные люди
#news
Thetimes
Nepali protesters use ChatGPT to pick their new leader
A youth movement that ousted the government used AI to select their candidate to be interim prime minister and represent them in negotiations with the army
😁9👍5❤3💯3
Я тут на днях поиграл с Qwen-Image-Edit на быстром железе
столкнулся с проблемой которую упоминали в чате - при попытке целиком изобразить персонажа по бюстовому или поясному портрету редакторы, в том числе и QIE рисуют карликов
Я всячески пытался промптом накрутить нормальные пропорции тела, в том числе и пытался посадить, но это не сильно помогает. Склонность к карликам трудно побороть без контролнета. Но контролнетом не пользовался
Для девушки с жемчужной сережкой писал так
И в негатив:
И то - руки длинноваты.
Один раз писать «tall» не помогает. В связи с чем у меня вопрос. А есть в современных генераторах контроль веса слова в промпте как было в SD?
И может, прочие ништяки типа смешивания или чередования на разных шагах концепций
Американская готика получилась норм по пропорциям, но не соответствует стиль.
А вы как боретесь с карликовостью?
#neuronaut_art
столкнулся с проблемой которую упоминали в чате - при попытке целиком изобразить персонажа по бюстовому или поясному портрету редакторы, в том числе и QIE рисуют карликов
Я всячески пытался промптом накрутить нормальные пропорции тела, в том числе и пытался посадить, но это не сильно помогает. Склонность к карликам трудно побороть без контролнета. Но контролнетом не пользовался
Для девушки с жемчужной сережкой писал так
full-body view of the girl as a tall tall tall tall tall tall fashion model standing on the floor, fit body, proportional body, fashion model body, with long legs, wearing renaissance dress, distant view. Keep the person's identity, perfect beauty body proportions, thin female hands, small head, 20 years old
И в негатив:
two images stitched, collage, drawing, unrealistic, bad anatomy, unproportional body, canvas, brush, painter, short legs, midget, short body, large head, short legs, large hands
И то - руки длинноваты.
Один раз писать «tall» не помогает. В связи с чем у меня вопрос. А есть в современных генераторах контроль веса слова в промпте как было в SD?
tall:7И может, прочие ништяки типа смешивания или чередования на разных шагах концепций
[green | blue]Американская готика получилась норм по пропорциям, но не соответствует стиль.
А вы как боретесь с карликовостью?
#neuronaut_art
😁9❤4👍1