This media is not supported in your browser
VIEW IN TELEGRAM
VLC automatic subnoscripts
Опенсорсный плеер VLC анонсировал локальную автоматическую генерацию и перевод субтитров. Когда - пока неизвестно.
Твиттер
#news #audio2text #subnoscripts
Опенсорсный плеер VLC анонсировал локальную автоматическую генерацию и перевод субтитров. Когда - пока неизвестно.
Твиттер
#news #audio2text #subnoscripts
👍15🔥6❤1
Нейронавт | Нейросети в творчестве
jenmusic.ai Оказывается, у генератора/редактора музыки JEN-1 уже есть онлайн сервис На старте дают 300 кредитов, по 3 кредита на генерацию. В генерации два варианта 45-секундного трека. Трек потом можно продлить Этакий конкурент Suno/Udio на минималках...…
JEN-1.5
Генератор/редактор музыки jenmusic.ai уже в публичной бете.
Много интересных фич, большинство из них платные. Звучание оставляет пока желать лучшего, вокала нет. Но эй, это альтернатива суно/юдио
- контроль жанра
- StyleFilters - что-то про стили звучания
- продолжение трека
- инпейнтинг музыкального фрагмента
- STRUCTUR3 - меняет структуру трека - интро/куплет/припев
- R3IMAGINE - самое интересное - преобразует звук (да хоть ваше мычание) в заданный муз инструмент
- скачивание трека отдельными стемами (разбивает на муз инструменты)
#text2music #audioinpainting #music2music
Генератор/редактор музыки jenmusic.ai уже в публичной бете.
Много интересных фич, большинство из них платные. Звучание оставляет пока желать лучшего, вокала нет. Но эй, это альтернатива суно/юдио
- контроль жанра
- StyleFilters - что-то про стили звучания
- продолжение трека
- инпейнтинг музыкального фрагмента
- STRUCTUR3 - меняет структуру трека - интро/куплет/припев
- R3IMAGINE - самое интересное - преобразует звук (да хоть ваше мычание) в заданный муз инструмент
- скачивание трека отдельными стемами (разбивает на муз инструменты)
#text2music #audioinpainting #music2music
👍7❤1
Hailuo S2V-01
новая модель видеогенератора Minimax
Основная фишка - консистентность персонажей.
Достаточно всего по одной референсной картинке на каждого персонажа
#text2video #image2video #personalization
новая модель видеогенератора Minimax
Основная фишка - консистентность персонажей.
Достаточно всего по одной референсной картинке на каждого персонажа
#text2video #image2video #personalization
🔥8
This media is not supported in your browser
VIEW IN TELEGRAM
FaceLift: Single Image to 3D Head with View Generation and GS-LRM
Реконструкция человеческой головы по одному фото или по видео от Adobe.
В случае с видео модель обрабатывает каждый кадр и делает из них последовательность моделей, то есть некое 4D видео, где можно посмотреть на объект с любого ракурса
На презентационном видео это смотрится весьма палевно, в самом конце. Хотя для автара вполне сгодится если будет работать в реальном времени
Кроме этого предлагают комбинировать модель с Liveportrait для 3D анимации портрета
Код ждем или хз
#imageto3d #videoto4d #gaussian #head #humanhead #humanavatar
Реконструкция человеческой головы по одному фото или по видео от Adobe.
В случае с видео модель обрабатывает каждый кадр и делает из них последовательность моделей, то есть некое 4D видео, где можно посмотреть на объект с любого ракурса
На презентационном видео это смотрится весьма палевно, в самом конце. Хотя для автара вполне сгодится если будет работать в реальном времени
Кроме этого предлагают комбинировать модель с Liveportrait для 3D анимации портрета
Код ждем или хз
#imageto3d #videoto4d #gaussian #head #humanhead #humanavatar
👍8❤3
MicroDiT
Эксперимент Sony по обучению картинкогенератора с нуля максимально дешево.
1.16B параметров, обучен на 37М изображений. И это стоило всего $1890
Обучили за 2,5 дня, используя 8 графических процессоров H100
512*512, чекпойнты по 4.7Гб
Что-то напоминает
Хотите свой SD с блекджеком и лорами? сделайте за выходные и $1890
Код
Веса
#text2image
Эксперимент Sony по обучению картинкогенератора с нуля максимально дешево.
1.16B параметров, обучен на 37М изображений. И это стоило всего $1890
Обучили за 2,5 дня, используя 8 графических процессоров H100
512*512, чекпойнты по 4.7Гб
Что-то напоминает
Хотите свой SD с блекджеком и лорами? сделайте за выходные и $1890
Код
Веса
#text2image
❤10😁3
This media is not supported in your browser
VIEW IN TELEGRAM
InstantSplat прокачался, качественно реконструирует поверхность по нескольким ракурсам за секунды
Код
Демо
#gaussian #imageto3d #image2scene
Код
Демо
#gaussian #imageto3d #image2scene
❤5👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Kokoro TTS
Передовая качественная голосовая модель, основанная на архитектуре StyleTTS. Опенсорс
Всего 82М параметров, 327Мб
Звучит живо
А теперь о минусах: русского пока нет
Демо
Дискорд
Бонус: арена голосовых моделей TTS Arena
#tts #text2speech #leaderboard
Передовая качественная голосовая модель, основанная на архитектуре StyleTTS. Опенсорс
Всего 82М параметров, 327Мб
Звучит живо
А теперь о минусах: русского пока нет
Демо
Дискорд
Бонус: арена голосовых моделей TTS Arena
#tts #text2speech #leaderboard
👍13👎1
Sa2VA: Marrying SAM2 with LLaVA for Dense Grounded Understanding of Images and Videos
Поженили SAM2 с Llava
Модель сегметрирует картинки и видео по текстовому запросу
Код
Демо
#segmentation #image2mask #video2mask
Поженили SAM2 с Llava
Модель сегметрирует картинки и видео по текстовому запросу
Код
Демо
#segmentation #image2mask #video2mask
👍10
This media is not supported in your browser
VIEW IN TELEGRAM
Codestral 25.01
Обновка ИИ-программиста от Mistral в топе на LMsys Copilot Arena
Попробовать можно через плагин continue.dev в VS Code и JetBrains (выберите выберите Codestral 25.01)
спасибо @A_Nikolaeff
#coding
Обновка ИИ-программиста от Mistral в топе на LMsys Copilot Arena
Попробовать можно через плагин continue.dev в VS Code и JetBrains (выберите выберите Codestral 25.01)
Нужно зайти на https://console.mistral.ai/codestral, зарегатся и получить бесплатный API key. В настройках continue.dev (https://github.com/continuedev/continue) в VS Code ставишь codestral. И работаешь бесплатно.
спасибо @A_Nikolaeff
#coding
👍6🤯1
This media is not supported in your browser
VIEW IN TELEGRAM
Run ComfyUI workflows for free with Gradio on Hugging Face Spaces
Теперь из #CoimfyUI воркфлоу можно сделать приложение на gradio и запустить в демоспейсе на HuggingFace
#tutorial #news
Теперь из #CoimfyUI воркфлоу можно сделать приложение на gradio и запустить в демоспейсе на HuggingFace
#tutorial #news
👍7❤4🔥3
This media is not supported in your browser
VIEW IN TELEGRAM
Ludus AI - Unreal Engine AI toolkit
К Unreal Engine 5 прикрутили Anthropic и немножко на подхвате Deepseek. Предлагают попробовать бесплатно.
Доступ к ИИ очевидно, по API, за который, вероятно, все равно придется заплатить
Кто попробует - опишитесь что там как
#coding #assistant
К Unreal Engine 5 прикрутили Anthropic и немножко на подхвате Deepseek. Предлагают попробовать бесплатно.
Доступ к ИИ очевидно, по API, за который, вероятно, все равно придется заплатить
Кто попробует - опишитесь что там как
#coding #assistant
👍5🤡2
Deepseek ios
Приложение доступно в российском appstore
Кажется, доступ в интернет работает плохо или у меня кривые руки
#mobile #iOS #assistant
Приложение доступно в российском appstore
Кажется, доступ в интернет работает плохо или у меня кривые руки
#mobile #iOS #assistant
👍8⚡2❤1👎1🤯1
MiniMax-01
Hailuo AI выпустили языковую модель MiniMax-01 с контекстом 4 миллиона токенов. Это ооочень много
MiniMax-VL-01 - визуально-языковая
MiniMax-Text-01 - гибридная архитектура Lightning Attention / Softmax Attention / Mixture-of-Experts (MoE) на 456B параметров
PS. Мертвых с косами тоже приписал Цою и Есенину, как и Deepseek. Это заговор
Попробовать можно на офсайте - там же генерируем видео и речь, есть изолятор голоса на аудио
Или тут (API) - там у них и генератор речи есть speech-01 и генератор музыки music-01
Гитхаб
Демо MiniMax-VL-01
Демо MiniMax-Text-01
#vlm #llm #assistant #text2speech #tts #voiceisolation
Hailuo AI выпустили языковую модель MiniMax-01 с контекстом 4 миллиона токенов. Это ооочень много
MiniMax-VL-01 - визуально-языковая
MiniMax-Text-01 - гибридная архитектура Lightning Attention / Softmax Attention / Mixture-of-Experts (MoE) на 456B параметров
PS. Мертвых с косами тоже приписал Цою и Есенину, как и Deepseek. Это заговор
Попробовать можно на офсайте - там же генерируем видео и речь, есть изолятор голоса на аудио
Или тут (API) - там у них и генератор речи есть speech-01 и генератор музыки music-01
Гитхаб
Демо MiniMax-VL-01
Демо MiniMax-Text-01
#vlm #llm #assistant #text2speech #tts #voiceisolation
👍4❤2
Media is too big
VIEW IN TELEGRAM
Seaweed APT: Diffusion Adversarial Post-Training for One-Step Video Generation
Генерация видео и изображений за один шаг от ByteDance
Модель генерирует 2 секунды видео с разрешением 1280х720 @24 fps в режиме реального времени
Кода нет, есть восхищение
#text2video #text2image #realtime
Генерация видео и изображений за один шаг от ByteDance
Модель генерирует 2 секунды видео с разрешением 1280х720 @24 fps в режиме реального времени
Кода нет, есть восхищение
#text2video #text2image #realtime
❤12😁5👍3