This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
SVFR: A Unified Framework for Generalized Video Face Restoration
SVFR = Stable Video Face Restoration
Реставрация лиц на видео: детали, колоризация и инпейнтинг
Код
Демо
#facerestoration #colorize #inpainting #videoinpainting #video2video
SVFR = Stable Video Face Restoration
Реставрация лиц на видео: детали, колоризация и инпейнтинг
Код
Демо
#facerestoration #colorize #inpainting #videoinpainting #video2video
👍8❤2🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
VLC automatic subnoscripts
Опенсорсный плеер VLC анонсировал локальную автоматическую генерацию и перевод субтитров. Когда - пока неизвестно.
Твиттер
#news #audio2text #subnoscripts
Опенсорсный плеер VLC анонсировал локальную автоматическую генерацию и перевод субтитров. Когда - пока неизвестно.
Твиттер
#news #audio2text #subnoscripts
👍15🔥6❤1
Нейронавт | Нейросети в творчестве
jenmusic.ai Оказывается, у генератора/редактора музыки JEN-1 уже есть онлайн сервис На старте дают 300 кредитов, по 3 кредита на генерацию. В генерации два варианта 45-секундного трека. Трек потом можно продлить Этакий конкурент Suno/Udio на минималках...…
JEN-1.5
Генератор/редактор музыки jenmusic.ai уже в публичной бете.
Много интересных фич, большинство из них платные. Звучание оставляет пока желать лучшего, вокала нет. Но эй, это альтернатива суно/юдио
- контроль жанра
- StyleFilters - что-то про стили звучания
- продолжение трека
- инпейнтинг музыкального фрагмента
- STRUCTUR3 - меняет структуру трека - интро/куплет/припев
- R3IMAGINE - самое интересное - преобразует звук (да хоть ваше мычание) в заданный муз инструмент
- скачивание трека отдельными стемами (разбивает на муз инструменты)
#text2music #audioinpainting #music2music
Генератор/редактор музыки jenmusic.ai уже в публичной бете.
Много интересных фич, большинство из них платные. Звучание оставляет пока желать лучшего, вокала нет. Но эй, это альтернатива суно/юдио
- контроль жанра
- StyleFilters - что-то про стили звучания
- продолжение трека
- инпейнтинг музыкального фрагмента
- STRUCTUR3 - меняет структуру трека - интро/куплет/припев
- R3IMAGINE - самое интересное - преобразует звук (да хоть ваше мычание) в заданный муз инструмент
- скачивание трека отдельными стемами (разбивает на муз инструменты)
#text2music #audioinpainting #music2music
👍7❤1
Hailuo S2V-01
новая модель видеогенератора Minimax
Основная фишка - консистентность персонажей.
Достаточно всего по одной референсной картинке на каждого персонажа
#text2video #image2video #personalization
новая модель видеогенератора Minimax
Основная фишка - консистентность персонажей.
Достаточно всего по одной референсной картинке на каждого персонажа
#text2video #image2video #personalization
🔥8
This media is not supported in your browser
VIEW IN TELEGRAM
FaceLift: Single Image to 3D Head with View Generation and GS-LRM
Реконструкция человеческой головы по одному фото или по видео от Adobe.
В случае с видео модель обрабатывает каждый кадр и делает из них последовательность моделей, то есть некое 4D видео, где можно посмотреть на объект с любого ракурса
На презентационном видео это смотрится весьма палевно, в самом конце. Хотя для автара вполне сгодится если будет работать в реальном времени
Кроме этого предлагают комбинировать модель с Liveportrait для 3D анимации портрета
Код ждем или хз
#imageto3d #videoto4d #gaussian #head #humanhead #humanavatar
Реконструкция человеческой головы по одному фото или по видео от Adobe.
В случае с видео модель обрабатывает каждый кадр и делает из них последовательность моделей, то есть некое 4D видео, где можно посмотреть на объект с любого ракурса
На презентационном видео это смотрится весьма палевно, в самом конце. Хотя для автара вполне сгодится если будет работать в реальном времени
Кроме этого предлагают комбинировать модель с Liveportrait для 3D анимации портрета
Код ждем или хз
#imageto3d #videoto4d #gaussian #head #humanhead #humanavatar
👍8❤3
MicroDiT
Эксперимент Sony по обучению картинкогенератора с нуля максимально дешево.
1.16B параметров, обучен на 37М изображений. И это стоило всего $1890
Обучили за 2,5 дня, используя 8 графических процессоров H100
512*512, чекпойнты по 4.7Гб
Что-то напоминает
Хотите свой SD с блекджеком и лорами? сделайте за выходные и $1890
Код
Веса
#text2image
Эксперимент Sony по обучению картинкогенератора с нуля максимально дешево.
1.16B параметров, обучен на 37М изображений. И это стоило всего $1890
Обучили за 2,5 дня, используя 8 графических процессоров H100
512*512, чекпойнты по 4.7Гб
Что-то напоминает
Хотите свой SD с блекджеком и лорами? сделайте за выходные и $1890
Код
Веса
#text2image
❤10😁3
This media is not supported in your browser
VIEW IN TELEGRAM
InstantSplat прокачался, качественно реконструирует поверхность по нескольким ракурсам за секунды
Код
Демо
#gaussian #imageto3d #image2scene
Код
Демо
#gaussian #imageto3d #image2scene
❤5👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Kokoro TTS
Передовая качественная голосовая модель, основанная на архитектуре StyleTTS. Опенсорс
Всего 82М параметров, 327Мб
Звучит живо
А теперь о минусах: русского пока нет
Демо
Дискорд
Бонус: арена голосовых моделей TTS Arena
#tts #text2speech #leaderboard
Передовая качественная голосовая модель, основанная на архитектуре StyleTTS. Опенсорс
Всего 82М параметров, 327Мб
Звучит живо
А теперь о минусах: русского пока нет
Демо
Дискорд
Бонус: арена голосовых моделей TTS Arena
#tts #text2speech #leaderboard
👍13👎1
Sa2VA: Marrying SAM2 with LLaVA for Dense Grounded Understanding of Images and Videos
Поженили SAM2 с Llava
Модель сегметрирует картинки и видео по текстовому запросу
Код
Демо
#segmentation #image2mask #video2mask
Поженили SAM2 с Llava
Модель сегметрирует картинки и видео по текстовому запросу
Код
Демо
#segmentation #image2mask #video2mask
👍10
This media is not supported in your browser
VIEW IN TELEGRAM
Codestral 25.01
Обновка ИИ-программиста от Mistral в топе на LMsys Copilot Arena
Попробовать можно через плагин continue.dev в VS Code и JetBrains (выберите выберите Codestral 25.01)
спасибо @A_Nikolaeff
#coding
Обновка ИИ-программиста от Mistral в топе на LMsys Copilot Arena
Попробовать можно через плагин continue.dev в VS Code и JetBrains (выберите выберите Codestral 25.01)
Нужно зайти на https://console.mistral.ai/codestral, зарегатся и получить бесплатный API key. В настройках continue.dev (https://github.com/continuedev/continue) в VS Code ставишь codestral. И работаешь бесплатно.
спасибо @A_Nikolaeff
#coding
👍6🤯1
This media is not supported in your browser
VIEW IN TELEGRAM
Run ComfyUI workflows for free with Gradio on Hugging Face Spaces
Теперь из #CoimfyUI воркфлоу можно сделать приложение на gradio и запустить в демоспейсе на HuggingFace
#tutorial #news
Теперь из #CoimfyUI воркфлоу можно сделать приложение на gradio и запустить в демоспейсе на HuggingFace
#tutorial #news
👍7❤4🔥3
This media is not supported in your browser
VIEW IN TELEGRAM
Ludus AI - Unreal Engine AI toolkit
К Unreal Engine 5 прикрутили Anthropic и немножко на подхвате Deepseek. Предлагают попробовать бесплатно.
Доступ к ИИ очевидно, по API, за который, вероятно, все равно придется заплатить
Кто попробует - опишитесь что там как
#coding #assistant
К Unreal Engine 5 прикрутили Anthropic и немножко на подхвате Deepseek. Предлагают попробовать бесплатно.
Доступ к ИИ очевидно, по API, за который, вероятно, все равно придется заплатить
Кто попробует - опишитесь что там как
#coding #assistant
👍5🤡2
Deepseek ios
Приложение доступно в российском appstore
Кажется, доступ в интернет работает плохо или у меня кривые руки
#mobile #iOS #assistant
Приложение доступно в российском appstore
Кажется, доступ в интернет работает плохо или у меня кривые руки
#mobile #iOS #assistant
👍8⚡2❤1👎1🤯1
MiniMax-01
Hailuo AI выпустили языковую модель MiniMax-01 с контекстом 4 миллиона токенов. Это ооочень много
MiniMax-VL-01 - визуально-языковая
MiniMax-Text-01 - гибридная архитектура Lightning Attention / Softmax Attention / Mixture-of-Experts (MoE) на 456B параметров
PS. Мертвых с косами тоже приписал Цою и Есенину, как и Deepseek. Это заговор
Попробовать можно на офсайте - там же генерируем видео и речь, есть изолятор голоса на аудио
Или тут (API) - там у них и генератор речи есть speech-01 и генератор музыки music-01
Гитхаб
Демо MiniMax-VL-01
Демо MiniMax-Text-01
#vlm #llm #assistant #text2speech #tts #voiceisolation
Hailuo AI выпустили языковую модель MiniMax-01 с контекстом 4 миллиона токенов. Это ооочень много
MiniMax-VL-01 - визуально-языковая
MiniMax-Text-01 - гибридная архитектура Lightning Attention / Softmax Attention / Mixture-of-Experts (MoE) на 456B параметров
PS. Мертвых с косами тоже приписал Цою и Есенину, как и Deepseek. Это заговор
Попробовать можно на офсайте - там же генерируем видео и речь, есть изолятор голоса на аудио
Или тут (API) - там у них и генератор речи есть speech-01 и генератор музыки music-01
Гитхаб
Демо MiniMax-VL-01
Демо MiniMax-Text-01
#vlm #llm #assistant #text2speech #tts #voiceisolation
👍4❤2