MotionCLR: Motion Generation and Training-free Editing via Understanding Attention Mechanisms
Итеративная ИИ-анимация персонажей по тексту на основе механизма внимания.
Примеры:
Код
Демо
Блог
#humananimation #characteranimation
Итеративная ИИ-анимация персонажей по тексту на основе механизма внимания.
Примеры:
Подчёркивание или ослабление движения. Если вы сначала создаёте движение с подсказкой «человек прыгает» и считаете, что высота прыжка выше, чем вам нужно, вы можете уменьшить вес «прыжка», чтобы удовлетворить свой запрос.
Генерация движения на примере. В цикле интерактивной генерации движения вы можете сгенерировать движение «удар ногой». Вы также можете сгенерировать множество движений, похожих на это (с той же текстурой движения). Например, исходное движение может быть ударом левой ногой, а новое движение может включать удар правой ногой.
Замена движения на месте. Предположим, вы хотите создать несколько движений, содержащих разные действия, выполняемые в одном и том же часовом поясе. Сначала вы можете синтезировать одно движение и редактировать текст, изменяя слова напрямую.
Код
Демо
Блог
#humananimation #characteranimation
👍5
InstantIR: Blind Image Restoration with Instant Generative Reference
Семейство моделей для реставрации изображений "с высочайшим качеством и реалистичностью деталей". А для пущего эффекта можно еще и использовать текстовые промпты, вплоть до редактирования содержимого
Код
Веса
Демо ждем
#imagerestoration #BIR #imageediting #image2image #upscale
Семейство моделей для реставрации изображений "с высочайшим качеством и реалистичностью деталей". А для пущего эффекта можно еще и использовать текстовые промпты, вплоть до редактирования содержимого
Код
Веса
Демо ждем
#imagerestoration #BIR #imageediting #image2image #upscale
👍8🔥3🤔1
Нейронавт | Нейросети в творчестве
JEN-1 Новая мощная музыкальная модель. Возможности: - генерация музыки по тексту - инпейнтинг (замена заданного фрагмента) - продолжение заданного фрагмента Хорошо справляется с попаданием в заданный темп, инструмент, настроение, эру (70-е, 80-е, 90-е)…
This media is not supported in your browser
VIEW IN TELEGRAM
jenmusic.ai
Оказывается, у генератора/редактора музыки JEN-1 уже есть онлайн сервис
На старте дают 300 кредитов, по 3 кредита на генерацию. В генерации два варианта 45-секундного трека. Трек потом можно продлить
Этакий конкурент Suno/Udio на минималках... Хотя почему на минималках. Тут есть убойные фичи:
Сделать трек из вашего аудио. И Превратить ваше аудио в определенный музыкальный инструмент.
Го тестить!
Ссылка на трек из видео
#text2music #online #audio2music #audio2instrument
Оказывается, у генератора/редактора музыки JEN-1 уже есть онлайн сервис
На старте дают 300 кредитов, по 3 кредита на генерацию. В генерации два варианта 45-секундного трека. Трек потом можно продлить
Этакий конкурент Suno/Udio на минималках... Хотя почему на минималках. Тут есть убойные фичи:
Сделать трек из вашего аудио. И Превратить ваше аудио в определенный музыкальный инструмент.
Го тестить!
Ссылка на трек из видео
#text2music #online #audio2music #audio2instrument
🔥8🥴1
OS-ATLAS: A Foundation Action Model For Generalist GUI Agents
У нас вырисовывается новая гонка - гонка моделей для захвата власти над вашим локальным устройством.
OS-ATLAS - базовая модель агентов для взаимодействия с пользоветльским интерсфейсом. Иначе говоря, для выполнения действий на компе вместо вас, подобно Jarvis, OmniParser, Computer Use
Код
Веса
#assistant #agent #GUIagent
У нас вырисовывается новая гонка - гонка моделей для захвата власти над вашим локальным устройством.
OS-ATLAS - базовая модель агентов для взаимодействия с пользоветльским интерсфейсом. Иначе говоря, для выполнения действий на компе вместо вас, подобно Jarvis, OmniParser, Computer Use
Код
Веса
#assistant #agent #GUIagent
👍3🔥1
ConsiStory: Training-Free Consistent Text-to-Image Generation
Генерация консистентных изображений без дообучения от Nvidia. Модель тизернули еще летом, код опубликовали вчера.
скорость - 10 секунд на 1 генерацию (какого разрешения?) на H100
Работает на SDXL, в будущем добавят поддержку Flux
Код
Демо
#personalization #text2image
Генерация консистентных изображений без дообучения от Nvidia. Модель тизернули еще летом, код опубликовали вчера.
скорость - 10 секунд на 1 генерацию (какого разрешения?) на H100
Работает на SDXL, в будущем добавят поддержку Flux
Код
Демо
#personalization #text2image
🔥11
URAvatar: Universal Relightable Gaussian Codec Avatars
Портретный аватар на гауссианах. На вход достаточно подать "телефонный скан" - что это? фотограмметрия? скан с лидара? видео с разных ракурсов?
Ну и дальше в реальном времени можно управлять анимацией и освещением
Кода нет
#humanavatar #gaussian #facialanimation #headanimation #talkinghead
Портретный аватар на гауссианах. На вход достаточно подать "телефонный скан" - что это? фотограмметрия? скан с лидара? видео с разных ракурсов?
Ну и дальше в реальном времени можно управлять анимацией и освещением
Кода нет
#humanavatar #gaussian #facialanimation #headanimation #talkinghead
🔥7
This media is not supported in your browser
VIEW IN TELEGRAM
Talk to Claude
Демоспейс для поболтать с Claude голосом
Вам понадобится Anthropic API Key, а также логин и API Key от PlayHT
#voicechat #voiceassistant
Демоспейс для поболтать с Claude голосом
Вам понадобится Anthropic API Key, а также логин и API Key от PlayHT
#voicechat #voiceassistant
👍3
fish.audio
Быстрый и качественный опенсорсный голосовой движок!
Состоит из модели голоса Fish Speech и агента Fish Agent
В команде - разработчики RVC, So-VITS-SVC
Клонирует голос по отрывку речи 10-30 секунд.
Есть готовые голоса на офсайте.
Помимо клонирования много другого умеет.
Увы, русского пока нет в числе поддерживаемых языков.
Демо на HF - текст в речь
Демо на офсайте с выбором голоса
Демо агента на HF - загружаете аудио и даете агенту задания
Голосовой чат
Гитхаб
#voicecloning #text2speech #tts #agent #voiceassistant
Быстрый и качественный опенсорсный голосовой движок!
Состоит из модели голоса Fish Speech и агента Fish Agent
В команде - разработчики RVC, So-VITS-SVC
Клонирует голос по отрывку речи 10-30 секунд.
Есть готовые голоса на офсайте.
Помимо клонирования много другого умеет.
Увы, русского пока нет в числе поддерживаемых языков.
Демо на HF - текст в речь
Демо на офсайте с выбором голоса
Демо агента на HF - загружаете аудио и даете агенту задания
Голосовой чат
Гитхаб
#voicecloning #text2speech #tts #agent #voiceassistant
🔥9
Давно не открывал ChatGPT, а там уже на бесплатном тарифе и картинки генерить можно, и файлы отправлять, и по ссылкам он читает - красота!
#assistant
#assistant
😁12👍10👎1🤯1
This media is not supported in your browser
VIEW IN TELEGRAM
How Far is Video Generation from World Model?
Исследование на тему Могут ли видеогенераторы (например, #SORA) считаться моделями физического мира.
Кратко по выводам:
1. Модель идеально обобщает данные, находящиеся в распределении (датасете?), но не может выполнять обобщение вне распределения. Для комбинаторных сценариев соблюдается закон масштабирования.
2. Модели не в состоянии абстрагировать общие правила и вместо этого пытаются имитировать ближайший пример из датасета.
3. При обращении к обучающим данным модель расставляет приоритеты атрибутов так: цвет> размер> скорость> форма.
#news
Исследование на тему Могут ли видеогенераторы (например, #SORA) считаться моделями физического мира.
Кратко по выводам:
1. Модель идеально обобщает данные, находящиеся в распределении (датасете?), но не может выполнять обобщение вне распределения. Для комбинаторных сценариев соблюдается закон масштабирования.
2. Модели не в состоянии абстрагировать общие правила и вместо этого пытаются имитировать ближайший пример из датасета.
3. При обращении к обучающим данным модель расставляет приоритеты атрибутов так: цвет> размер> скорость> форма.
#news
👍10🤓2❤1