NEW BOT Телеграм, страница

MotionCLR: Motion Generation and Training-free Editing via Understanding Attention Mechanisms

Итеративная ИИ-анимация персонажей по тексту на основе механизма внимания.

Примеры:

Подчёркивание или ослабление движения. Если вы сначала создаёте движение с подсказкой «человек прыгает» и считаете, что высота прыжка выше, чем вам нужно, вы можете уменьшить вес «прыжка», чтобы удовлетворить свой запрос.

Генерация движения на примере. В цикле интерактивной генерации движения вы можете сгенерировать движение «удар ногой». Вы также можете сгенерировать множество движений, похожих на это (с той же текстурой движения). Например, исходное движение может быть ударом левой ногой, а новое движение может включать удар правой ногой.

Замена движения на месте. Предположим, вы хотите создать несколько движений, содержащих разные действия, выполняемые в одном и том же часовом поясе. Сначала вы можете синтезировать одно движение и редактировать текст, изменяя слова напрямую.

Код
Демо
Блог

#humananimation #characteranimation

👍5

1.53K views06:39

Нейронавт | Нейросети в творчестве

InstantIR: Blind Image Restoration with Instant Generative Reference

Семейство моделей для реставрации изображений "с высочайшим качеством и реалистичностью деталей". А для пущего эффекта можно еще и использовать текстовые промпты, вплоть до редактирования содержимого

Код
Веса
Демо ждем

#imagerestoration #BIR #imageediting #image2image #upscale

👍8🔥3🤔1

1.53K views06:55

Нейронавт | Нейросети в творчестве

JEN-1 Новая мощная музыкальная модель. Возможности: - генерация музыки по тексту - инпейнтинг (замена заданного фрагмента) - продолжение заданного фрагмента Хорошо справляется с попаданием в заданный темп, инструмент, настроение, эру (70-е, 80-е, 90-е)…

1:29

This media is not supported in your browser

VIEW IN TELEGRAM

jenmusic.ai

Оказывается, у генератора/редактора музыки JEN-1 уже есть онлайн сервис

На старте дают 300 кредитов, по 3 кредита на генерацию. В генерации два варианта 45-секундного трека. Трек потом можно продлить

Этакий конкурент Suno/Udio на минималках... Хотя почему на минималках. Тут есть убойные фичи:
Сделать трек из вашего аудио. И Превратить ваше аудио в определенный музыкальный инструмент.

Го тестить!

Ссылка на трек из видео

#text2music #online #audio2music #audio2instrument

🔥8🥴1

1.73K viewsedited 07:20

Нейронавт | Нейросети в творчестве

1:13

This media is not supported in your browser

VIEW IN TELEGRAM

1:15

This media is not supported in your browser

VIEW IN TELEGRAM

1:45

This media is not supported in your browser

VIEW IN TELEGRAM

OS-ATLAS: A Foundation Action Model For Generalist GUI Agents

У нас вырисовывается новая гонка - гонка моделей для захвата власти над вашим локальным устройством.

OS-ATLAS - базовая модель агентов для взаимодействия с пользоветльским интерсфейсом. Иначе говоря, для выполнения действий на компе вместо вас, подобно Jarvis, OmniParser, Computer Use

Код
Веса

#assistant #agent #GUIagent

👍3🔥1

1.48K views08:04

Нейронавт | Нейросети в творчестве

Leaderboard Explorer

Надо сравнить нейросетки? Ищем подходящий лидерборд на HuggingFace

#leaderboard

👍1

1.46K views08:50

Нейронавт | Нейросети в творчестве

1:01

This media is not supported in your browser

VIEW IN TELEGRAM

ConsiStory: Training-Free Consistent Text-to-Image Generation

Генерация консистентных изображений без дообучения от Nvidia. Модель тизернули еще летом, код опубликовали вчера.
скорость - 10 секунд на 1 генерацию (какого разрешения?) на H100
Работает на SDXL, в будущем добавят поддержку Flux

Код
Демо

#personalization #text2image

🔥11

7.85K views09:15

Нейронавт | Нейросети в творчестве

0:32

This media is not supported in your browser

URAvatar: Universal Relightable Gaussian Codec Avatars

Портретный аватар на гауссианах. На вход достаточно подать "телефонный скан" - что это? фотограмметрия? скан с лидара? видео с разных ракурсов?

Ну и дальше в реальном времени можно управлять анимацией и освещением

Кода нет

#humanavatar #gaussian #facialanimation #headanimation #talkinghead

🔥7

1.48K views13:26

Нейронавт | Нейросети в творчестве

0:33

This media is not supported in your browser

VIEW IN TELEGRAM

Talk to Claude

Демоспейс для поболтать с Claude голосом

Вам понадобится Anthropic API Key, а также логин и API Key от PlayHT

#voicechat #voiceassistant

👍3

1.53K views16:05

Нейронавт | Нейросети в творчестве

1:08

This media is not supported in your browser

VIEW IN TELEGRAM

0:28

This media is not supported in your browser

VIEW IN TELEGRAM

fish.audio

Быстрый и качественный опенсорсный голосовой движок!

Состоит из модели голоса Fish Speech и агента Fish Agent
В команде - разработчики RVC, So-VITS-SVC
Клонирует голос по отрывку речи 10-30 секунд.
Есть готовые голоса на офсайте.
Помимо клонирования много другого умеет.
Увы, русского пока нет в числе поддерживаемых языков.

Демо на HF - текст в речь
Демо на офсайте с выбором голоса
Демо агента на HF - загружаете аудио и даете агенту задания
Голосовой чат
Гитхаб

#voicecloning #text2speech #tts #agent #voiceassistant

🔥9

1.93K views16:31

Нейронавт | Нейросети в творчестве

Давно не открывал ChatGPT, а там уже на бесплатном тарифе и картинки генерить можно, и файлы отправлять, и по ссылкам он читает - красота!

#assistant

😁12👍10👎1🤯1

1.81K views17:16

Нейронавт | Нейросети в творчестве

3:10

This media is not supported in your browser

VIEW IN TELEGRAM

How Far is Video Generation from World Model?

Исследование на тему Могут ли видеогенераторы (например, #SORA) считаться моделями физического мира.

Кратко по выводам:

1. Модель идеально обобщает данные, находящиеся в распределении (датасете?), но не может выполнять обобщение вне распределения. Для комбинаторных сценариев соблюдается закон масштабирования.

2. Модели не в состоянии абстрагировать общие правила и вместо этого пытаются имитировать ближайший пример из датасета.

3. При обращении к обучающим данным модель расставляет приоритеты атрибутов так: цвет> размер> скорость> форма.

#news

👍10🤓2❤1

1.67K views11:22

About

Blog

Apps

Platform