Нейронавт | Нейросети в творчестве – Telegram
Нейронавт | Нейросети в творчестве
10.6K subscribers
4.45K photos
3.72K videos
41 files
4.76K links
Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus

Заявка на регистрацию в РКН № 6309426111
Download Telegram
MotionCLR: Motion Generation and Training-free Editing via Understanding Attention Mechanisms

Итеративная ИИ-анимация персонажей по тексту на основе механизма внимания.

Примеры:

Подчёркивание или ослабление движения. Если вы сначала создаёте движение с подсказкой «человек прыгает» и считаете, что высота прыжка выше, чем вам нужно, вы можете уменьшить вес «прыжка», чтобы удовлетворить свой запрос.

Генерация движения на примере. В цикле интерактивной генерации движения вы можете сгенерировать движение «удар ногой». Вы также можете сгенерировать множество движений, похожих на это (с той же текстурой движения). Например, исходное движение может быть ударом левой ногой, а новое движение может включать удар правой ногой.

Замена движения на месте. Предположим, вы хотите создать несколько движений, содержащих разные действия, выполняемые в одном и том же часовом поясе. Сначала вы можете синтезировать одно движение и редактировать текст, изменяя слова напрямую.


Код
Демо
Блог

#humananimation #characteranimation
👍5
InstantIR: Blind Image Restoration with Instant Generative Reference

Семейство моделей для реставрации изображений "с высочайшим качеством и реалистичностью деталей". А для пущего эффекта можно еще и использовать текстовые промпты, вплоть до редактирования содержимого

Код
Веса
Демо ждем

#imagerestoration #BIR #imageediting #image2image #upscale
👍8🔥3🤔1
Нейронавт | Нейросети в творчестве
JEN-1 Новая мощная музыкальная модель. Возможности: - генерация музыки по тексту - инпейнтинг (замена заданного фрагмента) - продолжение заданного фрагмента Хорошо справляется с попаданием в заданный темп, инструмент, настроение, эру (70-е, 80-е, 90-е)…
This media is not supported in your browser
VIEW IN TELEGRAM
jenmusic.ai

Оказывается, у генератора/редактора музыки JEN-1 уже есть онлайн сервис

На старте дают 300 кредитов, по 3 кредита на генерацию. В генерации два варианта 45-секундного трека. Трек потом можно продлить

Этакий конкурент Suno/Udio на минималках... Хотя почему на минималках. Тут есть убойные фичи:
Сделать трек из вашего аудио. И Превратить ваше аудио в определенный музыкальный инструмент.

Го тестить!

Ссылка на трек из видео

#text2music #online #audio2music #audio2instrument
🔥8🥴1
OS-ATLAS: A Foundation Action Model For Generalist GUI Agents

У нас вырисовывается новая гонка - гонка моделей для захвата власти над вашим локальным устройством.

OS-ATLAS - базовая модель агентов для взаимодействия с пользоветльским интерсфейсом. Иначе говоря, для выполнения действий на компе вместо вас, подобно Jarvis, OmniParser, Computer Use

Код
Веса

#assistant #agent #GUIagent
👍3🔥1
Leaderboard Explorer

Надо сравнить нейросетки? Ищем подходящий лидерборд на HuggingFace

#leaderboard
👍1
ConsiStory: Training-Free Consistent Text-to-Image Generation

Генерация консистентных изображений без дообучения от Nvidia. Модель тизернули еще летом, код опубликовали вчера.
скорость - 10 секунд на 1 генерацию (какого разрешения?) на H100
Работает на SDXL, в будущем добавят поддержку Flux

Код
Демо

#personalization #text2image
🔥11
URAvatar: Universal Relightable Gaussian Codec Avatars

Портретный аватар на гауссианах. На вход достаточно подать "телефонный скан" - что это? фотограмметрия? скан с лидара? видео с разных ракурсов?

Ну и дальше в реальном времени можно управлять анимацией и освещением

Кода нет

#humanavatar #gaussian #facialanimation #headanimation #talkinghead
🔥7
This media is not supported in your browser
VIEW IN TELEGRAM
Talk to Claude

Демоспейс для поболтать с Claude голосом

Вам понадобится Anthropic API Key, а также логин и API Key от PlayHT

#voicechat #voiceassistant
👍3
fish.audio

Быстрый и качественный опенсорсный голосовой движок!

Состоит из модели голоса Fish Speech и агента Fish Agent
В команде - разработчики RVC, So-VITS-SVC
Клонирует голос по отрывку речи 10-30 секунд.
Есть готовые голоса на офсайте.
Помимо клонирования много другого умеет.
Увы, русского пока нет в числе поддерживаемых языков.

Демо на HF - текст в речь
Демо на офсайте с выбором голоса
Демо агента на HF - загружаете аудио и даете агенту задания
Голосовой чат
Гитхаб

#voicecloning #text2speech #tts #agent #voiceassistant
🔥9
Давно не открывал ChatGPT, а там уже на бесплатном тарифе и картинки генерить можно, и файлы отправлять, и по ссылкам он читает - красота!

#assistant
😁12👍10👎1🤯1
This media is not supported in your browser
VIEW IN TELEGRAM
How Far is Video Generation from World Model?

Исследование на тему Могут ли видеогенераторы (например, #SORA) считаться моделями физического мира.

Кратко по выводам:

1. Модель идеально обобщает данные, находящиеся в распределении (датасете?), но не может выполнять обобщение вне распределения. Для комбинаторных сценариев соблюдается закон масштабирования.

2. Модели не в состоянии абстрагировать общие правила и вместо этого пытаются имитировать ближайший пример из датасета.

3. При обращении к обучающим данным модель расставляет приоритеты атрибутов так: цвет> размер> скорость> форма.

#news
👍10🤓21