InstantIR: Blind Image Restoration with Instant Generative Reference
Семейство моделей для реставрации изображений "с высочайшим качеством и реалистичностью деталей". А для пущего эффекта можно еще и использовать текстовые промпты, вплоть до редактирования содержимого
Код
Веса
Демо ждем
#imagerestoration #BIR #imageediting #image2image #upscale
Семейство моделей для реставрации изображений "с высочайшим качеством и реалистичностью деталей". А для пущего эффекта можно еще и использовать текстовые промпты, вплоть до редактирования содержимого
Код
Веса
Демо ждем
#imagerestoration #BIR #imageediting #image2image #upscale
👍8🔥3🤔1
Нейронавт | Нейросети в творчестве
JEN-1 Новая мощная музыкальная модель. Возможности: - генерация музыки по тексту - инпейнтинг (замена заданного фрагмента) - продолжение заданного фрагмента Хорошо справляется с попаданием в заданный темп, инструмент, настроение, эру (70-е, 80-е, 90-е)…
This media is not supported in your browser
VIEW IN TELEGRAM
jenmusic.ai
Оказывается, у генератора/редактора музыки JEN-1 уже есть онлайн сервис
На старте дают 300 кредитов, по 3 кредита на генерацию. В генерации два варианта 45-секундного трека. Трек потом можно продлить
Этакий конкурент Suno/Udio на минималках... Хотя почему на минималках. Тут есть убойные фичи:
Сделать трек из вашего аудио. И Превратить ваше аудио в определенный музыкальный инструмент.
Го тестить!
Ссылка на трек из видео
#text2music #online #audio2music #audio2instrument
Оказывается, у генератора/редактора музыки JEN-1 уже есть онлайн сервис
На старте дают 300 кредитов, по 3 кредита на генерацию. В генерации два варианта 45-секундного трека. Трек потом можно продлить
Этакий конкурент Suno/Udio на минималках... Хотя почему на минималках. Тут есть убойные фичи:
Сделать трек из вашего аудио. И Превратить ваше аудио в определенный музыкальный инструмент.
Го тестить!
Ссылка на трек из видео
#text2music #online #audio2music #audio2instrument
🔥8🥴1
OS-ATLAS: A Foundation Action Model For Generalist GUI Agents
У нас вырисовывается новая гонка - гонка моделей для захвата власти над вашим локальным устройством.
OS-ATLAS - базовая модель агентов для взаимодействия с пользоветльским интерсфейсом. Иначе говоря, для выполнения действий на компе вместо вас, подобно Jarvis, OmniParser, Computer Use
Код
Веса
#assistant #agent #GUIagent
У нас вырисовывается новая гонка - гонка моделей для захвата власти над вашим локальным устройством.
OS-ATLAS - базовая модель агентов для взаимодействия с пользоветльским интерсфейсом. Иначе говоря, для выполнения действий на компе вместо вас, подобно Jarvis, OmniParser, Computer Use
Код
Веса
#assistant #agent #GUIagent
👍3🔥1
ConsiStory: Training-Free Consistent Text-to-Image Generation
Генерация консистентных изображений без дообучения от Nvidia. Модель тизернули еще летом, код опубликовали вчера.
скорость - 10 секунд на 1 генерацию (какого разрешения?) на H100
Работает на SDXL, в будущем добавят поддержку Flux
Код
Демо
#personalization #text2image
Генерация консистентных изображений без дообучения от Nvidia. Модель тизернули еще летом, код опубликовали вчера.
скорость - 10 секунд на 1 генерацию (какого разрешения?) на H100
Работает на SDXL, в будущем добавят поддержку Flux
Код
Демо
#personalization #text2image
🔥11
URAvatar: Universal Relightable Gaussian Codec Avatars
Портретный аватар на гауссианах. На вход достаточно подать "телефонный скан" - что это? фотограмметрия? скан с лидара? видео с разных ракурсов?
Ну и дальше в реальном времени можно управлять анимацией и освещением
Кода нет
#humanavatar #gaussian #facialanimation #headanimation #talkinghead
Портретный аватар на гауссианах. На вход достаточно подать "телефонный скан" - что это? фотограмметрия? скан с лидара? видео с разных ракурсов?
Ну и дальше в реальном времени можно управлять анимацией и освещением
Кода нет
#humanavatar #gaussian #facialanimation #headanimation #talkinghead
🔥7
This media is not supported in your browser
VIEW IN TELEGRAM
Talk to Claude
Демоспейс для поболтать с Claude голосом
Вам понадобится Anthropic API Key, а также логин и API Key от PlayHT
#voicechat #voiceassistant
Демоспейс для поболтать с Claude голосом
Вам понадобится Anthropic API Key, а также логин и API Key от PlayHT
#voicechat #voiceassistant
👍3
fish.audio
Быстрый и качественный опенсорсный голосовой движок!
Состоит из модели голоса Fish Speech и агента Fish Agent
В команде - разработчики RVC, So-VITS-SVC
Клонирует голос по отрывку речи 10-30 секунд.
Есть готовые голоса на офсайте.
Помимо клонирования много другого умеет.
Увы, русского пока нет в числе поддерживаемых языков.
Демо на HF - текст в речь
Демо на офсайте с выбором голоса
Демо агента на HF - загружаете аудио и даете агенту задания
Голосовой чат
Гитхаб
#voicecloning #text2speech #tts #agent #voiceassistant
Быстрый и качественный опенсорсный голосовой движок!
Состоит из модели голоса Fish Speech и агента Fish Agent
В команде - разработчики RVC, So-VITS-SVC
Клонирует голос по отрывку речи 10-30 секунд.
Есть готовые голоса на офсайте.
Помимо клонирования много другого умеет.
Увы, русского пока нет в числе поддерживаемых языков.
Демо на HF - текст в речь
Демо на офсайте с выбором голоса
Демо агента на HF - загружаете аудио и даете агенту задания
Голосовой чат
Гитхаб
#voicecloning #text2speech #tts #agent #voiceassistant
🔥9
Давно не открывал ChatGPT, а там уже на бесплатном тарифе и картинки генерить можно, и файлы отправлять, и по ссылкам он читает - красота!
#assistant
#assistant
😁12👍10👎1🤯1
This media is not supported in your browser
VIEW IN TELEGRAM
How Far is Video Generation from World Model?
Исследование на тему Могут ли видеогенераторы (например, #SORA) считаться моделями физического мира.
Кратко по выводам:
1. Модель идеально обобщает данные, находящиеся в распределении (датасете?), но не может выполнять обобщение вне распределения. Для комбинаторных сценариев соблюдается закон масштабирования.
2. Модели не в состоянии абстрагировать общие правила и вместо этого пытаются имитировать ближайший пример из датасета.
3. При обращении к обучающим данным модель расставляет приоритеты атрибутов так: цвет> размер> скорость> форма.
#news
Исследование на тему Могут ли видеогенераторы (например, #SORA) считаться моделями физического мира.
Кратко по выводам:
1. Модель идеально обобщает данные, находящиеся в распределении (датасете?), но не может выполнять обобщение вне распределения. Для комбинаторных сценариев соблюдается закон масштабирования.
2. Модели не в состоянии абстрагировать общие правила и вместо этого пытаются имитировать ближайший пример из датасета.
3. При обращении к обучающим данным модель расставляет приоритеты атрибутов так: цвет> размер> скорость> форма.
#news
👍10🤓2❤1
FLUX1.1 [pro] Ultra / Raw
Обновка от BlackForest Labs
Разрешение новой модели Flux Ultra - до 4 мегапикселей
Короче, Ultra - высокое разрешение.
Raw - для получения естественных результатов, похожих на фотографии
Помним что [pro] - платная версия - 24 кредита за одну генерацию на fal.ai, это $0.06 за картинку
Доступно по API и на сайте
fal.ai
#text2image #flux
Обновка от BlackForest Labs
Разрешение новой модели Flux Ultra - до 4 мегапикселей
Короче, Ultra - высокое разрешение.
Raw - для получения естественных результатов, похожих на фотографии
Помним что [pro] - платная версия - 24 кредита за одну генерацию на fal.ai, это $0.06 за картинку
Доступно по API и на сайте
fal.ai
#text2image #flux
❤8👍1
This media is not supported in your browser
VIEW IN TELEGRAM
GenXD: Generating Any 3D and 4D Scenes
Генерация 3D и 4D (с движением) сцен по одному или нескольким ракурсам
Код ждем
#videoto3d #videoto4d
Генерация 3D и 4D (с движением) сцен по одному или нескольким ракурсам
Код ждем
#videoto3d #videoto4d
👍3❤1