NEW BOT Телеграм, страница

OS-ATLAS: A Foundation Action Model For Generalist GUI Agents

У нас вырисовывается новая гонка - гонка моделей для захвата власти над вашим локальным устройством.

OS-ATLAS - базовая модель агентов для взаимодействия с пользоветльским интерсфейсом. Иначе говоря, для выполнения действий на компе вместо вас, подобно Jarvis, OmniParser, Computer Use

Код
Веса

#assistant #agent #GUIagent

👍3🔥1

1.48K views08:04

Нейронавт | Нейросети в творчестве

Leaderboard Explorer

Надо сравнить нейросетки? Ищем подходящий лидерборд на HuggingFace

#leaderboard

👍1

1.46K views08:50

Нейронавт | Нейросети в творчестве

1:01

This media is not supported in your browser

VIEW IN TELEGRAM

ConsiStory: Training-Free Consistent Text-to-Image Generation

Генерация консистентных изображений без дообучения от Nvidia. Модель тизернули еще летом, код опубликовали вчера.
скорость - 10 секунд на 1 генерацию (какого разрешения?) на H100
Работает на SDXL, в будущем добавят поддержку Flux

Код
Демо

#personalization #text2image

🔥11

7.85K views09:15

Нейронавт | Нейросети в творчестве

0:32

This media is not supported in your browser

URAvatar: Universal Relightable Gaussian Codec Avatars

Портретный аватар на гауссианах. На вход достаточно подать "телефонный скан" - что это? фотограмметрия? скан с лидара? видео с разных ракурсов?

Ну и дальше в реальном времени можно управлять анимацией и освещением

Кода нет

#humanavatar #gaussian #facialanimation #headanimation #talkinghead

🔥7

1.48K views13:26

Нейронавт | Нейросети в творчестве

0:33

This media is not supported in your browser

VIEW IN TELEGRAM

Talk to Claude

Демоспейс для поболтать с Claude голосом

Вам понадобится Anthropic API Key, а также логин и API Key от PlayHT

#voicechat #voiceassistant

👍3

1.53K views16:05

Нейронавт | Нейросети в творчестве

1:08

This media is not supported in your browser

VIEW IN TELEGRAM

0:28

This media is not supported in your browser

VIEW IN TELEGRAM

fish.audio

Быстрый и качественный опенсорсный голосовой движок!

Состоит из модели голоса Fish Speech и агента Fish Agent
В команде - разработчики RVC, So-VITS-SVC
Клонирует голос по отрывку речи 10-30 секунд.
Есть готовые голоса на офсайте.
Помимо клонирования много другого умеет.
Увы, русского пока нет в числе поддерживаемых языков.

Демо на HF - текст в речь
Демо на офсайте с выбором голоса
Демо агента на HF - загружаете аудио и даете агенту задания
Голосовой чат
Гитхаб

#voicecloning #text2speech #tts #agent #voiceassistant

🔥9

1.93K views16:31

Нейронавт | Нейросети в творчестве

Давно не открывал ChatGPT, а там уже на бесплатном тарифе и картинки генерить можно, и файлы отправлять, и по ссылкам он читает - красота!

#assistant

😁12👍10👎1🤯1

1.82K views17:16

Нейронавт | Нейросети в творчестве

3:10

This media is not supported in your browser

VIEW IN TELEGRAM

How Far is Video Generation from World Model?

Исследование на тему Могут ли видеогенераторы (например, #SORA) считаться моделями физического мира.

Кратко по выводам:

1. Модель идеально обобщает данные, находящиеся в распределении (датасете?), но не может выполнять обобщение вне распределения. Для комбинаторных сценариев соблюдается закон масштабирования.

2. Модели не в состоянии абстрагировать общие правила и вместо этого пытаются имитировать ближайший пример из датасета.

3. При обращении к обучающим данным модель расставляет приоритеты атрибутов так: цвет> размер> скорость> форма.

#news

👍10🤓2❤1

1.67K views11:22

Нейронавт | Нейросети в творчестве

FLUX1.1 [pro] Ultra / Raw

Обновка от BlackForest Labs
Разрешение новой модели Flux Ultra - до 4 мегапикселей

Короче, Ultra - высокое разрешение.
Raw - для получения естественных результатов, похожих на фотографии

Помним что [pro] - платная версия - 24 кредита за одну генерацию на fal.ai, это $0.06 за картинку

Доступно по API и на сайте

fal.ai

#text2image #flux

❤8👍1

1.69K views07:43

Нейронавт | Нейросети в творчестве

This media is not supported in your browser

VIEW IN TELEGRAM

GenXD: Generating Any 3D and 4D Scenes

Генерация 3D и 4D (с движением) сцен по одному или нескольким ракурсам

Код ждем

#videoto3d #videoto4d

👍3❤1

1.63K views08:04

Нейронавт | Нейросети в творчестве

Открылся демоспейс реставратора изображений InstantIR

Демо

#imagerestoration #BIR #imageediting #image2image #upscale

👍5👎4🤔1

1.73K views08:39

Нейронавт | Нейросети в творчестве

This media is not supported in your browser

VIEW IN TELEGRAM

Mochi на 12GB VRAM

Как запустить видеогенератор Mochi в #ComfyUI на RTX 3060

Воркфлоу

#text2video

🔥9👍1

1.75K viewsedited 07:13

Нейронавт | Нейросети в творчестве

Разводим реставратор InstantIR в #ComfyUI
Бонусом еще один демоспейс. Собрал все ссылки в кучу

Демо2
Демо2
ComfyUI_InstantIR_Wrapper
Код
Веса

#imagerestoration #BIR #imageediting #image2image #upscale

🔥8❤1👍1

1.76K views07:31

Нейронавт | Нейросети в творчестве

0:58

This media is not supported in your browser

VIEW IN TELEGRAM

1:12

This media is not supported in your browser

VIEW IN TELEGRAM

Hertz-dev

Первая опенсорсная базовая модель для генерации разговорного звука.
Полный дуплеккс, то есть может генерить одновременно два голоса диалога, каждый в отдельном латентном канале генерации.
Основная способность модели - продолжение входного аудио.
Работает в 16 кГц
Поддержка русского силами подписчиков не обнаружена

Код
Демо
Веса
Hallucinator - Pinokio/Github

#audio2audio #speech #audioextension

🔥11🤯3❤1👍1😐1

1.58K views08:06

About

Blog

Apps

Platform