Нейронавт | Нейросети в творчестве – Telegram
Нейронавт | Нейросети в творчестве
10.6K subscribers
4.47K photos
3.74K videos
41 files
4.77K links
Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus

Заявка на регистрацию в РКН № 6309426111
Download Telegram
Manus 1.5

Обновился агент Manus

— два агента: Manus-1.5 и Manus-1.5-Lite

— ускорение работы (почти в 4 раза)

— повышение качества работы (на 15 %) и удовлетворённости пользователей (на 6 %)

— увеличенное контекстное окно для сложных задач

— возможность создавать и развёртывать веб-приложения с разными функциями (аутентификация, база данных, ИИ-возможности, визуальный редактор и др.)

— функции для совместной работы и библиотека для хранения файлов.

Заходить через 3 буквы

#agent
👍4
NOF1

Лидерборд и живой график

Здесь можно посмотреть как языковые модели справляются с трейдингом

Проект использует финансовые рынки для обучения новых базовых моделей ИИ.
Утверждается, что финансовые рынки являются лучшим бенчмарком для ИИ, так как они усложняются по мере того, как ИИ становится умнее.

#leaderboard #arena #trading #agent
🔥8🤯1
На реддите опубликован пост с предупреждением о сомнительной деятельности разработчика под ником Eddy.

Автор поста утверждает, что Eddy использует языковые модели для написания кода, запутывает реальные процессы разработки, делает необоснованные заявления об улучшениях и скрывает код в подозрительных архивах. Его репозитории содержат некачественный и, возможно, украденный код, а некоторые пакеты ПО — вредоносные функции, например, сканирование диска и отключение сетевого адаптера. Также есть утверждения о том, что он продаёт уроки за 300 долларов в Китае, хотя сам это отрицает. Пользователям рекомендуется не доверять его заявлениям и не использовать его разработки.

Спасибо @StanShumsky

#news #safety
👍10🤷‍♂51😁1
Media is too big
VIEW IN TELEGRAM
UniMoE-Audio: Unified Speech and Music Generation via Dynamic-Capacity Mixture of Experts

Единая модель для генерации (и понимания) речи и музыки с использованием динамического совета экспертов. Умеет клонировать голос.

Английский и китайский

Код
HF

#text2musc #text2speech #tts #moe #voicecloning
👍7🤷‍♂1
Ponimator: Unfolding Interactive Pose for Versatile Human-Human Interaction Animation

Ну и чем мне теперь заменить слово "пониматор"? Они не ПОНИмают что натворили.

Анимация взаимодействия между людьми. Использует интерактивные позы как основу для генерации движений

Фреймворк состоит из двух условных диффузионных моделей: одна генерирует динамические последовательности движений на основе временного контекста, другая создаёт интерактивные позы из одиночной позы, текста или их комбинации;

Поддерживает различные задачи: анимацию взаимодействия по изображениям, анимацию реакций, синтез взаимодействия по тексту

Код

#humananimation #animation #image2video #text2video #text2pose #pose2video
👍7😁1
InternSVG: Towards Unified SVG Tasks with Multimodal Large Language Models

Фреймворк для работы с SVG-графикой, основанный на мультимодальных больших языковых моделях. Объединяет задачи понимания, редактирования и генерации SVG

В качестве визуального энкодера — InternViT-300M, языковой модели — Qwen2.5-7B

Код
Веса ждем

#SVG #vectorediting #vector #text2noscript #text2vector #vector2vectro #noscript2noscript
🔥12👍21
This media is not supported in your browser
VIEW IN TELEGRAM
ИИ запилил себе тело чтобы охотиться на человеков

Deemos показали Люси, робота, созданного ИИ

1. сгенерили картинку
2. 3D-модель сгенерили в Rodin
3. Обучение на основе RL в симуляторе
4. 3D-печать
5. Люси в реальном мире

Проект вдохновлен Text2Robot

#яниначтоненамекаю #text2robot #robot
🔥10😭5👍1🥴1
AnyUp: Universal Feature Upsampling

Апскейлер визуальных признаков (features) из любых слоёв кодировщиков изображений, не зависит от типа энкодера.

Обобщает на другие модели и размеры моделей, например, хорошо работает с SigLIP 2 и DINOv3 после обучения на DINOv2 (ViT-S)

Признаки о которых идет речь — не RGB информация, это данные, которые описывают определённые характеристики визуального контента. Тем не менее, метод может быть полезен для апскейла изображений и технических пассов

Код

#upscale
👍3🔥1
flymyai-lora-trainer Flux LoRa training

В инструмент для длобучения моделей flymyai-lora-trainer добавили поддержку обучения лор FLUX.1-dev

Пример - лора Энн Хэтуэй

Обучать лоры онлайн тут
Гитхаб

#TEXT2IMAGE #LORA #FINETUNING
🔥12👍5
Очередная демка генератора миров. Попробовал. Возможности передвижения очень ограниченные, вверх-вниз нельзя, по горизонтали очень быстро упираешься в стену. Ну такое

#world #image2world
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
Media is too big
VIEW IN TELEGRAM
RTFM: A Real-Time Frame Model

Про генерацию миров от WorldLab я уже писал и не раз.

Но тут они выкатили новое интерактивное демо, которое нельзя не попробовать.

Главные фишки: бесконечный контекст(память) и нефотореалистичные "скины".

Для начала, идете сюда и пробуете:
https://rtfm.worldlabs.ai/
Там пока нельзя вгрузить свое изображение, но можно попробовать картинки из библиотеки.
На входе ОДНО изображение и промпт - на выходе - целый мир.

Потом читаете тут:
https://www.worldlabs.ai/blog/rtfm

По мере развития этой технологии становится ясно одно: генеративные модели мира будут требовать очень больших вычислительных ресурсов, гораздо больше, чем современные LLM. Если мы наивно применим современные видеоархитектуры к этой задаче, то для генерации интерактивного 4K-видеопотока со скоростью 60 кадров в секунду потребуется производить более 100 тысяч токенов в секунду (примерно столько же, сколько составляет длина романа «Франкенштейн» или первой книги о Гарри Поттере); чтобы эти генерации сохранялись в течение часового (или дольше) взаимодействия, необходимо обрабатывать контексты, превышающие 100 миллионов токенов. Это невозможно и экономически нецелесообразно с учетом современной вычислительной инфраструктуры.

Но WorldLab сделал так, что RTFM может крутиться на ОДНОЙ H100, обеспечивая интерактивный опыт.
С бесконечным контекстом они придумали интересный трюк: они не запоминают все сгенерированные кадры (экономя память), а лишь углы камеры и метадату плюс "некоторое" количество кадров вокруг текущего ракурса (кеш генераций), при достаточно большой смене ракурса перегенерируют заново.

Модель обрабатывает широкий спектр типов сцен, визуальных стилей и эффектов, включая отражения, полированные поверхности, тени и блики.

На видео в начале каждого плана можно заметить небольшие артефакты, но на общем фоне и с учетом красоты работы это мелочи.

@cgevent
👍6👎1
Media is too big
VIEW IN TELEGRAM
UrbanVerse: Scaling Urban Simulation by Watching City-Tour Videos

3D миры здорового человека робота

UrbanVerse преобразует реальные городские сцены из видеопрогулок по городам в интерактивные симуляционные среды с учётом физики. Это позволяет масштабировать обучение роботов в городских пространствах и улучшать их адаптацию к реальным условиям

Из некалиброваных видео извлекает семантические макеты.
На основе одного видео и макета генерирует несколько разнообразных цифровых сцен.

Ну и у них есть свой датасет UrbanVerse-100K для создания симуляций, основанных на реальных макетах

Код ждем

#videotoscene #videoto3d #video2world #world
👍6