NEW BOT Телеграм, страница

TangoFlux: Super Fast and Faithful Text to Audio Generation with Flow Matching and Clap-Ranked Preference Optimization

Генератор звуковых эффектов. Речь и музыку не вывозит, проверил.

Зато выдает 44 КГц, до 30 секунд. На А40 на это уходит всего 3 секунды

Код
Демо

#text2audio #text2sfx #foley

👍5❤1🔥1

1.77K views12:18

Нейронавт | Нейросети в творчестве

0:45

This media is not supported in your browser

VIEW IN TELEGRAM

0:17

This media is not supported in your browser

VIEW IN TELEGRAM

PERSE: Personalized 3D Generative Avatars from A Single Portrait

По одному входному портрету PERSE создает анимируемый персонализированный 3D-аватар на гауссианах с независимым редактированием различных атрибутов лица

Код ждем

#humanavatar #portraitanimation #gaussian #facialanimation

❤17

1.96K views12:48

Нейронавт | Нейросети в творчестве

0:39

This media is not supported in your browser

VIEW IN TELEGRAM

ebook2audiobook v2.0.0 Beta

Конвертер электронных книг в аудиокниги обновился. Поддерживает разные форматы, клонирование голоса, 1124 языка, в том числе русский.

Но мне не понравилась голосовая модель, попозже покажу лучший вариант

Демо

#text2speech #ebook2audiobook #voicecloning

👀6🎃4❤1

2.12K views13:17

Нейронавт | Нейросети в творчестве

0:31

This media is not supported in your browser

VIEW IN TELEGRAM

SynCamMaster: Synchronizing Multi-Camera Video Generation from Diverse Viewpoints

Метод генерации видео одновременно с нескольких ракурсов. Демонстрационные видео сделаны в CogvideoX

Код

PS Акелла промахнулся. я про него уже писал

#text2video #multiview #cameracontrol

🔥12❤1

1.97K viewsedited 13:48

Нейронавт | Нейросети в творчестве

0:40

Media is too big

VIEW IN TELEGRAM

MoGe: Unlocking Accurate Monocular Geometry Estimation for Open-Domain Images with Optimal Training Supervision

Подгон от Microsoft. Преобразует изображение в меш через карту глубины.

На сравнении выглядит лучше конкурентов, в том числе Depth Anything 2

Код
Демо

#image2depth #video2depth #image2mesh #video2mesh

🔥13❤1

2.09K views14:18

Нейронавт | Нейросети в творчестве

1:58

Media is too big

VIEW IN TELEGRAM

Gaussian Frosting: Editable Complex Radiance Fields with Real-Time Rendering

Новый метод представления поверхностей с помощью сетки, покрытой слоем гауссиан разной толщины.

Этот слой, называемый "Frosting", позволяет захватывать как сложные объемные эффекты, создаваемые материалами вроде волос или травы, так и плоские поверхности. Модель создается только из RGB-изображений и может быть визуализирована в реальном времени, а также анимирована с использованием традиционных инструментов анимации

🍒Ну и вишенка: есть аддон для блендера

Код
Blender

#blender #gaussian #rendering #realtime

🔥10❤1

2.19K views14:47

Нейронавт | Нейросети в творчестве

This media is not supported in your browser

VIEW IN TELEGRAM

Arnis: Generate any location from the real world in Minecraft

Подгон любителям Майнкрафта. Быстрое автоматическое воссоздание любого реального города в Майнкрафте

#tools #game #mapto3d

🤯14🔥5😱2👍1

2.47K views15:19

Нейронавт | Нейросети в творчестве

0:26

This media is not supported in your browser

VIEW IN TELEGRAM

superbolt.geospy.ai

Сервис определяет локацию где сделано фото.
Работает для всех только по Сан-Франциско (проверил -для SF работает)
Для остальных локаций - записаться в вейтлист

Есть API c примерами

#image2geolocation #map #location #geolocation

👍2👀2❤1

1.71K views10:16

Нейронавт | Нейросети в творчестве

1:20

This media is not supported in your browser

VIEW IN TELEGRAM

Browser-Use WebUI

Надстройка к оригинальному Browser-Use для удобного пользования.
Проект дает доступ LLM-агентам к браузеру.
Что-то вроде Computer Use, но агент имеет доступ только к браузеру

Поддерживает Gemini, OpenAI, Azure OpenAI, Anthropic, DeepSeek, Ollama и др.

[UPDATE]
Этот код теперь в официальном Browser-Use

#assistant #agent #tools

👍6❤1

1.89K viewsedited 11:14

Нейронавт | Нейросети в творчестве

This media is not supported in your browser

VIEW IN TELEGRAM

trellis-stable-projectorz

Сборка 3D-генератора Trellis с пониженными требованиями к памяти.

От 8 ГБ VRAM, не требует cuda toolkit, powershell, VisualStudio, админские права. Все что нужно - уже внутри.

Однокликовый установщик

#textto3d #imageto3d #3dediting #3dto3d

❤17

2.09K views11:44

Нейронавт | Нейросети в творчестве

0:43

This media is not supported in your browser

VIEW IN TELEGRAM

0:26

This media is not supported in your browser

VIEW IN TELEGRAM

Browser-Use + Deepseek v3

Инструкция по настройке на китайском

А вообще Browser-Use уже включили в ai-gradio

агента можно запустить в несколько строчек кода:

import gradio as gr
import ai_gradio

demo = gr.load(
 name='browser:gpt-4-turbo',
 src=ai_gradio.registry,
 noscript='Browser Agent',
 denoscription='AI agent that can interact with web browsers'
).launch()

#assistant #agent #tools #tutorial

👍4❤2🤯1

2.1K views12:17

Нейронавт | Нейросети в творчестве

0:20

This media is not supported in your browser

VIEW IN TELEGRAM

0:19

This media is not supported in your browser

VIEW IN TELEGRAM

LatentSync: Audio Conditioned Latent Diffusion Models for Lip Sync

Липсинк от ByteDance.
Двигает губы (и челюсть) под звук речи.
Работает по видео.

первое видео на португальском - оригинал, второе на английском - липсинк

Код
Демо
ComfyUI
Попробовать на fal.ai (если есть кредиты)

#lipsync #speech2video #video2video

👍12❤1

1.85K views12:47

Нейронавт | Нейросети в творчестве

2:12

This media is not supported in your browser

VIEW IN TELEGRAM

VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction

Первая мультимодальная опенсорсная LLM способная обрабатывать видео, изображения, текст и аудио в реальном времени

Код
Веса

#assistant #realtime #vlm #voicemode

👍15

1.99K views13:18

Нейронавт | Нейросети в творчестве

1:42

Media is too big

VIEW IN TELEGRAM

Китайский нейроинтерфейс NeuroXess расшифровывает мысли в реальном времени. Он может не только понимать китайский язык, но и управлять роботами и взаимодействовать с ИИ.

21-летней женщине с эпилепсией, у которой было серьезное поражение мозга, подключили NeuroXess. Интерфейс выделил электрокортикограмму из её мозговых сигналов, на которой обучили нейросеть. В результате система декодировала мысли в речь с точностью 71%, управляла роботизированной рукой и позволяла общаться с ИИ и цифровым аватаром.

Пациентка научилась управлять умным домом и инвалидной коляской.

#science #brain #mindreading #news

👍27❤3

2.04K views13:43

Нейронавт | Нейросети в творчестве

SHMT: Self-supervised Hierarchical Makeup Transfer via Latent Diffusion Models

Перенос макияжа с фото на фото от Alibaba

Код

#makeup

👍8😁4❤2💩1🥴1

2.08K views14:18

Нейронавт | Нейросети в творчестве

0:11

This media is not supported in your browser

VIEW IN TELEGRAM

OmniAudio-2.6B

Самая быстрая и эффективная мультимодальная аудиоязыковая модель, пригодная для запуска на смартфонах и ноутбуках

Внутри Gemma-2-2b, Whisper turbo и модуль для обработки аудио и текста на потребительских устройствах

Репозиторий
Демо

#ALM #assistant #mobile

👍8🔥4❤2

3.01K views18:17

Нейронавт | Нейросети в творчестве

0:05

This media is not supported in your browser

VIEW IN TELEGRAM

0:05

This media is not supported in your browser

VIEW IN TELEGRAM

0:05

This media is not supported in your browser

VIEW IN TELEGRAM

0:05

This media is not supported in your browser

VIEW IN TELEGRAM

Cosmos-1.0-Diffusion: A Suite of Diffusion-based World Foundation Models

NVIDIA выпустила семейство видеогенераторов с пониманием физического мира. Они предпочитают о них говорить как о генераторах мира по тексту и изображению.

Хронометраж 121 кадр

Позиционируется для разработчиков, в помощь в симуляции мира.

Лицензия на бесплатное коммерческое использование.

Нужно 80GB VRAM

Дают попробовать!
Примеры видео спрятаны в демо

Гитхаб
Веса
Демо

#text2video #image2video #simulation #text2world #image2world

👍13❤3👎1🤡1

2.34K views13:20

About

Blog

Apps

Platform