NEW BOT Телеграм, страница

VibeVoice: A Frontier Open-Source Text-to-Speech Model

Голосовая модель от Microsoft для выразительных диалогов и подкастов.

Может синтезировать речь продолжительностью до 90 минут.

Поддерживает работу с 4 разными голосами в одной генерации, это на 2-3 голоса больше чем в ведущих моделях.

Есть китайский и английский. Надеемся на дообучение

На примере женский голос норм, мужской эмоционально пустой. Послушайте примеры на сайте для общей картины

Код
HF - модель на 1.5 млрд. параметров + токенизатор Обещают 7B и 0.5B
Демо

#podcast #voicecloning #tts #text2speech #text2podcast

👍9❤2🤔1

1.8K views11:33

Нейронавт | Нейросети в творчестве

This media is not supported in your browser

VIEW IN TELEGRAM

0:12

This media is not supported in your browser

Wan-S2V: Audio-Driven Cinematic Video Generation

Релиз обещанного видеогенератора, который принимает на вход картинку и звук

Архитектурно - совет экспертов ( #MoE )

Как видим, умеет работать с диалогами и пением

Гитхаб
HF
Демо
Офсайт - пока не вижу его там, ждем

До появления компактных версий и обновок от Kijai 5... 4... 3...

Спасибо @iNevestenko

#image2video #audio2video #referencing #wan22

🔥15👍2❤1😁1

2.69K views14:12

Нейронавт | Нейросети в творчестве

0:15

This media is not supported in your browser

VIEW IN TELEGRAM

0:18

This media is not supported in your browser

VIEW IN TELEGRAM

Nano-banana только что релизнули в Gemini 2.5 Flash

Доступно для граждан правильной страны в gemini app и Google AI Studio

Бежим творить у кого есть доступ. Притворитесь что вы в США и ломитесь в студию

Спасибо @iNevestenko

#imageediting #sota

🔥12👍2❤1

2.04K views14:47

Нейронавт | Нейросети в творчестве

WAN тизерит WAN2.2-S2V - кинематографичный генератор видео по звуку Спасибо @iNevestenko #news

Nano-banana еще днем появился в списке моделей редактирования в Krea.ai

На бесплатном тарифе недоступен

В Fal.ai тоже есть

#news

👍4

1.76K views15:16

Нейронавт | Нейросети в творчестве

Nano-banana только что релизнули в Gemini 2.5 Flash Доступно для граждан правильной страны в gemini app и Google AI Studio Бежим творить у кого есть доступ. Притворитесь что вы в США и ломитесь в студию Спасибо @iNevestenko #imageediting #sota

В комментах есть способ получить доступ для рисковых, через hosts

Кидайте сюда свои нанобанановые тесты и творения. Он не всемогущ, найдем его слабости и сильности

#neuronaut_art

👍9

1.76K views15:47

Нейронавт | Нейросети в творчестве

5... 4... 3...

2... 1... 0...

Wan2_2-S2V-14B_fp8_e4m3fn_scaled_KJ

Забираем Wan-S2V, 18.5 Гб

#image2video #audio2video #referencing #wan22

huggingface.co

Kijai/WanVideo_comfy_fp8_scaled at main

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

🔥11😱2👍1

2.68K views17:33

Нейронавт | Нейросети в творчестве

InternVL3.5: Advancing Open-Source Multimodal Models in Versatility, Reasoning, and Efficiency

Обновилась линейка мультимодальных моделей InternVL от OpenGVlab

От 1.1B до 241B параметров

— разделяет обработку визуальной и языковой информации для оптимизации нагрузки

— ускоряет вывод в 4,05 раза и улучшает рассуждения на 16 % по сравнению с предыдущей версией

— поддерживает взаимодействие с GUI и воплощённое агентство (применение в роботах?)

— конкурирует с коммерческими моделями вроде GPT-5

Веса
Гитхаб
Попробовать в чате

#vlm #agent

👍8❤1

1.88K views05:08

Нейронавт | Нейросети в творчестве

0:52

This media is not supported in your browser

lipsync-2-pro: studio-grade lipsync in minutes

Новая версия говорилки с липсинком от sync.so

Умеет клонировать голос, делает липсинк видео

В режиме Pro есть таймлиния

Бесплатного тарифа нет, но дают попробовать

Спасибо @m_franz

#lipsync #tts #text2speech #voicecloning

👍10

2.01K views06:09

Нейронавт | Нейросети в творчестве

lipsync-2-pro: studio-grade lipsync in minutes Новая версия говорилки с липсинком от sync.so Умеет клонировать голос, делает липсинк видео В режиме Pro есть таймлиния Бесплатного тарифа нет, но дают попробовать Спасибо @m_franz #lipsync #tts #text2speech…

0:04

This media is not supported in your browser

VIEW IN TELEGRAM

😁11

1.73K views06:16

Нейронавт | Нейросети в творчестве

Обновки в #ComfyUI

Nano-banana via ComfyUI API Nodes!

Поддержка нанобанана через API nodes
———————————

Day-1 Support of Qwen-Image InstantX ControlNet

Речь о поддержке Qwen-Image-ControlNet-Union вышедшем на прошлой неделе

воркфлоу

Обновляем комфи и пользуемся

#imageediting #text2image #controlnet #workflow

❤4👍4

2.7K views07:11

Нейронавт | Нейросети в творчестве

MV-RAG: Retrieval Augmented Multiview Diffusion

Метод генерации 3D по тексту, который использует 2D-изображения в качестве ориентира для модели диффузии с несколькими видами.

Сначала находит в базе подходящие референсные изображения, затем генерирует разные ракурсы.

Авторы явно пишут что модель генерирует 3D объекты, при этом показывают новые ракурсы, а не 3D. Но ставим плюсик за то что проект заточен на реализм и согласованность изображений объектов, обычно редко встречающихся в датасетах.

Код

#novelview

🔥5❤1👍1

2.03K views08:11

Нейронавт | Нейросети в творчестве

Hermes 4

LLM на базе Llama-3.1-405B с гибридным режимом рассуждений от Nous Research

— избегает назидательности и подхалимства

— хорош в математике, программировании, STEM, логике, творческом письме и субъективных ответах

— обучен создавать валидный JSON по заданным схемам и исправлять некорректные объекты

— легче поддаётся управлению и выравниванию, имеет сниженные показатели отказа

— поддерживает вызовы функций и использование инструментов в рамках одного хода ассистента

— способен адаптироваться к дополнительным системным инструкциям, изменяя стиль, формат и подход к решению задач

— работает с разными форматами чата

— сохраняет воспоминания для использования в разных моделях

70B и 405B параметров. Есть полные и FP8 веса

Попробовать в чате - чат шикарный, с настройками, но GUI тормозной
HF

#assistant #chat

👍4

1.83K viewsedited 09:12

About

Blog

Apps

Platform