Нейронавт | Нейросети в творчестве – Telegram
Нейронавт | Нейросети в творчестве
10.6K subscribers
4.48K photos
3.75K videos
41 files
4.78K links
Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus

Заявка на регистрацию в РКН № 6309426111
Download Telegram
Kimi K2 Thinking

Новый агент от Moonshot использует инструменты для пошагового рассуждения.
Контекст 256к

— решает сложные задачи, выполняя до 200–300 последовательных вызовов инструментов без участия человека

— справляется с задачами, требующими глубокого анализа и структурированного рассуждения, например, решает математические задачи PhD-уровня

— эффективно ищет и анализирует информацию в интернете, превосходя человеческие показатели в BrowseComp

— пишет тексты — академические, исследовательские, художественные, — делая их логичными, содержательными и богатыми по форме

— помогает в кодировании и разработке ПО, выполняя многоэтапные рабочие процессы

— реагирует на личные и эмоциональные вопросы с эмпатией и балансом, предлагая взвешенные советы.

Доступен на kimi.com с ограниченным набором инструментов. Полный набор возможностей обещают скоро.
A также по API

#agent #assistant #reasoning
🔥4
Обновка русской голосовой модели

#tts #text2speech #russian
Forwarded from Spark in me
Время silero-tts v5 пришло!

🆕 Что добавилось / поменялось:

1️⃣ Модели в 3-4 раза быстрее v3 и в 1.5 - 2 раза быстрее v4;
2️⃣ Добавилась автоматическая расстановка ударений в омографах;
3️⃣ Значительно повысилось качество звучания и стабильность генерации;
4️⃣ В моделях всё так же поддерживается SSML;
5️⃣ Список голосов: aidar, baya, kseniya, xenia, eugene;
6️⃣ Ставить модель можно через torch.hub, тупо выкачав локально, через pip;
7️⃣ Скрутили дебафф из v4;

Список новых флагов:

put_accent=True,
put_yo=True,
put_stress_homo=True,
put_yo_homo=True


Минимальный пример буквально:

!pip install silero
from silero import silero_tts
model, example_text = silero_tts(language='ru',
speaker='v5_ru')
audio = model.apply_tts(text=example_text)


Попробовать можно тут:

⭐️ Репозиторий
📔 Ноутбучек с примерами
⬆️ Статья на Хабре
Please open Telegram to view this post
VIEW IN TELEGRAM
👍16
CamCloneMaster: Enabling Reference-based Camera Control via Context without Explicit 3D Estimation

Клонирование движения камеры на видеогенерации от авторов Kling.
Работает как на генерации по изображению, так и по видео.

На демонстрационных видео результаты с закрытоого видеогенератора. В гитхабе метод прикручен к Wan 2.1, входное разрешение 480x832.

Код
HF
Kijai

#cameracontrol #text2video #video2video #image2video
👍10🔥2
qwen-edit-skin

Lora Qwen-Image-Edit-2509 для реалистичной кожи

Спасибо @Bolserge

#lora #realism #qie
👍17
Thinking with Video: Video Generation as a Promising Multimodal Reasoning Paradigm

Видеогенераторы в качестве ризонеров (рассуждателей).
Новая парадигма объединяет визуальное и текстовое рассуждение в единой временной структуре

Справляется с задачами, ориентированными на зрение, например, решает головоломки типа Eyeballing Puzzles, где превосходит современные VLM-модели на 10%

Гитхаб

#reasoning #research
👍10
V-Thinker: Interactive Thinking with Images

Еще одна похожая работа - размышление изображениями

Гитхаб
HF

#reasoning #assistant #research
👍71