Forwarded from Spark in me
Время silero-tts v5 пришло!
🆕 Что добавилось / поменялось:
1️⃣ Модели в 3-4 раза быстрее
2️⃣ Добавилась автоматическая расстановка ударений в омографах;
3️⃣ Значительно повысилось качество звучания и стабильность генерации;
4️⃣ В моделях всё так же поддерживается SSML;
5️⃣ Список голосов:
6️⃣ Ставить модель можно через
7️⃣ Скрутили дебафф из
Список новых флагов:
Минимальный пример буквально:
Попробовать можно тут:
⭐️ Репозиторий
📔 Ноутбучек с примерами
⬆️ Статья на Хабре
🆕 Что добавилось / поменялось:
1️⃣ Модели в 3-4 раза быстрее
v3 и в 1.5 - 2 раза быстрее v4;2️⃣ Добавилась автоматическая расстановка ударений в омографах;
3️⃣ Значительно повысилось качество звучания и стабильность генерации;
4️⃣ В моделях всё так же поддерживается SSML;
5️⃣ Список голосов:
aidar, baya, kseniya, xenia, eugene;6️⃣ Ставить модель можно через
torch.hub, тупо выкачав локально, через pip;7️⃣ Скрутили дебафф из
v4;Список новых флагов:
put_accent=True,
put_yo=True,
put_stress_homo=True,
put_yo_homo=True
Минимальный пример буквально:
!pip install silero
from silero import silero_tts
model, example_text = silero_tts(language='ru',
speaker='v5_ru')
audio = model.apply_tts(text=example_text)
Попробовать можно тут:
⭐️ Репозиторий
📔 Ноутбучек с примерами
Please open Telegram to view this post
VIEW IN TELEGRAM
👍16
CamCloneMaster: Enabling Reference-based Camera Control via Context without Explicit 3D Estimation
Клонирование движения камеры на видеогенерации от авторов Kling.
Работает как на генерации по изображению, так и по видео.
На демонстрационных видео результаты с закрытоого видеогенератора. В гитхабе метод прикручен к Wan 2.1, входное разрешение 480x832.
Код
HF
Kijai
#cameracontrol #text2video #video2video #image2video
Клонирование движения камеры на видеогенерации от авторов Kling.
Работает как на генерации по изображению, так и по видео.
На демонстрационных видео результаты с закрытоого видеогенератора. В гитхабе метод прикручен к Wan 2.1, входное разрешение 480x832.
Код
HF
Kijai
#cameracontrol #text2video #video2video #image2video
👍10🔥2
👍17
Thinking with Video: Video Generation as a Promising Multimodal Reasoning Paradigm
Видеогенераторы в качестве ризонеров (рассуждателей).
Новая парадигма объединяет визуальное и текстовое рассуждение в единой временной структуре
Справляется с задачами, ориентированными на зрение, например, решает головоломки типа Eyeballing Puzzles, где превосходит современные VLM-модели на 10%
Гитхаб
#reasoning #research
Видеогенераторы в качестве ризонеров (рассуждателей).
Новая парадигма объединяет визуальное и текстовое рассуждение в единой временной структуре
Справляется с задачами, ориентированными на зрение, например, решает головоломки типа Eyeballing Puzzles, где превосходит современные VLM-модели на 10%
Гитхаб
#reasoning #research
👍10
V-Thinker: Interactive Thinking with Images
Еще одна похожая работа - размышление изображениями
Гитхаб
HF
#reasoning #assistant #research
Еще одна похожая работа - размышление изображениями
Гитхаб
HF
#reasoning #assistant #research
👍7❤1
Polaris-Alpha
На openrouter появилась модель, которая предположительно является тестовой версией GPT-5.1
Пишут что выдает очень мало галлюцинаций и стиль ответов похож на GPT
Мне потестить не удалось - роутер выдает ошибку
#new #assistant
На openrouter появилась модель, которая предположительно является тестовой версией GPT-5.1
Пишут что выдает очень мало галлюцинаций и стиль ответов похож на GPT
Мне потестить не удалось - роутер выдает ошибку
#new #assistant
👀6👍2🔥2
Good new everyone!
Лондонский суд отклонил иск Getty Images к Stability AI. Аргумент компании о том, что Stable Diffusion — «пиратская копия» их изображений, не сработал: суд решил, что модель не хранит и не копирует исходники. Это снижает риски для разработчиков ИИ.
#news
Лондонский суд отклонил иск Getty Images к Stability AI. Аргумент компании о том, что Stable Diffusion — «пиратская копия» их изображений, не сработал: суд решил, что модель не хранит и не копирует исходники. Это снижает риски для разработчиков ИИ.
#news
Reuters
Getty Images largely loses landmark UK lawsuit over AI image generator
Getty Images largely lost its London lawsuit against artificial intelligence company Stability AI over its image generator on Tuesday, prompting Getty and some lawyers to call for stronger protections for copyright owners in Britain.
👍15🔥4😁3
Тем временем вайбкодинг стал словом 2025 года по мнению британского словаря Collins
#news #vibecoding
#news #vibecoding
😈4😎3👍1😁1