Kimi K2 Thinking
Новый агент от Moonshot использует инструменты для пошагового рассуждения.
Контекст 256к
— решает сложные задачи, выполняя до 200–300 последовательных вызовов инструментов без участия человека
— справляется с задачами, требующими глубокого анализа и структурированного рассуждения, например, решает математические задачи PhD-уровня
— эффективно ищет и анализирует информацию в интернете, превосходя человеческие показатели в BrowseComp
— пишет тексты — академические, исследовательские, художественные, — делая их логичными, содержательными и богатыми по форме
— помогает в кодировании и разработке ПО, выполняя многоэтапные рабочие процессы
— реагирует на личные и эмоциональные вопросы с эмпатией и балансом, предлагая взвешенные советы.
Доступен на kimi.com с ограниченным набором инструментов. Полный набор возможностей обещают скоро.
A также по API
#agent #assistant #reasoning
Новый агент от Moonshot использует инструменты для пошагового рассуждения.
Контекст 256к
— решает сложные задачи, выполняя до 200–300 последовательных вызовов инструментов без участия человека
— справляется с задачами, требующими глубокого анализа и структурированного рассуждения, например, решает математические задачи PhD-уровня
— эффективно ищет и анализирует информацию в интернете, превосходя человеческие показатели в BrowseComp
— пишет тексты — академические, исследовательские, художественные, — делая их логичными, содержательными и богатыми по форме
— помогает в кодировании и разработке ПО, выполняя многоэтапные рабочие процессы
— реагирует на личные и эмоциональные вопросы с эмпатией и балансом, предлагая взвешенные советы.
Доступен на kimi.com с ограниченным набором инструментов. Полный набор возможностей обещают скоро.
A также по API
#agent #assistant #reasoning
🔥4
Forwarded from Spark in me
Время silero-tts v5 пришло!
🆕 Что добавилось / поменялось:
1️⃣ Модели в 3-4 раза быстрее
2️⃣ Добавилась автоматическая расстановка ударений в омографах;
3️⃣ Значительно повысилось качество звучания и стабильность генерации;
4️⃣ В моделях всё так же поддерживается SSML;
5️⃣ Список голосов:
6️⃣ Ставить модель можно через
7️⃣ Скрутили дебафф из
Список новых флагов:
Минимальный пример буквально:
Попробовать можно тут:
⭐️ Репозиторий
📔 Ноутбучек с примерами
⬆️ Статья на Хабре
🆕 Что добавилось / поменялось:
1️⃣ Модели в 3-4 раза быстрее
v3 и в 1.5 - 2 раза быстрее v4;2️⃣ Добавилась автоматическая расстановка ударений в омографах;
3️⃣ Значительно повысилось качество звучания и стабильность генерации;
4️⃣ В моделях всё так же поддерживается SSML;
5️⃣ Список голосов:
aidar, baya, kseniya, xenia, eugene;6️⃣ Ставить модель можно через
torch.hub, тупо выкачав локально, через pip;7️⃣ Скрутили дебафф из
v4;Список новых флагов:
put_accent=True,
put_yo=True,
put_stress_homo=True,
put_yo_homo=True
Минимальный пример буквально:
!pip install silero
from silero import silero_tts
model, example_text = silero_tts(language='ru',
speaker='v5_ru')
audio = model.apply_tts(text=example_text)
Попробовать можно тут:
⭐️ Репозиторий
📔 Ноутбучек с примерами
Please open Telegram to view this post
VIEW IN TELEGRAM
👍16
CamCloneMaster: Enabling Reference-based Camera Control via Context without Explicit 3D Estimation
Клонирование движения камеры на видеогенерации от авторов Kling.
Работает как на генерации по изображению, так и по видео.
На демонстрационных видео результаты с закрытоого видеогенератора. В гитхабе метод прикручен к Wan 2.1, входное разрешение 480x832.
Код
HF
Kijai
#cameracontrol #text2video #video2video #image2video
Клонирование движения камеры на видеогенерации от авторов Kling.
Работает как на генерации по изображению, так и по видео.
На демонстрационных видео результаты с закрытоого видеогенератора. В гитхабе метод прикручен к Wan 2.1, входное разрешение 480x832.
Код
HF
Kijai
#cameracontrol #text2video #video2video #image2video
👍10🔥2
👍17
Thinking with Video: Video Generation as a Promising Multimodal Reasoning Paradigm
Видеогенераторы в качестве ризонеров (рассуждателей).
Новая парадигма объединяет визуальное и текстовое рассуждение в единой временной структуре
Справляется с задачами, ориентированными на зрение, например, решает головоломки типа Eyeballing Puzzles, где превосходит современные VLM-модели на 10%
Гитхаб
#reasoning #research
Видеогенераторы в качестве ризонеров (рассуждателей).
Новая парадигма объединяет визуальное и текстовое рассуждение в единой временной структуре
Справляется с задачами, ориентированными на зрение, например, решает головоломки типа Eyeballing Puzzles, где превосходит современные VLM-модели на 10%
Гитхаб
#reasoning #research
👍10
V-Thinker: Interactive Thinking with Images
Еще одна похожая работа - размышление изображениями
Гитхаб
HF
#reasoning #assistant #research
Еще одна похожая работа - размышление изображениями
Гитхаб
HF
#reasoning #assistant #research
👍7❤1