Forwarded from Machinelearning
Все любят длинный контекст, но для GPU это больно - KV-кэш растет линейно и быстро сжирает VRAM. Например, для Llama-65B на 128k токенов кэш весит 335 ГБ. Существующие методы прунинга либо медленные, либо тупые и режут важное, либо требуют переобучения модели.
NVIDIA предложили метод KVzap, который решает, какие токены можно забыть, глядя только на текущие хидден-стэйты.
Поиск идеала (KVzip+).
Берется медленный, но точный метод KVzip: модели скармливают текст, заставляют его повторить, и смотрят, на какие прошлые токены она реально обращает внимание. Это золотой стандарт важности токена. Но в проде так делать нельзя, это двойная работа.
Аппроксимация (KVzap).
Тут и происходит вся суть: крошечная модель-суррогат смотрит на входящий хидден-стэйт токена и предсказывает, насколько этот токен будет важен в будущем, то есть пытается угадать скор KVzip.
Модели 2-х видов:
KVzap-Linear: простейшая линейная проекция (одна матрица). Она берет хиден-стэйт и тупо проецирует его в скалярный скор важности. Сложность: экстремально низкая (~0.02%).
KVzap-MLP: двухслойный перцептрон. Внутри есть скрытый слой размером 1/8 от размерности модели и нелинейная активация. Сложность: низкая, но выше линейной (~1.1%).
Токен залетает в слой трансформера, модель-суррогат быстро считает его скор важности. Если он ниже порога - токен в кэш не пишется или удаляется. Но при этом всегда оставляется скользящее окно из последних 128 токенов, чтобы не терять локальный контекст, иначе модель сыпется.
Проверяли на Qwen3-8B, Llama-3.1-8B и Qwen3-32B. Спойлер:
Удалось выкинуть до 75% KV-кэша, а это сжатие в 4 раза. На бенчмарках RULER (длинный контекст), LongBench и AIME25 падение метрик или нулевое, или меньше 1%. Оверхед от суррогатной модели мизерный - менее 1% FLOPs.
Это плохо, потому что стандартные ядра Paged Attention любят структуру. Чтобы реально получить ускорение, а не только экономию памяти, нужно писать кастомные CUDA-ядра, которые смогут эффективно жевать блоки переменной длины.
Метод умнее, чем Streaming LLM, и быстрее, чем полные методы разреженного внимания.
Ждем интеграции в vLLM или TRT-LLM, а пока, чтобы скрасить ожидание, NVIDIA собрала на HF интерактивный лидерборд популярных методик компрессии KV-кэша.
Код и веса моделей-суррогатов из тестов пейпера в открытом доступе, так что нет никаких ограничений, чтобы не покрутить KVzap на каком-нибудь тестовом сетапе.
@ai_machinelearning_big_data
#AI #ML #LLM #KVZAP #NVIDIA
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6👍6🔥4
📸 Релиз Qwen-Image-2512!
Дообученная версию Qwen-Image-2512 - для тех, кто хочет максимальный реализм и production-grade качество.
Что улучшили:
✨ Резче детали, больше фотореализма
✨ Оптимизация под азиатскую эстетику лиц
✨ Круче генерация текста + картинки
✨ Отлично дружит с LoRA и кастомными пайплайнами
Рекомендуемые параметры:
✅ CFG: 1.0 - 4.0
✅ Steps: 10 - 50
✅ Sampler: Euler / Simple
✅ Model Shift: 1.0 - 8.0
🤖 Model: https://modelscope.cn/models/wikeeyang/Real-Qwen-Image-V2
Дообученная версию Qwen-Image-2512 - для тех, кто хочет максимальный реализм и production-grade качество.
Что улучшили:
✨ Резче детали, больше фотореализма
✨ Оптимизация под азиатскую эстетику лиц
✨ Круче генерация текста + картинки
✨ Отлично дружит с LoRA и кастомными пайплайнами
Рекомендуемые параметры:
✅ CFG: 1.0 - 4.0
✅ Steps: 10 - 50
✅ Sampler: Euler / Simple
✅ Model Shift: 1.0 - 8.0
🤖 Model: https://modelscope.cn/models/wikeeyang/Real-Qwen-Image-V2
❤7👍4
🧠 Исследователь OpenAI:
«Recursive Self-Improvement уже за углом»
Но если честно - это звучит скорее как спекуляция.
Да, “за углом” может означать скорее на человеческом горизонте:
условно годы, а не десятилетия.
Но точно не “вот прямо сейчас”.
Настоящий RSI (recursive self-improvement) потребует другого уровня систем:
Чтобы ИИ реально улучшал сам себя, нужны:
- полностью автономные ML-исследователи
- автономные инженеры, которые пишут, тестируют и разворачивают код
- устойчивый цикл улучшения моделей без человека
- качество и проверяемость результатов на каждом шаге
А мы пока явно не там.
Сегодняшние модели:
✅ помогают исследователям
✅ ускоряют эксперименты
✅ пишут код
❌ но не способны полностью заменить исследовательскую команду и довести улучшение до продакшена автономно
Так что RSI действительно может быть близко…
но “за углом” - это ещё не значит “завтра”.
«Recursive Self-Improvement уже за углом»
Но если честно - это звучит скорее как спекуляция.
Да, “за углом” может означать скорее на человеческом горизонте:
условно годы, а не десятилетия.
Но точно не “вот прямо сейчас”.
Настоящий RSI (recursive self-improvement) потребует другого уровня систем:
Чтобы ИИ реально улучшал сам себя, нужны:
- полностью автономные ML-исследователи
- автономные инженеры, которые пишут, тестируют и разворачивают код
- устойчивый цикл улучшения моделей без человека
- качество и проверяемость результатов на каждом шаге
А мы пока явно не там.
Сегодняшние модели:
✅ помогают исследователям
✅ ускоряют эксперименты
✅ пишут код
❌ но не способны полностью заменить исследовательскую команду и довести улучшение до продакшена автономно
Так что RSI действительно может быть близко…
но “за углом” - это ещё не значит “завтра”.
❤12👍4🔥3🤣1
Да, это буквально кладбище проектов - но невероятно полезное.
Внутри не просто список, а полноценные разборы:
почему взлетели/упали, сколько денег сожгли, какие решения их убили, где была критическая ошибка - и главное: что из этого можно безопасно забрать себе, а что повторять нельзя ни при каких условиях.
А ещё там встроенный ИИ, который берёт провалившийся проект и делает “версию 2.0”:
придумывает название, концепт, рынок, техстек, план запуска и монетизацию, но уже с учётом прошлых ошибок.
Как минимум - очень залипательно.
Стартаперы, вам точно стоит изучить
Please open Telegram to view this post
VIEW IN TELEGRAM
👍15🔥3❤2
Senior AI Engineer во Fluently (YC W24)
📍Remote
💵 Оплата в USD
🚀Фаундер — Юрий Ребрик, ex Amazon, Google, NVIDIA
Fluently — AI-тьютор, который помогает улучшать разговорный английский язык людям по всему миру, строящим карьеру в зарубежных компаниях. Стартап прошел в YCombinator в 2024 году, за последние 8 месяцев выросли со $100k до $6M ARR.
Размер команды – 20 | Инвестиции – $2.5M
Над чем предстоит работать
- Развивать голосового AI-агента: LiveKit/WebRTC, streaming ASR/TTS, RAG, function-calling, написание промптов и тд.
- Тренировать и деплоить ML модели в прод: ASR/LLM/TTS/voice-related.
- Обеспечивать надёжность и observability в проде: алерты, трейсинг, оптимизация латенси, быстрый фикс проблем.
Must-haves
- Опыт самостоятельной тренировки и деплоя ML моделей.
- Умение много работать и делать быстро.
Nice to have
- Опыт создания ai voice agents.
- Contribution to open source github repos.
- Kaggle, Codeforces, олимпиады, etc.
The deal
- Конкурентная зарплата в USD + опционы.
- Remote-first: работа из любой точки мира через Deel.
- Поездка в США на месяц для совместной работы и командные оффсайты.
Узнать подробнее и откликнуться тут, почитать блог фаундера можно здесь.
📍Remote
💵 Оплата в USD
🚀Фаундер — Юрий Ребрик, ex Amazon, Google, NVIDIA
Fluently — AI-тьютор, который помогает улучшать разговорный английский язык людям по всему миру, строящим карьеру в зарубежных компаниях. Стартап прошел в YCombinator в 2024 году, за последние 8 месяцев выросли со $100k до $6M ARR.
Размер команды – 20 | Инвестиции – $2.5M
Над чем предстоит работать
- Развивать голосового AI-агента: LiveKit/WebRTC, streaming ASR/TTS, RAG, function-calling, написание промптов и тд.
- Тренировать и деплоить ML модели в прод: ASR/LLM/TTS/voice-related.
- Обеспечивать надёжность и observability в проде: алерты, трейсинг, оптимизация латенси, быстрый фикс проблем.
Must-haves
- Опыт самостоятельной тренировки и деплоя ML моделей.
- Умение много работать и делать быстро.
Nice to have
- Опыт создания ai voice agents.
- Contribution to open source github repos.
- Kaggle, Codeforces, олимпиады, etc.
The deal
- Конкурентная зарплата в USD + опционы.
- Remote-first: работа из любой точки мира через Deel.
- Поездка в США на месяц для совместной работы и командные оффсайты.
Узнать подробнее и откликнуться тут, почитать блог фаундера можно здесь.
💊7🔥2
🚀 STEP3-VL-10B - мультимодальная модель, которая бьёт гигантов (и весит всего 10B)
StepFun выпустили STEP3-VL-10B - компактную open multimodal модель, которая по метрикам догоняет и местами обгоняет монстров в 10-20 раз больше.
Что заявляют по качеству
- держит SOTA/near-SOTA по визуальному восприятию + reasoning
- на ряде тестов конкурирует с GLM-4.6V, Qwen3-VL и даже Gemini 2.5 Pro
- сильна в OCR, понимании GUI, пространственном мышлении (важно для embodied AI)
Ключевые цифры
- обучена на 1.2T токенов
- 1400+ RL-раундов (RLHF + RLVR)
- поддержка PaCoRe (parallel collaborative reasoning) и контекст до 128K
- в классе <10B лидирует в STEM-задачах:
94.43% на AIME 2025 (с PaCoRe)
Архитектура
- PE-lang visual encoder (1.8B)
- Qwen3-8B decoder
- multi-crop high-res: 728×728 global + локальные кропы
Почему это важно
Тренд очевиден: индустрия уходит от “просто больше параметров”.
Теперь выигрывает тот, кто:
- грамотно собирает архитектуру
- делает сильный RL
- и выжимает максимум из маленькой модели
Base: https://modelscope.cn/models/stepfun-ai/Step3-VL-10B-Base
Chat: https://modelscope.cn/models/stepfun-ai/Step3-VL-10B
StepFun выпустили STEP3-VL-10B - компактную open multimodal модель, которая по метрикам догоняет и местами обгоняет монстров в 10-20 раз больше.
Что заявляют по качеству
- держит SOTA/near-SOTA по визуальному восприятию + reasoning
- на ряде тестов конкурирует с GLM-4.6V, Qwen3-VL и даже Gemini 2.5 Pro
- сильна в OCR, понимании GUI, пространственном мышлении (важно для embodied AI)
Ключевые цифры
- обучена на 1.2T токенов
- 1400+ RL-раундов (RLHF + RLVR)
- поддержка PaCoRe (parallel collaborative reasoning) и контекст до 128K
- в классе <10B лидирует в STEM-задачах:
94.43% на AIME 2025 (с PaCoRe)
Архитектура
- PE-lang visual encoder (1.8B)
- Qwen3-8B decoder
- multi-crop high-res: 728×728 global + локальные кропы
Почему это важно
Тренд очевиден: индустрия уходит от “просто больше параметров”.
Теперь выигрывает тот, кто:
- грамотно собирает архитектуру
- делает сильный RL
- и выжимает максимум из маленькой модели
Base: https://modelscope.cn/models/stepfun-ai/Step3-VL-10B-Base
Chat: https://modelscope.cn/models/stepfun-ai/Step3-VL-10B
❤12👍6🥰2😱2😁1
⚡️ Microsoft выпустила VibeVoice-ASR на Hugging Face
Microsoft выложила VibeVoice-ASR - единый speech-to-text модель, которая умеет расшифровывать длинные аудио (до 60 минут) за один проход, без нарезки на короткие куски.
Что интересного:
- Single-pass транскрипция до 1 часа - меньше потерь контекста и стабильнее речь по всему аудио
- Встроенная diarization (кто говорит) + таймкоды (когда)
- Custom hotwords / user context - можно подать список имён, терминов или контекст, чтобы точнее распознавал доменные слова
По сути: модель сразу выдаёт структурированный результат Who / When / What, кто сказал, когда и что.
https://huggingface.co/microsoft/VibeVoice-ASR
Microsoft выложила VibeVoice-ASR - единый speech-to-text модель, которая умеет расшифровывать длинные аудио (до 60 минут) за один проход, без нарезки на короткие куски.
Что интересного:
- Single-pass транскрипция до 1 часа - меньше потерь контекста и стабильнее речь по всему аудио
- Встроенная diarization (кто говорит) + таймкоды (когда)
- Custom hotwords / user context - можно подать список имён, терминов или контекст, чтобы точнее распознавал доменные слова
По сути: модель сразу выдаёт структурированный результат Who / When / What, кто сказал, когда и что.
https://huggingface.co/microsoft/VibeVoice-ASR
🔥21👍9🥰3
🔥 На stepik вышел курс, который учит Создавать настоящие AI-сервисы, а не просто запускать скрипты?
Этот практический курс по Python и FastAPI покажет, как собрать полноценное приложение с ИИ, базой данных, автогенерацией контента и Telegram-ботом.
Ты пройдёшь путь от первого HTTP-запроса до рабочего сервиса, который сам генерирует текст через ИИ, сохраняет данные, отправляет результаты по расписанию и отвечает пользователям.
Никакой теории ради теории - только практические шаги, из которых рождается реальный продукт.
🎁 48 часов действует скидка в 40% процентов
👉 Начать учиться на Stepik
Этот практический курс по Python и FastAPI покажет, как собрать полноценное приложение с ИИ, базой данных, автогенерацией контента и Telegram-ботом.
Ты пройдёшь путь от первого HTTP-запроса до рабочего сервиса, который сам генерирует текст через ИИ, сохраняет данные, отправляет результаты по расписанию и отвечает пользователям.
Никакой теории ради теории - только практические шаги, из которых рождается реальный продукт.
🎁 48 часов действует скидка в 40% процентов
👉 Начать учиться на Stepik
👍4🔥4❤3😁2
Это масштабный университетский курс, который системно показывает,
как LLM-модели меняют каждый этап разработки ПО: от идеи и дизайна до тестов и релиза.
Задания построены так, чтобы ты прошёл путь:
- от новичка в AI-инструментах
- до человека, который умело использует ИИ для ускорения и улучшения разработки
Практика в центре курса: учишься писать код быстрее, чище и увереннее, используя AI как помощника.
https://github.com/mihail911/modern-software-dev-assignments
Please open Telegram to view this post
VIEW IN TELEGRAM
❤18🔥4👍2
💰 OpenAI ищет новые способы монетизации - не только подписки ChatGPT
Финдир OpenAI Сара Фрайер намекнула, что компания будет менять модели заработка - на фоне растущих затрат компании.
Планы компании:
- Лицензирование моделей
OpenAI может брать долю с дохода клиентов, если продукт их“выстрелит”.
Пример: если с помощью моделей OpenAI нашли лекарство, компания получит процент от продаж.
- Больше тарифных планов
Помимо обычной подписки - развитие:
- enterprise SaaS-цен
- usage / credit-based модели (платишь за использование)
- Тестирование рекламы в ChatGPT
OpenAI готовится пробовать рекламу, но заявляет, что:
- ответы модель должны оставаться “оптимальными”, а не рекламными
- останется ad-free тариф без рекламы
OpenAI планирует будет зарабатывать не только на подписке, но и на успехе клиентов + гибких тарифах.
Наш чат / Полезные ИИ-ресурсы
#openai #ChatGPT
Финдир OpenAI Сара Фрайер намекнула, что компания будет менять модели заработка - на фоне растущих затрат компании.
Планы компании:
- Лицензирование моделей
OpenAI может брать долю с дохода клиентов, если продукт их“выстрелит”.
Пример: если с помощью моделей OpenAI нашли лекарство, компания получит процент от продаж.
- Больше тарифных планов
Помимо обычной подписки - развитие:
- enterprise SaaS-цен
- usage / credit-based модели (платишь за использование)
- Тестирование рекламы в ChatGPT
OpenAI готовится пробовать рекламу, но заявляет, что:
- ответы модель должны оставаться “оптимальными”, а не рекламными
- останется ad-free тариф без рекламы
OpenAI планирует будет зарабатывать не только на подписке, но и на успехе клиентов + гибких тарифах.
Наш чат / Полезные ИИ-ресурсы
#openai #ChatGPT
💊25😁10👍4😭2🔥1🌭1
🚀 Крупный IT-стартап на 1200 сотрудников сегодня выглядит так: стойка из десятков Mac mini, на которых круглосуточно крутится тот самый хайповый Clawdbot, про который уже отлично писали коллеги 😊
И это не шутка.
В Кремниевой долине сейчас настоящий мини-бум: разработчики, стартапы и даже целые команды массово скупают Mac mini, чтобы поднимать на них этого «опенсорсного Джарвиса».
Доходит до абсурда — в ряде магазинов «миники» начали уходить в дефицит именно из-за AI-инфраструктуры под локальные агенты.
Почему так происходит?
Потому что это уже не просто бот.
Clawdbot — это по сути цифровой сотрудник:
- пишет код
- помогает с инфраструктурой
- отвечает в рабочих чатах
- автоматизирует рутину
- подключён к инструментам
И всё это - self-hosted, под полным контролем команды.
Так что теперь штат в стартапах выглядит примерно так:
Слева направо:
Clawdbot, Clawdbot и ещё немного Clawdbot.
Людей меньше не стало.
Просто теперь каждый человек работает в паре с агентом, а производительность команды умножается, а не складывается.
Это уже не «AI как инструмент».
Это AI как часть команды.
Код Clawdbot в опенсорсе: https://github.com/clawdbot/clawdbot
@machinelearning_interview
И это не шутка.
В Кремниевой долине сейчас настоящий мини-бум: разработчики, стартапы и даже целые команды массово скупают Mac mini, чтобы поднимать на них этого «опенсорсного Джарвиса».
Доходит до абсурда — в ряде магазинов «миники» начали уходить в дефицит именно из-за AI-инфраструктуры под локальные агенты.
Почему так происходит?
Потому что это уже не просто бот.
Clawdbot — это по сути цифровой сотрудник:
- пишет код
- помогает с инфраструктурой
- отвечает в рабочих чатах
- автоматизирует рутину
- подключён к инструментам
И всё это - self-hosted, под полным контролем команды.
Так что теперь штат в стартапах выглядит примерно так:
Слева направо:
Clawdbot, Clawdbot и ещё немного Clawdbot.
Людей меньше не стало.
Просто теперь каждый человек работает в паре с агентом, а производительность команды умножается, а не складывается.
Это уже не «AI как инструмент».
Это AI как часть команды.
Код Clawdbot в опенсорсе: https://github.com/clawdbot/clawdbot
@machinelearning_interview
❤8🔥5👍3😱2💊1
🚀 PageIndex - умный индекс документов для reasoning-RAG (без векторов)
PageIndex от VectifyAI - open-source система, которая помогает работать с длинными документами (PDF, тексты, правила и т.д.) так, как это сделал бы эксперт-человек, а не обычный поисковик.
В отличие от традиционных RAG-систем, которые разбивают текст на куски и используют vector search (векторное сопоставление), PageIndex создаёт иерархическое дерево структуры документа и позволяет моделям ИИ логически искать ответы через reasoning и tree search.
📄 Основная идея
- Длинные документы индексируются как семантическое дерево — похожее на умный «оглавление»
- Структура сохраняет контекст и древовидную иерархию секций
- При запросе модель обходит дерево через reasoning-поиск, как человек, который листает книгу по разделам, а не просто ищет по похожести текста
- Не нужны: векторная база данных, chunking и top-K-селекция, что снижает потери контекста и повышает точность поиска
🧠 Почему это важно
✔️ Лучше для сложных и больших документов (финансовые отчёты, юридические тексты, технические мануалы)
✔️ Сохранение структуры означает, что ИИ может понимать, где именно в документе находится нужная информация
✔️ В отличие от vector-RAG, здесь решение не основано на похожести, а на пошаговом анализе структуры документа
🔧 Что внутри
- Скрипты и Jupyter-ноутбуки для генерации дерева из PDF или Markdown
- Возможность делать reasoning-RAG напрямую без внешних Vector DB
- Примеры использования и cookbooks для практических сценариев
PageIndex - это не просто индекс, а иерархический, reasoning-ориентированный RAG-фреймворк. Он позволяет ИИ читать и анализировать документы, как эксперт, обходя ограничения простого векторного поиска в больших текстах.
▪ Github: https://github.com/VectifyAI/PageIndex
▪ Blog post: https://vectify.ai/blog/Mafin2.5
PageIndex от VectifyAI - open-source система, которая помогает работать с длинными документами (PDF, тексты, правила и т.д.) так, как это сделал бы эксперт-человек, а не обычный поисковик.
В отличие от традиционных RAG-систем, которые разбивают текст на куски и используют vector search (векторное сопоставление), PageIndex создаёт иерархическое дерево структуры документа и позволяет моделям ИИ логически искать ответы через reasoning и tree search.
📄 Основная идея
- Длинные документы индексируются как семантическое дерево — похожее на умный «оглавление»
- Структура сохраняет контекст и древовидную иерархию секций
- При запросе модель обходит дерево через reasoning-поиск, как человек, который листает книгу по разделам, а не просто ищет по похожести текста
- Не нужны: векторная база данных, chunking и top-K-селекция, что снижает потери контекста и повышает точность поиска
🧠 Почему это важно
✔️ Лучше для сложных и больших документов (финансовые отчёты, юридические тексты, технические мануалы)
✔️ Сохранение структуры означает, что ИИ может понимать, где именно в документе находится нужная информация
✔️ В отличие от vector-RAG, здесь решение не основано на похожести, а на пошаговом анализе структуры документа
🔧 Что внутри
- Скрипты и Jupyter-ноутбуки для генерации дерева из PDF или Markdown
- Возможность делать reasoning-RAG напрямую без внешних Vector DB
- Примеры использования и cookbooks для практических сценариев
PageIndex - это не просто индекс, а иерархический, reasoning-ориентированный RAG-фреймворк. Он позволяет ИИ читать и анализировать документы, как эксперт, обходя ограничения простого векторного поиска в больших текстах.
▪ Github: https://github.com/VectifyAI/PageIndex
▪ Blog post: https://vectify.ai/blog/Mafin2.5
👍12🔥7🥰2
🚀 Kimi K2.5 - Open-Source Visual Agentic Intelligence
Moonshot представили Kimi K2.5 - это полноценный визуальный агент, заточенный под сложные задачи, код и мультимодальность.
Что по бенчмаркам
🔹 Глобальный SOTA на агентных тестах
- HLE full set - 50.2%
- BrowseComp - 74.9%
🔹 Open-source лидер по зрению и коду
- MMMU Pro - 78.5%
- VideoMMMU - 86.6%
- SWE-bench Verified - 76.8%
Фишка, которая выделяет K2.5
🎨 Code with Taste — модель превращает чаты, изображения и видео в эстетичные сайты с анимацией и выразительным движением, а не просто сухой HTML.
🤖 Agent Swarm (Beta)
Самонаправленные агенты, работающие параллельно:
- До 100 суб-агентов
- До 1 500 вызовов инструментов
- До 4.5x быстрее по сравнению с одиночным агентом
Это уже ближе к распределённой системе ИИ-исполнителей, чем к одному «умному боту».
Где попробовать
🥝 K2.5 доступен на http://kimi.com
- Chat mode
- Agent mode
🥝 Agent Swarm — бета для пользователей высокого уровня
🧑💻 Для продакшн-разработки можно связать с Kimi Code
https://kimi.com/code
Для разработчиков
🔗 API - https://platform.moonshot.ai
🔗 Тех-блог - http://kimi.com/blogs/kimi-k2-5.html
🔗 Веса и код - https://huggingface.co/moonshotai/Kimi-K2.5/tree/main
K2.5 - это шаг к мультиагентным ИИ-системам, где модель не просто отвечает, а организует работу, использует инструменты и действует в визуальной среде.
Moonshot представили Kimi K2.5 - это полноценный визуальный агент, заточенный под сложные задачи, код и мультимодальность.
Что по бенчмаркам
🔹 Глобальный SOTA на агентных тестах
- HLE full set - 50.2%
- BrowseComp - 74.9%
🔹 Open-source лидер по зрению и коду
- MMMU Pro - 78.5%
- VideoMMMU - 86.6%
- SWE-bench Verified - 76.8%
Фишка, которая выделяет K2.5
🎨 Code with Taste — модель превращает чаты, изображения и видео в эстетичные сайты с анимацией и выразительным движением, а не просто сухой HTML.
🤖 Agent Swarm (Beta)
Самонаправленные агенты, работающие параллельно:
- До 100 суб-агентов
- До 1 500 вызовов инструментов
- До 4.5x быстрее по сравнению с одиночным агентом
Это уже ближе к распределённой системе ИИ-исполнителей, чем к одному «умному боту».
Где попробовать
🥝 K2.5 доступен на http://kimi.com
- Chat mode
- Agent mode
🥝 Agent Swarm — бета для пользователей высокого уровня
🧑💻 Для продакшн-разработки можно связать с Kimi Code
https://kimi.com/code
Для разработчиков
🔗 API - https://platform.moonshot.ai
🔗 Тех-блог - http://kimi.com/blogs/kimi-k2-5.html
🔗 Веса и код - https://huggingface.co/moonshotai/Kimi-K2.5/tree/main
K2.5 - это шаг к мультиагентным ИИ-системам, где модель не просто отвечает, а организует работу, использует инструменты и действует в визуальной среде.
🔥6👍5❤4
🦾 Тестирование AI-агентов: от RAG-прототипа к управляемой системе
Красивые ответы в прототипе не означают готовность к продакшену. Галлюцинации, ложная уверенность и деградация качества проявляются при работе с реальными пользователями.
На уроке разберём:
— Архитектуру AI-агента как объект тестирования: LLM, RAG, промпты, данные.
— Ключевые ошибки: галлюцинации, нерелевантность, ложная уверенность.
— Метрики для оценки качества и цикл: тестирование → улучшение → валидация.
— Практическую демонстрацию валидации RAG-агента.
🗓 10 февраля, 20:00 МСК
Регистрация на открытый урок курса «LLM Driven Development»: https://otus.pw/5SdN/?erid=2W5zFJeYMiY
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.
Красивые ответы в прототипе не означают готовность к продакшену. Галлюцинации, ложная уверенность и деградация качества проявляются при работе с реальными пользователями.
На уроке разберём:
— Архитектуру AI-агента как объект тестирования: LLM, RAG, промпты, данные.
— Ключевые ошибки: галлюцинации, нерелевантность, ложная уверенность.
— Метрики для оценки качества и цикл: тестирование → улучшение → валидация.
— Практическую демонстрацию валидации RAG-агента.
🗓 10 февраля, 20:00 МСК
Регистрация на открытый урок курса «LLM Driven Development»: https://otus.pw/5SdN/?erid=2W5zFJeYMiY
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.
❤4🔥3
🚀🚀🚀 Tencent открыли HPC-Ops — продакшн-библиотеку операторов для LLM-инференса, выжимающую максимум из GPU
HPC-Ops — это библиотека операторов от Tencent HY, созданная для достижения пиковых показателей производительности на массовых inference-картах. Решает главную боль продакшена: стандартные библиотеки часто не доходят до реального потолка железа.
Главные плюсы
🔹 +30% к пропускной способности
- До +30% QPM для моделей Tencent HY
- +17% для DeepSeek в реальных продакшн-сценариях
🔹 Оптимизация под железо
С нуля написано на CUDA + CuTe, чтобы максимально загрузить GPU и убрать узкие места типичных стеков.
🔹 SOTA по ядрам
- Attention — до 2.22× быстрее, чем FlashInfer / FlashAttention
- GroupGEMM — до 1.88× быстрее, чем DeepGEMM
- FusedMoE — до 1.49× быстрее, чем TensorRT-LLM
🔹 Готово к продакшену
- Поддержка ключевых операторов: FusedMoE, GroupGEMM
- Многонодовая коммуникация
- Чистая абстракция для кастомизации под свои пайплайны
Библиотека уже используется в крупномасштабных инференс-сервисах Tencent.
Если вы крутите LLM в проде и упёрлись в пределы производительности — это как раз тот слой, где можно вытащить дополнительные десятки процентов без смены железа.
🔗 GitHub: https://github.com/Tencent/hpc-ops
HPC-Ops — это библиотека операторов от Tencent HY, созданная для достижения пиковых показателей производительности на массовых inference-картах. Решает главную боль продакшена: стандартные библиотеки часто не доходят до реального потолка железа.
Главные плюсы
🔹 +30% к пропускной способности
- До +30% QPM для моделей Tencent HY
- +17% для DeepSeek в реальных продакшн-сценариях
🔹 Оптимизация под железо
С нуля написано на CUDA + CuTe, чтобы максимально загрузить GPU и убрать узкие места типичных стеков.
🔹 SOTA по ядрам
- Attention — до 2.22× быстрее, чем FlashInfer / FlashAttention
- GroupGEMM — до 1.88× быстрее, чем DeepGEMM
- FusedMoE — до 1.49× быстрее, чем TensorRT-LLM
🔹 Готово к продакшену
- Поддержка ключевых операторов: FusedMoE, GroupGEMM
- Многонодовая коммуникация
- Чистая абстракция для кастомизации под свои пайплайны
Библиотека уже используется в крупномасштабных инференс-сервисах Tencent.
Если вы крутите LLM в проде и упёрлись в пределы производительности — это как раз тот слой, где можно вытащить дополнительные десятки процентов без смены железа.
🔗 GitHub: https://github.com/Tencent/hpc-ops
❤7👍5🔥3👏2