#полезное
😇 Вышел Grok 4
SOTA на нескольких бенчах — выбивает идеальный результат на AIME25. Результаты на ARC-AGI-2 почти в два раза выше чем у прошлого лидера — Claude 4 Opus, 15.9% против 8,6%.
Но больше всего xAI гордятся Humanity's Last Exam, которому посвятили почти половину презентации. Результаты и правда хорошие — с максимальным компьютом и с доступом к инструментам модель выдаёт 44,4% (50.7% на текстовой части). Без тулюза всё ещё SOTA, но с меньшим отрывом — модель выбивает 25.4%, против 21.6% у Gemini 2.5 Pro.
Базовая модель та же самая что у Grok 3 (Grok 4 изначально хотели запустить как Grok 3.5, но решили потренировать подольше). Основное отличие — на тренировку ризонингу потрачено в 10x больше компьюта. Теперь компьют на RL примерно равен компьюту на претрейн, с чем я вас и поздравляю. Что важно — модель теперь нативно учат тулюзу во время RL, как и o3 с o4-mini.
С мультимодальностью всё не очень — бенчмарки показали почти исключительно текстовые, а на HLE видна заметная просадка. Илон это обещает поправить уже со следующей версией базовой модели. А вот контекст удвоили до 256k.
Запустили и API, цена за токен такая же как у Grok 3 и Claude Sonnet, но модель очень разговорчивая — на реальных задачах она стоит почти как Claude Opus 4. Grok 4 Mini не состоялся, а жаль — Grok 3 Mini крайне хорошая модель за свою цену, хотелось бы апдейта.
А тем временем компьют xAI расширяется с неслыханными темпами — Илон говорит что они собираются начать тренировку своей видеомодели на 100k+ GB200 через 3-4 недели. Уже есть деньги и на следующее расширение Colossus — в конце прошлого месяца компания привлекла 10 миллиардов долларов. Половину от инвесторов, а половину — в долг.
👉 Новости 👉 База вопросов
SOTA на нескольких бенчах — выбивает идеальный результат на AIME25. Результаты на ARC-AGI-2 почти в два раза выше чем у прошлого лидера — Claude 4 Opus, 15.9% против 8,6%.
Но больше всего xAI гордятся Humanity's Last Exam, которому посвятили почти половину презентации. Результаты и правда хорошие — с максимальным компьютом и с доступом к инструментам модель выдаёт 44,4% (50.7% на текстовой части). Без тулюза всё ещё SOTA, но с меньшим отрывом — модель выбивает 25.4%, против 21.6% у Gemini 2.5 Pro.
Базовая модель та же самая что у Grok 3 (Grok 4 изначально хотели запустить как Grok 3.5, но решили потренировать подольше). Основное отличие — на тренировку ризонингу потрачено в 10x больше компьюта. Теперь компьют на RL примерно равен компьюту на претрейн, с чем я вас и поздравляю. Что важно — модель теперь нативно учат тулюзу во время RL, как и o3 с o4-mini.
С мультимодальностью всё не очень — бенчмарки показали почти исключительно текстовые, а на HLE видна заметная просадка. Илон это обещает поправить уже со следующей версией базовой модели. А вот контекст удвоили до 256k.
Запустили и API, цена за токен такая же как у Grok 3 и Claude Sonnet, но модель очень разговорчивая — на реальных задачах она стоит почти как Claude Opus 4. Grok 4 Mini не состоялся, а жаль — Grok 3 Mini крайне хорошая модель за свою цену, хотелось бы апдейта.
А тем временем компьют xAI расширяется с неслыханными темпами — Илон говорит что они собираются начать тренировку своей видеомодели на 100k+ GB200 через 3-4 недели. Уже есть деньги и на следующее расширение Colossus — в конце прошлого месяца компания привлекла 10 миллиардов долларов. Половину от инвесторов, а половину — в долг.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
#полезное
❤️🔥 LMCache: умное кэширования для LLM-инференса.
LMCache - проект, который предлагает решение по сохранению KV-кэша на CPU, диске или даже в специализированной памяти NIXL. По сути, это инструмент, который превращает одноразовые вычисления в многократно используемые блоки, экономя время и ресурсы.
Представьте, что в чат-боте пользователи часто ссылаются на один и тот же системный промпт или историю диалога. Обычно модель заново обрабатывает эти данные, но LMCache просто загружает готовый кэш. Выгрузка KV-кэшей освобождает GPU для новых задач, уменьшая TTFT (время до первого токена) вплоть до 10 раз.
🟠 LMCache гибкий.
Кэши можно не только выгружать, но и делиться между разными инстансами LLM. Проще говоря, если два пользователя одновременно обращаются к разным копиям модели с одинаковым запросом, система не будет дублировать работу: результаты одного prefill’а станут доступны всем. Это работает даже для неполных префиксов, например, при частичном совпадении входных данных.
🟠 LMCache умеет в раздельную предобработку.
Prefill и decode, которые обычно выполняются на одном GPU, теперь могут быть разнесены: первый этап обрабатывается на мощных узлах, а второй на оптимизированных для генерации. Для распределенных систем такая техника повысит пропускную способность.
Тесты разработчиков проекта показывают, что в реальных задачах задержка снижается в 3–10 раз, а GPU-циклы экономятся на повторных вычислениях.
Проект тесно интегрируется с vLLM, в репозитории есть большой набор с примерами, документация и советы по установке и настройке.
Калькулятор KV-кеша с выбором модели, ее типа данных и количества токенов, который поможет прикинуть, сколько VRAM можно сэкономить.
Гитхаб
👉 Новости 👉 База вопросов
LMCache - проект, который предлагает решение по сохранению KV-кэша на CPU, диске или даже в специализированной памяти NIXL. По сути, это инструмент, который превращает одноразовые вычисления в многократно используемые блоки, экономя время и ресурсы.
Представьте, что в чат-боте пользователи часто ссылаются на один и тот же системный промпт или историю диалога. Обычно модель заново обрабатывает эти данные, но LMCache просто загружает готовый кэш. Выгрузка KV-кэшей освобождает GPU для новых задач, уменьшая TTFT (время до первого токена) вплоть до 10 раз.
Кэши можно не только выгружать, но и делиться между разными инстансами LLM. Проще говоря, если два пользователя одновременно обращаются к разным копиям модели с одинаковым запросом, система не будет дублировать работу: результаты одного prefill’а станут доступны всем. Это работает даже для неполных префиксов, например, при частичном совпадении входных данных.
Prefill и decode, которые обычно выполняются на одном GPU, теперь могут быть разнесены: первый этап обрабатывается на мощных узлах, а второй на оптимизированных для генерации. Для распределенных систем такая техника повысит пропускную способность.
Тесты разработчиков проекта показывают, что в реальных задачах задержка снижается в 3–10 раз, а GPU-циклы экономятся на повторных вычислениях.
Проект тесно интегрируется с vLLM, в репозитории есть большой набор с примерами, документация и советы по установке и настройке.
Калькулятор KV-кеша с выбором модели, ее типа данных и количества токенов, который поможет прикинуть, сколько VRAM можно сэкономить.
Гитхаб
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
#Собес #ScikitLearn
🤔 Какова роль Scikit-Learn в детектировании аномалий, и как бы вы реализовали это?
Scikit-Learn предоставляет несколько алгоритмов для обнаружения аномалий, включая One-Class SVM, Isolation Forest и Local Outlier Factor (LOF). Для реализации нужно сначала выбрать соответствующий алгоритм, затем обучить модель на данных с помощью метода
выявления аномалий. Пример с LOF:
👉 Новости 👉 База вопросов
Scikit-Learn предоставляет несколько алгоритмов для обнаружения аномалий, включая One-Class SVM, Isolation Forest и Local Outlier Factor (LOF). Для реализации нужно сначала выбрать соответствующий алгоритм, затем обучить модель на данных с помощью метода
fit и использовать predict длявыявления аномалий. Пример с LOF:
from sklearn.neighbors import LocalOutlierFactor
lof = LocalOutlierFactor)
y_pred - lof.fit_predict(data)
Please open Telegram to view this post
VIEW IN TELEGRAM
#полезное
😎 Kimi K2 — SOTA не-ризонинг агентная модель для кодинга
Открытая модель, которая на кодинг бенчах тягается с Claude 4 без ризонинга, оставляя всё остальное позади. Ризонинг версию обещают позже, но не факт что она попадёт в опенсорс. При этом стоимость у модели сильно меньше чем у всех конкурентов — $0.6($0.15 при попадании в кэш)/$2.5 за миллион токенов.
Китайцы даже запилили хак чтобы подключить её к Claude Code, но непонятно насколько в безопасности ваши данные в китайском API. Но так как модель открытая, то скоро её начнёт хостить дюжина провайдеров, да и селфхостинг тоже опция.
Это MoE на архитектуре от DeepSeek V3, размером в триллион параметров, из которых 32B — активные. Тренировали на 15.5 триллионах токенов. Что интересно, использовали MuonClip — модифицированную версию оптимайзера, который придумали в конце прошлого года для спидранов NanoGPT (автора кстати схантили OpenAI). Модификация оптимайзера сделала тренировку крайне стабильной — во время тренировки вообще не было лосс спайков.
Китайцы как обычно вытягивают опенсорс. И это даже не первый релиз от Moonshot на этой неделе. На днях они выпустили релизную версию Kimina Prover — семейство SOTA моделей для математики размерами от 1.7B до 72B, самая большая из них обгоняет DeepSeek Prover V2.
Веса
Блогпост
Код
👉 Новости 👉 База вопросов
Открытая модель, которая на кодинг бенчах тягается с Claude 4 без ризонинга, оставляя всё остальное позади. Ризонинг версию обещают позже, но не факт что она попадёт в опенсорс. При этом стоимость у модели сильно меньше чем у всех конкурентов — $0.6($0.15 при попадании в кэш)/$2.5 за миллион токенов.
Китайцы даже запилили хак чтобы подключить её к Claude Code, но непонятно насколько в безопасности ваши данные в китайском API. Но так как модель открытая, то скоро её начнёт хостить дюжина провайдеров, да и селфхостинг тоже опция.
Это MoE на архитектуре от DeepSeek V3, размером в триллион параметров, из которых 32B — активные. Тренировали на 15.5 триллионах токенов. Что интересно, использовали MuonClip — модифицированную версию оптимайзера, который придумали в конце прошлого года для спидранов NanoGPT (автора кстати схантили OpenAI). Модификация оптимайзера сделала тренировку крайне стабильной — во время тренировки вообще не было лосс спайков.
Китайцы как обычно вытягивают опенсорс. И это даже не первый релиз от Moonshot на этой неделе. На днях они выпустили релизную версию Kimina Prover — семейство SOTA моделей для математики размерами от 1.7B до 72B, самая большая из них обгоняет DeepSeek Prover V2.
Веса
Блогпост
Код
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
#Собес #ScikitLearn
🤔 Какие функции Scikit-Learn можно использовать для оценки производительности моделей?
Scikit-Learn предоставляет ряд функций для оценки моделей. Для задач классификации доступны такие метрики, как
👉 Новости 👉 База вопросов
Scikit-Learn предоставляет ряд функций для оценки моделей. Для задач классификации доступны такие метрики, как
accuracy_score, precision_score, recall_score и f1_score. Для регрессии можно использовать mean_squared_error, mean_absolute_error и r2_score. Также доступны более подробные функции, такие как confusion_matrix и classification_report . Для кросс-валидации можно использовать KFold или StratifiedKFold.Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
#полезное
😱 Grok теперь аниме-девочка
Новая фича Companions даёт гроку анимированные аватары в голосовом режиме. Кроме аниме-девочки Ani, доступна ещё красная панда Bad Rudy, а скоро обещают добавить и третьего компаньона. Доступно на iOS подписчикам SuperGrok.
👉 Новости 👉 База вопросов
Новая фича Companions даёт гроку анимированные аватары в голосовом режиме. Кроме аниме-девочки Ani, доступна ещё красная панда Bad Rudy, а скоро обещают добавить и третьего компаньона. Доступно на iOS подписчикам SuperGrok.
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
#полезное
🛞 ChatGPT Agent — Deep Research и Operator теперь одно целое
Внутри теперь единая модель которая может пользоваться всеми тулами: текстовый и визуальный браузеры, терминал, прямой API доступ и коннекторы (Gmail, GitHub, etc.) — всё, что раньше жило раздельно в Operator и Deep Research, собрано в одном режиме. Агент теперь умеет заниматься и офисными задачами: генерировать редактируемые презентации и таблицы, обновлять их данными и подтягивать файлы (Docs/Slides/PowerPoint/Sheets) из подключённых облаков.
Обновлённая модель достигает 41.6% на Humanity's Last Exam, что немного ниже чем у Grok 4 Heavy, но сильно выше чем у изначального Deep Research режима. Запустив 8 параллельных прогонов и взяв лучший по самооценке, OpenAI смогли улучшить результат до 44.4%, то есть ровно до уровня Grok 4 Heavy.
Важная фича — агент сможет теперь спрашивать уточнения задачи во время её выполнения, но и вы теперь сможете прерывать агента и давать дополнительные указания если он делает что-то не то. Завершённые задачи можно ставить на расписание (еженедельные отчёты, брифы перед созвонами) — агент будет повторять их автоматически.
Довольно много внимания уделили фичам для безопасности: подтверждение перед необратимыми действиями, Watch Mode для чувствительных задач (вроде финансов), плюс проактивные меры против prompt‑injection. Ну и конечно можно вмешаться и остановить задачу в любой момент. Пока что safety фичи работают очень агрессивно, но количество false positives обещают постепенно уменьшать.
Доступ начнут давать уже сегодня Pro, Plus и Team подписчикам. Все Pro подписчики получат доступ сегодня, остальным придётся подождать до пары дней. Pro подписчики получат 400 сообщений в месяц, Plus и Team — 40. Кредиты можно будет дополнительно докупать, цену не сказали.
👉 Новости 👉 База вопросов
Внутри теперь единая модель которая может пользоваться всеми тулами: текстовый и визуальный браузеры, терминал, прямой API доступ и коннекторы (Gmail, GitHub, etc.) — всё, что раньше жило раздельно в Operator и Deep Research, собрано в одном режиме. Агент теперь умеет заниматься и офисными задачами: генерировать редактируемые презентации и таблицы, обновлять их данными и подтягивать файлы (Docs/Slides/PowerPoint/Sheets) из подключённых облаков.
Обновлённая модель достигает 41.6% на Humanity's Last Exam, что немного ниже чем у Grok 4 Heavy, но сильно выше чем у изначального Deep Research режима. Запустив 8 параллельных прогонов и взяв лучший по самооценке, OpenAI смогли улучшить результат до 44.4%, то есть ровно до уровня Grok 4 Heavy.
Важная фича — агент сможет теперь спрашивать уточнения задачи во время её выполнения, но и вы теперь сможете прерывать агента и давать дополнительные указания если он делает что-то не то. Завершённые задачи можно ставить на расписание (еженедельные отчёты, брифы перед созвонами) — агент будет повторять их автоматически.
Довольно много внимания уделили фичам для безопасности: подтверждение перед необратимыми действиями, Watch Mode для чувствительных задач (вроде финансов), плюс проактивные меры против prompt‑injection. Ну и конечно можно вмешаться и остановить задачу в любой момент. Пока что safety фичи работают очень агрессивно, но количество false positives обещают постепенно уменьшать.
Доступ начнут давать уже сегодня Pro, Plus и Team подписчикам. Все Pro подписчики получат доступ сегодня, остальным придётся подождать до пары дней. Pro подписчики получат 400 сообщений в месяц, Plus и Team — 40. Кредиты можно будет дополнительно докупать, цену не сказали.
Please open Telegram to view this post
VIEW IN TELEGRAM
#Собес #ScikitLearn
🤔 Как Scikit-Learn обрабатывает сохранение моделей и их сериализацию?
Scikit-Learn использует встроенную в Python модель сериализации рісkle для сохранения и загрузки моделей машинного обучения. Однако, из-за проблем с безопасностью и совместимостью версий Python, рекомендуется использовать joblib, который более эффективен для работы с большими данными, например, массивами питру. Для сохранения модели используется функция
👉 Новости 👉 База вопросов
Scikit-Learn использует встроенную в Python модель сериализации рісkle для сохранения и загрузки моделей машинного обучения. Однако, из-за проблем с безопасностью и совместимостью версий Python, рекомендуется использовать joblib, который более эффективен для работы с большими данными, например, массивами питру. Для сохранения модели используется функция
joblib.dump(), a для загрузки - joblib.load() Please open Telegram to view this post
VIEW IN TELEGRAM
#полезное
😘 Т‑Банк завёз открытый свежачок: T-pro 2.0
32B русскоязычная модель на базе Qwen3‑32B. Модель прогнали через 40 млрд токенов претрейна (треть из них reasoning), потом долили ~500к SFT‑промптов и ещё 100к пар для preference‑tuning, так что она заметно лучше думает на русском.
На публичных бенчах получаем +5‑10 процентных пунктов к голому Qwen3‑32B: ruMMLU 79 % (+5), Ru‑Arena‑Hard 87,6 % (+4,4), MERA 66 % (+7,6) — среди локальных языковых моделей это один из лучших результатов прямо сейчас. Детали тренировки обещают завтра, на Turbo ML Conf.
Модель — гибридный ризонер, с 32к контекста, которые растягиваются до 131к при помощи YaRN. Авторы опубликовали не просто чекпоинт — релизнули сразу и официальную fp8 версию плюс пачку GGUF, так что модель могут использовать обычные юзеры без плясок с бубном. Натренировали и Eagle драфт модель, которая даёт до 60% прироста в скорости инференса при маленьких батчах — скорость растёт с 69 токенов в секунду до 110.
Лицензия — Apache 2.0, так что можно спокойно юзать в любых целях, в том числе коммерческих.
Веса
👉 Новости 👉 База вопросов
32B русскоязычная модель на базе Qwen3‑32B. Модель прогнали через 40 млрд токенов претрейна (треть из них reasoning), потом долили ~500к SFT‑промптов и ещё 100к пар для preference‑tuning, так что она заметно лучше думает на русском.
На публичных бенчах получаем +5‑10 процентных пунктов к голому Qwen3‑32B: ruMMLU 79 % (+5), Ru‑Arena‑Hard 87,6 % (+4,4), MERA 66 % (+7,6) — среди локальных языковых моделей это один из лучших результатов прямо сейчас. Детали тренировки обещают завтра, на Turbo ML Conf.
Модель — гибридный ризонер, с 32к контекста, которые растягиваются до 131к при помощи YaRN. Авторы опубликовали не просто чекпоинт — релизнули сразу и официальную fp8 версию плюс пачку GGUF, так что модель могут использовать обычные юзеры без плясок с бубном. Натренировали и Eagle драфт модель, которая даёт до 60% прироста в скорости инференса при маленьких батчах — скорость растёт с 69 токенов в секунду до 110.
Лицензия — Apache 2.0, так что можно спокойно юзать в любых целях, в том числе коммерческих.
Веса
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1
This media is not supported in your browser
VIEW IN TELEGRAM
#полезное
👋 Робот, умеющий сам менять себе батарею
Китайская компания UBTech представила Walker S2 — гуманоидного робота нового поколения, способного автономно извлекать и заменять собственную батарею.
👉 Новости 👉 База вопросов
Китайская компания UBTech представила Walker S2 — гуманоидного робота нового поколения, способного автономно извлекать и заменять собственную батарею.
Please open Telegram to view this post
VIEW IN TELEGRAM
#полезное
❤️🔥 1.3 млн токенов/сек на H800 — новый рекорд для LLM-инференции
Команда Yiakwy-XPU показала, как эффективно запускать большие языковые модели (например, DeepSeek V3) на 13×8 H800 DGX SuperPod с помощью SGlang в разнесённой архитектуре (disaggregated serving):
Что удалось достичь:
🔵 1.3M токенов/сек на входе (prefill)
🔵 20K токенов/сек на выходе (decode)
🔵 До 80K токенов/сек суммарной производительности
🔵 При 50–150 параллельных запросах — стабильный throughput до 55K токенов/сек
Важные выводы:
🟠 Префилл — главное узкое место (TTFT ↑ при длинных запросах и больших батчах)
🟠 Оптимальное соотношение вход/выход — 4:1, а prefill/decode — 3:1
🟠 Меньшие
🟠 В режиме смешанного сервинга (decode + prefill) — лучше использовать батчинг именно с
Бенчмарки:
Используемая модель: Yi-1.5 34B
Полная статья и код
👉 Новости 👉 База вопросов
Команда Yiakwy-XPU показала, как эффективно запускать большие языковые модели (например, DeepSeek V3) на 13×8 H800 DGX SuperPod с помощью SGlang в разнесённой архитектуре (disaggregated serving):
Что удалось достичь:
Важные выводы:
tp и chunked-prefill уменьшают задержки между токенами (ITL) chunk-prefill, иначе резко растёт latencyБенчмарки:
bench_one_batch_server.py, genai-bench, evalscope Используемая модель: Yi-1.5 34B
Полная статья и код
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
#Собес #ScikitLearn
🤔 Какую роль Scikit-Learn играет в инженерии признаков и предварительной обработке данных для машинного обучения?
Scikit-Learn играет ключевую роль в предварительной обработке данных, предоставляя инструменты для масштабирования признаков, кодирования категориальных переменных, обработки пропущенных значений и генерации полиномиальных признаков. Он также поддерживает методы для уменьшения размерности, такие как РСА, и строит пайплайны для последовательного применения нескольких этапов обработки.
👉 Новости 👉 База вопросов
Scikit-Learn играет ключевую роль в предварительной обработке данных, предоставляя инструменты для масштабирования признаков, кодирования категориальных переменных, обработки пропущенных значений и генерации полиномиальных признаков. Он также поддерживает методы для уменьшения размерности, такие как РСА, и строит пайплайны для последовательного применения нескольких этапов обработки.
Please open Telegram to view this post
VIEW IN TELEGRAM