Machine Learning | YeaHub – Telegram
Machine Learning | YeaHub
336 subscribers
244 photos
126 videos
361 links
Теория, подготовка к интервью и курсы для ML специалистов

YeaHub — это платформа для IT-специалистов, объединяющая обучение, карьерный рост, развитие и сообщество единомышленников.

Платформа: https://yeahub.ru

Для связи: @ruslan_kuyanets
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
#полезное
🥄 NotebookLlama —Практически полный функционал NotebookLM — в опенсорсе.

Особенности:
Создаёт базу знаний из документов — с точным разбором через LlamaCloud
Автоматически пишет резюме и строит mind map-графы
Позволяет генерировать подкасты (работает на базе ElevenLabs)
Позволяет вести чат с агентом по документам
Метрики и аналитика через opentelemetry

Всё в открытом репо — можешь форкать, кастомизировать, заменять компоненты под себя.

Установка:


git clone https://github.com/run-llama/notebookllama


GitHub: https://github.com/run-llama/notebookllama
Попробовать в LlamaCloud: https://cloud.llamaindex.ai

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
#Собес #ScikitLearn
🤔 Какие ключевые различия между алгоритмами K-Nearest Neighbors (KNN) и Decision Trees в Scikit-Learn?

KNN - это алгоритм на основе экземпляров, который классифицирует новые данные, измеряя схожесть с обучающими примерами. Он не создает модель, а работает на основе всех данных. Decision Trees строят дерево решений, где каждый узел представляет характеристику, а каждая ветвь - правило решения. KNN может быть вычислительно дорогим для больших наборов данных, тогда как Decision Trees более эффективны, но могут переобучиться.

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
#полезное
😴 Мунвели тизерят свою видео-генерацию для киноиндустрии, натренированную на "чистых данных". Ну, ну. Посмотрим.

Пока модель потыкать нельзя.

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
#полезное
😎 SmolLM 3 — полностью открытая 3B модель от Huggingface

Это самая сильная 3B модель — она опережает Llama-3-3B и Qwen 2.5-3B, но отстаёт от более крупных 4B Qwen 3 и Gemma 3. Модель — гибридный ризонер, как новые Claude или Qwen 3.

Самое ценное в релизе — блогпост с деталями тренировки и опубликованные конфиги, так что воспроизвести модель будет крайне просто. Модель тренировали 24 дня на 384 GPU H100 (220к часов) по трёхстадийной схеме: сначала Web + Code + Math, затем постепенно повышали долю кода и математики. После основного претрейна добавили mid-training для расширения контекста, затем mid-training на ризонинг. К сожалению, ризонингу модель учили исключительно на готовых ризонинг трейсах, RL тут совсем не использовался.

Посттрейнили с SFT на 1,8B токенов: 1B без reasoning-трейсов и 0,8B с /think, данные взяли из 22 открытых датасетов. Тренировали 4 эпохи (~8B токенов) с BFD-packing и маскировали лосс на пользовательских репликах, чтобы не штрафовать system-промпты и tool-calls. Затем модель тюнили с Anchored Preference Optimization: реальные пары из Tulu 3 дополнили синтетическими chosen vs rejected ответами Qwen3-32B/0.6B, покрыв оба режима /think и /no_think. После этого несколько чекпоинтов полученных при тюне с APO смешали в одну, а уже её смерджили с мидтрейн-чекпоинтом — так сохранили 128k контекст, без просадки на математике и коде.

Иметь такие открытые рецепты в общем доступе крайне важно — они служат бейзлайном, поверх которого можно последовательно улучшать любой этап пайплайна. Без таких рецептов, делать ресёрч по претрейну гораздо сложнее.

Блогпост

Веса
Конфиги для тренировки с помощью nanotron

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
#полезное
🤓 NXTscape: браузер с локальными ИИ-агентами для Mac.

NXTscape - опенсорсный браузер для Mac OS на базе Chromium, где ИИ-агенты работают у вас на устройстве, а не в облаке ИТ-гигантов.

Самое важное: ключи API, история и данные никогда не покидают локальную систему. Подключаете OpenAI, Anthropic или локальные модели через Ollama и автоматизируете рутину действий в интернете.

Проект прост в переходе с Chrome: миграция занимает пару кликов, все расширения работают, его код открыт, можно форкнуть или проверить каждую строчку.

В планах на будущее: MCP Store, магазин ИИ-агентов, в нем обещают запуск прямо из адресной строки. Плюс встроенный ИИ-блокировщик рекламы, который планируют сделать умнее аналогов.

Теперь ваши 70+ вкладок могут управляться агентами, а не вы ими, достаточно скачать стабильный релиз с Github.

GitHub


👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
#Собес #ScikitLearn
🤔 Как бы вы реализовали SVM (Support Vector Machines) в Scikit- Learn?

Для использования SVM в Scikit-Learn нужно импортировать модуль svm и создать обьект
классификатора с необходимым ядром (например, linear или rbf ). Затем модель обучается с помощью метода fit на данных, а для предсказаний используется метод predict . Важно нормализовать данные перед обучением. Пример:
from sklearn import svm
clf = svm.SVC (kernel='linear
clf.fit (X_train, y_train)
predictions = clf.predict (X_test)


👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
#полезное
😇 Вышел Grok 4

SOTA на нескольких бенчах — выбивает идеальный результат на AIME25. Результаты на ARC-AGI-2 почти в два раза выше чем у прошлого лидера — Claude 4 Opus, 15.9% против 8,6%.

Но больше всего xAI гордятся Humanity's Last Exam, которому посвятили почти половину презентации. Результаты и правда хорошие — с максимальным компьютом и с доступом к инструментам модель выдаёт 44,4% (50.7% на текстовой части). Без тулюза всё ещё SOTA, но с меньшим отрывом — модель выбивает 25.4%, против 21.6% у Gemini 2.5 Pro.

Базовая модель та же самая что у Grok 3 (Grok 4 изначально хотели запустить как Grok 3.5, но решили потренировать подольше). Основное отличие — на тренировку ризонингу потрачено в 10x больше компьюта. Теперь компьют на RL примерно равен компьюту на претрейн, с чем я вас и поздравляю. Что важно — модель теперь нативно учат тулюзу во время RL, как и o3 с o4-mini.

С мультимодальностью всё не очень — бенчмарки показали почти исключительно текстовые, а на HLE видна заметная просадка. Илон это обещает поправить уже со следующей версией базовой модели. А вот контекст удвоили до 256k.

Запустили и API, цена за токен такая же как у Grok 3 и Claude Sonnet, но модель очень разговорчивая — на реальных задачах она стоит почти как Claude Opus 4. Grok 4 Mini не состоялся, а жаль — Grok 3 Mini крайне хорошая модель за свою цену, хотелось бы апдейта.

А тем временем компьют xAI расширяется с неслыханными темпами — Илон говорит что они собираются начать тренировку своей видеомодели на 100k+ GB200 через 3-4 недели. Уже есть деньги и на следующее расширение Colossus — в конце прошлого месяца компания привлекла 10 миллиардов долларов. Половину от инвесторов, а половину — в долг.

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
#полезное
❤️‍🔥 LMCache: умное кэширования для LLM-инференса.

LMCache - проект, который предлагает решение по сохранению KV-кэша на CPU, диске или даже в специализированной памяти NIXL. По сути, это инструмент, который превращает одноразовые вычисления в многократно используемые блоки, экономя время и ресурсы.

Представьте, что в чат-боте пользователи часто ссылаются на один и тот же системный промпт или историю диалога. Обычно модель заново обрабатывает эти данные, но LMCache просто загружает готовый кэш. Выгрузка KV-кэшей освобождает GPU для новых задач, уменьшая TTFT (время до первого токена) вплоть до 10 раз.

🟠LMCache гибкий.

Кэши можно не только выгружать, но и делиться между разными инстансами LLM. Проще говоря, если два пользователя одновременно обращаются к разным копиям модели с одинаковым запросом, система не будет дублировать работу: результаты одного prefill’а станут доступны всем. Это работает даже для неполных префиксов, например, при частичном совпадении входных данных.

🟠LMCache умеет в раздельную предобработку.

Prefill и decode, которые обычно выполняются на одном GPU, теперь могут быть разнесены: первый этап обрабатывается на мощных узлах, а второй на оптимизированных для генерации. Для распределенных систем такая техника повысит пропускную способность.

Тесты разработчиков проекта показывают, что в реальных задачах задержка снижается в 3–10 раз, а GPU-циклы экономятся на повторных вычислениях.

Проект тесно интегрируется с vLLM, в репозитории есть большой набор с примерами, документация и советы по установке и настройке.

Калькулятор KV-кеша с выбором модели, ее типа данных и количества токенов, который поможет прикинуть, сколько VRAM можно сэкономить.
Гитхаб


👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
#Собес #ScikitLearn
🤔 Какова роль Scikit-Learn в детектировании аномалий, и как бы вы реализовали это?

Scikit-Learn предоставляет несколько алгоритмов для обнаружения аномалий, включая One-Class SVM, Isolation Forest и Local Outlier Factor (LOF). Для реализации нужно сначала выбрать соответствующий алгоритм, затем обучить модель на данных с помощью метода fit и использовать predict для
выявления аномалий. Пример с LOF:
from sklearn.neighbors import LocalOutlierFactor
lof = LocalOutlierFactor)
y_pred - lof.fit_predict(data)


👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
#полезное
😎 Kimi K2 — SOTA не-ризонинг агентная модель для кодинга

Открытая модель, которая на кодинг бенчах тягается с Claude 4 без ризонинга, оставляя всё остальное позади. Ризонинг версию обещают позже, но не факт что она попадёт в опенсорс. При этом стоимость у модели сильно меньше чем у всех конкурентов — $0.6($0.15 при попадании в кэш)/$2.5 за миллион токенов.

Китайцы даже запилили хак чтобы подключить её к Claude Code, но непонятно насколько в безопасности ваши данные в китайском API. Но так как модель открытая, то скоро её начнёт хостить дюжина провайдеров, да и селфхостинг тоже опция.

Это MoE на архитектуре от DeepSeek V3, размером в триллион параметров, из которых 32B — активные. Тренировали на 15.5 триллионах токенов. Что интересно, использовали MuonClip — модифицированную версию оптимайзера, который придумали в конце прошлого года для спидранов NanoGPT (автора кстати схантили OpenAI). Модификация оптимайзера сделала тренировку крайне стабильной — во время тренировки вообще не было лосс спайков.

Китайцы как обычно вытягивают опенсорс. И это даже не первый релиз от Moonshot на этой неделе. На днях они выпустили релизную версию Kimina Prover — семейство SOTA моделей для математики размерами от 1.7B до 72B, самая большая из них обгоняет DeepSeek Prover V2.

Веса
Блогпост
Код

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM