DS & ML | YeaHub – Telegram
DS & ML | YeaHub
466 subscribers
259 photos
67 videos
371 links
Теория, подготовка к интервью и курсы для Data Science специалистов

YeaHub — это платформа для IT-специалистов, объединяющая обучение, карьерный рост, развитие и сообщество единомышленников.

Платформа: https://yeahub.ru

Для связи: @ruslan_kuyanets
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
#полезное
😊 MCP-серверы могут предоставлять богатые UI-возможности

MCP-серверы в Claude/Cursor пока не предлагают никакого UI, например, графики. Это просто текст/JSON.

mcp-ui позволяет добавлять в вывод интерактивные веб-компоненты, которые может отрендерить MCP-клиент.
Забираем с GitHub

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
#полезное
😇 Тонкости гиперпараметрического тюнинга

Хотите ускорить обучение XGBoost в 5–15 раз и при этом находить лучшие гиперпараметры?

В свежем видео показывают:
🟡 как использовать Optuna для автоматического тюнинга XGBoost,
🟡 почему кросс-валидация критична для реальных задач,
🟡 какие приёмы тюнинга реально работают,
🟡 и как визуализации Optuna помогают выявлять самые важные гиперпараметры.

Особый акцент — на GPU-ускорении XGBoost 3.0, которое радикально сокращает время экспериментов в табличных задачах.
Ссылка на туториал

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
#Собес #pytorch
🤔 Как реализовать собственный слой в PyTorch? Можете привести пример?

💬 Кратко:
Чтобы реализовать собственный слой в PyTorch, нужно создать класс, унаследованный от nn.Module, и определить два метода: init () для инициализации параметров и forward () для описания вычислений. Примером может служить простой линейный слой, реализованный с использованием матричного умножения и добавления смещения.

📌 Полный разбор + примеры использования — на платформе:
👉
Перейти к разбору

📣 Хочешь получать больше таких разборов?
Подпишись на наш главный канал
Please open Telegram to view this post
VIEW IN TELEGRAM
#полезное
👋 Память под контролем: RamTorch для обучения больших моделей

PyTorch library для памяти-эффективного Deep Learning, позволяющая обучать и запускать большие модели, которые не помещаются в GPU-память.

RamTorch предоставляет гибридные CPU-GPU реализации компонентов нейросетей: параметры хранятся в CPU и передаются на GPU по мере необходимости.

Такой подход значительно снижает использование GPU-памяти при сохранении высокой вычислительной эффективности за счет асинхронных CUDA потоков и интеллектуальной пакетной обработки.

Ключевые возможности
:
🔵 Память-эффективные линейные слои: параметры на CPU, GPU только по необходимости
🔵 Асинхронные CUDA потоки: перекрытие вычислений и передачи данных для минимальной задержки
🔵 Поддержка ZeRO-1 Optimizer: распределение состояния оптимизатора по нескольким GPU
🔵 Drop-in замена: совместимо с существующим кодом PyTorch

Установка:
pip install ramtorch


Простой пример:
import torch
from ramtorch import Linear

# Standard PyTorch approach (high GPU memory usage)
# linear = torch.nn.Linear(1000, 1000)

# RamTorch approach (low GPU memory usage)
linear = Linear(1000, 1000, device="cuda")

# Use exactly like a normal PyTorch layer
x = torch.randn(32, 1000, device="cuda")
output = linear(x) # Parameters automatically transferred from CPU to GPU

Репозиторий

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
#полезное
🤯 Генеративные vs. дискриминативные модели в ML

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
#Собес #pytorch
🤔 Как использовать GPU для вычислений в PyTorch?

💬 Кратко:
Для использования GPU в PyTorch необходимо убедиться, что на компьютере установлен CUDA и PyTorch с поддержкой GPU. Тензоры и модели можно перемещать на GPU с помощью метода .cuda (). Важно, чтобы все тензоры и модель находились на одном устройстве — либо на CPU, либо на GPU.

📌 Полный разбор + примеры использования — на платформе:
👉
Перейти к разбору

📣 Хочешь получать больше таких разборов?
Подпишись на наш главный канал
Please open Telegram to view this post
VIEW IN TELEGRAM
#полезное
🛞 Эта статья Себастьяна Рашки пошагово проводит через реализацию self-attention с нуля, далее расширяя разбор до multi-head и cross-attention, с понятными объяснениями и примерами кода на PyTorch.

Обязательное чтение, если хотите глубоко разобраться в трансформерах. Читайте здесь

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
#полезное
😊 3 ключевые свойства следа матрицы в Deep Learning

1⃣ L2-регуляризация: Квадрат нормы Фробениуса, ||W||² = tr(WᵀW), используется для штрафования больших весов и предотвращения переобучения.

2⃣Вычисление градиентов: Циклическое свойство следа, tr(AB) = tr(BA), упрощает вывод матричных производных при обратном распространении ошибки (backpropagation).

3⃣ Инвариантность: След инвариантен к замене базиса, tr(P⁻¹AP) = tr(A); это свойство используется при поиске нового, более удобного базиса в PCA.

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
#полезное
😇 Лучший визуальный гид по большим языковым моделям (LLM), который вы когда-либо видели

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
1
#Собес #git
🤔 Перечислите команды для удаления ветки git

💬 Кратко:
Для удаления локальной ветки:
git branch -d ‹ branch_name>

Если ветка содержит незавершённые изменения:
git branch -D ‹ branch_name>

Для удаления удалённой ветки:
git push origin --delete ‹branch_name>


📌 Полный разбор + примеры использования — на платформе:
👉
Перейти к разбору

📣 Хочешь получать больше таких разборов?
Подпишись на наш главный канал
Please open Telegram to view this post
VIEW IN TELEGRAM
#полезное
🥱 Tongyi Lab и Alibaba представили ReSum — новый способ, который позволяет веб-агентам искать дольше и отвечать точнее.

Ключевые результаты:
🔵 +4,5% к качеству по сравнению с ReAct
🔵 до +8,2% с ReSum-GRPO
🔵 Pass@1: 33,3% и 18,3% на сложных тестах BrowseComp

В чём проблема ReAct?
Агенты в ReAct ведут подробный «дневник»: думают, делают действие (поиск, клик), фиксируют результат и снова повторяют цикл.
Это делает процесс прозрачным, но в длинных задачах история быстро разрастается → лимит контекста → потеря деталей.

🚀 Решение ReSum:
🟠 Когда контекст близок к пределу, агент останавливается и пишет резюме: проверенные факты + ещё открытые вопросы.
🟠 Потом он продолжает уже с этого резюме, вместо длинной переписки.

Что добавили авторы:
🟢 Отдельную 30B-модель для резюме, которая лучше обрабатывает «шумные» страницы и выделяет важное.
🟢 Усиленное обучение ReSum-GRPO: агент получает награду только за финальный ответ, а она распределяется по всем промежуточным шагам. Это учит собирать правильные факты и делать сжатые, полезные резюме.

Итог: агенты остаются в рамках токен-бюджета и решают сложные задачи веб-поиска и анализа фактов лучше, чем классический ReAct.
Тык

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
#полезное
😵 DataMind - открытая система для умных дата-агентов

DataMind - это новая архитектура для создания универсальных агентов анализа данных, которые уже превосходят GPT-5 и DeepSeek-V3.1 по качеству рассуждений и работе с кодом.

Зачем создан DataMind
Сегодня большинство дата-агентов используют закрытые модели и зависят от промпт-инжиниринга.
Открытые решения не умеют устойчиво рассуждать по шагам и работать с разными форматами данных.
Команда DataMind решила эти три главные проблемы:
1. Недостаток качественных данных для обучения
2. Неправильные стратегии обучения
3. Ошибки при многошаговом исполнении кода

🔢 Как устроен DataMind
Система включает полный цикл - от генерации данных до обучения и выполнения задач.
Она использует:
- классификацию задач и создание запросов от простых к сложным
- фильтрацию траекторий через self-consistency (самопроверку ответов)
- комбинацию динамического обучения SFT и RL, что делает процесс стабильным
- оптимизированное выполнение кода в изолированной среде

📄 Результаты
- Модель DataMind-14B показала 71.16 % среднего результата и превзошла GPT-5 и DeepSeek-V3.1
- Лёгкая версия DataMind-7B стала лучшей среди open-source решений — 68.10 %, обучена на 12 000 траекторий

💼 Главные выводы
- Фильтрация через self-consistency эффективнее, чем выбор одной «лучшей» траектории
- Потери SFT стабилизируют обучение, но при ошибочной настройке вызывают колебания
- RL сокращает разрыв между моделями, но не меняет общий рейтинг

Команда открыла датасет DataMind-12K и модели DataMind-7B и 14B, чтобы сообщество могло строить своих аналитических агентов.

🟢Исследование: https://arxiv.org/abs/2509.25084
🟢Код: https://github.com/zjunlp/DataMind
🟢Модели и данные: https://huggingface.co/collections/zjunlp/datamind-687d90047c58bb1e3d901dd8)

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1
#Собес #git
🤔 Что делает команда git stash?

💬 Кратко:
Команда git stash сохраняет текущие незавершённые изменения в специальное место (стек), чтобы вы могли переключиться на другую ветку или выполнить другие действия. Эти изменения можно позже восстановить с ПОМОЩЬЮ git stash apply или git stash pop .

📌 Полный разбор + примеры использования — на платформе:
👉
Перейти к разбору

📣 Хочешь получать больше таких разборов?
Подпишись на наш главный канал
Please open Telegram to view this post
VIEW IN TELEGRAM
#Собес #decorator
🤔 Что такое декораторы?

💬 Кратко:

Декораторы — это функции, которые принимают другую функцию в качестве аргумента и возвращают новую функцию с изменённым поведением. Они позволяют добавлять функциональность к функциям или методам, не изменяя их код.

📌 Полный разбор + примеры использования — на платформе:
👉 Перейти к разбору

📣 Хочешь получать больше таких разборов?
Подпишись на наш главный канал
#Собес #github
🤔 Что такое Git и GitHub?

💬 Кратко:

Git — это система контроля версий, которая позволяет отслеживать изменения в коде, возвращаться к старым версиям и работать над проектом совместно с другими разработчиками. GitHub — это платформа, где можно хранить код в облаке, делиться им и управлять проектами с помощью Git. Вместе они помогают эффективно работать над проектом в команде.

📌 Полный разбор + примеры использования — на платформе:
👉 Перейти к разбору

📣 Хочешь получать больше таких разборов?
Подпишись на наш главный канал
#Собес #oop #encapsulation #inheritance
🤔 Расскажи о принципах ООП в контексте Python

💬 Кратко:

Основные принципы ООП:

- Инкапсуляция (Encapsulation): объединение данных и методов, работающих с этими данными, внутри объекта.
- Наследование (Inheritance): возможность одного класса использовать функционал другого.
- Полиморфизм (Polymorphism): способность методов работать с разными типами данных.
- Абстракция (Abstraction): скрытие деталей реализации и предоставление только необходимого интерфейса.

📌 Полный разбор + примеры использования — на платформе:
👉 Перейти к разбору

📣 Хочешь получать больше таких разборов?
Подпишись на наш главный канал
#Собес #dynamic_graph #static_graph #tensorflow
🤔 Чем PyTorch отличается от других фреймворков глубокого обучения, таких как TensorFlow?

💬 Кратко:

PyTorch и TensorFlow отличаются архитектурой вычислений: PyTorch использует динамическую вычислительную графику, что позволяет изменять граф во время выполнения, в то время как TensorFlow использует статичный граф, который требует предварительного определения. Это делает PyTorch более интуитивным и удобным для отладки, но TensorFlow может обеспечивать лучшую производительность благодаря оптимизации вычислений. Также PyTorch более дружелюбен к Python-разработчикам, поскольку поддерживает структуру управления Python, в то время как TensorFlow абстрагирует многие детали.

📌 Полный разбор + примеры использования — на платформе:
👉 Перейти к разбору

📣 Хочешь получать больше таких разборов?
Подпишись на наш главный канал
#Собес #git_pull
🤔 Как вы разрешаете конфликты в Git?

💬 Кратко:

Конфликты возникают, когда изменения из удаленного и локального репозиториев пересекаются. Чтобы разрешить конфликт, нужно вручную отредактировать проблемные файлы, выбрать правильную версию, а затем зафиксировать изменения.

📌 Полный разбор + примеры использования — на платформе:
👉 Перейти к разбору

📣 Хочешь получать больше таких разборов?
Подпишись на наш главный канал
1