DS & ML | YeaHub – Telegram
DS & ML | YeaHub
467 subscribers
259 photos
67 videos
371 links
Теория, подготовка к интервью и курсы для Data Science специалистов

YeaHub — это платформа для IT-специалистов, объединяющая обучение, карьерный рост, развитие и сообщество единомышленников.

Платформа: https://yeahub.ru

Для связи: @ruslan_kuyanets
Download Telegram
#полезное
🏕 Kite — современная панель управления Kubernetes

Ищете лёгкий и удобный способ управлять Kubernetes-кластерами?

Kite — это современный дашборд, который сочетает в себе:
🔵 интуитивный интерфейс,
🔵 реальные метрики в реальном времени,
🔵 управление всеми ресурсами,
🔵 поддержку мультикластеров,
🔵 и приятный UX без перегруза.

Если Kubernetes — ваш рабочий инструмент, Kite точно стоит попробовать.
Репозиторий

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
#полезное
🤯 Memory Graph — визуализация структуры данных в Python

Для лучшего понимания кода и отладки бывает полезно «увидеть» объекты в памяти, а не только смотреть на их значения.

Пакет memory_graph делает именно это — строит граф памяти для любых структур данных.

Пример:
import memory_graph as mg

class My_Class:
def init(self, x, y):
self.x = x
self.y = y

data = [range(1, 2), (3, 4), {5, 6}, {7: 'seven', 8: 'eight'}, My_Class(9, 10)]
mg.show(data)



Memory Graph поддерживает множество типов данных: списки, кортежи, множества, словари, классы и пользовательские объекты.

Результат — удобная визуализация связей между объектами, что помогает:
🔴 понять структуру данных в проекте
🔴 отлаживать сложные зависимости
🔴 обучать и объяснять Python-объекты начинающим
Ссылка на репозиторий

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
Универсальная шпаргалка по работе с данными

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
#Собес #pytorch
🤔 Какие преимущества у динамической вычислительной графики PyTorch по сравнению со статичными графиками?
💬 Кратко:
Динамическая вычислительная графика в PyTorch позволяет создавать графы во время выполнения программы, что даёт большую гибкость при работе с переменными входами. Это особенно полезно для задач с переменной длиной данных, например, в обработке естественного языка. Также отладка становится проще, так как операции выполняются поочередно, что позволяет быстрее обнаруживать и исправлять ошибки.

📌 Полный разбор + примеры использования — на платформе:
👉
Перейти к разбору
📣 Хочешь получать больше таких разборов?
Подпишись на наш главный канал
Please open Telegram to view this post
VIEW IN TELEGRAM
#полезное
❤️‍🔥 Шпаргалка по функциям активации нейронных сетей

Функции активации определяют, как нейрон реагирует на вход. Быстрая справка:
🟠Sigmoid: σ(x) = 1 / (1 + exp(-x)) — [0,1], часто для вероятностей.
🟠Tanh: tanh(x) — [-1,1], центрированная версия сигмоиды.
🟠ReLU: max(0, x) — простая и быстрая, популярна в скрытых слоях.
🟠Leaky ReLU: x if x>0 else αx — решает проблему «мертвых нейронов».
🟠ELU: экспоненциальная ReLU, сглаживает негативные значения.
🟠Softmax: exp(x_i)/Σexp(x_j) — для классификации, даёт распределение вероятностей.
🟠Swish / Mish: современные гладкие функции, улучшают обучение глубоких сетей.

Использование правильной функции активации критично для скорости сходимости и качества модели.

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
11 типов переменных в датасете наглядно

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
#новости
😎 OpenAI готовится выпускать свое первое «железо» к 2026–2027

Что происходит:
🟠 В OpenAI пришло уже более 24 специалистов из Apple в этом году - в области интерфейсов, камер, аудио, носимых устройств и производства. Команду ведёт Тан Тан, 25 лет проработавший в Apple, теперь - Chief Hardware Officer OpenAI.
🟠 Один из описанных концептов - умная колонка без экрана, плюс исследуются очки, диктофон и носимый пин - как дополнение к смартфону или ноутбуку.
🟠 OpenAI обсуждает модули колонок с Goertek и опирается на китайскую цепочку поставок Apple, что ускорит массовый запуск, но усиливает геополитические риски.
🟠 Фундамент — сделка на $6,5 млрд: покупка io Products у Джони Айва, чья команда теперь интегрирована в OpenAI (при этом LoveFrom продолжает независимую работу).

Реалии рынка: провал Humane Pin (HP купила и закрыла за $116M) показывает, насколько жестким является сегмент.

Если первый продукт будет без экрана и голосоцентричным - успех зависит от:
🔵 дальнобойных микрофонных массивов
🔵 beamforming и низкой задержки wake word
🔵 on-device фильтрации
🔵 плавного облачного хэнд-оффа для быстрых ответов в реальных условиях.
Источник

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
#Собес #pytorch
🤔 Можете ли вы объяснить, как работает автоматическое дифференцирование и обратное распространение в PyTorch?

💬 Кратко:
PyTorch использует автоматическое дифференцирование для вычисления градиентов, необходимым для обратного распространения ошибки. Каждый оператор на тензорах записывается в вычислительный граф, и когда вызывается backward (), PyTorch вычисляет градиенты, двигаясь по графу с конца к началу, используя правило цепочки. Это позволяет эффективно вычислять и хранить градиенты для всех параметров с флагом requires_grad=True.

📌 Полный разбор + примеры использования — на платформе:
👉
Перейти к разбору

📣 Хочешь получать больше таких разборов?
Подпишись на наш главный канал
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
#полезное
😊 MCP-серверы могут предоставлять богатые UI-возможности

MCP-серверы в Claude/Cursor пока не предлагают никакого UI, например, графики. Это просто текст/JSON.

mcp-ui позволяет добавлять в вывод интерактивные веб-компоненты, которые может отрендерить MCP-клиент.
Забираем с GitHub

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
#полезное
😇 Тонкости гиперпараметрического тюнинга

Хотите ускорить обучение XGBoost в 5–15 раз и при этом находить лучшие гиперпараметры?

В свежем видео показывают:
🟡 как использовать Optuna для автоматического тюнинга XGBoost,
🟡 почему кросс-валидация критична для реальных задач,
🟡 какие приёмы тюнинга реально работают,
🟡 и как визуализации Optuna помогают выявлять самые важные гиперпараметры.

Особый акцент — на GPU-ускорении XGBoost 3.0, которое радикально сокращает время экспериментов в табличных задачах.
Ссылка на туториал

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
#Собес #pytorch
🤔 Как реализовать собственный слой в PyTorch? Можете привести пример?

💬 Кратко:
Чтобы реализовать собственный слой в PyTorch, нужно создать класс, унаследованный от nn.Module, и определить два метода: init () для инициализации параметров и forward () для описания вычислений. Примером может служить простой линейный слой, реализованный с использованием матричного умножения и добавления смещения.

📌 Полный разбор + примеры использования — на платформе:
👉
Перейти к разбору

📣 Хочешь получать больше таких разборов?
Подпишись на наш главный канал
Please open Telegram to view this post
VIEW IN TELEGRAM
#полезное
👋 Память под контролем: RamTorch для обучения больших моделей

PyTorch library для памяти-эффективного Deep Learning, позволяющая обучать и запускать большие модели, которые не помещаются в GPU-память.

RamTorch предоставляет гибридные CPU-GPU реализации компонентов нейросетей: параметры хранятся в CPU и передаются на GPU по мере необходимости.

Такой подход значительно снижает использование GPU-памяти при сохранении высокой вычислительной эффективности за счет асинхронных CUDA потоков и интеллектуальной пакетной обработки.

Ключевые возможности
:
🔵 Память-эффективные линейные слои: параметры на CPU, GPU только по необходимости
🔵 Асинхронные CUDA потоки: перекрытие вычислений и передачи данных для минимальной задержки
🔵 Поддержка ZeRO-1 Optimizer: распределение состояния оптимизатора по нескольким GPU
🔵 Drop-in замена: совместимо с существующим кодом PyTorch

Установка:
pip install ramtorch


Простой пример:
import torch
from ramtorch import Linear

# Standard PyTorch approach (high GPU memory usage)
# linear = torch.nn.Linear(1000, 1000)

# RamTorch approach (low GPU memory usage)
linear = Linear(1000, 1000, device="cuda")

# Use exactly like a normal PyTorch layer
x = torch.randn(32, 1000, device="cuda")
output = linear(x) # Parameters automatically transferred from CPU to GPU

Репозиторий

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
#полезное
🤯 Генеративные vs. дискриминативные модели в ML

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
#Собес #pytorch
🤔 Как использовать GPU для вычислений в PyTorch?

💬 Кратко:
Для использования GPU в PyTorch необходимо убедиться, что на компьютере установлен CUDA и PyTorch с поддержкой GPU. Тензоры и модели можно перемещать на GPU с помощью метода .cuda (). Важно, чтобы все тензоры и модель находились на одном устройстве — либо на CPU, либо на GPU.

📌 Полный разбор + примеры использования — на платформе:
👉
Перейти к разбору

📣 Хочешь получать больше таких разборов?
Подпишись на наш главный канал
Please open Telegram to view this post
VIEW IN TELEGRAM
#полезное
🛞 Эта статья Себастьяна Рашки пошагово проводит через реализацию self-attention с нуля, далее расширяя разбор до multi-head и cross-attention, с понятными объяснениями и примерами кода на PyTorch.

Обязательное чтение, если хотите глубоко разобраться в трансформерах. Читайте здесь

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
#полезное
😊 3 ключевые свойства следа матрицы в Deep Learning

1⃣ L2-регуляризация: Квадрат нормы Фробениуса, ||W||² = tr(WᵀW), используется для штрафования больших весов и предотвращения переобучения.

2⃣Вычисление градиентов: Циклическое свойство следа, tr(AB) = tr(BA), упрощает вывод матричных производных при обратном распространении ошибки (backpropagation).

3⃣ Инвариантность: След инвариантен к замене базиса, tr(P⁻¹AP) = tr(A); это свойство используется при поиске нового, более удобного базиса в PCA.

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
#полезное
😇 Лучший визуальный гид по большим языковым моделям (LLM), который вы когда-либо видели

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
1
#Собес #git
🤔 Перечислите команды для удаления ветки git

💬 Кратко:
Для удаления локальной ветки:
git branch -d ‹ branch_name>

Если ветка содержит незавершённые изменения:
git branch -D ‹ branch_name>

Для удаления удалённой ветки:
git push origin --delete ‹branch_name>


📌 Полный разбор + примеры использования — на платформе:
👉
Перейти к разбору

📣 Хочешь получать больше таких разборов?
Подпишись на наш главный канал
Please open Telegram to view this post
VIEW IN TELEGRAM
#полезное
🥱 Tongyi Lab и Alibaba представили ReSum — новый способ, который позволяет веб-агентам искать дольше и отвечать точнее.

Ключевые результаты:
🔵 +4,5% к качеству по сравнению с ReAct
🔵 до +8,2% с ReSum-GRPO
🔵 Pass@1: 33,3% и 18,3% на сложных тестах BrowseComp

В чём проблема ReAct?
Агенты в ReAct ведут подробный «дневник»: думают, делают действие (поиск, клик), фиксируют результат и снова повторяют цикл.
Это делает процесс прозрачным, но в длинных задачах история быстро разрастается → лимит контекста → потеря деталей.

🚀 Решение ReSum:
🟠 Когда контекст близок к пределу, агент останавливается и пишет резюме: проверенные факты + ещё открытые вопросы.
🟠 Потом он продолжает уже с этого резюме, вместо длинной переписки.

Что добавили авторы:
🟢 Отдельную 30B-модель для резюме, которая лучше обрабатывает «шумные» страницы и выделяет важное.
🟢 Усиленное обучение ReSum-GRPO: агент получает награду только за финальный ответ, а она распределяется по всем промежуточным шагам. Это учит собирать правильные факты и делать сжатые, полезные резюме.

Итог: агенты остаются в рамках токен-бюджета и решают сложные задачи веб-поиска и анализа фактов лучше, чем классический ReAct.
Тык

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
#полезное
😵 DataMind - открытая система для умных дата-агентов

DataMind - это новая архитектура для создания универсальных агентов анализа данных, которые уже превосходят GPT-5 и DeepSeek-V3.1 по качеству рассуждений и работе с кодом.

Зачем создан DataMind
Сегодня большинство дата-агентов используют закрытые модели и зависят от промпт-инжиниринга.
Открытые решения не умеют устойчиво рассуждать по шагам и работать с разными форматами данных.
Команда DataMind решила эти три главные проблемы:
1. Недостаток качественных данных для обучения
2. Неправильные стратегии обучения
3. Ошибки при многошаговом исполнении кода

🔢 Как устроен DataMind
Система включает полный цикл - от генерации данных до обучения и выполнения задач.
Она использует:
- классификацию задач и создание запросов от простых к сложным
- фильтрацию траекторий через self-consistency (самопроверку ответов)
- комбинацию динамического обучения SFT и RL, что делает процесс стабильным
- оптимизированное выполнение кода в изолированной среде

📄 Результаты
- Модель DataMind-14B показала 71.16 % среднего результата и превзошла GPT-5 и DeepSeek-V3.1
- Лёгкая версия DataMind-7B стала лучшей среди open-source решений — 68.10 %, обучена на 12 000 траекторий

💼 Главные выводы
- Фильтрация через self-consistency эффективнее, чем выбор одной «лучшей» траектории
- Потери SFT стабилизируют обучение, но при ошибочной настройке вызывают колебания
- RL сокращает разрыв между моделями, но не меняет общий рейтинг

Команда открыла датасет DataMind-12K и модели DataMind-7B и 14B, чтобы сообщество могло строить своих аналитических агентов.

🟢Исследование: https://arxiv.org/abs/2509.25084
🟢Код: https://github.com/zjunlp/DataMind
🟢Модели и данные: https://huggingface.co/collections/zjunlp/datamind-687d90047c58bb1e3d901dd8)

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1