NEW BOT Телеграм, страница - 468931516

DS & ML | YeaHub

@yeahub_data_science

467 subscribers

259 photos

67 videos

371 links

Теория, подготовка к интервью и курсы для Data Science специалистов

YeaHub — это платформа для IT-специалистов, объединяющая обучение, карьерный рост, развитие и сообщество единомышленников.

Платформа: https://yeahub.ru

Для связи: @ruslan_kuyanets

Download Telegram

About

Blog

Apps

Platform

DS & ML | YeaHub

467 subscribers

DS & ML | YeaHub

This media is not supported in your browser

VIEW IN TELEGRAM

#полезное

🤯

Memory Graph — визуализация структуры данных в Python

Для лучшего понимания кода и отладки бывает полезно «увидеть» объекты в памяти, а не только смотреть на их значения.

Пакет memory_graph делает именно это — строит граф памяти для любых структур данных.

Пример:

import memory_graph as mg

class My_Class:
    def init(self, x, y):
        self.x = x
        self.y = y

data = [range(1, 2), (3, 4), {5, 6}, {7: 'seven', 8: 'eight'}, My_Class(9, 10)]
mg.show(data)

Memory Graph поддерживает множество типов данных: списки, кортежи, множества, словари, классы и пользовательские объекты.

Результат — удобная визуализация связей между объектами, что помогает:
🔴 понять структуру данных в проекте
🔴 отлаживать сложные зависимости
🔴 обучать и объяснять Python-объекты начинающим
Ссылка на репозиторий

👉

Новости

👉

База вопросов

Please open Telegram to view this post

VIEW IN TELEGRAM

102 views08:00

DS & ML | YeaHub

Универсальная шпаргалка по работе с данными

👉

Новости

👉

База вопросов

Please open Telegram to view this post

VIEW IN TELEGRAM

121 views15:01

DS & ML | YeaHub

#Собес #pytorch

🤔

Какие преимущества у динамической вычислительной графики PyTorch по сравнению со статичными графиками?
💬 Кратко:
Динамическая вычислительная графика в PyTorch позволяет создавать графы во время выполнения программы, что даёт большую гибкость при работе с переменными входами. Это особенно полезно для задач с переменной длиной данных, например, в обработке естественного языка. Также отладка становится проще, так как операции выполняются поочередно, что позволяет быстрее обнаруживать и исправлять ошибки.

📌 Полный разбор + примеры использования — на платформе:
👉 Перейти к разбору
📣 Хочешь получать больше таких разборов?
Подпишись на наш главный канал

Please open Telegram to view this post

VIEW IN TELEGRAM

YeaHub — тренажер собеседований по IT

5000+ вопросов для подготовки к интервью. Фильтры, квизы, статистика!

105 views08:00

DS & ML | YeaHub

#полезное

❤️‍🔥

Шпаргалка по функциям активации нейронных сетей

Функции активации определяют, как нейрон реагирует на вход. Быстрая справка:
🟠Sigmoid: σ(x) = 1 / (1 + exp(-x)) — [0,1], часто для вероятностей.
🟠Tanh: tanh(x) — [-1,1], центрированная версия сигмоиды.
🟠ReLU: max(0, x) — простая и быстрая, популярна в скрытых слоях.
🟠Leaky ReLU: x if x>0 else αx — решает проблему «мертвых нейронов».
🟠ELU: экспоненциальная ReLU, сглаживает негативные значения.
🟠Softmax: exp(x_i)/Σexp(x_j) — для классификации, даёт распределение вероятностей.
🟠Swish / Mish: современные гладкие функции, улучшают обучение глубоких сетей.

Использование правильной функции активации критично для скорости сходимости и качества модели.

👉

Новости

👉

База вопросов

Please open Telegram to view this post

VIEW IN TELEGRAM

116 views15:03

DS & ML | YeaHub

11 типов переменных в датасете наглядно

👉

Новости

👉

База вопросов

Please open Telegram to view this post

VIEW IN TELEGRAM

90 views08:00

DS & ML | YeaHub

#новости

😎

OpenAI готовится выпускать свое первое «железо» к 2026–2027

Что происходит:
🟠 В OpenAI пришло уже более 24 специалистов из Apple в этом году - в области интерфейсов, камер, аудио, носимых устройств и производства. Команду ведёт Тан Тан, 25 лет проработавший в Apple, теперь - Chief Hardware Officer OpenAI.
🟠 Один из описанных концептов - умная колонка без экрана, плюс исследуются очки, диктофон и носимый пин - как дополнение к смартфону или ноутбуку.
🟠 OpenAI обсуждает модули колонок с Goertek и опирается на китайскую цепочку поставок Apple, что ускорит массовый запуск, но усиливает геополитические риски.
🟠 Фундамент — сделка на $6,5 млрд: покупка io Products у Джони Айва, чья команда теперь интегрирована в OpenAI (при этом LoveFrom продолжает независимую работу).

Реалии рынка: провал Humane Pin (HP купила и закрыла за $116M) показывает, насколько жестким является сегмент.

Если первый продукт будет без экрана и голосоцентричным - успех зависит от:
🔵 дальнобойных микрофонных массивов
🔵 beamforming и низкой задержки wake word
🔵 on-device фильтрации
🔵 плавного облачного хэнд-оффа для быстрых ответов в реальных условиях.
Источник

👉

Новости

👉

База вопросов

Please open Telegram to view this post

VIEW IN TELEGRAM

95 views15:03

DS & ML | YeaHub

#Собес #pytorch

🤔

Можете ли вы объяснить, как работает автоматическое дифференцирование и обратное распространение в PyTorch?

💬 Кратко:
PyTorch использует автоматическое дифференцирование для вычисления градиентов, необходимым для обратного распространения ошибки. Каждый оператор на тензорах записывается в вычислительный граф, и когда вызывается backward (), PyTorch вычисляет градиенты, двигаясь по графу с конца к началу, используя правило цепочки. Это позволяет эффективно вычислять и хранить градиенты для всех параметров с флагом requires_grad=True.

📌 Полный разбор + примеры использования — на платформе:
👉 Перейти к разбору

📣 Хочешь получать больше таких разборов?
Подпишись на наш главный канал

Please open Telegram to view this post

VIEW IN TELEGRAM

YeaHub — тренажер собеседований по IT

5000+ вопросов для подготовки к интервью. Фильтры, квизы, статистика!

105 views08:04

DS & ML | YeaHub

This media is not supported in your browser

VIEW IN TELEGRAM

#полезное

😊

MCP-серверы могут предоставлять богатые UI-возможности

MCP-серверы в Claude/Cursor пока не предлагают никакого UI, например, графики. Это просто текст/JSON.

mcp-ui позволяет добавлять в вывод интерактивные веб-компоненты, которые может отрендерить MCP-клиент.
Забираем с GitHub

👉

Новости

👉

База вопросов

Please open Telegram to view this post

VIEW IN TELEGRAM

93 views15:03

DS & ML | YeaHub

#полезное

😇

Тонкости гиперпараметрического тюнинга

Хотите ускорить обучение XGBoost в 5–15 раз и при этом находить лучшие гиперпараметры?

В свежем видео показывают:
🟡 как использовать Optuna для автоматического тюнинга XGBoost,
🟡 почему кросс-валидация критична для реальных задач,
🟡 какие приёмы тюнинга реально работают,
🟡 и как визуализации Optuna помогают выявлять самые важные гиперпараметры.

Особый акцент — на GPU-ускорении XGBoost 3.0, которое радикально сокращает время экспериментов в табличных задачах.
Ссылка на туториал

👉

Новости

👉

База вопросов

Please open Telegram to view this post

VIEW IN TELEGRAM

97 views08:02

DS & ML | YeaHub

#Собес #pytorch

🤔

Как реализовать собственный слой в PyTorch? Можете привести пример?

💬 Кратко:
Чтобы реализовать собственный слой в PyTorch, нужно создать класс, унаследованный от nn.Module, и определить два метода: init () для инициализации параметров и forward () для описания вычислений. Примером может служить простой линейный слой, реализованный с использованием матричного умножения и добавления смещения.

📌 Полный разбор + примеры использования — на платформе:
👉 Перейти к разбору

📣 Хочешь получать больше таких разборов?
Подпишись на наш главный канал

Please open Telegram to view this post

VIEW IN TELEGRAM

YeaHub — тренажер собеседований по IT

5000+ вопросов для подготовки к интервью. Фильтры, квизы, статистика!

96 views08:00

DS & ML | YeaHub

#полезное

👋

Память под контролем: RamTorch для обучения больших моделей

PyTorch library для памяти-эффективного Deep Learning, позволяющая обучать и запускать большие модели, которые не помещаются в GPU-память.

RamTorch предоставляет гибридные CPU-GPU реализации компонентов нейросетей: параметры хранятся в CPU и передаются на GPU по мере необходимости.

Такой подход значительно снижает использование GPU-памяти при сохранении высокой вычислительной эффективности за счет асинхронных CUDA потоков и интеллектуальной пакетной обработки.

Ключевые возможности:
🔵 Память-эффективные линейные слои: параметры на CPU, GPU только по необходимости
🔵 Асинхронные CUDA потоки: перекрытие вычислений и передачи данных для минимальной задержки
🔵 Поддержка ZeRO-1 Optimizer: распределение состояния оптимизатора по нескольким GPU
🔵 Drop-in замена: совместимо с существующим кодом PyTorch

Установка:

pip install ramtorch

Простой пример:

import torch
from ramtorch import Linear

# Standard PyTorch approach (high GPU memory usage)
# linear = torch.nn.Linear(1000, 1000)

# RamTorch approach (low GPU memory usage)
linear = Linear(1000, 1000, device="cuda")

# Use exactly like a normal PyTorch layer
x = torch.randn(32, 1000, device="cuda")
output = linear(x)  # Parameters automatically transferred from CPU to GPU

Репозиторий

👉

Новости

👉

База вопросов

Please open Telegram to view this post

VIEW IN TELEGRAM

122 views15:01

DS & ML | YeaHub

#полезное

🤯

Генеративные vs. дискриминативные модели в ML

👉

Новости

👉

База вопросов

Please open Telegram to view this post

VIEW IN TELEGRAM

109 views15:03

DS & ML | YeaHub

#Собес #pytorch

🤔

Как использовать GPU для вычислений в PyTorch?

💬 Кратко:
Для использования GPU в PyTorch необходимо убедиться, что на компьютере установлен CUDA и PyTorch с поддержкой GPU. Тензоры и модели можно перемещать на GPU с помощью метода .cuda (). Важно, чтобы все тензоры и модель находились на одном устройстве — либо на CPU, либо на GPU.

📌 Полный разбор + примеры использования — на платформе:
👉 Перейти к разбору

📣 Хочешь получать больше таких разборов?
Подпишись на наш главный канал

Please open Telegram to view this post

VIEW IN TELEGRAM

YeaHub — тренажер собеседований по IT

5000+ вопросов для подготовки к интервью. Фильтры, квизы, статистика!

131 views08:00

DS & ML | YeaHub

#полезное

🛞

Эта статья Себастьяна Рашки пошагово проводит через реализацию self-attention с нуля, далее расширяя разбор до multi-head и cross-attention, с понятными объяснениями и примерами кода на PyTorch.

Обязательное чтение, если хотите глубоко разобраться в трансформерах. Читайте здесь

👉

Новости

👉

База вопросов

Please open Telegram to view this post

VIEW IN TELEGRAM

129 views15:01

DS & ML | YeaHub

#полезное

😊

3 ключевые свойства следа матрицы в Deep Learning

1⃣ L2-регуляризация: Квадрат нормы Фробениуса, ||W||² = tr(WᵀW), используется для штрафования больших весов и предотвращения переобучения.

2⃣Вычисление градиентов: Циклическое свойство следа, tr(AB) = tr(BA), упрощает вывод матричных производных при обратном распространении ошибки (backpropagation).

3⃣ Инвариантность: След инвариантен к замене базиса, tr(P⁻¹AP) = tr(A); это свойство используется при поиске нового, более удобного базиса в PCA.

👉

Новости

👉

База вопросов

Please open Telegram to view this post

VIEW IN TELEGRAM

139 views08:03

DS & ML | YeaHub

This media is not supported in your browser

VIEW IN TELEGRAM

#полезное

😇

Лучший визуальный гид по большим языковым моделям (LLM), который вы когда-либо видели

👉

Новости

👉

База вопросов

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1

131 views15:05

DS & ML | YeaHub

#Собес #git

🤔

Перечислите команды для удаления ветки git

💬 Кратко:
Для удаления локальной ветки:

git branch -d ‹ branch_name>

Если ветка содержит незавершённые изменения:

git branch -D ‹ branch_name>

Для удаления удалённой ветки:

git push origin --delete ‹branch_name>

📌 Полный разбор + примеры использования — на платформе:
👉 Перейти к разбору

📣 Хочешь получать больше таких разборов?
Подпишись на наш главный канал

Please open Telegram to view this post

VIEW IN TELEGRAM

134 views07:51

DS & ML | YeaHub

#полезное

🥱

Tongyi Lab и Alibaba представили ReSum — новый способ, который позволяет веб-агентам искать дольше и отвечать точнее.

Ключевые результаты:
🔵 +4,5% к качеству по сравнению с ReAct
🔵 до +8,2% с ReSum-GRPO
🔵 Pass@1: 33,3% и 18,3% на сложных тестах BrowseComp

В чём проблема ReAct?
Агенты в ReAct ведут подробный «дневник»: думают, делают действие (поиск, клик), фиксируют результат и снова повторяют цикл.
Это делает процесс прозрачным, но в длинных задачах история быстро разрастается → лимит контекста → потеря деталей.

🚀 Решение ReSum:
🟠 Когда контекст близок к пределу, агент останавливается и пишет резюме: проверенные факты + ещё открытые вопросы.
🟠 Потом он продолжает уже с этого резюме, вместо длинной переписки.

Что добавили авторы:
🟢 Отдельную 30B-модель для резюме, которая лучше обрабатывает «шумные» страницы и выделяет важное.
🟢 Усиленное обучение ReSum-GRPO: агент получает награду только за финальный ответ, а она распределяется по всем промежуточным шагам. Это учит собирать правильные факты и делать сжатые, полезные резюме.

Итог: агенты остаются в рамках токен-бюджета и решают сложные задачи веб-поиска и анализа фактов лучше, чем классический ReAct.
Тык

👉

Новости

👉

База вопросов

Please open Telegram to view this post

VIEW IN TELEGRAM

179 views15:02

DS & ML | YeaHub

#полезное

😵

DataMind - открытая система для умных дата-агентов

DataMind - это новая архитектура для создания универсальных агентов анализа данных, которые уже превосходят GPT-5 и DeepSeek-V3.1 по качеству рассуждений и работе с кодом.

Зачем создан DataMind
Сегодня большинство дата-агентов используют закрытые модели и зависят от промпт-инжиниринга.
Открытые решения не умеют устойчиво рассуждать по шагам и работать с разными форматами данных.
Команда DataMind решила эти три главные проблемы:
1. Недостаток качественных данных для обучения
2. Неправильные стратегии обучения
3. Ошибки при многошаговом исполнении кода

🔢

Как устроен DataMind
Система включает полный цикл - от генерации данных до обучения и выполнения задач.
Она использует:
- классификацию задач и создание запросов от простых к сложным
- фильтрацию траекторий через self-consistency (самопроверку ответов)
- комбинацию динамического обучения SFT и RL, что делает процесс стабильным
- оптимизированное выполнение кода в изолированной среде

📄

Результаты
- Модель DataMind-14B показала 71.16 % среднего результата и превзошла GPT-5 и DeepSeek-V3.1
- Лёгкая версия DataMind-7B стала лучшей среди open-source решений — 68.10 %, обучена на 12 000 траекторий

💼

Главные выводы
- Фильтрация через self-consistency эффективнее, чем выбор одной «лучшей» траектории
- Потери SFT стабилизируют обучение, но при ошибочной настройке вызывают колебания
- RL сокращает разрыв между моделями, но не меняет общий рейтинг

Команда открыла датасет DataMind-12K и модели DataMind-7B и 14B, чтобы сообщество могло строить своих аналитических агентов.

🟢

Исследование: https://arxiv.org/abs/2509.25084

🟢

Код: https://github.com/zjunlp/DataMind

🟢

Модели и данные: https://huggingface.co/collections/zjunlp/datamind-687d90047c58bb1e3d901dd8)

👉

Новости

👉

База вопросов

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1

206 views08:02