NEW BOT Телеграм, страница - 710875375

DS & ML | YeaHub

@yeahub_data_science

463 subscribers

259 photos

67 videos

373 links

Теория, подготовка к интервью и курсы для Data Science специалистов

YeaHub — это платформа для IT-специалистов, объединяющая обучение, карьерный рост, развитие и сообщество единомышленников.

Платформа: https://yeahub.ru

Для связи: @ruslan_kuyanets

Download Telegram

About

Blog

Apps

Platform

DS & ML | YeaHub

463 subscribers

DS & ML | YeaHub

#полезное

🤯

Вычисление важности признаков: когда она вводит в заблуждение

Вычисление важности признаков (Permutation Feature Importance) — популярный метод оценки вклада признаков в модель. Однако при наличии коррелированных признаков он может давать искаженные результаты.

🟠 Разделение важности: если два признака (A и B) сильно коррелируют, перестановка одного из них не снизит качество модели, так как второй содержит ту же информацию. Итог — заниженная важность.

🟠 Ложная высокая важность: малозначимый, но коррелированный с важным признак может получить высокий вклад просто из-за связи с важным признаком.

Что делать?
✔️ Использовать SHAP, который корректно распределяет вклад.
✔️ Применять PCA или регуляризацию (Lasso) для снижения корреляции.
✔️ Проверять важность через drop-column importance.

👉

Новости

👉

База вопросов

Please open Telegram to view this post

VIEW IN TELEGRAM

30 views08:04

DS & ML | YeaHub

#полезное

🥺

Градиентный бустинг: почему слишком много деревьев ухудшает модель

🟠 Переобучение (overfitting) — каждое новое дерево минимизирует ошибку, но если деревьев слишком много, модель начинает подстраиваться под шум данных, теряя обобщающую способность.

🟠 Снижение прироста качества — на первых итерациях каждое дерево значительно улучшает предсказания. Однако после определенного количества итераций добавление новых деревьев практически не влияет на качество.

🟠 Рост вычислительной сложности — больше деревьев → выше время инференса и потребление памяти.

👉

Новости

👉

База вопросов

Please open Telegram to view this post

VIEW IN TELEGRAM

27 views15:02

DS & ML | YeaHub

🤔

Как реализовать анализ главных компонент (РСА) с использованием Scikit-Learn?

Для реализации РСА с использованием Scikit-Learn нужно сначала нормализовать данные, а затем применить класс РСА из модуля sklearn.decomposition . Указывая количество компонент, которые нужно оставить, можно уменьшить размерность данных, сохраняя как можно больше информации. Результатом является набор данных с меньшим числом признаков.

👉

👉

Платформа

Please open Telegram to view this post

VIEW IN TELEGRAM

28 views08:00

DS & ML | YeaHub

#полезное

😊

Coq-of-Rust — это инструмент для формальной верификации кода на Rust. Он преобразует подмножество Rust в спецификации на языке Coq, позволяя доказывать корректность программ математическими методами.

Проект разработан для повышения надежности критических систем (например, блокчейнов, embedded-решений), где ошибки недопустимы.

Основные функции
Трансляция Rust → Coq:
Конвертирует структуры, перечисления (enum), трейты (trait), методы и выражения в эквивалентный код на Coq.

Поддержка системы владения:
Учитывает правила заимствования и времени жизни (lifetimes), сохраняя семантику Rust на уровне спецификаций.

Генерация теорем:
Автоматически создает условия для доказательства свойств (например, отсутствие паник, корректность алгоритмов).

Coq-of-Rust — это шаг к математически верифицируемому Rust. Если вы разрабатываете системы, где цена ошибки высока, этот инструмент поможет превратить код в набор теорем, которые можно строго доказать.

Совет: Начните с примеров из репозитория, чтобы понять, как транслируются типичные Rust-конструкции.
Гитхаб

👉

Новости

👉

База вопросов

Please open Telegram to view this post

VIEW IN TELEGRAM

40 views15:00

DS & ML | YeaHub

This media is not supported in your browser

VIEW IN TELEGRAM

#полезное

😇

HF: Spark-TTS, модель преобразования текста в речь на базе LLM, которая выполняет клонирование голоса с нуля и создание голоса с высокой детализацией — все в одном потоке!

✔️ Сделана на Qwen2.5
✔️ Управляйте частотой тона, скоростью и стилем диктора непосредственно из текста.

Попробовать можно здесь: https://huggingface.co/spaces/Mobvoi/Offical-Spark-TTS
Paper: https://arxiv.org/pdf/2503.01710
Code: https://github.com/SparkAudio/Spark-TTS
Demo: https://sparkaudio.github.io/spark-tts/

👉

Новости

👉

База вопросов

Please open Telegram to view this post

VIEW IN TELEGRAM

36 views08:00

DS & ML | YeaHub

This media is not supported in your browser

VIEW IN TELEGRAM

#полезное

👍

NocoDB

Это база данных без кода (no-code database) с открытым исходным кодом, превращающая любую реляционную базу данных (MySQL, PostgreSQL, SQLite, MSSQL и др.) в гибкую таблицу, аналогичную Airtable!

🚩 Она позволяет пользователям управлять данными с помощью удобного веб-интерфейса, создавать REST API, настраивать представления (таблицы, календари, канбан-доски) и интегрироваться с внешними сервисами.
Гитхаб

👉

Новости

👉

База вопросов

Please open Telegram to view this post

VIEW IN TELEGRAM

36 views15:01

DS & ML | YeaHub

🤔

Можете ли вы описать сценарий, где вы бы использовали Random Forest вместо линейной регрессии и почему?

Random Forest стоит использовать вместо линейной регрессии, когда данные имеют сложные взаимосвязи и нелинейные зависимости, например, в задачах классификации заболеваний на основе множества параметров здоровья. Линейная регрессия предполагает линейную зависимость между признаками и результатом, что может не подходить для таких ситуаций. Random Forest может эффективно
работать с такими данными, создавая несколько деревьев решений и комбинируя их результаты.

👉

👉

Платформа

Please open Telegram to view this post

VIEW IN TELEGRAM

33 views08:02

DS & ML | YeaHub

#полезное

😊

Python-библиотека для тонкой настройки Gemma 3

Gemma — это минимальная библиотека для использования и тонкой настройки Gemma. Включает документацию по тонкой настройке, шардингу, LoRA, PEFT, мультимодальности и токенизации в больших языковых моделях (LLMs).

👉

Новости

👉

База вопросов

Please open Telegram to view this post

VIEW IN TELEGRAM

34 views15:05

DS & ML | YeaHub

This media is not supported in your browser

VIEW IN TELEGRAM

#полезное

😇

Иногда нужно быстро скормить LLM весь репозиторий

Просто меняешь одну букву в URL (github.com → uithub.com), и вуаля — получаешь весь репозиторий в виде чистого текста со структурой

Плюс есть фильтрация по расширениям, настройка максимального количества токенов и поддержка разных форматов вроде YAML

👉

Новости

👉

База вопросов

Please open Telegram to view this post

VIEW IN TELEGRAM

35 views08:03

DS & ML | YeaHub

This media is not supported in your browser

VIEW IN TELEGRAM

#полезное

🛞

STUMPY: умный анализ временных рядов

STUMPY — это мощная и масштабируемая библиотека Python для работы с временными рядами. Она эффективно вычисляет матричный профиль, который помогает находить ближайшие соседи для каждого подотрезка временного ряда.

С его помощью можно решать задачи:

✅ Поиск повторяющихся паттернов.
✅ Обнаружение аномалий.
✅ Выделение ключевых подотрезков (shapelets).
✅ Семантическая сегментация.
✅ Анализ потоковых данных.
✅ Быстрое приближённое вычисление матричных профилей.
✅ Построение временных цепочек.
✅ Краткое представление длинных временных рядов.
Подробнее — в документации.

👉

Новости

👉

База вопросов

Please open Telegram to view this post

VIEW IN TELEGRAM

34 views15:03

DS & ML | YeaHub

🤔

Какую роль Scikit-Learn играет в инженерии признаков и предварительной обработке данных для машинного обучения?

Scikit-Learn играет ключевую роль в предварительной обработке данных, предоставляя инструменты для масштабирования признаков, кодирования категориальных переменных, обработки пропущенных значений и генерации полиномиальных признаков. Он также поддерживает методы для уменьшения
размерности, такие как РСА, и строит пайплайны для последовательного применения нескольких этапов обработки.

👉

👉

Платформа

Please open Telegram to view this post

VIEW IN TELEGRAM

38 views08:02

DS & ML | YeaHub

😐

Как выбрать стратегию кэширования: разбор 7 популярных алгоритмов

Кешировать нужно с умом. И нет, LRU — не серебряная пуля.

В статье вас ждёт разбор алгоритмов: LRU, LFU, FIFO и другие
– Примеры, где каждый работает лучше
– Плюсы и минусы подходов
– Практические советы по выбору стратегии

Если проектируете систему с большими нагрузками или оптимизируете производительность — материал будет как раз.
Читать статью

👉

Новости

👉

База вопросов

Please open Telegram to view this post

VIEW IN TELEGRAM

35 views15:02

DS & ML | YeaHub

#полезное

😐

Всего три строки кода — и эта библиотека Python очистит любой ML-дataset: выявит выбросы, найдет ошибки в метках, выполнит активное обучение и многое другое.
Гитхаб

👉

Новости

👉

База вопросов

Please open Telegram to view this post

VIEW IN TELEGRAM

38 views08:02

DS & ML | YeaHub

This media is not supported in your browser

VIEW IN TELEGRAM

#полезное

🤓

Colab + GitHub: мгновенное открытие ноутбуков

Открывать Jupyter Notebook из GitHub в Colab без скачиваний, возни и лишних кликов? Лови лайфхак

Просто вставляешь "tocolab" в URL после "github" – и ноутбук сразу открывается в Colab

👉

Новости

👉

База вопросов

Please open Telegram to view this post

VIEW IN TELEGRAM

40 views15:02

DS & ML | YeaHub

🤔

Как реализовать ансамблевый метод в Scikit- Learn и объяснить его преимущества?

Ансамблевые методы, такие как Random Forest, используют несколько моделей для улучшения точности предсказаний, уменьшая переобучение. Они работают путем агрегирования результатов нескольких моделей, что позволяет уменьшить вариативность и смещение.

👉

Новости

👉

База вопросов

Please open Telegram to view this post

VIEW IN TELEGRAM

YeaHub — тренажер собеседований по IT

5000+ вопросов для подготовки к интервью. Фильтры, квизы, статистика!

38 views08:04

DS & ML | YeaHub

#полезное

😊

Как избежать чрезмерной оптимизации гиперпараметров (hyperparameter tuning)

Часто на этапе настройки гиперпараметров (например, с помощью Grid Search или Random Search) можно столкнуться с перенастройкой модели, что приведет к плохой её обобщающей способности на новых данных.

Как избежать переоптимизации гиперпараметров?
✅ Использовать кросс-валидацию для оценки производительности модели на разных поднаборах данных.

✅ Применять рандомизированный поиск вместо полного перебора всех вариантов гиперпараметров, чтобы ускорить процесс.

✅ Настроить ограничения на количество итераций или время оптимизации.

👉

Новости

👉

База вопросов

Please open Telegram to view this post

VIEW IN TELEGRAM

39 views15:04

DS & ML | YeaHub

#полезное

😊

Шпаргалка: как генерировать текст с LLM

Генерация текста — это не просто предсказание следующего токена! LLM оценивает вероятность появления каждого слова, но как выбрать, какие слова вставлять в текст?

Давайте разберём основные методы:

🟠

Жадный поиск (Greedy Search) — выбираем слово с наивысшей вероятностью и продолжаем. Проблема: тексты становятся предсказуемыми и повторяются.

🟠

Случайный отбор (Sampling) — выбираем слова случайно с учётом вероятностей. Регулируется параметром temperature:
👍 Высокая температура → креативный, но хаотичный текст.
😱 Низкая температура → логичный, но скучный текст.

🟠

Лучевой поиск (Beam Search) — выбираем k лучших вариантов, продолжаем развивать их и выбираем последовательность с наибольшей вероятностью. Это баланс между качеством и скоростью.

🟠

Контрастный поиск (Contrastive Search) — улучшенный вариант, который оценивает гладкость и разнообразие текста. Слова с высокой вероятностью, но слишком похожие на предыдущие, могут быть наказаны и заменены более разнообразными.

Какой метод лучше?
✅ Если нужен фактологичный ответ — лучше beam search
✅Для творческих текстов — sampling
✅ Для баланса между качеством и разнообразием — contrastive search

👉

Новости

👉

База вопросов

Please open Telegram to view this post

VIEW IN TELEGRAM

57 views08:03

DS & ML | YeaHub

This media is not supported in your browser

VIEW IN TELEGRAM

#полезное
🛞 Это увлекательный интерактивный гайд, объясняющий интуицию, лежащую в основе гауссовых процессов.

Гауссовские процессы позволяют построить распределение функций с непрерывной областью определения.
Гайд

👉

Новости

👉

База вопросов

Please open Telegram to view this post

VIEW IN TELEGRAM

64 views15:04

DS & ML | YeaHub

🤔

Как Scikit-Learn обрабатывает сохранение моделей и их сериализацию?

Scikit-Learn использует встроенную в Python модель сериализации рісе для сохранения и загрузки моделей машинного обучения. Однако, из-за проблем с
безопасностью и совместимостью версий Python, рекомендуется использовать joblib, который более эффективен для работы с большими данными, например, массивами numpy. Для сохранения модели используется функция joblib.dump() , а для загрузки - joblib. load()

👉

Новости

👉

База вопросов

Please open Telegram to view this post

VIEW IN TELEGRAM

YeaHub — тренажер собеседований по IT

5000+ вопросов для подготовки к интервью. Фильтры, квизы, статистика!

83 views08:05

DS & ML | YeaHub

#полезное

😇

Чем ближе к вокзалу, тем хуже кебаб — научный прорыв века

На французском Reddit появилась гипотеза: чем ближе к вокзалу, тем хуже кебаб. Это утверждение потребовало проверки, и один энтузиаст решил разобраться, вооружившись свободным временем и шутливым настроением. Нобелевка и job-офферы, конечно, уже на горизонте!

Методология
Для анализа выбрали Париж: гипотеза родом оттуда, вокзалов и кебабных там полно, а пешеходные маршруты идеально подходят для «научных» прогулок.
Подробности исследования

👉

Новости

👉

База вопросов

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2

73 views15:04

DS & ML | YeaHub

#Собес #TensorFlow

🤔

Чем PyTorch отличается от других фреймворков глубокого обучения, таких как TensorFlow?

PyTorch и TensorFlow отличаются архитектурой вычислений: PyTorch использует динамическую вычислительную графику, что позволяет изменять граф во время выполнения, в то время как TensorFlow использует статичный граф, который требует предварительного определения. Это делает PyTorch более интуитивным и удобным для отладки, но TensorFlow может обеспечивать лучшую производительность благодаря оптимизации вычислений. Также PyTorch более дружелюбен к Python-разработчикам, поскольку поддерживает структуру управления Python, в то время как TensorFlow абстрагирует многие детали.

👉

Новости

👉

База вопросов

Please open Telegram to view this post

VIEW IN TELEGRAM

👍2

65 views08:03