NEW BOT Телеграм, страница - 56113540

DS & ML | YeaHub

@yeahub_data_science

463 subscribers

259 photos

67 videos

373 links

Теория, подготовка к интервью и курсы для Data Science специалистов

YeaHub — это платформа для IT-специалистов, объединяющая обучение, карьерный рост, развитие и сообщество единомышленников.

Платформа: https://yeahub.ru

Для связи: @ruslan_kuyanets

Download Telegram

About

Blog

Apps

Platform

DS & ML | YeaHub

463 subscribers

DS & ML | YeaHub

#полезное

🤓

DeepFace — инструмент для распознавания лиц в Python

DeepFace — это лёгкий фреймворк для анализа лиц и их характеристик (возраст, пол, эмоции, раса). Он объединяет передовые модели, такие как VGG-Face, FaceNet, OpenFace, DeepID, ArcFace и другие.
Гитхаб

👉

Новости

👉

База вопросов

Please open Telegram to view this post

VIEW IN TELEGRAM

37 views08:01

DS & ML | YeaHub

#полезное

🤯

Впечатляющая оптимизация скорости

Большие DataFrame в Pandas могут потреблять огромное количество памяти.

✅ Обработка данных небольшими частями помогает избежать переполнения памяти и ускоряет доступ к данным!

👉

Новости

👉

База вопросов

Please open Telegram to view this post

VIEW IN TELEGRAM

36 views15:02

DS & ML | YeaHub

🤔

Как оптимизировать гиперпараметры в модели Scikit-Learn?

Для оптимизации гиперпараметров в Scikit-Learn используют GridSearchCV или RandomizedSearchCV. GridSearchcv пробует все возможные комбинации
параметров, в то время как RandomizedSearchCV выбирает случайные комбинации, что ускоряет процесс. Оба метода возвращают наилучшие параметры для модели.

👉

👉

Платформа

Please open Telegram to view this post

VIEW IN TELEGRAM

36 views08:01

DS & ML | YeaHub

#полезное

👍

Замените describe на Skimpy

Если вы до сих пор используете метод describe в Pandas, есть отличная альтернатива, о которой стоит узнать! Skimpy — open-source инструмент, который дает гораздо более полное представление о ваших данных.

Skimpy не просто выводит статистику, но и показывает:
✅ форму данных;
✅ типы данных в колонках;
✅ распределение данных в графическом виде

👉

Новости

👉

База вопросов

Please open Telegram to view this post

VIEW IN TELEGRAM

35 views15:03

DS & ML | YeaHub

This media is not supported in your browser

VIEW IN TELEGRAM

#полезное

🤯

Умножение матриц

Без умножения матриц ИИ просто не смог бы существовать.

🟠 Нейронные сети: Фото, текст, звук — всё представляется в виде матриц. Их умножение позволяет ИИ понимать и распознавать образы.

🟠 Компьютерное зрение: Фильтры сканируют изображения, выделяя контуры, формы, объекты — так ИИ "видит" мир.

🟠 NLP (Обработка текста): В ChatGPT внимание распределяется с помощью матриц, определяя, какие слова важнее.

🟠 Рекомендации: Netflix анализирует, какие фильмы вы смотрите, умножая матрицы предпочтений. Именно так он предсказывает ваш следующий любимый сериал!

🟠 Обучение с подкреплением: Как ИИ обыгрывает чемпионов по шахматам? Он умножает матрицы состояний и действий, просчитывая лучший ход.

👉

Новости

👉

База вопросов

Please open Telegram to view this post

VIEW IN TELEGRAM

👍1

48 views08:04

DS & ML | YeaHub

#полезное

😇

Vaex — быстрая альтернатива Pandas для работы с большими данными

Vaex — это библиотека DataFrame, специально созданная для работы с огромными наборами данных (миллионы или даже миллиарды строк) без перегрузки памяти и падения производительности.

Импорт:

import vaex

df = vaex.open("big_data.csv")
print(df.shape)

Фильтрация данных:

filtered_df = df[df.age > 30]

Вычисление среднего значения:

mean_salary = df.salary.mean()
print(mean_salary)

Группировка данных:

df.groupby("job_noscript", agg=vaex.agg.mean("salary"))

Ссылка на библиотеку

👉

Новости

👉

База вопросов

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

44 views15:01

DS & ML | YeaHub

🤔

Как обрабатывать несбалансированные классы в наборе данных с помощью Scikit-Learn?

Для обработки несбалансированных классов в Scikit-Learn можно использовать ресэмплинг (undersampling или oversampling), а также классические веса для алгоритмов, поддерживающих этот метод, например, для SVM или Random Forest. Это помогает модели лучше распознавать редкие классы.

👉

👉

Платформа

Please open Telegram to view this post

VIEW IN TELEGRAM

37 views08:02

DS & ML | YeaHub

#полезное

🛞

Ускоряем t-SNE с помощью GPU

Одна из главных проблем t-SNE — его время выполнения квадратично зависит от числа точек данных.

🟠 Если у вас 20k+ точек, стандартная реализация sklearn становится очень медленной.

🟠 tSNE-CUDA — оптимизированная версия t-SNE на GPU, которая в разы ускоряет вычисления.

👉

Новости

👉

База вопросов

Please open Telegram to view this post

VIEW IN TELEGRAM

37 views15:04

DS & ML | YeaHub

😊

PyTorch: новые инструменты для для экономии памяти при обучении моделей.

PyTorch представил усовершенствованные методы Activation Checkpointing (AC), цель которых - снижение потребления памяти при обучении.

Традиционный подход в eager mode сохраняет промежуточные активации для обратного прохода, что зачастую приводит к значительному расходу ресурсов. AC позволяет не сохранять эти тензоры, а вычислять их заново при необходимости, тем самым жертвуя вычислительным временем ради экономии памяти.

Новая техника – Selective Activation Checkpoint (SAC). В отличие от обычного AC, который затрагивает всю выбранную область, SAC дает гранулярный контроль над тем, какие операции следует пересчитывать, а какие – сохранять. Это достигается за счет использования policy_fn, определяющей, нужно ли сохранять результаты конкретной операции. SAC будет полезен для избегания перевычисления ресурсоемких операций, например, матричных умножений.

Для torch.compile стала доступна Memory Budget API. Эта функция автоматически применяет SAC с оптимальной политикой, исходя из заданного пользователем бюджета памяти (от 0 до 1). Бюджет 0 соответствует обычному AC, а 1 – поведению torch.compile по умолчанию.
Читать подробнее

👉

Новости

👉

База вопросов

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

36 views08:03

DS & ML | YeaHub

This media is not supported in your browser

VIEW IN TELEGRAM

👍

Технический вопрос с собеса, который гугл давал 30 раз

👉

Новости

👉

База вопросов

Please open Telegram to view this post

VIEW IN TELEGRAM

31 views15:02

DS & ML | YeaHub

🤔

Какие ключевые шаги включает в себя выполнение grid search в Scikit-Learn?

Для выполнения grid search необходимо определить сетку параметров, создать объект GridSearchCV , передать модель и параметры, а затем выполнить подгонку. По завершении можно получить наилучшие параметры через атрибут best_params_.

👉

👉

Платформа

Please open Telegram to view this post

VIEW IN TELEGRAM

31 views08:04

DS & ML | YeaHub

#полезное

📞

Шпаргалка: как выбрать AI-модель в 2025 году

🟠 ChatGPT — лучший для диалогов, генерации текста и объяснений.
🟠 Claude — глубоко анализирует длинные тексты.
🟠 Perplexity — идеально подходит для поиска и структурирования данных.
🟠 Gemini — интеграция с Google для актуальных сведений.
🟠 Grok — фокус на аналитике и технических задачах.
Полное сравнение моделей

👉

Новости

👉

База вопросов

Please open Telegram to view this post

VIEW IN TELEGRAM

33 views15:01

DS & ML | YeaHub

#полезное

🤯

Вычисление важности признаков: когда она вводит в заблуждение

Вычисление важности признаков (Permutation Feature Importance) — популярный метод оценки вклада признаков в модель. Однако при наличии коррелированных признаков он может давать искаженные результаты.

🟠 Разделение важности: если два признака (A и B) сильно коррелируют, перестановка одного из них не снизит качество модели, так как второй содержит ту же информацию. Итог — заниженная важность.

🟠 Ложная высокая важность: малозначимый, но коррелированный с важным признак может получить высокий вклад просто из-за связи с важным признаком.

Что делать?
✔️ Использовать SHAP, который корректно распределяет вклад.
✔️ Применять PCA или регуляризацию (Lasso) для снижения корреляции.
✔️ Проверять важность через drop-column importance.

👉

Новости

👉

База вопросов

Please open Telegram to view this post

VIEW IN TELEGRAM

30 views08:04

DS & ML | YeaHub

#полезное

🥺

Градиентный бустинг: почему слишком много деревьев ухудшает модель

🟠 Переобучение (overfitting) — каждое новое дерево минимизирует ошибку, но если деревьев слишком много, модель начинает подстраиваться под шум данных, теряя обобщающую способность.

🟠 Снижение прироста качества — на первых итерациях каждое дерево значительно улучшает предсказания. Однако после определенного количества итераций добавление новых деревьев практически не влияет на качество.

🟠 Рост вычислительной сложности — больше деревьев → выше время инференса и потребление памяти.

👉

Новости

👉

База вопросов

Please open Telegram to view this post

VIEW IN TELEGRAM

27 views15:02

DS & ML | YeaHub

🤔

Как реализовать анализ главных компонент (РСА) с использованием Scikit-Learn?

Для реализации РСА с использованием Scikit-Learn нужно сначала нормализовать данные, а затем применить класс РСА из модуля sklearn.decomposition . Указывая количество компонент, которые нужно оставить, можно уменьшить размерность данных, сохраняя как можно больше информации. Результатом является набор данных с меньшим числом признаков.

👉

👉

Платформа

Please open Telegram to view this post

VIEW IN TELEGRAM

28 views08:00

DS & ML | YeaHub

#полезное

😊

Coq-of-Rust — это инструмент для формальной верификации кода на Rust. Он преобразует подмножество Rust в спецификации на языке Coq, позволяя доказывать корректность программ математическими методами.

Проект разработан для повышения надежности критических систем (например, блокчейнов, embedded-решений), где ошибки недопустимы.

Основные функции
Трансляция Rust → Coq:
Конвертирует структуры, перечисления (enum), трейты (trait), методы и выражения в эквивалентный код на Coq.

Поддержка системы владения:
Учитывает правила заимствования и времени жизни (lifetimes), сохраняя семантику Rust на уровне спецификаций.

Генерация теорем:
Автоматически создает условия для доказательства свойств (например, отсутствие паник, корректность алгоритмов).

Coq-of-Rust — это шаг к математически верифицируемому Rust. Если вы разрабатываете системы, где цена ошибки высока, этот инструмент поможет превратить код в набор теорем, которые можно строго доказать.

Совет: Начните с примеров из репозитория, чтобы понять, как транслируются типичные Rust-конструкции.
Гитхаб

👉

Новости

👉

База вопросов

Please open Telegram to view this post

VIEW IN TELEGRAM

40 views15:00

DS & ML | YeaHub

This media is not supported in your browser

VIEW IN TELEGRAM

#полезное

😇

HF: Spark-TTS, модель преобразования текста в речь на базе LLM, которая выполняет клонирование голоса с нуля и создание голоса с высокой детализацией — все в одном потоке!

✔️ Сделана на Qwen2.5
✔️ Управляйте частотой тона, скоростью и стилем диктора непосредственно из текста.

Попробовать можно здесь: https://huggingface.co/spaces/Mobvoi/Offical-Spark-TTS
Paper: https://arxiv.org/pdf/2503.01710
Code: https://github.com/SparkAudio/Spark-TTS
Demo: https://sparkaudio.github.io/spark-tts/

👉

Новости

👉

База вопросов

Please open Telegram to view this post

VIEW IN TELEGRAM

36 views08:00

DS & ML | YeaHub

This media is not supported in your browser

VIEW IN TELEGRAM

#полезное

👍

NocoDB

Это база данных без кода (no-code database) с открытым исходным кодом, превращающая любую реляционную базу данных (MySQL, PostgreSQL, SQLite, MSSQL и др.) в гибкую таблицу, аналогичную Airtable!

🚩 Она позволяет пользователям управлять данными с помощью удобного веб-интерфейса, создавать REST API, настраивать представления (таблицы, календари, канбан-доски) и интегрироваться с внешними сервисами.
Гитхаб

👉

Новости

👉

База вопросов

Please open Telegram to view this post

VIEW IN TELEGRAM

36 views15:01

DS & ML | YeaHub

🤔

Можете ли вы описать сценарий, где вы бы использовали Random Forest вместо линейной регрессии и почему?

Random Forest стоит использовать вместо линейной регрессии, когда данные имеют сложные взаимосвязи и нелинейные зависимости, например, в задачах классификации заболеваний на основе множества параметров здоровья. Линейная регрессия предполагает линейную зависимость между признаками и результатом, что может не подходить для таких ситуаций. Random Forest может эффективно
работать с такими данными, создавая несколько деревьев решений и комбинируя их результаты.

👉

👉

Платформа

Please open Telegram to view this post

VIEW IN TELEGRAM

33 views08:02