DS & ML | YeaHub – Telegram
DS & ML | YeaHub
463 subscribers
259 photos
67 videos
373 links
Теория, подготовка к интервью и курсы для Data Science специалистов

YeaHub — это платформа для IT-специалистов, объединяющая обучение, карьерный рост, развитие и сообщество единомышленников.

Платформа: https://yeahub.ru

Для связи: @ruslan_kuyanets
Download Telegram
🤔 Какой метод улучшает интерпретируемость сложных моделей?
Anonymous Quiz
10%
LIME
10%
Dropout
70%
Cross-Validation
10%
Random Forest
#собес
🤔 Чем отличаются str и repr?

str возвращает строковое представление объекта для пользователей, а repr – детализированное представление для разработчиков, предназначенное для отладки. Например, repr может вернуть полные данные, чтобы восстановить объект.

👉Новости 👉Платформа
Please open Telegram to view this post
VIEW IN TELEGRAM
👍21
🤔 Какой метод обнаруживает аномалии в данных?
Anonymous Quiz
56%
Isolation Forest
44%
Bagging
0%
PCA
0%
Ridge Regression
2
#новости
🤯 Вышел новый бенчмарк EnigmaEval, на котором все модели выбивают ровно 0

Его выпустили рисерчеры из ScaleAI (те самые, которые составляли знаменитый Humanity’s Last Exam) и он состоит из длинных и сложных головоломок, на решение которых людям требуются дни. Несколько примеров наверху

На нормальном уровне сложности большинство моделей выбивают 0.5-1.3%, а o1 – 7%. Но если переключится на задачи высокой сложности, некоторые из которых разрабатывали для студентов MIT, все дают одинаковый результат: 0.

(DeepSeek в тесте нет, потому что для прохождения требуется мультимодальность)

Интересно, что покажет o3-mini. В нее как раз недавно добавили возможность грузить файлы и картинки.

👉Новости 👉Платформа
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1
🤔 Какой метод часто применяют для предобработки категориальных данных?
Anonymous Quiz
17%
One-hot encoding
17%
K-means
0%
PCA
67%
Логистическая регрессия
2🔥1
😊Ожидание: Чёткий план, логичный перебор параметров.
😐 Реальность: Бесконечный хаос, случайные комбинации и надежда на лучшее.
Please open Telegram to view this post
VIEW IN TELEGRAM
#статьи
🤓 OpenAI выкатили гайд по тому, как правильно обращаться с ризонинг-моделями

Ризонинг-модели отличаются от серии GPT и не всегда могут оказаться полезнее обычных для всех типов задач. Их скорее стоит использовать для неоднозначных, многошаговых тасок по математике, инженерии или финансам. И промптить их стоит более осознанно.
Читать статью

👉Новости 👉Платформа
Please open Telegram to view this post
VIEW IN TELEGRAM
1
#полезное
❤️‍🔥 Deep-research

Открытая реализация нового агента Deep Research от OpenAI!

🟠 Цель проекта — предоставить возможности глубокого обучениы без необходимости оплачивать платные сервисы, предлагая настраиваемые параметры для регулирования глубины и широты исследования. Пользователи могут запускать агента в течение разного времени — от 5 минут до нескольких часов — в зависимости от потребностей, при этом система автоматически адаптируется к заданным параметрам.
Гитхаб

👉Новости 👉Платформа
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
#полезное
😊 Альтернатива Jupyter Notebook (с открытым исходным кодом)

Marimo объединяет возможности Jupyter, Streamlit, ipywidgets (и не только) в реактивном интерфейсе.

Он также отображает интерактивные таблицы Pandas, и к ним можно выполнять SQL-запросы.
Гитхаб

👉Новости 👉Платформа
Please open Telegram to view this post
VIEW IN TELEGRAM
#новости
🤯 Это DeepSeek moment для Deep Research: Perplexity выпустила бесплатный аналог агента OpenAI

Он, также как и Deep Research, может на основе n-минутного похода в интернет создавать подробные отчеты по любому вашему вопросу. С названием Perplexity тоже не запаривались

В день фри юзерам доступно 5 запросов, подписчикам (20$) – 500. Для сравнения, у OpenAI DR доступен только в подписке за 200$, и за эти деньги дают 100 запросов в месяц, то есть в 150 раз меньше.

По бенчмарку Humanity’s Last Exam DR от Perplexity почти догоняет аналог от OpenAI, выбивая 21.1%. На графике видно, что это больше, чем у o1-mini high, R1 и o1 (хотя это разные продукты и сравнивать не то чтобы уместно).

Пишут также, что большинство тасок DR от Perplexity заканчивает за 3 минуты. У OpenAI это обычно 10-20.
Пробуем здесь

👉Новости 👉Платформа
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
#собес
🤔 Как работает градиентный бустинг для регрессии?

Градиентный бустинг для регрессии строит ансамбль слабых моделей (обычно деревьев решений), добавляя каждую новую модель так, чтобы минимизировать ошибку предыдущих. Процесс:
🟠Инициализация модели начальным прогнозом (например, средним значением целевой переменной).
🟠Вычисление остаточной ошибки (разница между прогнозами и фактическими значениями).
🟠Обучение нового дерева для предсказания этой ошибки.
🟠Итеративное добавление деревьев с уменьшением шага обновления (learning rate) для улучшения общей точности.

👉Новости 👉Платформа
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔 Какой метод часто применяют для обработки категориальных данных?
Anonymous Quiz
30%
One-hot encoding
40%
K-means
10%
PCA
20%
Логистическая регрессия
1
Ситуация

👉Новости 👉Платформа
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
#полезное
🫡 Использование box plot

В этом примере три разных набора данных дают похожие box plot. Поэтому всегда проверяйте распределение данных с помощью гистограмм, KDE и других методов.

👉Новости 👉Платформа
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
#полезное
😊 Stickyland

Это инструмент с открытым исходным кодом, который позволяет выйти за рамки линейного представления ноутбука.

🟠Создавайте плавающие ячейки
🟠Формируйте дашборды из ячеек
🟠Автоматически выполняйте ячейки при изменениях

👉Новости 👉Платформа
Please open Telegram to view this post
VIEW IN TELEGRAM
#Собес
🤔 Что такое Scikit-Learn и почему стоит использовать его вместо других библиотек машинного обучения?

Scikit-Learn - это библиотека машинного обучения на Python, основанная на NumPy, SciPy и Matplotlib. Она предоставляет удобные и эффективные инструменты для
анализа данных и моделирования. Scikit-Learn выделяется простым и единообразным API, хорошей документацией и активным сообществом. В библиотеку встроены алгоритмы классификации, регрессии, кластеризации, снижения размерности, обработки данных и оценки моделей. Благодаря этим особенностям она подходит как для новичков, так и для опытных специалистов.

👉Новости 👉Платформа
Please open Telegram to view this post
VIEW IN TELEGRAM
1