DS & ML | YeaHub – Telegram
DS & ML | YeaHub
463 subscribers
259 photos
67 videos
373 links
Теория, подготовка к интервью и курсы для Data Science специалистов

YeaHub — это платформа для IT-специалистов, объединяющая обучение, карьерный рост, развитие и сообщество единомышленников.

Платформа: https://yeahub.ru

Для связи: @ruslan_kuyanets
Download Telegram
#полезное
❤️‍🔥 Deep-research

Открытая реализация нового агента Deep Research от OpenAI!

🟠 Цель проекта — предоставить возможности глубокого обучениы без необходимости оплачивать платные сервисы, предлагая настраиваемые параметры для регулирования глубины и широты исследования. Пользователи могут запускать агента в течение разного времени — от 5 минут до нескольких часов — в зависимости от потребностей, при этом система автоматически адаптируется к заданным параметрам.
Гитхаб

👉Новости 👉Платформа
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
#полезное
😊 Альтернатива Jupyter Notebook (с открытым исходным кодом)

Marimo объединяет возможности Jupyter, Streamlit, ipywidgets (и не только) в реактивном интерфейсе.

Он также отображает интерактивные таблицы Pandas, и к ним можно выполнять SQL-запросы.
Гитхаб

👉Новости 👉Платформа
Please open Telegram to view this post
VIEW IN TELEGRAM
#новости
🤯 Это DeepSeek moment для Deep Research: Perplexity выпустила бесплатный аналог агента OpenAI

Он, также как и Deep Research, может на основе n-минутного похода в интернет создавать подробные отчеты по любому вашему вопросу. С названием Perplexity тоже не запаривались

В день фри юзерам доступно 5 запросов, подписчикам (20$) – 500. Для сравнения, у OpenAI DR доступен только в подписке за 200$, и за эти деньги дают 100 запросов в месяц, то есть в 150 раз меньше.

По бенчмарку Humanity’s Last Exam DR от Perplexity почти догоняет аналог от OpenAI, выбивая 21.1%. На графике видно, что это больше, чем у o1-mini high, R1 и o1 (хотя это разные продукты и сравнивать не то чтобы уместно).

Пишут также, что большинство тасок DR от Perplexity заканчивает за 3 минуты. У OpenAI это обычно 10-20.
Пробуем здесь

👉Новости 👉Платформа
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
#собес
🤔 Как работает градиентный бустинг для регрессии?

Градиентный бустинг для регрессии строит ансамбль слабых моделей (обычно деревьев решений), добавляя каждую новую модель так, чтобы минимизировать ошибку предыдущих. Процесс:
🟠Инициализация модели начальным прогнозом (например, средним значением целевой переменной).
🟠Вычисление остаточной ошибки (разница между прогнозами и фактическими значениями).
🟠Обучение нового дерева для предсказания этой ошибки.
🟠Итеративное добавление деревьев с уменьшением шага обновления (learning rate) для улучшения общей точности.

👉Новости 👉Платформа
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔 Какой метод часто применяют для обработки категориальных данных?
Anonymous Quiz
30%
One-hot encoding
40%
K-means
10%
PCA
20%
Логистическая регрессия
1
Ситуация

👉Новости 👉Платформа
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
#полезное
🫡 Использование box plot

В этом примере три разных набора данных дают похожие box plot. Поэтому всегда проверяйте распределение данных с помощью гистограмм, KDE и других методов.

👉Новости 👉Платформа
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
#полезное
😊 Stickyland

Это инструмент с открытым исходным кодом, который позволяет выйти за рамки линейного представления ноутбука.

🟠Создавайте плавающие ячейки
🟠Формируйте дашборды из ячеек
🟠Автоматически выполняйте ячейки при изменениях

👉Новости 👉Платформа
Please open Telegram to view this post
VIEW IN TELEGRAM
#Собес
🤔 Что такое Scikit-Learn и почему стоит использовать его вместо других библиотек машинного обучения?

Scikit-Learn - это библиотека машинного обучения на Python, основанная на NumPy, SciPy и Matplotlib. Она предоставляет удобные и эффективные инструменты для
анализа данных и моделирования. Scikit-Learn выделяется простым и единообразным API, хорошей документацией и активным сообществом. В библиотеку встроены алгоритмы классификации, регрессии, кластеризации, снижения размерности, обработки данных и оценки моделей. Благодаря этим особенностям она подходит как для новичков, так и для опытных специалистов.

👉Новости 👉Платформа
Please open Telegram to view this post
VIEW IN TELEGRAM
1
#полезное
👋 Shuffle Feature Importance: простая методика оценки важности признаков

Shuffle Feature Importance — интуитивно понятный метод оценки значимости признаков в модели машинного обучения. Он основан на анализе того, насколько ухудшается качество модели после случайного перемешивания значений конкретного признака.

Как это работает
🟠 Обучение модели и оценка её качества (P₁) на исходных данных.
🟠 Перемешивание одного признака (shuffle) и повторная оценка качества модели (P₂).
🟠 Расчёт важности признака: разница между исходным и новым качеством модели (P₁ — P₂).
🟠 Повторение процедуры для всех признаков, чтобы получить сравнительную значимость.

Чем сильнее падает качество после перемешивания, тем важнее признак для модели!

👉Новости 👉Платформа
Please open Telegram to view this post
VIEW IN TELEGRAM
1
This media is not supported in your browser
VIEW IN TELEGRAM
#новости
🤯 Google сделали для Gemini бесконечную память

Это значит, что теперь там крутится умный и оптимизированный RAG и можно сослаться на любой разговор в другом чате, который был сколь угодно давно. Более того, бот может вспомнить что угодно, что было в ваших диалогах, сам, если поймет, что тема разговора схожая.

Правда, для того, чтобы активировать бесконечную память, потребуется подписка Advanced, и пока это работает только с Flash моделью. Но все равно очень круто.

OpenAI, кстати, недавно говорили, что работают над такой же фишкой.

👉Новости 👉Платформа
Please open Telegram to view this post
VIEW IN TELEGRAM
1
#новости
😊 Элаймент, который мы заслужили: новый Grok-3 при удобном случае унижает конкурентов Маска

В своем твиттере Илон сам показал пример: модель называет издательство The Information мусором и говорит, что лучше читать X. Кажется, кого-то файнтюнили прямо на твитах начальника.

👉Новости 👉Платформа
Please open Telegram to view this post
VIEW IN TELEGRAM
2🔥2🫡1
#Собес
🤔 Как использовать Scikit-Learn для выбора признаков в наборе данных?

Scikit-Learn предоставляет несколько методов для выбора признаков. Один из них - это VarianceThreshold , который удаляет признаки с низкой дисперсией. Также
можно использовать Recursive Feature Elimination (RFE) , который обучает модель и удаляет наименее важные признаки. Другой метод - это Univariate Feature Selection, который выбирает лучшие признаки с помощью статистических тестов, таких как хи-квадрат. Наконец, SelectFromModel позволяет выбрать признаки на основе их важности.

👉Новости 👉Платформа
Please open Telegram to view this post
VIEW IN TELEGRAM
1
This media is not supported in your browser
VIEW IN TELEGRAM
#новости
🤯 Кто-то только что объединил «OpenAI Operator» с «Replit agent», чтобы создать приложение!

Посмотрите, как два AI-агента объединяются, обмениваются данными и начинают тестирование.

Еще несколько месяцев, и полный цикл разработки можно будет делать с помощью агентов.

👉Новости 👉Платформа
Please open Telegram to view this post
VIEW IN TELEGRAM
1
#полезное
😊 Leffa

Это унифицированная платформа для генерации изображений людей с возможностью точного управления их внешним видом (виртуальная примерка) и позой (перенос позы)!
Гитхаб

👉Новости 👉Платформа
Please open Telegram to view this post
VIEW IN TELEGRAM
#новости
🫠 В Китае придумали, как соединить LLM с диффузией

На сегодняшний день все модели работают авторегрессионно, то есть предсказывают следующие токены один за одним на основе предыдущих. Это задача next token prediction. Но исследователи из Китая предложили другой подход к обучению и назвали его LLaDA.

Это похоже на то, как обучался BERT: берется исходная последовательность текста, затем токены в ней маскируются с определенной веростностью, а модель пытается их угадать (расшумляет, как в диффузии). Таким образом получается как бы двунапревленный аттеншен к контексту.

Интуитивно кажется: ну и что? Ведь во время инференса модель все равно начинает с полностью замаскированной последовательности. Но нет: дело в том, что LLaDA не просто предсказывает следующий токен, а постепенно реконструирует весь текст в том порядке, в котором ей "удобно".

Получается неплохая альтернатива, и масштабируется приемлемо. Например, LLaDA 8B превосходит LLaMA2 7B почти по всем стандартным задачам и в целом сопоставима с LLaMA3 8B. А в таких тестах, как написание стихов, превосходит даже GPT-4o. При этом ее также эффективно можно файнтюнить.
Пдф тык

👉Новости 👉Платформа
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
#Собес
🤔 Какие ключевые различия между алгоритмами с обучением с учителем и без учителя в Scikit- Learn?

Алгоритмы с обучением с учителем в Scikit-Learn требуют меток для данных, что позволяет им предсказывать результаты на основе известных связей между входными и выходными данными. Примеры таких алгоритмов - это регрессия и классификация. Алгоритмы без учителя не требуют меток и используются для поиска скрытых структур в данных, таких как кластеризация и снижение размерности. Примеры: К- средних и РСА.

👉Новости 👉Платформа
Please open Telegram to view this post
VIEW IN TELEGRAM
#новости
😊 Итак, GPT-4.5 вышла

Еще раз: в сравнении с o1 на математике и кодинге модель хуже (неудивительно, это другой подход). Но нельзя бесконечно скейлить только ризонинг, и, с другой стороны, это самая большая и самая накаченная знаниями о мире модель. Она поглотила МНОГО текста и лучше подходит для простых нетехнических задач, креатива, написания текстов, социального взаимодействия и просто разговоров. То есть, это лучшая модель для НЕайти обывателя.

Отдельно отмечают глубокий элаймент и то, что модель стала безопаснее и этичнее. Ее долго тюнили на предпочтения, и ответы получаются емкие и естественные. Кроме того, в GPT-4.5 сократили процент галлюцинаций.

Пока доступно только Pro, в течение следующей недели добавят в плюс и тим. В API завезут сегодня, цены пока ждем
Блог

👉Новости 👉Платформа
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM