DS & ML | YeaHub – Telegram
DS & ML | YeaHub
463 subscribers
259 photos
67 videos
373 links
Теория, подготовка к интервью и курсы для Data Science специалистов

YeaHub — это платформа для IT-специалистов, объединяющая обучение, карьерный рост, развитие и сообщество единомышленников.

Платформа: https://yeahub.ru

Для связи: @ruslan_kuyanets
Download Telegram
#Собес
🤔 Какие ключевые различия между алгоритмами с обучением с учителем и без учителя в Scikit- Learn?

Алгоритмы с обучением с учителем в Scikit-Learn требуют меток для данных, что позволяет им предсказывать результаты на основе известных связей между входными и выходными данными. Примеры таких алгоритмов - это регрессия и классификация. Алгоритмы без учителя не требуют меток и используются для поиска скрытых структур в данных, таких как кластеризация и снижение размерности. Примеры: К- средних и РСА.

👉Новости 👉Платформа
Please open Telegram to view this post
VIEW IN TELEGRAM
#новости
😊 Итак, GPT-4.5 вышла

Еще раз: в сравнении с o1 на математике и кодинге модель хуже (неудивительно, это другой подход). Но нельзя бесконечно скейлить только ризонинг, и, с другой стороны, это самая большая и самая накаченная знаниями о мире модель. Она поглотила МНОГО текста и лучше подходит для простых нетехнических задач, креатива, написания текстов, социального взаимодействия и просто разговоров. То есть, это лучшая модель для НЕайти обывателя.

Отдельно отмечают глубокий элаймент и то, что модель стала безопаснее и этичнее. Ее долго тюнили на предпочтения, и ответы получаются емкие и естественные. Кроме того, в GPT-4.5 сократили процент галлюцинаций.

Пока доступно только Pro, в течение следующей недели добавят в плюс и тим. В API завезут сегодня, цены пока ждем
Блог

👉Новости 👉Платформа
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
#новости
🤯 Сегодня стартовала неделя опенсорса от DeepSeek

На прошлой неделе команда анонсировала, что с 24 по 28 февраля они выложат в открытый доступ пять репозиториев из своей внутренней экосистемы

Сегодня — первый релиз: FlashMLA
Это эффективный декодирующий кернел для MLA на GPU Hopper, оптимизированный для обработки последовательностей переменной длины.

GitHub

👉Новости 👉Платформа
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1
#новости
🥺 Запуск ИИ-чата от Meta

По интернету пролетела новость о том, что в следующем квартале Meta планирует выпустить собственный ИИ-чат. Компания будет тестировать подписочную систему и добавлять в чат инструменты: все, как в популярных ChatGPT, Сlaude и тд.

👉Новости 👉Платформа
Please open Telegram to view this post
VIEW IN TELEGRAM
#Собес
🤔 Как обрабатывать пропущенные или поврежденные данные в наборе данных с использованием Scikit-Learn?

Scikit-Learn предоставляет класс SimpleImputer , который заменяет пропущенные значения в данных на среднее, медиану или наиболее часто встречающееся значение
в каждом столбце. Для поврежденных данных Scikit Learn не предлагает прямых методов, но можно использовать другие библиотеки, такие как Pandas, для обработки таких данных до подачи их в модель.

👉Новости 👉Платформа
Please open Telegram to view this post
VIEW IN TELEGRAM
#новости
😊 Исследователь Юрген Шмидхубер заявил крестному отцу ИИ Джеффри Хинтону, что его надо лишить всех наград за плагиат

Шмидхубер уже стал мемом в ML-сообществе за свои бесконечные выпады о том, что у него украли какую-то выдающуюся идею, но все не останавливается. Из последних заявлений этой легенды:

🟠 Хопфилд и Хинтон получили Нобелевскую премию незаслуженно, потому что украли идею из статьи шестидесятых годов

🟠 Все, что сделали DeepSeek с R1, взято из статей Шмидхубера

🟠 GAN – тоже его идея, а авторы основополагающей статьи про эту архитектуру наглые копирайтеры

🟠 Ну и добивочка: трансформеры, естественно, придумал он, а не ребята из Google

Хинтон, кстати, заявление даже никак не прокомментировал.

Бесконечно можно смотреть на три вещи: как горит огонь, как течет вода, и как все воруют у Шмидхубера

👉Новости 👉Платформа
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
#новости
🤯 Google представил нового ИИ-ассистента для Data Science, позволяющего за считанные минуты создавать полноценные рабочие блокноты.

Теперь весь процесс – от загрузки датасета до итогового анализа – берёт на себя нейросеть.

Агент самостоятельно генерирует код на Python, создаёт блокноты, визуализирует данные и шаг за шагом предлагает оптимальное решение.

Достаточно загрузить набор данных объемом до 1 Гб, и ИИ выполнит всю работу.

В итоге вы получаете готовый проект с кодом и графиками, без утомительной рутины и постоянной отладки.
Попробовать можно здесь

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
#новости
😐 Стали известны некоторые имена сотрудников компании Ильи Суцкевера

SSI была основала еще летом, но до сих пор дистанцируется от СМИ и остается скрытой. Это значит, что ее сотрудники не указывают в соцсетях место работы, и составы команд не афишируются.

Тем не менее, некоторые сведения иногда проскальзывают. Вот некоторые имена:

🟠 Доктор Яир Кармон, старший преподаватель факультета компьютерных наук Тель-Авивского университета с 2020 года. У него три ученых степени по физике, включая докторскую Стэнфорда. Он занимается алгоритмами и оптимизацией.

🟠 Ницан Тор, выпускник Technion и золотой призер трех международных математических олимпиад.

🟠 Шахар Папини, еще один выпускник Technion, олимпиадник и сооснователь блокчейн-компании.

А еще известный Ярон Бродский и около 10 других инженеров и ученых из Google Research (которых Ярон видимо привел). Интересный состав.

Занятно, что SSI вообще не публикуют вакансии, а об эйчарах и речи не идет. Всех нанимают только по личным рекомендациям и сарафанному радио. Кроме того, говорят, в компании нет иерархической структуры, тимлидов и деления на команды: все равны и работают над одним проектом.

К слову, сейчас SSI оценивается уже в 30 миллиардов. Это всего в 5 раз меньше OpenAI и в 2.5 раза меньше xAI.

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
#Собес
🤔 Как функциональность pipeline в Scikit-Learn полезна для проекта машинного обучения?

Pipeline в Scikit-Learn упрощает процесс создания моделей машинного обучения, объединяя несколько шагов, таких как предобработка данных и обучение модели, в один обьект. Это помогает улучшить читаемость кода, избежать ошибок при кросс- валидации и облегчить настройку гиперпараметров с помощью GridSearchCV или RandomizedSearchCV.

👉Новости 👉Платформа
Please open Telegram to view this post
VIEW IN TELEGRAM
#новости
😵‍💫 OpenAI запускает программу NextGenAI.

OpenAI запускает NextGenAI — совместную программу с 15 НИИ, направленную на ускорение научных прорывов и трансформацию образования с использованием ИИ. OpenAI планирует выделить на финансирование исследований 50 млн. долларов.

Программа объединяет институты в США и за рубежом. Среди партнеров Калифорнийский технологический институт, Гарвардский университет и Массачусетский технологический институт, а также Бостонская детская больница и Бостонская публичная библиотека.

Цель NextGenAI — укрепить связи между академическими кругами и реальным сектором, гарантируя, что преимущества ИИ будут распространены на научные лаборатории и социально значимые проекты.
openai.com

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
1
#полезное
🤓 Генеративные vs. дискриминативные модели в ML

Генеративные модели
🟠Изучают распределение данных, чтобы генерировать новые образцы.
🟠Обладают дискриминативными свойствами — их можно использовать для классификации.

Дискриминативные модели не обладают генеративными свойствами

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
#полезное
🥺 Почему RMSE и MAE могут давать разную оценку качества модели

RMSE (Root Mean Squared Error) и MAE (Mean Absolute Error) — это две популярные метрики регрессии, но они ведут себя по-разному при наличии выбросов.

🟠 MAE — это средняя абсолютная ошибка, измеряет среднее отклонение предсказаний от истинных значений. Она линейно реагирует на ошибки, то есть один большой выброс не окажет значительного влияния.
🟠 RMSE — это корень из среднеквадратичной ошибки, которая квадратично увеличивает вклад больших ошибок. Это значит, что RMSE сильнее наказывает за крупные выбросы, чем MAE.

Пример
Если у вас есть предсказания: [2, 3, 4, 5, 100] при истинных значениях [2, 3, 4, 5, 6],
то MAE ≈ 18, а RMSE ≈ 40. RMSE выросло сильнее из-за большого выброса в 100.

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
#Собес
🤔 Как реализована кросс-валидация в Scikit-Learn и почему это важная техника?

B Scikit-Learn кросс-валидация реализована через модуль model_selection, c функциями, такими как cross_val_score И cross_validate . Эти функции делят
данные на несколько "слоёв" (folds), обучают модель на k-1 из них и тестируют на оставшемся. Этот процесс повторяется к раз с каждым слоем в роли тестового. Кросс- валидация помогает снизить переобучение и даёт более объективную оценку работы модели.

👉Новости 👉Платформа
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
#полезное
😊 Логистическая регрессия vs. Многослойный персептрон

На изображении сравниваются два метода классификации данных: логистическая регрессия (слева) и многослойный персептрон (MLP, справа) после 25 эпох обучения.

Результаты показывают, что MLP лучше справляется с нелинейно разделимыми данными, в отличие от логистической регрессии, которая проводит лишь простую линейную границу.

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
#полезное
🤓 DeepFace — инструмент для распознавания лиц в Python

DeepFace — это лёгкий фреймворк для анализа лиц и их характеристик (возраст, пол, эмоции, раса). Он объединяет передовые модели, такие как VGG-Face, FaceNet, OpenFace, DeepID, ArcFace и другие.
Гитхаб

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
#полезное
🤯 Впечатляющая оптимизация скорости

Большие DataFrame в Pandas могут потреблять огромное количество памяти.

Обработка данных небольшими частями помогает избежать переполнения памяти и ускоряет доступ к данным!

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
#Собес
🤔 Как оптимизировать гиперпараметры в модели Scikit-Learn?

Для оптимизации гиперпараметров в Scikit-Learn используют GridSearchCV или RandomizedSearchCV. GridSearchcv пробует все возможные комбинации
параметров, в то время как RandomizedSearchCV выбирает случайные комбинации, что ускоряет процесс. Оба метода возвращают наилучшие параметры для модели.

👉Новости 👉Платформа
Please open Telegram to view this post
VIEW IN TELEGRAM
#полезное
👍 Замените describe на Skimpy

Если вы до сих пор используете метод describe в Pandas, есть отличная альтернатива, о которой стоит узнать! Skimpy — open-source инструмент, который дает гораздо более полное представление о ваших данных.

Skimpy не просто выводит статистику, но и показывает:
форму данных;
типы данных в колонках;
распределение данных в графическом виде

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
#полезное
🤯 Умножение матриц

Без умножения матриц ИИ просто не смог бы существовать.

🟠 Нейронные сети: Фото, текст, звук — всё представляется в виде матриц. Их умножение позволяет ИИ понимать и распознавать образы.

🟠 Компьютерное зрение: Фильтры сканируют изображения, выделяя контуры, формы, объекты — так ИИ "видит" мир.

🟠 NLP (Обработка текста): В ChatGPT внимание распределяется с помощью матриц, определяя, какие слова важнее.

🟠 Рекомендации: Netflix анализирует, какие фильмы вы смотрите, умножая матрицы предпочтений. Именно так он предсказывает ваш следующий любимый сериал!

🟠 Обучение с подкреплением: Как ИИ обыгрывает чемпионов по шахматам? Он умножает матрицы состояний и действий, просчитывая лучший ход.

👉Новости 👉База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1