NEW BOT Телеграм, страница - 813991392

DS & ML | YeaHub

@yeahub_data_science

463 subscribers

259 photos

67 videos

373 links

Теория, подготовка к интервью и курсы для Data Science специалистов

YeaHub — это платформа для IT-специалистов, объединяющая обучение, карьерный рост, развитие и сообщество единомышленников.

Платформа: https://yeahub.ru

Для связи: @ruslan_kuyanets

Download Telegram

About

Blog

Apps

Platform

DS & ML | YeaHub

463 subscribers

DS & ML | YeaHub

#новости

😐

Стали известны некоторые имена сотрудников компании Ильи Суцкевера

SSI была основала еще летом, но до сих пор дистанцируется от СМИ и остается скрытой. Это значит, что ее сотрудники не указывают в соцсетях место работы, и составы команд не афишируются.

Тем не менее, некоторые сведения иногда проскальзывают. Вот некоторые имена:

🟠 Доктор Яир Кармон, старший преподаватель факультета компьютерных наук Тель-Авивского университета с 2020 года. У него три ученых степени по физике, включая докторскую Стэнфорда. Он занимается алгоритмами и оптимизацией.

🟠 Ницан Тор, выпускник Technion и золотой призер трех международных математических олимпиад.

🟠 Шахар Папини, еще один выпускник Technion, олимпиадник и сооснователь блокчейн-компании.

А еще известный Ярон Бродский и около 10 других инженеров и ученых из Google Research (которых Ярон видимо привел). Интересный состав.

Занятно, что SSI вообще не публикуют вакансии, а об эйчарах и речи не идет. Всех нанимают только по личным рекомендациям и сарафанному радио. Кроме того, говорят, в компании нет иерархической структуры, тимлидов и деления на команды: все равны и работают над одним проектом.

К слову, сейчас SSI оценивается уже в 30 миллиардов. Это всего в 5 раз меньше OpenAI и в 2.5 раза меньше xAI.

👉

Новости

👉

База вопросов

Please open Telegram to view this post

VIEW IN TELEGRAM

46 views15:00

DS & ML | YeaHub

🤔

Как функциональность pipeline в Scikit-Learn полезна для проекта машинного обучения?

Pipeline в Scikit-Learn упрощает процесс создания моделей машинного обучения, объединяя несколько шагов, таких как предобработка данных и обучение модели, в один обьект. Это помогает улучшить читаемость кода, избежать ошибок при кросс- валидации и облегчить настройку гиперпараметров с помощью GridSearchCV или RandomizedSearchCV.

👉

👉

Платформа

Please open Telegram to view this post

VIEW IN TELEGRAM

41 views08:00

DS & ML | YeaHub

#новости

😵‍💫

OpenAI запускает программу NextGenAI.

OpenAI запускает NextGenAI — совместную программу с 15 НИИ, направленную на ускорение научных прорывов и трансформацию образования с использованием ИИ. OpenAI планирует выделить на финансирование исследований 50 млн. долларов.

Программа объединяет институты в США и за рубежом. Среди партнеров Калифорнийский технологический институт, Гарвардский университет и Массачусетский технологический институт, а также Бостонская детская больница и Бостонская публичная библиотека.

Цель NextGenAI — укрепить связи между академическими кругами и реальным сектором, гарантируя, что преимущества ИИ будут распространены на научные лаборатории и социально значимые проекты.
openai.com

👉

Новости

👉

База вопросов

Please open Telegram to view this post

VIEW IN TELEGRAM

Introducing NextGenAI: A consortium to advance research and education with AI

OpenAI commits $50M in funding and tools to leading institutions.

❤1

36 views15:00

DS & ML | YeaHub

#полезное

🤓

Генеративные vs. дискриминативные модели в ML

Генеративные модели
🟠Изучают распределение данных, чтобы генерировать новые образцы.
🟠Обладают дискриминативными свойствами — их можно использовать для классификации.

Дискриминативные модели не обладают генеративными свойствами

👉

Новости

👉

База вопросов

Please open Telegram to view this post

VIEW IN TELEGRAM

34 views08:04

DS & ML | YeaHub

#полезное

🥺

Почему RMSE и MAE могут давать разную оценку качества модели

RMSE (Root Mean Squared Error) и MAE (Mean Absolute Error) — это две популярные метрики регрессии, но они ведут себя по-разному при наличии выбросов.

🟠 MAE — это средняя абсолютная ошибка, измеряет среднее отклонение предсказаний от истинных значений. Она линейно реагирует на ошибки, то есть один большой выброс не окажет значительного влияния.
🟠 RMSE — это корень из среднеквадратичной ошибки, которая квадратично увеличивает вклад больших ошибок. Это значит, что RMSE сильнее наказывает за крупные выбросы, чем MAE.

Пример
Если у вас есть предсказания: [2, 3, 4, 5, 100] при истинных значениях [2, 3, 4, 5, 6],
то MAE ≈ 18, а RMSE ≈ 40. RMSE выросло сильнее из-за большого выброса в 100.

👉

Новости

👉

База вопросов

Please open Telegram to view this post

VIEW IN TELEGRAM

26 views15:01

DS & ML | YeaHub

🤔

Как реализована кросс-валидация в Scikit-Learn и почему это важная техника?

B Scikit-Learn кросс-валидация реализована через модуль model_selection, c функциями, такими как cross_val_score И cross_validate . Эти функции делят
данные на несколько "слоёв" (folds), обучают модель на k-1 из них и тестируют на оставшемся. Этот процесс повторяется к раз с каждым слоем в роли тестового. Кросс- валидация помогает снизить переобучение и даёт более объективную оценку работы модели.

👉

👉

Платформа

Please open Telegram to view this post

VIEW IN TELEGRAM

YeaHub — тренажер собеседований по IT

5000+ вопросов для подготовки к интервью. Фильтры, квизы, статистика!

33 views08:03

DS & ML | YeaHub

This media is not supported in your browser

VIEW IN TELEGRAM

#полезное

😊

Логистическая регрессия vs. Многослойный персептрон

На изображении сравниваются два метода классификации данных: логистическая регрессия (слева) и многослойный персептрон (MLP, справа) после 25 эпох обучения.

✅ Результаты показывают, что MLP лучше справляется с нелинейно разделимыми данными, в отличие от логистической регрессии, которая проводит лишь простую линейную границу.

👉

Новости

👉

База вопросов

Please open Telegram to view this post

VIEW IN TELEGRAM

31 views15:02

DS & ML | YeaHub

#полезное

🤓

DeepFace — инструмент для распознавания лиц в Python

DeepFace — это лёгкий фреймворк для анализа лиц и их характеристик (возраст, пол, эмоции, раса). Он объединяет передовые модели, такие как VGG-Face, FaceNet, OpenFace, DeepID, ArcFace и другие.
Гитхаб

👉

Новости

👉

База вопросов

Please open Telegram to view this post

VIEW IN TELEGRAM

37 views08:01

DS & ML | YeaHub

#полезное

🤯

Впечатляющая оптимизация скорости

Большие DataFrame в Pandas могут потреблять огромное количество памяти.

✅ Обработка данных небольшими частями помогает избежать переполнения памяти и ускоряет доступ к данным!

👉

Новости

👉

База вопросов

Please open Telegram to view this post

VIEW IN TELEGRAM

36 views15:02

DS & ML | YeaHub

🤔

Как оптимизировать гиперпараметры в модели Scikit-Learn?

Для оптимизации гиперпараметров в Scikit-Learn используют GridSearchCV или RandomizedSearchCV. GridSearchcv пробует все возможные комбинации
параметров, в то время как RandomizedSearchCV выбирает случайные комбинации, что ускоряет процесс. Оба метода возвращают наилучшие параметры для модели.

👉

👉

Платформа

Please open Telegram to view this post

VIEW IN TELEGRAM

36 views08:01

DS & ML | YeaHub

#полезное

👍

Замените describe на Skimpy

Если вы до сих пор используете метод describe в Pandas, есть отличная альтернатива, о которой стоит узнать! Skimpy — open-source инструмент, который дает гораздо более полное представление о ваших данных.

Skimpy не просто выводит статистику, но и показывает:
✅ форму данных;
✅ типы данных в колонках;
✅ распределение данных в графическом виде

👉

Новости

👉

База вопросов

Please open Telegram to view this post

VIEW IN TELEGRAM

35 views15:03

DS & ML | YeaHub

This media is not supported in your browser

VIEW IN TELEGRAM

#полезное

🤯

Умножение матриц

Без умножения матриц ИИ просто не смог бы существовать.

🟠 Нейронные сети: Фото, текст, звук — всё представляется в виде матриц. Их умножение позволяет ИИ понимать и распознавать образы.

🟠 Компьютерное зрение: Фильтры сканируют изображения, выделяя контуры, формы, объекты — так ИИ "видит" мир.

🟠 NLP (Обработка текста): В ChatGPT внимание распределяется с помощью матриц, определяя, какие слова важнее.

🟠 Рекомендации: Netflix анализирует, какие фильмы вы смотрите, умножая матрицы предпочтений. Именно так он предсказывает ваш следующий любимый сериал!

🟠 Обучение с подкреплением: Как ИИ обыгрывает чемпионов по шахматам? Он умножает матрицы состояний и действий, просчитывая лучший ход.

👉

Новости

👉

База вопросов

Please open Telegram to view this post

VIEW IN TELEGRAM

👍1

48 views08:04

DS & ML | YeaHub

#полезное

😇

Vaex — быстрая альтернатива Pandas для работы с большими данными

Vaex — это библиотека DataFrame, специально созданная для работы с огромными наборами данных (миллионы или даже миллиарды строк) без перегрузки памяти и падения производительности.

Импорт:

import vaex

df = vaex.open("big_data.csv")
print(df.shape)

Фильтрация данных:

filtered_df = df[df.age > 30]

Вычисление среднего значения:

mean_salary = df.salary.mean()
print(mean_salary)

Группировка данных:

df.groupby("job_noscript", agg=vaex.agg.mean("salary"))

Ссылка на библиотеку

👉

Новости

👉

База вопросов

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

44 views15:01

DS & ML | YeaHub

🤔

Как обрабатывать несбалансированные классы в наборе данных с помощью Scikit-Learn?

Для обработки несбалансированных классов в Scikit-Learn можно использовать ресэмплинг (undersampling или oversampling), а также классические веса для алгоритмов, поддерживающих этот метод, например, для SVM или Random Forest. Это помогает модели лучше распознавать редкие классы.

👉

👉

Платформа

Please open Telegram to view this post

VIEW IN TELEGRAM

37 views08:02

DS & ML | YeaHub

#полезное

🛞

Ускоряем t-SNE с помощью GPU

Одна из главных проблем t-SNE — его время выполнения квадратично зависит от числа точек данных.

🟠 Если у вас 20k+ точек, стандартная реализация sklearn становится очень медленной.

🟠 tSNE-CUDA — оптимизированная версия t-SNE на GPU, которая в разы ускоряет вычисления.

👉

Новости

👉

База вопросов

Please open Telegram to view this post

VIEW IN TELEGRAM

37 views15:04

DS & ML | YeaHub

😊

PyTorch: новые инструменты для для экономии памяти при обучении моделей.

PyTorch представил усовершенствованные методы Activation Checkpointing (AC), цель которых - снижение потребления памяти при обучении.

Традиционный подход в eager mode сохраняет промежуточные активации для обратного прохода, что зачастую приводит к значительному расходу ресурсов. AC позволяет не сохранять эти тензоры, а вычислять их заново при необходимости, тем самым жертвуя вычислительным временем ради экономии памяти.

Новая техника – Selective Activation Checkpoint (SAC). В отличие от обычного AC, который затрагивает всю выбранную область, SAC дает гранулярный контроль над тем, какие операции следует пересчитывать, а какие – сохранять. Это достигается за счет использования policy_fn, определяющей, нужно ли сохранять результаты конкретной операции. SAC будет полезен для избегания перевычисления ресурсоемких операций, например, матричных умножений.

Для torch.compile стала доступна Memory Budget API. Эта функция автоматически применяет SAC с оптимальной политикой, исходя из заданного пользователем бюджета памяти (от 0 до 1). Бюджет 0 соответствует обычному AC, а 1 – поведению torch.compile по умолчанию.
Читать подробнее

👉

Новости

👉

База вопросов

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

36 views08:03

DS & ML | YeaHub

This media is not supported in your browser

VIEW IN TELEGRAM

👍

Технический вопрос с собеса, который гугл давал 30 раз

👉

Новости

👉

База вопросов

Please open Telegram to view this post

VIEW IN TELEGRAM

31 views15:02

DS & ML | YeaHub

🤔

Какие ключевые шаги включает в себя выполнение grid search в Scikit-Learn?

Для выполнения grid search необходимо определить сетку параметров, создать объект GridSearchCV , передать модель и параметры, а затем выполнить подгонку. По завершении можно получить наилучшие параметры через атрибут best_params_.

👉

👉

Платформа

Please open Telegram to view this post

VIEW IN TELEGRAM

31 views08:04

DS & ML | YeaHub

#полезное

📞

Шпаргалка: как выбрать AI-модель в 2025 году

🟠 ChatGPT — лучший для диалогов, генерации текста и объяснений.
🟠 Claude — глубоко анализирует длинные тексты.
🟠 Perplexity — идеально подходит для поиска и структурирования данных.
🟠 Gemini — интеграция с Google для актуальных сведений.
🟠 Grok — фокус на аналитике и технических задачах.
Полное сравнение моделей

👉

Новости

👉

База вопросов

Please open Telegram to view this post

VIEW IN TELEGRAM

33 views15:01