Data Science | Тесты – Telegram
Data Science | Тесты
2.66K subscribers
27 photos
486 links
Cайт easyoffer.ru
Реклама @easyoffer_adv
ВП @easyoffer_vp

Вопросы собесов t.me/+RQVnIJT__Z42ZWUy
Вакансии t.me/+Ir52wMvyEgo5YWIy
Download Telegram
🤔 Что такое precision?

Precision (точность) — это метрика классификации, которая показывает долю правильных положительных предсказаний среди всех предсказанных положительных классов. Она рассчитывается как отношение количества истинно положительных предсказаний к сумме истинно положительных и ложно положительных. Precision важен, когда цена ложноположительных результатов высока. Высокое значение precision указывает на то, что модель почти не ошибается при предсказании положительного класса.

Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚Базу Знаний
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔 Какой алгоритм используется для снижения размерности данных, сохраняя соседства?
Anonymous Quiz
62%
t-SNE
7%
Naive Bayes
29%
K-means
2%
Decision Tree
🤔 Какой метод увеличивает данные для обучения нейронной сети?
Anonymous Quiz
9%
Batch Normalization
85%
Data Augmentation
5%
Dropout
2%
Early Stopping
🤔 В чём разница между методом GMM и K-Means?

1. K-Means:
o Основан на разделении данных по расстояниям до центроидов (жёсткое разделение).
o Каждая точка принадлежит только одному кластеру.
2. GMM (Gaussian Mixture Model):
o Использует вероятностный подход: каждая точка имеет вероятность принадлежности к каждому кластеру (мягкое разделение).
o Кластеры формируются на основе распределений Гаусса, что делает GMM более гибким для сложных данных.


Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚Базу Знаний
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔 Какой метод уменьшает смещение и дисперсию в линейной модели?
Anonymous Quiz
25%
Lasso
21%
Ridge
43%
Elastic Net
12%
PCA
🤔 Какой метод оценивания используется в кросс-валидации?
Anonymous Quiz
35%
Grid Search
35%
Cross-Entropy
23%
Leave-One-Out
6%
Bagging
💊3
🤔 Как работает градиентный бустинг регрессор?

Это ансамблевый метод, который комбинирует множество слабых моделей (обычно деревьев решений) для улучшения качества предсказаний:
1. Первая модель предсказывает исходные данные, а остатки ошибок передаются следующей.
2. Каждое новое дерево обучается на ошибках предыдущих, уменьшая отклонения.
3. Градиентный спуск минимизирует ошибку, выбирая оптимальные веса.
4. Итоговое предсказание – это взвешенная сумма предсказаний всех деревьев.
Градиентный бустинг хорошо работает с нелинейными зависимостями и устойчив к выбросам.


Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚Базу Знаний
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥1
🤔 Какой метод снижения размерности сохраняет вариативность данных?
Anonymous Quiz
59%
PCA
16%
LDA
20%
t-SNE
5%
SVD
👍1
🤔 В чем преимущество медианы над средним?

Медиана менее чувствительна к выбросам, чем среднее (mean):
- Среднее (Mean) – учитывает все значения, поэтому искажается выбросами.
- Медиана (Median) – просто находит центральное значение в упорядоченном ряду, игнорируя крайние выбросы.
Медиана особенно полезна при распределении доходов, цен, длительностей и других данных с выбросами.


Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚Базу Знаний
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
🤔 Какой метод машинного обучения лучше всего подходит для решения задачи классификации на основе текстовых данных?
Anonymous Quiz
20%
SVM
26%
KNN
20%
Random Forest
34%
Naive Bayes
👍1
🤔 Какой метод часто применяют для обработки категориальных данных?
Anonymous Quiz
83%
One-hot encoding
8%
K-means
2%
PCA
7%
Логистическая регрессия
💊3
🤔 Как обучается модель?

Процесс обучения модели машинного обучения включает:
1. Предобработку данных – нормализация, удаление выбросов, кодирование категориальных признаков.
2. Выбор модели – линейная регрессия, дерево решений, нейросети и т. д.
3. Разделение данных – обучение (train), валидация (validation), тестирование (test).
4. Оптимизация параметров – подбор коэффициентов с помощью градиентного спуска или других методов.
5. Оценка качества – использование метрик (MSE, Accuracy, ROC-AUC).
Модель обучается за счет минимизации функции потерь и корректировки параметров.


Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚Базу Знаний
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥2
🤔 Какой метод уменьшает размерность данных с сохранением вариативности?
Anonymous Quiz
71%
PCA
17%
t-SNE
7%
UMAP
5%
LDA
🤔 Какой метод оптимизации применяется для поиска минимума функции?
Anonymous Quiz
48%
SGD
36%
SGD
4%
v3. K-means
11%
DBSCAN
💊18🔥2
🤔 Какие есть проблемы с Batch Norm?

1. Зависимость от мини-батчей: небольшие батчи могут приводить к нестабильной оценке среднего и дисперсии.
2. Сложности с применением в рекуррентных сетях: последовательность данных может вызывать проблемы с нормализацией.
3. Увеличение вычислительных затрат: дополнительные параметры и операции замедляют обучение.


Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚Базу Знаний
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔 Какой метод используется для прогнозирования временных рядов путем моделирования зависимости текущего значения от предыдущих значений?
Anonymous Quiz
15%
Линейная регрессия
78%
ARIMA
6%
Случайный лес
2%
PCA
🤔 Какой метод регуляризации часто используется для уменьшения переобучения?
Anonymous Quiz
88%
L2-регуляризация
3%
K-средние
8%
Градиентный бустинг
1%
DBSCAN
💊3
🤔 Что такое пи вэлью?

P-value — это вероятность того, что наблюдаемые данные или более экстремальные данные могли бы возникнуть при условии, что нулевая гипотеза верна. В контексте статистических тестов, маленькое значение p-value указывает на то, что нулевая гипотеза может быть отвергнута в пользу альтернативной гипотезы. Обычно порог значимости устанавливается на уровне 0.05, и если p-value меньше этого порога, нулевая гипотеза отвергается. P-value не говорит о размере эффекта, а лишь о степени уверенности в полученных данных.

Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚Базу Знаний
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔 Какой метод уменьшает размерность, сохраняя дисперсию данных?
Anonymous Quiz
29%
t-SNE
63%
PCA
4%
LDA
3%
MDS
🤔 Какой метод машинного обучения используется для выявления скрытых тем в текстах?
Anonymous Quiz
3%
Logistic Regression
56%
LDA (Latent Dirichlet Allocation)
40%
TF-IDF
2%
K-means
🔥1