Библиотека собеса по Data Science | вопросы с собеседований – Telegram
Библиотека собеса по Data Science | вопросы с собеседований
4.29K subscribers
483 photos
14 videos
1 file
593 links
Вопросы с собеседований по Data Science и ответы на них.

По рекламе: @proglib_adv

Учиться у нас: https://proglib.io/w/7dfb7235

Для обратной связи: @proglibrary_feeedback_bot

Наши каналы: https://news.1rj.ru/str/proglibrary/9197
Download Telegram
Вы используете алгоритм K-Means. Вы визуализировали результат и заметили, что два ваших кластера перекрываются в форме полумесяцев.

Какова наиболее вероятная причина такого поведения?
Anonymous Quiz
14%
K-Means чувствителен к наличию категориальных признаков.
7%
K-Means страдает от проблемы исчезающего градиента.
53%
K-Means предполагает, что кластеры имеют выпуклую форму.
26%
K-Means требует ручного указания количества кластеров ($k$).
👍1
Готовитесь к собеседованию в AI?

Вопросы по математической базе — стандартный этап отбора на позиции Data Scientist и ML Engineer. Вас спросят не только про код, но и про то, как работают алгоритмы «под капотом».

Прокачайте хард-скиллы на обновленном курсе «Математика для разработки AI-моделей».

Важный апдейт:

— теперь обучение включает живые вебинары;

— первый прошел, но второй стартует сегодня, 9 декабря;

— это шанс разобрать сложные вопросы с экспертами в прямом эфире.

Что внутри:

— линейная алгебра;

— матанализ;

— теория вероятностей.

Успейте присоединиться к потоку
Какая проблема возникает, когда распределение входных данных (признаков X) в тестовой среде отличается от распределения, на котором обучалась модель, но при этом связь между входными данными и целевой переменной (P(Y∣X)) остается неизменной?
Anonymous Quiz
20%
Дисперсионный сдвиг (Variance Shift)
25%
Дисперсионный сдвиг (Variance Shift)
16%
Сдвиг метки (Label Shift)
39%
Ковариатный сдвиг (Covariate Shift)
👍1
Вы обучаете глубокую нейронную сеть, которая показывает 99% точности на обучающей выборке, но всего 70% на тестовой. Какое из следующих действий, скорее всего, поможет снизить переобучение (overfitting), не требуя сбора новых данных?
Anonymous Quiz
76%
Применить Dropout к скрытым слоям нейронной сети.
8%
Использовать более простую функцию активации, например, сигмоиду вместо ReLU.
6%
Уменьшить степень регуляризации $\lambda$ в функции потерь.
10%
Удалить все признаки с низкой дисперсией (Low Variance).
Вы строите модель и обнаруживаете, что хотя общая метрика производительности высока, индивидуальные p-значения большинства ваших переменных незначимы, а коэффициенты (weights) модели демонстрируют высокую чувствительность к небольшим изменениям в данных.
Anonymous Quiz
27%
Гетероскедастичность (Heteroscedasticity)
13%
Недообучение (Underfitting)
49%
Мультиколлинеарность (Multicollinearity)
12%
Автокорреляция остатков (Autocorrelation of Residuals)
2
Вы используете SVM для классификации, но обнаружили, что данные не являются линейно разделимыми в исходном пространстве признаков.

Какая техника позволяет SVM классифицировать нелинейные данные, не увеличивая явно размерность пространства?
Anonymous Quiz
61%
Ядерный трюк (Kernel Trick)
13%
Эластичная сеть (Elastic Net Regularization)
22%
Снижение размерности с помощью PCA
4%
Случайная подвыборка признаков (Random Subspace)
1
При оценке бинарного классификатора была построена Матрица ошибок. Какая метрика рассчитывается как отношение истинно положительных срабатываний ко всем фактически положительным случаям?
Anonymous Quiz
47%
Precision
3%
F1-Score
42%
Recall
9%
Accuracy
👍4🌚3
Математика — это фильтр на входе

На собеседованиях по DS часто валят не на коде, а на вопросах по линейной алгебре, статам или терверу. Не дай теории стать твоим узким местом.

Уравнение выгоды: 1 + 2.

Берешь три курса, платишь за один (тот, что дороже).

Что усилит резюме:

— Математика для Data Science;
— AI-агенты для DS-специалистов;
— ML для старта.

Обучить свою нейронку

До 31 декабря.
Саппорт: @manager_proglib
При использовании L1-регуляризации (Lasso) в линейных моделях коэффициенты при некоторых признаках становятся строго равными нулю. Какое геометрическое свойство L1-нормы объясняет этот эффект?
Anonymous Quiz
12%
L1-норма является дифференцируемой во всех точках пространства
69%
Единичная сфера L1-нормы имеет острые углы на осях координат
14%
Производная L1-нормы пропорциональна значению самого веса
6%
L1-норма всегда меньше L2-нормы для любого вектора весов
Какой из методов ансамблирования обычно дает наибольший выигрыш в качестве, если базовые модели сильно различаются по своей архитектуре (например, KNN, SVM и случайный лес)?
Anonymous Quiz
19%
Бэггинг (Bagging)
26%
Градиентный бустинг (Boosting)
8%
Случайный подпространственный метод (Random Subspace)
47%
Стэкинг (Stacking)
1
Вопрос с собеседования 2026: «Как вы организуете память в мультиагентной системе?»

Если вы отвечаете «просто передам контекст в промпт», вы, скорее всего, не получите оффер на позицию AI Engineer. Современные системы требуют работы с векторными БД, чекпоинтами в графах и RAG.

Подтяните хард-скиллы на нашем обновленном курсе «Разработка AI-агентов».

Что в программе:

— Паттерн ReAct и архитектура агентов;
— Работа с LangChain и LangGraph ;
— Инструменты AgentOps для мониторинга.

Практика с код-ревью и дипломный проект, который не стыдно показать на собеседовании.

Записаться
При построении дерева решений (Decision Tree) без ограничений, оно может расти до тех пор, пока в каждом листе не окажется ровно по одному объекту из обучающей выборки. К какому фундаментальному последствию для характеристик модели это приводит?
Anonymous Quiz
10%
У модели будет низкое смещение (low bias) и низкая дисперсия (low variance)
15%
У модели будет высокое смещение (high bias) и высокая дисперсия (high variance)
57%
У модели будет очень низкое смещение (low bias), но очень высокая дисперсия (high variance)
17%
У модели будет очень высокое смещение (high bias), но очень низкая дисперсия (low variance)
1
Вы обучаете нейронную сеть и замечаете, что на графике Train Loss сначала стабильно падает, а затем начинает резко колебаться или даже расти. При этом точность перестает улучшаться.

Какое изменение, скорее всего, поможет стабилизировать процесс?
Anonymous Quiz
79%
Уменьшить скорость обучения (Learning Rate)
3%
Увеличить количество эпох обучения
10%
Отключить все слои Dropout
8%
Убрать слои нормализации (например, Batch Normalization)
👍2
При работе с RNN для обработки длинных последовательностей часто возникает проблема, из-за которой модель «забывает» информацию, полученную в самом начале последовательности.

Какое архитектурное решение было разработано для борьбы с этой проблемой?
Anonymous Quiz
1%
Перцептрон (Multilayer Perceptron)
93%
Долгая краткосрочная память (Long Short-Term Memory, LSTM)
4%
Сверточный слой (Convolutional Layer)
1%
Полносвязный слой (Dense Layer)
Задача — предсказать, совершит ли клиент покупку в интернет-магазине. В датасете вы обнаружили признак «ID транзакции чека». Вы включили его в модель, и она показала AUC-ROC = 0.999. Однако при проверке на новых данных модель не работает.

Что произошло?
Anonymous Quiz
10%
Модель слишком простая для таких данных
5%
В данных могут быть пропуски
20%
Вы использовали неправильную метрику качества
65%
Произошла утечка
2
Вы обучаете RNN для генерации текста. В процессе обучения вы замечаете в логах, что значения Loss внезапно становятся NaN, а веса модели принимают экстремально большие значения.

Какая техника является наиболее простым способом борьбы с этой проблемой?
Anonymous Quiz
18%
Dropout (Дропаут)
48%
Gradient Clipping (Обрезка градиентов)
26%
L2-регуляризация (Ridge)
8%
Увеличение размера батча (Batch Size)
1
Вы работаете с данными, которые имеют сложную форму: два кластера вложены друг в друга как кольца. Вы попробовали K-Means, но он разделил кольца вертикально.

Какой алгоритм лучше всего справится с этой задачей, не требуя указывать количество кластеров?
Anonymous Quiz
10%
Agglomerative Clustering
15%
Метод главных компонент (PCA)
13%
Гауссовы модели (Gaussian Mixture Models)
61%
DBSCAN
👍1