NEW BOT Телеграм, страница

Библиотека собеса по Data Science | вопросы с собеседований

Вы используете алгоритм K-Means. Вы визуализировали результат и заметили, что два ваших кластера перекрываются в форме полумесяцев.

Какова наиболее вероятная причина такого поведения?

Anonymous Quiz

14%

K-Means чувствителен к наличию категориальных признаков.

K-Means страдает от проблемы исчезающего градиента.

53%

K-Means предполагает, что кластеры имеют выпуклую форму.

26%

K-Means требует ручного указания количества кластеров ($k$).

👍1

225 voters774 views18:44

Библиотека собеса по Data Science | вопросы с собеседований

Готовитесь к собеседованию в AI?

Вопросы по математической базе — стандартный этап отбора на позиции Data Scientist и ML Engineer. Вас спросят не только про код, но и про то, как работают алгоритмы «под капотом».

Прокачайте хард-скиллы на обновленном курсе «Математика для разработки AI-моделей».

Важный апдейт:

— теперь обучение включает живые вебинары;

— первый прошел, но второй стартует сегодня, 9 декабря;

— это шанс разобрать сложные вопросы с экспертами в прямом эфире.

Что внутри:

— линейная алгебра;

— матанализ;

— теория вероятностей.

Успейте присоединиться к потоку

832 views11:59

Библиотека собеса по Data Science | вопросы с собеседований

Какая проблема возникает, когда распределение входных данных (признаков X) в тестовой среде отличается от распределения, на котором обучалась модель, но при этом связь между входными данными и целевой переменной (P(Y∣X)) остается неизменной?

Anonymous Quiz

20%

Дисперсионный сдвиг (Variance Shift)

25%

Дисперсионный сдвиг (Variance Shift)

16%

Сдвиг метки (Label Shift)

39%

Ковариатный сдвиг (Covariate Shift)

👍1

194 voters770 views18:54

Библиотека собеса по Data Science | вопросы с собеседований

Вы обучаете глубокую нейронную сеть, которая показывает 99% точности на обучающей выборке, но всего 70% на тестовой. Какое из следующих действий, скорее всего, поможет снизить переобучение (overfitting), не требуя сбора новых данных?

Anonymous Quiz

76%

Применить Dropout к скрытым слоям нейронной сети.

Использовать более простую функцию активации, например, сигмоиду вместо ReLU.

Уменьшить степень регуляризации $\lambda$ в функции потерь.

10%

Удалить все признаки с низкой дисперсией (Low Variance).

247 voters838 views18:26

Библиотека собеса по Data Science | вопросы с собеседований

Вы строите модель и обнаруживаете, что хотя общая метрика производительности высока, индивидуальные p-значения большинства ваших переменных незначимы, а коэффициенты (weights) модели демонстрируют высокую чувствительность к небольшим изменениям в данных.

Anonymous Quiz

27%

Гетероскедастичность (Heteroscedasticity)

13%

Недообучение (Underfitting)

49%

Мультиколлинеарность (Multicollinearity)

12%

Автокорреляция остатков (Autocorrelation of Residuals)

❤2

191 voters876 views17:48

Библиотека собеса по Data Science | вопросы с собеседований

Вы используете SVM для классификации, но обнаружили, что данные не являются линейно разделимыми в исходном пространстве признаков.

Какая техника позволяет SVM классифицировать нелинейные данные, не увеличивая явно размерность пространства?

Anonymous Quiz

61%

Ядерный трюк (Kernel Trick)

13%

Эластичная сеть (Elastic Net Regularization)

22%

Снижение размерности с помощью PCA

Случайная подвыборка признаков (Random Subspace)

❤1

214 voters850 views16:52

Библиотека собеса по Data Science | вопросы с собеседований

При использовании алгоритма k-ближайших соседей (k-NN) для классификации, какое влияние будет иметь слишком маленькое значение k (например, k=1) на поведение модели?

Anonymous Quiz

30%

Модель будет иметь высокое смещение (Bias) и страдать от недообучения (Underfitting)

10%

Модель будет иметь низкую дисперсию (Variance) и высокую обобщающую способность

51%

Модель будет иметь высокую дисперсию, быть очень чувствительной к шуму и переобучаться

10%

Модель станет нечувствительной к масштабу признаков

❤2

230 voters761 views19:00

Библиотека собеса по Data Science | вопросы с собеседований

Вы разрабатываете рекомендательную систему для нового стримингового сервиса. Какая из перечисленных ниже ситуаций является классическим примером проблемы холодного старта (Cold Start Problem)?

Anonymous Quiz

12%

Алгоритм не может обработать новый жанр фильма, так как он не был представлен в обучающей выборке

86%

Система не может давать качественные рекомендации новому пользователю, поскольку у него нет истории

Алгоритм слишком сложен, что приводит к долгому времени отклика при генерации рекомендаций

👍5

214 voters804 views17:56

Библиотека собеса по Data Science | вопросы с собеседований

При оценке бинарного классификатора была построена Матрица ошибок. Какая метрика рассчитывается как отношение истинно положительных срабатываний ко всем фактически положительным случаям?

Anonymous Quiz

👍4🌚3

234 voters788 views18:18

Библиотека собеса по Data Science | вопросы с собеседований

Математика — это фильтр на входе

На собеседованиях по DS часто валят не на коде, а на вопросах по линейной алгебре, статам или терверу. Не дай теории стать твоим узким местом.

Уравнение выгоды: 1 + 2.

Берешь три курса, платишь за один (тот, что дороже).

Что усилит резюме:

— Математика для Data Science;
— AI-агенты для DS-специалистов;
— ML для старта.

Обучить свою нейронку

До 31 декабря.
Саппорт: @manager_proglib

809 views14:29

Библиотека собеса по Data Science | вопросы с собеседований

При использовании L1-регуляризации (Lasso) в линейных моделях коэффициенты при некоторых признаках становятся строго равными нулю. Какое геометрическое свойство L1-нормы объясняет этот эффект?

Anonymous Quiz

12%

L1-норма является дифференцируемой во всех точках пространства

69%

Единичная сфера L1-нормы имеет острые углы на осях координат

14%

Производная L1-нормы пропорциональна значению самого веса

L1-норма всегда меньше L2-нормы для любого вектора весов

197 voters774 views18:25

Библиотека собеса по Data Science | вопросы с собеседований

При обучении случайного леса (Random Forest) мы используем Out-of-Bag (OOB) ошибку. Что это такое?

Anonymous Quiz

13%

Ошибка, которую модель выдает на полностью новых данных после деплоя

10%

Ошибка, возникающая из-за того, что деревья в лесу слишком глубокие

Среднеквадратичная ошибка (MSE), рассчитанная по всей обучающей выборке

74%

Ошибка модели на данных, которые не попали в bootstrap-выборку для конкретного дерева

👍1

220 voters730 views18:51

Библиотека собеса по Data Science | вопросы с собеседований

Какой из методов ансамблирования обычно дает наибольший выигрыш в качестве, если базовые модели сильно различаются по своей архитектуре (например, KNN, SVM и случайный лес)?

Anonymous Quiz

19%

Бэггинг (Bagging)

26%

Градиентный бустинг (Boosting)

Случайный подпространственный метод (Random Subspace)

47%

Стэкинг (Stacking)

❤1

226 voters734 views18:12

Библиотека собеса по Data Science | вопросы с собеседований

Вопрос с собеседования 2026: «Как вы организуете память в мультиагентной системе?»

Если вы отвечаете «просто передам контекст в промпт», вы, скорее всего, не получите оффер на позицию AI Engineer. Современные системы требуют работы с векторными БД, чекпоинтами в графах и RAG.

Подтяните хард-скиллы на нашем обновленном курсе «Разработка AI-агентов».

Что в программе:

— Паттерн ReAct и архитектура агентов;
— Работа с LangChain и LangGraph ;
— Инструменты AgentOps для мониторинга.

Практика с код-ревью и дипломный проект, который не стыдно показать на собеседовании.

Записаться

772 views15:06

Библиотека собеса по Data Science | вопросы с собеседований

Вы обучаете модель k-NN на наборе данных, где количество признаков (столбцов) внезапно увеличилось с 10 до 1000, при этом количество строк осталось прежним. Как это практически отразится на работе алгоритма k-NN?

Anonymous Quiz

Модель станет работать быстрее, так как данных для сравнения стало больше

65%

Расстояния между всеми точками станут почти одинаковыми, и понятие "ближайший сосед" потеряет смысл

20%

Точность модели вырастет, так как 1000 признаков дают более детальное описание объектов

13%

Алгоритм k-NN автоматически выберет 10 лучших признаков и проигнорирует остальные

❤1

223 voters772 views18:33

Библиотека собеса по Data Science | вопросы с собеседований

При построении дерева решений (Decision Tree) без ограничений, оно может расти до тех пор, пока в каждом листе не окажется ровно по одному объекту из обучающей выборки. К какому фундаментальному последствию для характеристик модели это приводит?

Anonymous Quiz

10%

У модели будет низкое смещение (low bias) и низкая дисперсия (low variance)

15%

У модели будет высокое смещение (high bias) и высокая дисперсия (high variance)

57%

У модели будет очень низкое смещение (low bias), но очень высокая дисперсия (high variance)

17%

У модели будет очень высокое смещение (high bias), но очень низкая дисперсия (low variance)

❤1

201 voters758 views18:38

Библиотека собеса по Data Science | вопросы с собеседований

Вы обучаете нейронную сеть и замечаете, что на графике Train Loss сначала стабильно падает, а затем начинает резко колебаться или даже расти. При этом точность перестает улучшаться.

Какое изменение, скорее всего, поможет стабилизировать процесс?

Anonymous Quiz

79%

Уменьшить скорость обучения (Learning Rate)

Увеличить количество эпох обучения

10%

Отключить все слои Dropout

Убрать слои нормализации (например, Batch Normalization)

👍2

234 voters718 views18:29

Библиотека собеса по Data Science | вопросы с собеседований

При работе с RNN для обработки длинных последовательностей часто возникает проблема, из-за которой модель «забывает» информацию, полученную в самом начале последовательности.

Какое архитектурное решение было разработано для борьбы с этой проблемой?

Anonymous Quiz

Перцептрон (Multilayer Perceptron)

93%

Долгая краткосрочная память (Long Short-Term Memory, LSTM)

Сверточный слой (Convolutional Layer)

Полносвязный слой (Dense Layer)

202 voters781 views17:52

Библиотека собеса по Data Science | вопросы с собеседований

Задача — предсказать, совершит ли клиент покупку в интернет-магазине. В датасете вы обнаружили признак «ID транзакции чека». Вы включили его в модель, и она показала AUC-ROC = 0.999. Однако при проверке на новых данных модель не работает.

Что произошло?

Anonymous Quiz

10%

Модель слишком простая для таких данных

В данных могут быть пропуски

20%

Вы использовали неправильную метрику качества

65%

Произошла утечка

❤2

246 voters786 views19:15

Библиотека собеса по Data Science | вопросы с собеседований

Вы обучаете RNN для генерации текста. В процессе обучения вы замечаете в логах, что значения Loss внезапно становятся NaN, а веса модели принимают экстремально большие значения.

Какая техника является наиболее простым способом борьбы с этой проблемой?

Anonymous Quiz

18%

Dropout (Дропаут)

48%

Gradient Clipping (Обрезка градиентов)

26%

L2-регуляризация (Ridge)

Увеличение размера батча (Batch Size)

❤1

221 voters761 views18:17

Библиотека собеса по Data Science | вопросы с собеседований

Вы работаете с данными, которые имеют сложную форму: два кластера вложены друг в друга как кольца. Вы попробовали K-Means, но он разделил кольца вертикально.

Какой алгоритм лучше всего справится с этой задачей, не требуя указывать количество кластеров?

Anonymous Quiz

10%

Agglomerative Clustering

15%

Метод главных компонент (PCA)

13%

Гауссовы модели (Gaussian Mixture Models)

61%

DBSCAN

👍1

211 voters719 views16:58

About

Blog

Apps

Platform