NEW BOT Телеграм, страница

1) Алгоритмы спрашивали на первом собеседовании, были задачи по типу на вход функции приходит последовательность нулей и единиц и надо найти допустим максимальную последовательность единиц. На YouTube есть разбор с Лешей Шаграевым по прохождению алгоритмической секции.
2) На втором собесе в первые 15 минут были сначала задача на подбрасывание монетки, 10 раз, и найти например вероятность выпадения подряд трёх орлов, и ещё пара вопросов наподобие.
Потом спросили, что такое ROC-AUC, как считается, что это такое, когда используется, вот все в таком духе, спросили про матрицу ошибок, TPR/FPR, и вот это вот всё.
Затем оставшиеся 45 минут был ML system design: дана выборка за месяц из значений координат, определенных с точностью +-1км, и необходимо по ним научиться определять местоположение дома и РАБоты;)

Это было собеседование на позицию Lead ML-разработчика

23 views23:55

Интересное что-то

#ml #recommender
User to vector

21 views14:10

Интересное что-то

Forwarded from Artificial stupidity

#ltv

Customer2Vec: Representation learning for customer analytics and personalization

https://telegra.ph/Customer2Vec-Representation-learning-for-customer-analytics-and-personalization-07-24

Telegraph

Customer2Vec: Representation learning for customer analytics and personalization

Сегодня поговорим о репрезентации пользователей в векторном виде. Идея достаточно простая - давайте вместо ручной генерации признаков мы отдадим все на откуп той или иной нейронной сети, откуда возьмем промежуточную сжатую репрезентацию пользователя в виде…

18 views14:10

Интересное что-то

#dl
Лекции от zfturbo

14 views20:46

Интересное что-то

Forwarded from Small Data Science for Russian Adventurers

#образование
Хороший курс для начинающих по DL:
“Методы обработки и анализа больших данных”
(читался для МИЭТ). Автор - доктор технических наук Роман Соловьёв, известен на Kaggle под ником ZFTurbo (победами на кегле и на других платформах). Очень приятно читает, все лекции продуманы, примеры из своей практики. Правда, курс маленький и не все темы раскрыты достаточно подробно. Где-то, наверное, есть ещё ноутбуки автора (примеры показанные на лекции очень хорошо написаны).
https://youtube.com/playlist?list=PLMyPRULSXkaWaJrQOWCBw0nVVVydPsPPj

13 views20:46

Интересное что-то

Forwarded from Dmitry Kosarevsky

Лабораторные работы к лекциям после 3, 5, 6, 7 лекции
https://www.kaggle.com/c/m-lab-1/
https://www.kaggle.com/c/m-lab-2/
https://www.kaggle.com/c/m-lab-3/
https://www.kaggle.com/c/m-lab-4/

Kaggle

Лабораторная работа 1: Табличные данные

Предсказание оттока абонентов

16 views20:46

Интересное что-то

#ml #book
Артём Груздев наконец поделился хоть небольшой частью своего материала

https://drive.google.com/file/d/1VLv__MVjl1Mt9tn2dnubs1A1DiMtZnhs/view

14 views21:19

Интересное что-то

#ml #interview
Список ссылок с вопросами для подготовки к собеседованиям
Вот небольшая подборочка
Мне больше нравится последняя ссылка
https://github.com/alexeygrigorev/data-science-interviews/blob/master/theory.md
https://github.com/ml874/Cracking-the-Data-Science-Interview
https://github.com/cl2333/Grokking-the-Coding-Interview-Patterns-for-Coding-Questions
https://huyenchip.com/ml-interviews-book/contents/8.1.1-overview:-basic-algorithm.html
https://docs.google.com/document/d/1D2P4Fg4_Pdkkfvq09-SmC_3948D4FNomRM33CKDkBNg

GitHub

data-science-interviews/theory.md at master · alexeygrigorev/data-science-interviews

Data science interview questions and answers. Contribute to alexeygrigorev/data-science-interviews development by creating an account on GitHub.

20 views12:41

Интересное что-то

#ml
Интересная библиотека для преобразования категориальных переменных https://contrib.scikit-learn.org/category_encoders/index.html

14 views14:10

Интересное что-то

#ml
Обзор интересной статьи во Время Валеры

14 views13:20

Интересное что-то

Forwarded from Время Валеры

На днях прочитал статью Deep Neural Networks and Tabular Data: A Survey

Статья обзорная, пытается описать и понять почему же прекрасный мир глубокого обучения так хорошо себя чувствует в гомогенных данных (картинки, звук, текст) и никак не может победить деревянные методы в гетерогенных

Сначала обсуждают причины

Плохое качество данных -> много пропущенных значений, выбросов, ошибок и дисбаланс классов. Деревянные модели неплохо умеют с этим работать по дефолту
Отсутствие (неполная) взаимосвязи фичей -> взаимосвязи между фичами в табличках это вам не соседние пиксели, поэтому всякие индуктивные баесы, так популярные в сетках(например свертках) - тут не работают
Зависимость от препроцессинга, особенно для категориальных фичей
Важность одного отдельно взято признака -> например чтобы переклассифицировать картинку обычно требуется изменения региона пикселей, в тоже время для табличных данных иногда достаточно небольшого изменения всего одной фичи, что приводит к совершенно другим результатам. Деревянные модели неплохо справляются с таким, а вот сетки - не очень (некоторые статьи говорят что правильная регуляризация помогает это решить)

После этого ребята делят модели на следующие типы
Encoding/Data Transformations Methods - когда получаем репрезентацию признаком в каком то виде, например VIME, SuperTML( представляет данные в виде картинок для сверток)
Hybrid - когда пытается соединить классический мл и сетки, например DeepFM, TabNN, DeepGBM
Transformer based - используем механизм attention, например TabNet
Regularisation based - со строгой регуляризацией, например RLN

Затем рассматривают методы генерации табличных данных, в первую очередь для аугментации и imputation данных, во вторую - для privacy, сгенерированных данных сохраняют моменты и особенности распределений но не дают конкретной информации

Последняя часть посвящена explainable machine learning
В конце приводят графики где показывается как деревянные модели рвут сетке везде и во всем и обсуждают как жить дальше

В целом рекомендую

18 views13:20

Интересное что-то

#math #optimization
Если вы вдруг прочитали Бойда, и хотите узнать новое в области выпуклой оптимизации, то можно почитать Гасникова

16 views23:01

Интересное что-то

Forwarded from Maxim Kurkin

Гасникова почитать обязательно для свежайших результатов https://arxiv.org/pdf/2106.01946

16 views23:01

Интересное что-то

#ml
Статьи по применению графов в банковских моделях

19 views00:03

About

Blog

Apps

Platform