Forwarded from Gleb Sterkin
https://samsunglabs.github.io/MegaPortraits/
Типа такого
Типа такого
Forwarded from Gleb Sterkin
Блог о Data Science 💻
А/B тесты Хотите разобраться в А/B тестах? Моя подборка, стоит смотреть поэтапно. 👮🏼 Если нужно подтянуть матстат к ним, ниже подборка и для этого 😎 1. Практическое введение в А/B тесты link⛓ 2. Проблема подглядываний link⛓ 3. Размер выборки link⛓ 4. Cuped…
В дополнение ещё материалы: https://uberkinder.notion.site/VALERA-A-B-Links-3f2dbc1f2d8a49ddaa82d11b656214f1
BOGDAN on Notion
VALERA: A/B Links
A new tool for teams & individuals that blends everyday work apps into one.
Forwarded from Maksim Tingaev
1) Алгоритмы спрашивали на первом собеседовании, были задачи по типу на вход функции приходит последовательность нулей и единиц и надо найти допустим максимальную последовательность единиц. На YouTube есть разбор с Лешей Шаграевым по прохождению алгоритмической секции.
2) На втором собесе в первые 15 минут были сначала задача на подбрасывание монетки, 10 раз, и найти например вероятность выпадения подряд трёх орлов, и ещё пара вопросов наподобие.
Потом спросили, что такое ROC-AUC, как считается, что это такое, когда используется, вот все в таком духе, спросили про матрицу ошибок, TPR/FPR, и вот это вот всё.
Затем оставшиеся 45 минут был ML system design: дана выборка за месяц из значений координат, определенных с точностью +-1км, и необходимо по ним научиться определять местоположение дома и РАБоты;)
Это было собеседование на позицию Lead ML-разработчика
2) На втором собесе в первые 15 минут были сначала задача на подбрасывание монетки, 10 раз, и найти например вероятность выпадения подряд трёх орлов, и ещё пара вопросов наподобие.
Потом спросили, что такое ROC-AUC, как считается, что это такое, когда используется, вот все в таком духе, спросили про матрицу ошибок, TPR/FPR, и вот это вот всё.
Затем оставшиеся 45 минут был ML system design: дана выборка за месяц из значений координат, определенных с точностью +-1км, и необходимо по ним научиться определять местоположение дома и РАБоты;)
Это было собеседование на позицию Lead ML-разработчика
Forwarded from Artificial stupidity
#ltv
Customer2Vec: Representation learning for customer analytics and personalization
https://telegra.ph/Customer2Vec-Representation-learning-for-customer-analytics-and-personalization-07-24
Customer2Vec: Representation learning for customer analytics and personalization
https://telegra.ph/Customer2Vec-Representation-learning-for-customer-analytics-and-personalization-07-24
Telegraph
Customer2Vec: Representation learning for customer analytics and personalization
Сегодня поговорим о репрезентации пользователей в векторном виде. Идея достаточно простая - давайте вместо ручной генерации признаков мы отдадим все на откуп той или иной нейронной сети, откуда возьмем промежуточную сжатую репрезентацию пользователя в виде…
Forwarded from Small Data Science for Russian Adventurers
#образование
Хороший курс для начинающих по DL:
“Методы обработки и анализа больших данных”
(читался для МИЭТ). Автор - доктор технических наук Роман Соловьёв, известен на Kaggle под ником ZFTurbo (победами на кегле и на других платформах). Очень приятно читает, все лекции продуманы, примеры из своей практики. Правда, курс маленький и не все темы раскрыты достаточно подробно. Где-то, наверное, есть ещё ноутбуки автора (примеры показанные на лекции очень хорошо написаны).
https://youtube.com/playlist?list=PLMyPRULSXkaWaJrQOWCBw0nVVVydPsPPj
Хороший курс для начинающих по DL:
“Методы обработки и анализа больших данных”
(читался для МИЭТ). Автор - доктор технических наук Роман Соловьёв, известен на Kaggle под ником ZFTurbo (победами на кегле и на других платформах). Очень приятно читает, все лекции продуманы, примеры из своей практики. Правда, курс маленький и не все темы раскрыты достаточно подробно. Где-то, наверное, есть ещё ноутбуки автора (примеры показанные на лекции очень хорошо написаны).
https://youtube.com/playlist?list=PLMyPRULSXkaWaJrQOWCBw0nVVVydPsPPj
Forwarded from Dmitry Kosarevsky
Лабораторные работы к лекциям после 3, 5, 6, 7 лекции
https://www.kaggle.com/c/m-lab-1/
https://www.kaggle.com/c/m-lab-2/
https://www.kaggle.com/c/m-lab-3/
https://www.kaggle.com/c/m-lab-4/
https://www.kaggle.com/c/m-lab-1/
https://www.kaggle.com/c/m-lab-2/
https://www.kaggle.com/c/m-lab-3/
https://www.kaggle.com/c/m-lab-4/
Kaggle
Лабораторная работа 1: Табличные данные
Предсказание оттока абонентов
#ml #book
Артём Груздев наконец поделился хоть небольшой частью своего материала
https://drive.google.com/file/d/1VLv__MVjl1Mt9tn2dnubs1A1DiMtZnhs/view
Артём Груздев наконец поделился хоть небольшой частью своего материала
https://drive.google.com/file/d/1VLv__MVjl1Mt9tn2dnubs1A1DiMtZnhs/view
#ml #interview
Список ссылок с вопросами для подготовки к собеседованиям
Вот небольшая подборочка
Мне больше нравится последняя ссылка
https://github.com/alexeygrigorev/data-science-interviews/blob/master/theory.md
https://github.com/ml874/Cracking-the-Data-Science-Interview
https://github.com/cl2333/Grokking-the-Coding-Interview-Patterns-for-Coding-Questions
https://huyenchip.com/ml-interviews-book/contents/8.1.1-overview:-basic-algorithm.html
https://docs.google.com/document/d/1D2P4Fg4_Pdkkfvq09-SmC_3948D4FNomRM33CKDkBNg
Список ссылок с вопросами для подготовки к собеседованиям
Вот небольшая подборочка
Мне больше нравится последняя ссылка
https://github.com/alexeygrigorev/data-science-interviews/blob/master/theory.md
https://github.com/ml874/Cracking-the-Data-Science-Interview
https://github.com/cl2333/Grokking-the-Coding-Interview-Patterns-for-Coding-Questions
https://huyenchip.com/ml-interviews-book/contents/8.1.1-overview:-basic-algorithm.html
https://docs.google.com/document/d/1D2P4Fg4_Pdkkfvq09-SmC_3948D4FNomRM33CKDkBNg
GitHub
data-science-interviews/theory.md at master · alexeygrigorev/data-science-interviews
Data science interview questions and answers. Contribute to alexeygrigorev/data-science-interviews development by creating an account on GitHub.
#ml
Интересная библиотека для преобразования категориальных переменных https://contrib.scikit-learn.org/category_encoders/index.html
Интересная библиотека для преобразования категориальных переменных https://contrib.scikit-learn.org/category_encoders/index.html
Forwarded from Время Валеры
На днях прочитал статью Deep Neural Networks and Tabular Data: A Survey
Статья обзорная, пытается описать и понять почему же прекрасный мир глубокого обучения так хорошо себя чувствует в гомогенных данных (картинки, звук, текст) и никак не может победить деревянные методы в гетерогенных
Сначала обсуждают причины
Плохое качество данных -> много пропущенных значений, выбросов, ошибок и дисбаланс классов. Деревянные модели неплохо умеют с этим работать по дефолту
Отсутствие (неполная) взаимосвязи фичей -> взаимосвязи между фичами в табличках это вам не соседние пиксели, поэтому всякие индуктивные баесы, так популярные в сетках(например свертках) - тут не работают
Зависимость от препроцессинга, особенно для категориальных фичей
Важность одного отдельно взято признака -> например чтобы переклассифицировать картинку обычно требуется изменения региона пикселей, в тоже время для табличных данных иногда достаточно небольшого изменения всего одной фичи, что приводит к совершенно другим результатам. Деревянные модели неплохо справляются с таким, а вот сетки - не очень (некоторые статьи говорят что правильная регуляризация помогает это решить)
После этого ребята делят модели на следующие типы
Encoding/Data Transformations Methods - когда получаем репрезентацию признаком в каком то виде, например VIME, SuperTML( представляет данные в виде картинок для сверток)
Hybrid - когда пытается соединить классический мл и сетки, например DeepFM, TabNN, DeepGBM
Transformer based - используем механизм attention, например TabNet
Regularisation based - со строгой регуляризацией, например RLN
Затем рассматривают методы генерации табличных данных, в первую очередь для аугментации и imputation данных, во вторую - для privacy, сгенерированных данных сохраняют моменты и особенности распределений но не дают конкретной информации
Последняя часть посвящена explainable machine learning
В конце приводят графики где показывается как деревянные модели рвут сетке везде и во всем и обсуждают как жить дальше
В целом рекомендую
Статья обзорная, пытается описать и понять почему же прекрасный мир глубокого обучения так хорошо себя чувствует в гомогенных данных (картинки, звук, текст) и никак не может победить деревянные методы в гетерогенных
Сначала обсуждают причины
Плохое качество данных -> много пропущенных значений, выбросов, ошибок и дисбаланс классов. Деревянные модели неплохо умеют с этим работать по дефолту
Отсутствие (неполная) взаимосвязи фичей -> взаимосвязи между фичами в табличках это вам не соседние пиксели, поэтому всякие индуктивные баесы, так популярные в сетках(например свертках) - тут не работают
Зависимость от препроцессинга, особенно для категориальных фичей
Важность одного отдельно взято признака -> например чтобы переклассифицировать картинку обычно требуется изменения региона пикселей, в тоже время для табличных данных иногда достаточно небольшого изменения всего одной фичи, что приводит к совершенно другим результатам. Деревянные модели неплохо справляются с таким, а вот сетки - не очень (некоторые статьи говорят что правильная регуляризация помогает это решить)
После этого ребята делят модели на следующие типы
Encoding/Data Transformations Methods - когда получаем репрезентацию признаком в каком то виде, например VIME, SuperTML( представляет данные в виде картинок для сверток)
Hybrid - когда пытается соединить классический мл и сетки, например DeepFM, TabNN, DeepGBM
Transformer based - используем механизм attention, например TabNet
Regularisation based - со строгой регуляризацией, например RLN
Затем рассматривают методы генерации табличных данных, в первую очередь для аугментации и imputation данных, во вторую - для privacy, сгенерированных данных сохраняют моменты и особенности распределений но не дают конкретной информации
Последняя часть посвящена explainable machine learning
В конце приводят графики где показывается как деревянные модели рвут сетке везде и во всем и обсуждают как жить дальше
В целом рекомендую
#math #optimization
Если вы вдруг прочитали Бойда, и хотите узнать новое в области выпуклой оптимизации, то можно почитать Гасникова
Если вы вдруг прочитали Бойда, и хотите узнать новое в области выпуклой оптимизации, то можно почитать Гасникова
Forwarded from Maxim Kurkin
Гасникова почитать обязательно для свежайших результатов https://arxiv.org/pdf/2106.01946