Интересное что-то – Telegram
Интересное что-то
517 subscribers
2.71K photos
252 videos
138 files
4.51K links
Материалы и мысли, понадерганные отовсюду
Блог: https://news.1rj.ru/str/asisakov_channel
Чат: https://news.1rj.ru/str/youknowds_chat
Download Telegram
#github #cv #dl #paper
Крутые проекты от Samsung AI Center
#interview
Материалы о переговорах по зп
#ml #interview
Что спрашивали в Яндексе на ML собесе
(В конце возможно троллинг)
Forwarded from Maksim Tingaev
1) Алгоритмы спрашивали на первом собеседовании, были задачи по типу на вход функции приходит последовательность нулей и единиц и надо найти допустим максимальную последовательность единиц. На YouTube есть разбор с Лешей Шаграевым по прохождению алгоритмической секции.
2) На втором собесе в первые 15 минут были сначала задача на подбрасывание монетки, 10 раз, и найти например вероятность выпадения подряд трёх орлов, и ещё пара вопросов наподобие.
Потом спросили, что такое ROC-AUC, как считается, что это такое, когда используется, вот все в таком духе, спросили про матрицу ошибок, TPR/FPR, и вот это вот всё.
Затем оставшиеся 45 минут был ML system design: дана выборка за месяц из значений координат, определенных с точностью +-1км, и необходимо по ним научиться определять местоположение дома и РАБоты;)

Это было собеседование на позицию Lead ML-разработчика
#dl
Лекции от zfturbo
#образование
Хороший курс для начинающих по DL:
“Методы обработки и анализа больших данных”
(читался для МИЭТ). Автор - доктор технических наук Роман Соловьёв, известен на Kaggle под ником ZFTurbo (победами на кегле и на других платформах). Очень приятно читает, все лекции продуманы, примеры из своей практики. Правда, курс маленький и не все темы раскрыты достаточно подробно. Где-то, наверное, есть ещё ноутбуки автора (примеры показанные на лекции очень хорошо написаны).
https://youtube.com/playlist?list=PLMyPRULSXkaWaJrQOWCBw0nVVVydPsPPj
#ml #book
Артём Груздев наконец поделился хоть небольшой частью своего материала

https://drive.google.com/file/d/1VLv__MVjl1Mt9tn2dnubs1A1DiMtZnhs/view
#ml
Интересная библиотека для преобразования категориальных переменных https://contrib.scikit-learn.org/category_encoders/index.html
#ml
Обзор интересной статьи во Время Валеры
Forwarded from Время Валеры
На днях прочитал статью Deep Neural Networks and Tabular Data: A Survey

Статья обзорная, пытается описать и понять почему же прекрасный мир глубокого обучения так хорошо себя чувствует в гомогенных данных (картинки, звук, текст) и никак не может победить деревянные методы в гетерогенных

Сначала обсуждают причины

Плохое качество данных
-> много пропущенных значений, выбросов, ошибок и дисбаланс классов. Деревянные модели неплохо умеют с этим работать по дефолту
Отсутствие (неполная) взаимосвязи фичей -> взаимосвязи между фичами в табличках это вам не соседние пиксели, поэтому всякие индуктивные баесы, так популярные в сетках(например свертках) - тут не работают
Зависимость от препроцессинга, особенно для категориальных фичей
Важность одного отдельно взято признака -> например чтобы переклассифицировать картинку обычно требуется изменения региона пикселей, в тоже время для табличных данных иногда достаточно небольшого изменения всего одной фичи, что приводит к совершенно другим результатам. Деревянные модели неплохо справляются с таким, а вот сетки - не очень (некоторые статьи говорят что правильная регуляризация помогает это решить)

После этого ребята делят модели на следующие типы
Encoding/Data Transformations Methods
- когда получаем репрезентацию признаком в каком то виде, например VIME, SuperTML( представляет данные в виде картинок для сверток)
Hybrid - когда пытается соединить классический мл и сетки, например DeepFM, TabNN, DeepGBM
Transformer based - используем механизм attention, например TabNet
Regularisation based - со строгой регуляризацией, например RLN

Затем рассматривают методы генерации табличных данных, в первую очередь для аугментации и imputation данных, во вторую - для privacy, сгенерированных данных сохраняют моменты и особенности распределений но не дают конкретной информации

Последняя часть посвящена explainable machine learning
В конце приводят графики где показывается как деревянные модели рвут сетке везде и во всем и обсуждают как жить дальше

В целом рекомендую
#math #optimization
Если вы вдруг прочитали Бойда, и хотите узнать новое в области выпуклой оптимизации, то можно почитать Гасникова
Forwarded from Maxim Kurkin
Гасникова почитать обязательно для свежайших результатов https://arxiv.org/pdf/2106.01946