Интересное что-то – Telegram
Интересное что-то
517 subscribers
2.71K photos
252 videos
138 files
4.51K links
Материалы и мысли, понадерганные отовсюду
Блог: https://news.1rj.ru/str/asisakov_channel
Чат: https://news.1rj.ru/str/youknowds_chat
Download Telegram
#ml #interview
Что спрашивали в Яндексе на ML собесе
(В конце возможно троллинг)
Forwarded from Maksim Tingaev
1) Алгоритмы спрашивали на первом собеседовании, были задачи по типу на вход функции приходит последовательность нулей и единиц и надо найти допустим максимальную последовательность единиц. На YouTube есть разбор с Лешей Шаграевым по прохождению алгоритмической секции.
2) На втором собесе в первые 15 минут были сначала задача на подбрасывание монетки, 10 раз, и найти например вероятность выпадения подряд трёх орлов, и ещё пара вопросов наподобие.
Потом спросили, что такое ROC-AUC, как считается, что это такое, когда используется, вот все в таком духе, спросили про матрицу ошибок, TPR/FPR, и вот это вот всё.
Затем оставшиеся 45 минут был ML system design: дана выборка за месяц из значений координат, определенных с точностью +-1км, и необходимо по ним научиться определять местоположение дома и РАБоты;)

Это было собеседование на позицию Lead ML-разработчика
#dl
Лекции от zfturbo
#образование
Хороший курс для начинающих по DL:
“Методы обработки и анализа больших данных”
(читался для МИЭТ). Автор - доктор технических наук Роман Соловьёв, известен на Kaggle под ником ZFTurbo (победами на кегле и на других платформах). Очень приятно читает, все лекции продуманы, примеры из своей практики. Правда, курс маленький и не все темы раскрыты достаточно подробно. Где-то, наверное, есть ещё ноутбуки автора (примеры показанные на лекции очень хорошо написаны).
https://youtube.com/playlist?list=PLMyPRULSXkaWaJrQOWCBw0nVVVydPsPPj
#ml #book
Артём Груздев наконец поделился хоть небольшой частью своего материала

https://drive.google.com/file/d/1VLv__MVjl1Mt9tn2dnubs1A1DiMtZnhs/view
#ml
Интересная библиотека для преобразования категориальных переменных https://contrib.scikit-learn.org/category_encoders/index.html
#ml
Обзор интересной статьи во Время Валеры
Forwarded from Время Валеры
На днях прочитал статью Deep Neural Networks and Tabular Data: A Survey

Статья обзорная, пытается описать и понять почему же прекрасный мир глубокого обучения так хорошо себя чувствует в гомогенных данных (картинки, звук, текст) и никак не может победить деревянные методы в гетерогенных

Сначала обсуждают причины

Плохое качество данных
-> много пропущенных значений, выбросов, ошибок и дисбаланс классов. Деревянные модели неплохо умеют с этим работать по дефолту
Отсутствие (неполная) взаимосвязи фичей -> взаимосвязи между фичами в табличках это вам не соседние пиксели, поэтому всякие индуктивные баесы, так популярные в сетках(например свертках) - тут не работают
Зависимость от препроцессинга, особенно для категориальных фичей
Важность одного отдельно взято признака -> например чтобы переклассифицировать картинку обычно требуется изменения региона пикселей, в тоже время для табличных данных иногда достаточно небольшого изменения всего одной фичи, что приводит к совершенно другим результатам. Деревянные модели неплохо справляются с таким, а вот сетки - не очень (некоторые статьи говорят что правильная регуляризация помогает это решить)

После этого ребята делят модели на следующие типы
Encoding/Data Transformations Methods
- когда получаем репрезентацию признаком в каком то виде, например VIME, SuperTML( представляет данные в виде картинок для сверток)
Hybrid - когда пытается соединить классический мл и сетки, например DeepFM, TabNN, DeepGBM
Transformer based - используем механизм attention, например TabNet
Regularisation based - со строгой регуляризацией, например RLN

Затем рассматривают методы генерации табличных данных, в первую очередь для аугментации и imputation данных, во вторую - для privacy, сгенерированных данных сохраняют моменты и особенности распределений но не дают конкретной информации

Последняя часть посвящена explainable machine learning
В конце приводят графики где показывается как деревянные модели рвут сетке везде и во всем и обсуждают как жить дальше

В целом рекомендую
#math #optimization
Если вы вдруг прочитали Бойда, и хотите узнать новое в области выпуклой оптимизации, то можно почитать Гасникова
Forwarded from Maxim Kurkin
Гасникова почитать обязательно для свежайших результатов https://arxiv.org/pdf/2106.01946
#ml
Статьи по применению графов в банковских моделях
#algo #interview
Как заботать алгоритмы
#How_to_заботать

How to заботать алгоритмы? (((Первая Научная)))

Уже делали подобный гайд, но там как-то вышло совсем для гоев, да и участников становится все больше и больше. На этот же раз представляю (((Первую Научную Подборку))). Подборка, на мой взгляд, наиболее удачных материалов. Она поможет вам успешно сдать экзамены в магистратуру, поступить в ШАД, проявить себя на собеседовании. При этом предполагается школьное владение синтаксисом Си++, в противном смотрим How to заботать прогу перед ВУЗом (или пойдет обычный курс на том же степик). Также предполагаются познания в школьной математике на уровне элементарных функций и мат индукции, комбинаторике, графах, что возможно посмотреть в "Ленинградских кружках".
Как всегда, все книжки в комментариях, там же делимся своими любимыми материалами и сексуальным опытом с алгосами.

Шаг 0.
Для тех, кто ни разу не слышал про алгосы.
1) Для нуля подойдет известный курс на степике от СS и его продолжение. Объем небольшой, что дает надежду не умереть на половине курса, но знакомит со всем основным, дает скромное представление о чем эта (((наука))) все вообще.
2) "Грокаем Алгоритмы" Адитья Бхаргава и "Фундаментальные алгоритмы на C++" Роберт Седжвик. Два брата акробата: один попроще, другой посложнее. Своеобразные Тик-Токи того времени: все в картинках и не особо строго. Самое то, если школьная математика успешно забыта. В эти же ворота всякие книжики для школьников по олимпиадному программированию в духе той же "Олимпиадное программирование" Анти Лаксонен или все, где есть в заглавии "Для начинающих" в духе "Алгоритмы для начинающих" Панос Луридас. Сюда же А. Шень "Программирование теоремы и задачи".
3) Если же мама курила, употребляла алкоголь во время беременности и понимание всего написанного не пришло, то возможно попробовать учить алгосы по Тик Токам. Смотреть их визуализацию на графах, квадратиках, табли4е4ках: Сосайт_1, Сосайт_2, Сосайт_3, Сосайт_4.
Упражняемся в построении структур, глядим на них в работе, создаем свои анимации, становимся ТикТокером— пробуем себя в профессии будущего😲😲.

Шаг 1.
Дальше хорошо было бы структурировать всю эту теорию и привести ее к чему-то строгому и осмысленному, не оставаться кривозубым самоучкой. Здесь подойдут академические курсы с ИТМО, ФКН, ФПМИ, которые, конечно же, в большинстве просто копипаст "Алгоритмы: Построение и Анализ" Томаса Кормена. Но его из-за большого объема освоить будет тяжеловато и это больше справочник, чем учебное пособие. Поэтому могу посоветовать взять за основу какой-либо из следующих курсов, а к Кормену обращаться лишь для расшара и повторения. В дополнение непонятым главам/ темам может идти "Алгоритмы" Дасгупта С., Пападимитриу Х., Вазирани У., где немало полезных заданий для понимания материала.
1) Лекции ИТМО и конпекст, листочки
2) Сосайт ФКН
3) Конспект и лекции основного потока ФПМИ
Если что-то непонятно в одном курсе, бежим смотреть в другой, не зацикливаемся на одном лекторе. Для этого в комментах оставлю кучу ссылок на другие лекции.

Шаг 2.
На предыдущем шаге, как только пробел по теме был устранен, ее срочно нужно зарешать на задачах. Помимо листков из Шаг-2, конечно же, топаем на
1) Leetcode
2) Codeforces
3) hackerrank
И не такие известные
4) eolymp
5) CSES
6) Timus Online Judge
Также есть замечательный сосайт со всеми возможными темами и алгоритмами MAXimal.
Шаг 3.
Конечно же, алгоритмы на хлеб не намажешь: пора конкретизировать знания.
Для ШАД достаточно просто почитать их методичку "Введение в теорию алгоритмов и структуру данных" М. А. Бабенок, М. В. Левин, где много задач предлагаемых на собесе в ШАД или даже посмотреть старые лекции. Или же практикум по алгосам. Скорее всего, для вас там не будет ничего нового. Да и порешать их алгосы прошлых лет с экзамена или собеса (смотрите Шаг 5 в How_to_заботать ШАД).
Для магистратуры программа как правило аналогично ШАД. Но здесь просто решаем задания прошлых лет с магистратур и их олимпиад.
Для РАБоты на (((дядю))) за копейки, чтобы было больше дяняг, е-баных денег🤑🤑 Достаточно полистать "Cracking the Coding Interview" и может заплатить шекели за задачи с "рЕаЛьНыХ_иНтЕрВьЮ", которые админы просто выдумали))
1) Interview Query
2) Stratascratch
3) Такое же есть и у сосайтов с Шага 2.
Или потрениться на фейковых собесах (mock interview) с "рЕаЛьНыМи РАБотниками" из рЕаЛьНыХ топ it-компаний (((FAANG))). Нужен английский
1) Сосайт_1 для гоев
2) Сосайт_2 для гоев
Для патриотов, собирающихся в Яндекс смотрим первый пункт Для ШАД. Остальные дяди особо не страдают алгосами головного мозга, но для VK можно посмотреть лекци и книжку на их базе моего тестя С. Л. Бабичева.
#ml
Доступ к text2img модели