NEW BOT Телеграм, страница

А/B тесты Хотите разобраться в А/B тестах? Моя подборка, стоит смотреть поэтапно. 👮🏼 Если нужно подтянуть матстат к ним, ниже подборка и для этого 😎 1. Практическое введение в А/B тесты link⛓ 2. Проблема подглядываний link⛓ 3. Размер выборки link⛓ 4. Cuped…

В дополнение ещё материалы: https://uberkinder.notion.site/VALERA-A-B-Links-3f2dbc1f2d8a49ddaa82d11b656214f1

BOGDAN on Notion

VALERA: A/B Links

A new tool for teams & individuals that blends everyday work apps into one.

20 views20:36

Интересное что-то

#ml #interview
Что спрашивали в Яндексе на ML собесе
(В конце возможно троллинг)

22 views23:55

Интересное что-то

Forwarded from Maksim Tingaev

1) Алгоритмы спрашивали на первом собеседовании, были задачи по типу на вход функции приходит последовательность нулей и единиц и надо найти допустим максимальную последовательность единиц. На YouTube есть разбор с Лешей Шаграевым по прохождению алгоритмической секции.
2) На втором собесе в первые 15 минут были сначала задача на подбрасывание монетки, 10 раз, и найти например вероятность выпадения подряд трёх орлов, и ещё пара вопросов наподобие.
Потом спросили, что такое ROC-AUC, как считается, что это такое, когда используется, вот все в таком духе, спросили про матрицу ошибок, TPR/FPR, и вот это вот всё.
Затем оставшиеся 45 минут был ML system design: дана выборка за месяц из значений координат, определенных с точностью +-1км, и необходимо по ним научиться определять местоположение дома и РАБоты;)

Это было собеседование на позицию Lead ML-разработчика

23 views23:55

Интересное что-то

#ml #recommender
User to vector

21 views14:10

Интересное что-то

Forwarded from Artificial stupidity

#ltv

Customer2Vec: Representation learning for customer analytics and personalization

https://telegra.ph/Customer2Vec-Representation-learning-for-customer-analytics-and-personalization-07-24

Telegraph

Customer2Vec: Representation learning for customer analytics and personalization

Сегодня поговорим о репрезентации пользователей в векторном виде. Идея достаточно простая - давайте вместо ручной генерации признаков мы отдадим все на откуп той или иной нейронной сети, откуда возьмем промежуточную сжатую репрезентацию пользователя в виде…

18 views14:10

Интересное что-то

#dl
Лекции от zfturbo

14 views20:46

Интересное что-то

Forwarded from Small Data Science for Russian Adventurers

#образование
Хороший курс для начинающих по DL:
“Методы обработки и анализа больших данных”
(читался для МИЭТ). Автор - доктор технических наук Роман Соловьёв, известен на Kaggle под ником ZFTurbo (победами на кегле и на других платформах). Очень приятно читает, все лекции продуманы, примеры из своей практики. Правда, курс маленький и не все темы раскрыты достаточно подробно. Где-то, наверное, есть ещё ноутбуки автора (примеры показанные на лекции очень хорошо написаны).
https://youtube.com/playlist?list=PLMyPRULSXkaWaJrQOWCBw0nVVVydPsPPj

13 views20:46

Интересное что-то

Forwarded from Dmitry Kosarevsky

Лабораторные работы к лекциям после 3, 5, 6, 7 лекции
https://www.kaggle.com/c/m-lab-1/
https://www.kaggle.com/c/m-lab-2/
https://www.kaggle.com/c/m-lab-3/
https://www.kaggle.com/c/m-lab-4/

Kaggle

Лабораторная работа 1: Табличные данные

Предсказание оттока абонентов

16 views20:46

Интересное что-то

#ml #book
Артём Груздев наконец поделился хоть небольшой частью своего материала

https://drive.google.com/file/d/1VLv__MVjl1Mt9tn2dnubs1A1DiMtZnhs/view

14 views21:19

Интересное что-то

#ml #interview
Список ссылок с вопросами для подготовки к собеседованиям
Вот небольшая подборочка
Мне больше нравится последняя ссылка
https://github.com/alexeygrigorev/data-science-interviews/blob/master/theory.md
https://github.com/ml874/Cracking-the-Data-Science-Interview
https://github.com/cl2333/Grokking-the-Coding-Interview-Patterns-for-Coding-Questions
https://huyenchip.com/ml-interviews-book/contents/8.1.1-overview:-basic-algorithm.html
https://docs.google.com/document/d/1D2P4Fg4_Pdkkfvq09-SmC_3948D4FNomRM33CKDkBNg

GitHub

data-science-interviews/theory.md at master · alexeygrigorev/data-science-interviews

Data science interview questions and answers. Contribute to alexeygrigorev/data-science-interviews development by creating an account on GitHub.

20 views12:41

Интересное что-то

#ml
Интересная библиотека для преобразования категориальных переменных https://contrib.scikit-learn.org/category_encoders/index.html

14 views14:10

Интересное что-то

#ml
Обзор интересной статьи во Время Валеры

14 views13:20

Интересное что-то

Forwarded from Время Валеры

На днях прочитал статью Deep Neural Networks and Tabular Data: A Survey

Статья обзорная, пытается описать и понять почему же прекрасный мир глубокого обучения так хорошо себя чувствует в гомогенных данных (картинки, звук, текст) и никак не может победить деревянные методы в гетерогенных

Сначала обсуждают причины

Плохое качество данных -> много пропущенных значений, выбросов, ошибок и дисбаланс классов. Деревянные модели неплохо умеют с этим работать по дефолту
Отсутствие (неполная) взаимосвязи фичей -> взаимосвязи между фичами в табличках это вам не соседние пиксели, поэтому всякие индуктивные баесы, так популярные в сетках(например свертках) - тут не работают
Зависимость от препроцессинга, особенно для категориальных фичей
Важность одного отдельно взято признака -> например чтобы переклассифицировать картинку обычно требуется изменения региона пикселей, в тоже время для табличных данных иногда достаточно небольшого изменения всего одной фичи, что приводит к совершенно другим результатам. Деревянные модели неплохо справляются с таким, а вот сетки - не очень (некоторые статьи говорят что правильная регуляризация помогает это решить)

После этого ребята делят модели на следующие типы
Encoding/Data Transformations Methods - когда получаем репрезентацию признаком в каком то виде, например VIME, SuperTML( представляет данные в виде картинок для сверток)
Hybrid - когда пытается соединить классический мл и сетки, например DeepFM, TabNN, DeepGBM
Transformer based - используем механизм attention, например TabNet
Regularisation based - со строгой регуляризацией, например RLN

Затем рассматривают методы генерации табличных данных, в первую очередь для аугментации и imputation данных, во вторую - для privacy, сгенерированных данных сохраняют моменты и особенности распределений но не дают конкретной информации

Последняя часть посвящена explainable machine learning
В конце приводят графики где показывается как деревянные модели рвут сетке везде и во всем и обсуждают как жить дальше

В целом рекомендую

18 views13:20

Интересное что-то

#math #optimization
Если вы вдруг прочитали Бойда, и хотите узнать новое в области выпуклой оптимизации, то можно почитать Гасникова

16 views23:01

Интересное что-то

Forwarded from Maxim Kurkin

Гасникова почитать обязательно для свежайших результатов https://arxiv.org/pdf/2106.01946

16 views23:01

Интересное что-то

#ml
Статьи по применению графов в банковских моделях

19 views00:03

Интересное что-то

Forwarded from Maxim Panov

1. https://arxiv.org/pdf/2009.14588.pdf
2. https://arxiv.org/pdf/2001.08427.pdf

19 views00:03

Интересное что-то

#algo #interview
Как заботать алгоритмы

20 viewsedited 08:26

Интересное что-то

Forwarded from Поступашки - ШАД, Стажировки и Магистратура

#How_to_заботать

How to заботать алгоритмы? (((Первая Научная)))

Уже делали подобный гайд, но там как-то вышло совсем для гоев, да и участников становится все больше и больше. На этот же раз представляю (((Первую Научную Подборку))). Подборка, на мой взгляд, наиболее удачных материалов. Она поможет вам успешно сдать экзамены в магистратуру, поступить в ШАД, проявить себя на собеседовании. При этом предполагается школьное владение синтаксисом Си++, в противном смотрим How to заботать прогу перед ВУЗом (или пойдет обычный курс на том же степик). Также предполагаются познания в школьной математике на уровне элементарных функций и мат индукции, комбинаторике, графах, что возможно посмотреть в "Ленинградских кружках".
Как всегда, все книжки в комментариях, там же делимся своими любимыми материалами и сексуальным опытом с алгосами.

Шаг 0.
Для тех, кто ни разу не слышал про алгосы.
1) Для нуля подойдет известный курс на степике от СS и его продолжение. Объем небольшой, что дает надежду не умереть на половине курса, но знакомит со всем основным, дает скромное представление о чем эта (((наука))) все вообще.
2) "Грокаем Алгоритмы" Адитья Бхаргава и "Фундаментальные алгоритмы на C++" Роберт Седжвик. Два брата акробата: один попроще, другой посложнее. Своеобразные Тик-Токи того времени: все в картинках и не особо строго. Самое то, если школьная математика успешно забыта. В эти же ворота всякие книжики для школьников по олимпиадному программированию в духе той же "Олимпиадное программирование" Анти Лаксонен или все, где есть в заглавии "Для начинающих" в духе "Алгоритмы для начинающих" Панос Луридас. Сюда же А. Шень "Программирование теоремы и задачи".
3) Если же мама курила, употребляла алкоголь во время беременности и понимание всего написанного не пришло, то возможно попробовать учить алгосы по Тик Токам. Смотреть их визуализацию на графах, квадратиках, табли4е4ках: Сосайт_1, Сосайт_2, Сосайт_3, Сосайт_4.
Упражняемся в построении структур, глядим на них в работе, создаем свои анимации, становимся ТикТокером— пробуем себя в профессии будущего😲😲.

Шаг 1.
Дальше хорошо было бы структурировать всю эту теорию и привести ее к чему-то строгому и осмысленному, не оставаться кривозубым самоучкой. Здесь подойдут академические курсы с ИТМО, ФКН, ФПМИ, которые, конечно же, в большинстве просто копипаст "Алгоритмы: Построение и Анализ" Томаса Кормена. Но его из-за большого объема освоить будет тяжеловато и это больше справочник, чем учебное пособие. Поэтому могу посоветовать взять за основу какой-либо из следующих курсов, а к Кормену обращаться лишь для расшара и повторения. В дополнение непонятым главам/ темам может идти "Алгоритмы" Дасгупта С., Пападимитриу Х., Вазирани У., где немало полезных заданий для понимания материала.
1) Лекции ИТМО и конпекст, листочки
2) Сосайт ФКН
3) Конспект и лекции основного потока ФПМИ
Если что-то непонятно в одном курсе, бежим смотреть в другой, не зацикливаемся на одном лекторе. Для этого в комментах оставлю кучу ссылок на другие лекции.

Шаг 2.
На предыдущем шаге, как только пробел по теме был устранен, ее срочно нужно зарешать на задачах. Помимо листков из Шаг-2, конечно же, топаем на
1) Leetcode
2) Codeforces
3) hackerrank
И не такие известные
4) eolymp
5) CSES
6) Timus Online Judge
Также есть замечательный сосайт со всеми возможными темами и алгоритмами MAXimal.

18 views08:26

Интересное что-то

Forwarded from Поступашки - ШАД, Стажировки и Магистратура

Шаг 3.
Конечно же, алгоритмы на хлеб не намажешь: пора конкретизировать знания.
Для ШАД достаточно просто почитать их методичку "Введение в теорию алгоритмов и структуру данных" М. А. Бабенок, М. В. Левин, где много задач предлагаемых на собесе в ШАД или даже посмотреть старые лекции. Или же практикум по алгосам. Скорее всего, для вас там не будет ничего нового. Да и порешать их алгосы прошлых лет с экзамена или собеса (смотрите Шаг 5 в How_to_заботать ШАД).
Для магистратуры программа как правило аналогично ШАД. Но здесь просто решаем задания прошлых лет с магистратур и их олимпиад.
Для РАБоты на (((дядю))) за копейки, чтобы было больше дяняг, е-баных денег🤑🤑 Достаточно полистать "Cracking the Coding Interview" и может заплатить шекели за задачи с "рЕаЛьНыХ_иНтЕрВьЮ", которые админы просто выдумали))
1) Interview Query
2) Stratascratch
3) Такое же есть и у сосайтов с Шага 2.
Или потрениться на фейковых собесах (mock interview) с "рЕаЛьНыМи РАБотниками" из рЕаЛьНыХ топ it-компаний (((FAANG))). Нужен английский
1) Сосайт_1 для гоев
2) Сосайт_2 для гоев
Для патриотов, собирающихся в Яндекс смотрим первый пункт Для ШАД. Остальные дяди особо не страдают алгосами головного мозга, но для VK можно посмотреть лекци и книжку на их базе моего тестя С. Л. Бабичева.

16 views08:26

Интересное что-то

#ml
Доступ к text2img модели

13 views12:50

About

Blog

Apps

Platform