NEW BOT Телеграм, страница

На выходных записали видео с Александром Миленькиным (автор Data Feeling) про наш путь в DS, текущие задачи, найм, удаленку и не только

Пока все монтируется - вот вам небольшое превью кусочка истории о "Очень синьерном миддле". Или почему так сложно бывает расти из миддла в синьера 🚀

👎35👍12🔥4🥴3

3.57K viewsedited 18:28

ML for Value / Ваня Максимов

Корреляция и время

Фраза “Корреляция не означает причинно-следственную связь” стала уже максимально избитой. Но уже в который раз вижу, что эту фразу в контексте временных рядов понимают неверно. А с учеом того, что 90% табличных данных - по факту временные ряды (цены, продажи, фин показатели и тп) - неверно понимается почти всегда 😱

На каждом втором средненьком курсе по статистике вам расскажут пример ложной корреляции (те которая не означает причинно-следственную связь) между:
- потреблением мороженого и числом убийств
- обьемом потребления пищи и уровнем аутизма
- потреблением сыра и смертностью от запутывания в одеяле кровати

Их все обьединяет то, что у двух показателей есть тренд во времени. И мы видим корреляцию на самом деле двух трендов, а не самих показателей

Проблема в том, что во временных рядах корреляцию и причинно-следственную связь ищут совсем не так:

*Упрощенно* алгоритм такой:
- Удалить трендовую и сезонную составляющую: e = y - trend - seasonal
- Если временной ряд не один, а много (1 показатель за 10 лет у разных стран, например), то нужно еще вычесть среднее значение каждой страны: e = y - trend - seasonal - group_mean
- После этого считать корреляцию остатков (e) у 2-ух переменных

Тогда никакой ложной корреляции, как в примерах выше, вы не увидите 👌

Ну и в целом, когда ничинаете работать с временными рядами, то очень много из классической статистики работает совсем не так: корреляция, стат значимоть коэффициентов регрессии, what-if анализ на изменение 1 фичи и тп. Тк что будьте крайне аккуратны: ведь временные ряды есть везде 😈

P.S. Хороший пример ложной корреляции - это когда есть 2 переменные, измеренные в 1 момент времени

Например, если вы за 1 день измерите размер стопы и длину волос у 10_000 людей, то найдете отрицательную значимую, но ложную корреляцию между этими показателями

👍25🔥9❤5🥴2

4.24K viewsedited 15:00

ML for Value / Ваня Максимов

Attention, tabular data!
TabR is coming

Что ж, вот наконец модели на базе attention стали показывать годные результаты на табличных данных!) Если хотите детальнее посмотреть, как, то есть прекрасный обзор новой архитектуры TabR
от Андрея Лукьяненко

Метод выглядит многообещающим, но я бы пока к нему пригляделся в реальных приложениях. Как я понял из статьи (поправьте, если не так), для бустингов и TabR не делали почти никакого feature engineering. Но это очень сильно бустит перформанс бустингов в реальных задачах

Так что будет очень интересно сравнить эти 2 модели, когда в обеих будут мощные фичи 🔥

🔥15👍6❤1

4.07K viewsedited 06:56

ML for Value / Ваня Максимов

Confidence - АВ платформа Spotify скоро будет продаваться всем желающим

Довольно занятная история произошла на прошлой неделе: Команда spotify анонсировала запуск своей внутренней АВ-платформы Confidence для всех. Видимо, пробуют занять нишу ушедшего Google Optimize

Судя по тех статьям от самих инженеров spotify, под капотом есть вся классика АВ:
- Разведение экспериментов по слоям с двойным солированием
- Календарь экспериментов для разведения тестов по времени
- Проверка сплитования АА-тестами и определение MDE
- Калькулятор размера выборки

Из несколько необычных killer-фич:
- Sequential testing. Можно закончить эксп по достижению стат значимости. Но сами же инженеры Spotify не рекомендуют его использовать 🙃Ведь есть эффект “дня недели” - если в тесте понедельников больше чем суббот, то можно получить смещение
- Явно на уровне UI разделяют целевые и вспомогательные метрики - ну наконец-то! Больше нельзя будет продакту поставить 20 целевых метрик в эксперименте и катить, если прокрасилась хоть одна:)

Остальные детали откопать пока не удалось. Так что ждем официальной раскатки с документацией - будем ее препарировать 😈

🔥24👍10

4.39K viewsedited 10:23

ML for Value / Ваня Максимов

Если вы не знаете, чем занять себя 7 сентября - приходите на Practical ML Conf

Я буду там одним из спикеров: расскажу, как строить с нуля модель прогноза спроса на примере Яндекс.Лавки 💙

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥18

3.4K views19:17

ML for Value / Ваня Максимов

Forwarded from Yandex for ML

⚡️

Рассказываем о первых спикерах Practical ML Conf — большой конференции Яндекса про Machine Learning

Прямо сейчас мы готовим для вас большую хардовую программу с ключевыми инженерами индустрии. И мы уже готовы представить первых спикеров конференции — специалистов из Яндекса, Сбера, Авито, ВТБ, X5 Tech, Дзена и Third Opinion, которые расскажут о реальных кейсах использования ML.

Собрали для вас в карточки всё про первые доклады на Practical ML Conf, которые можно будет услышать уже 7 сентября. И это только часть нашей программы — другие доклады можно посмотреть на сайте конференции.

👉 И если вы ещё не успели зарегистрироваться на Practical ML Conf — то сейчас самое время.

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥16👍9❤1

4.07K views19:17

ML for Value / Ваня Максимов

Сегодня была Practical ML Conference: смотрел много докладов, да еще и сам рассказывал про прогноз спроса!)

Очень много прям топ выступлений 🔥

Что понравилось лично мне:

1. Item2Item рекомендации в Дзене
Рекомендации в целом я обожаю, но тут еще и про довольно элегантные вещи с отбором кандидатов и легким ранжированием рассказали

2. CPA аукцион в Маркете
Довольно занятно, что рекламные продукты в маркетплейсах активно развиваются в последние года 2-3, и уже сделали очень мощные архитектуры в проде

3. Рассказ про Kandinsky 2.X
Я про диффузионки знаю только в теории, но доклад так хорошо рассказали, что я понял вообще все:)

4. Мой доклад про прогноз спроса конечно 😅
Рассказывал, как объединить оочень простой бейзлайн с бустингом и получить много профита от этого

👍29🔥19❤1

3.83K views17:20

ML for Value / Ваня Максимов

Запись моего рассказа про Прогноз спроса с Practical ML Conference, если вы не смогли вчера быть лично или на трансляции 😄

https://youtu.be/18UzF2w9nec?t=28517

YouTube

Practical ML Conf 2023. Зал 1.

Хардовая конференция для экспертов в области ML от Яндекса. Программа конференции доступна на сайте: https://pmlconf.yandex.ru/program

Программа:
0:00:00 начало
0:06:55 GigaChat: наш опыт обучения LLM, Дани Эль-Айясс, SberDevices
0:48:00 Компьютерное зрение…

🔥38👍12🏆2

4.16K views12:18

ML for Value / Ваня Максимов

Почему бустинг плохо понимает линейные зависимости?

Я подумал-подумал и решил прямо в канале отвечать на хорошие вопросы из комментариев) Начнем с вопроса про линейные зависимости в градиентном бустинге над деревьями

Условному LightGBM непросто выучить зависимость y = x по 2 причинам:

1. Нужно довольно много сплитов дерева (большая глубина / мнго деревьев), чтобы это выучить
if x < 10 then y = 9
if x > 10 then y = 11
if x > 12 then y = 13
…. (N раз)
if x > 1000 then y = 1001

2. Сложно прогнозировать out-of-distribution
Вторая проблема хорошо видна из “крайних” условий на х:
if x <10 then y = 9
if x > 1000 then y = 1001

Бустинг довольно плох для значений Х, которых не было в трейне (out-of-distribution). И если у вас, например, продажи с растущим трендом, то прогнозировать больше, чем было раньше - очень проблемно

Можно конечно для продаж прогнозировать не сами продажи, а их прирост. Но и это не всегда решает проблему: представьте, что на товар была скидка не более 10%, а сейчас стала 30%. Можно неаккуратно переобучиться на историю скидок именно этого товара и не прогнозировать бОльший рост, даже если на всех товарах (где бывают любые скидки) есть около-линейная зависимость от скидки

Рубрика “Ответы на вопросы из комментариев” #answers

🔥47👍17🗿2❤1

3.84K views16:04

ML for Value / Ваня Максимов

Неклассические бустинги над деревьями (hybrid regression tree boosting)

У бустингов над деревьями есть некоторые проблемы с линейными зависимостями. Почему бы тогда не совместить бустинг, деревья и линейную регрессию?

Идея такая: в классическом дереве для задачи регрессии для прогноза в каждом листе берется среднее таргетов (для rmse loss). Что если вместо простого среднего строить в листе линейную регрессию? И в качестве прогноза брать прогноз линейной регрессии

Так и возник подход hybrid regression tree (HRT) - это дерево, в каждом листе которого есть линейная регрессия. Пример работы можно посмотреть на картинке к посту. Ну и конечно это можно обобщить до бустинга

Штука прикольная, и как-то в универе мы с ребятами даже запилили код hybrid regression tree. Ни о какой оптимизации по скорости и памяти в студенческом проекте речи конечно нет, но поиграться можно

И внезапно наша репа до сих пор топ-1 по запросу ”hybryd regression tree” в гугле аж с 2 звездочками 😅

Это говорит скорее о непопулярности подхода - по метрикам чуть лучше классического lightGBM / CatBoost, но сииииильно медленнее: может работать только на небольших наборах данных до 10-100к строк. Можете, кстати, посчитать сложность алгоритма в комментариях - удивитесь 😄

UPD: В комментариях подсказали, что этот алгоритм завезли в lightGBM. Что ж, очень радует!)

#answers - ответы на вопросы из комментариев

🔥33👍10❤6😁1🗿1

4.81K viewsedited 09:34

ML for Value / Ваня Максимов

Channel name was changed to «ML for Value / Ваня Максимов»

14:54

ML for Value / Ваня Максимов

SUKI в А/В тестах

Сразу оговорюсь - это не то, о чем вы подумали))

в АВ есть фундаментальное предположение SUTVA - Stable Unit Treatment Value Assumption. И обычно обьяснение SUTVA никому не заходит. Поэтому все его успешно игнорируют 😀

У меня есть альтернатива:

SUKI assumption:
S - Student’ t-test
U - Units
K - Key metrics
I - Independence

“Student t-test for Units over Key metrics under Independence assumption”

Это покрывает все необходимые советы для успешного АВ:

S - Student’ t-test
Имхо, если вы не провели сотни АВ или не имеете Masters по статистике, даже не пытайтесь использовать что-то кроме теста Стьюдента. Без стратификации, cuped и прочего - обычный тест Стьюдента. Если его (и другие предположения SUKI) выполнить, то вы получите сильно более корректные выводы, чем с модными методами

U - units
Один Unit (юзер, магазин) может генерировать кучу событий (кликов, покупок). Мы проводим тесты на Unit-ами. То есть в поюзерном тесте метрика должна быть по юзерам (1 юзер = 1 число), а не по сессиям, заказам или юзеро-дням. Иначе наблюдения становятся зависимыми = вся логика АВ ломается

K - Key metrics
Не стоит выбирать 20 метрик и смотерть, какая прокрасится! Ни в одном из тысяч (когда я руководил разработкой АВ платформы, через меня прошло больше 2к тестов) не понадобилось более 2ух целевых метрик. Бывают еще барьерные и контрольные метрики, но это уже совсем другая история:)

I - independence
Ваши наблюдения в тесте должны быть независимы. Как я уже писал, 1 наблюдение = юзер, а не юзер-день или юзер-сессия. В соц сетях и юзеры могут быть зависимыми - стоит подумать, как обьединить их в кластеры, и проводить тесты по кластерам юзеров

В общем, когда в следующий раз вы крикните “какие SUKI сломали мой А/В ?!” - вы знаете ответ 😅

🔥47😁17❤5👍3💩2

4.86K viewsedited 16:04

ML for Value / Ваня Максимов

В телеге появилась возможность постить сторис от имени канала, но для этого нужно набрать голоса (бусты) от премиум-пользователей 🚀

Если хотите видеть еще и сторис от ml4value, то можете обновить телеграмм (бусты есть только в последней версии) и пробустить канал по ссылочке:

https://news.1rj.ru/str/ml4value?boost

Upd: господа и дамы, лайки - это хорошо, но бусты - еще лучше 😄

Please open Telegram to view this post

VIEW IN TELEGRAM

👍14😁6⚡2❤1🤮1

3.38K viewsedited 16:31

ML for Value / Ваня Максимов

Рост в ML: Junior —> Middle

Астрологи скоро объявят неделю ревью - пора разобраться, как растить свой грейд

Я не буду писать про классические “делай задачи на следующий грейд” или “помимо раскачки хардов не забывай про софты”. Сосредоточимся на деталях, quick wins и ~~грязных~~ трюках 😇

Для роста из Junior в Middle я бы посоветовал собрать 3 ачивки:

1. Самостоятельно затащить (небольшой) проект с эффектом на деньги
Вы можете зарешать весь литкод, лучше всех знать трансформеры, но ничто так не растит в миддла как возможность доверять человеку задачи end-to-end. Хорошо бы это показать тим лиду на реальном примере

Лайфхак: если вы не знаете, где найти такую задачу - сделайте простую систему алертов на метрики ML/бизнеса в телеграм. Для этого не нужны SOTA навыки, но придется пообщаться со многими людьми и убедиться в полезности алертов. Убиваете сразу 3 зайцев: Показываете самостоятельность, приносите пользу, становитесь заметны вне своей команды

2. Разобраться во всех кусках ML продукта, над которым работает ваша команда
Не только посмотреть код ML-модели, но и понять, почему были приняты все основные решени в архитектуре. Уметь в Aiflow / Docker / что угодно еще для поддержки модели. Понимать как именно модель приносит пользу бизнесу

Лайфхак: Не пытайтесь выглядеть всезнающим. Чтобы реально разобраться в деталях придется задать 1000 и 1 глупый вопрос. Со временем ваши глупые вопросы станут умными, а умные вопросы - имхо, один из главных показателей middle / senior DS

3. Взять на себя часть коммуникаций с бизнес-заказчиками
Например, разбор проблемных кейсов, которые они приносят. Вы автоматом глубже поймете тех детали вашего продукта, познакомитесь с бизнесом и станете более самостоятельным дата саентистом

Другие советы я выложу в сторис, когда мы с вами добьем пару бустов каналу 💪

Если у вас есть еще годные советы Junuior-ам, пишите в комменты - обсудим ⬇️

👍49🔥7❤5💩1🦄1

3.8K viewsedited 14:52

ML for Value / Ваня Максимов

Рост в ML: Junior —> Middle
Грязные трюки edition 😈

1. Умножай сроки х2
Почти наверняка, чтобы что-то сделать хорошо (или хотя бы просто сделать!), понадобится сильно больше времени, чем ты думаешь. Джуниоры часто не знают, что надо заложить время на тестирование, исправление ошибок, изменение изначальных требований и многое другое

Так что умножай сроки х2 - не прогадаешь. Актуально и для начинающих тим лидов:)

2. 30% времени - на курсы
До роста в синьора твоя кривая обучения стремится в космос, особенно на позиции джуниора. Каждый потраченный час на хороший курс или статью существенно улучшает знания и навыки. Пользуйся этим! Да, это инвестиция в будущее: если ты останешься в той же компании, то это ей окупится. Ну а если не останешься… то плохая программа роста там 😅

3. Скажи всем, что хочешь стать миддлом
Как ни странно, тим лиды и тиммейты не экстарсенсы. Хочешь стать миддлом / + 20% к зп / удаленку - хотя бы скажи про это. Лучше не прям перед ревью, а в начале полугода. И повторяй почаще) Так у тебя с тимлидом есть шанс придумать план, как стать миддлом, и есть шанс его воплотить, поправляя косяки по ходу дела. Если же об этом не говорить, может задач на ”показать себя” и не появится

P.S. Долго думал над форматом сторис - пока продолжаю его искать. Если у вас есть идеи - пишите в комменты, все учту)

👍55🔥9💩2

4.26K viewsedited 07:12

ML for Value / Ваня Максимов

Рост в ML: Middle —> Senior

По просьбам из комментариев, кратко опишу, как я отличаю джунов-миддлов-синьеров

Джун - хорошо делает хорошо поставленные задачи. Запилить фичу, написать автотесты и тп
Миддл - может полноценно развивать ML-проект. Добавляет фичи, ускоряет инференс и тд
Синьор - сам найдет бизнес-проблему, сам придумает решение и сделает, подскажет как лучше

Для роста из миддла в синьера потребуется уже 1-3 года и сбор вот таких ачивок:

1. Стань лидером ML-проекта
Наверняка можно взять устоявшийся проект на развитие / придумать новый. Важно, чтобы все от общения с бизнесом до внедрения в прод мог лидить именно ты. Это покажет самостоятельность и подарит чувство “Да, этому чуваку можно доверить большое дело”

2. Работай в команде
Как правило, затаскивать большие штуки в одиночку - крайне сомнительная затея. Если ты работаешь в стартапе, может и получится. Но в любой крупной компании в одиночку шансы крайне малы. Бери себе в помощь джунов, найми стажера, делегируй часть работы соседней команде - будь креативен 👩‍🎨

3. Изучи лучше всех в компании конкретную область
Эта область может быть небольшой, но все в команде + многие руководители должны считать тебя лучшим экспертом в ней. Как правило, этого можно достичь либо долгой и усердной работой, либо перенятием лучшего опыта индустрии: читать статьи , ходить на конференции. А луше делат ьи то, и другое

P.S. Читать статьи (хабр и медиум тоже!) - это не 1-2 в неделю, а хотя бы 10-15. Большинство из них bullshit bingo, поэтому помогут развиваться процентов 5 статей

Как определить, что у тебя получился этот пункт: к тебе стали чаще ходить за советом и звать на встречи по принятию решений:)

4. Придется научиться общаться 😄
Да-да пресловутые soft skills. Большинство миддлов сыпятся именно на них. Можно прокачивать навыки общения, начав вести регулярные встречи с бизнесом (если их нет - поставь срочно!). Из неплохих лайфхаков - выбери 2-3 синьор/лид людей из бизнеса и поставь им 1-1 раз в пару недель. И общаться научишься, и свою visibility поднимешь)

👍39🔥14💩1

4.99K viewsedited 06:52

About

Blog

Apps

Platform