ML for Value / Ваня Максимов – Telegram
ML for Value / Ваня Максимов
5.59K subscribers
191 photos
1 video
1 file
119 links
Путь от ML-модели до Value для компании | RecSys, Search, LLM, Pricing и CLTV

Ваня Максимов, @Ivan_maksimov
Head of AI | Recsys, search, llm @Y.Market, ex-WB, ex-Delivery Club

Консультирую компании, Веду курсы
Публикую релевантную рекламу
Download Telegram
Рост в ML: Junior —> Middle

Астрологи скоро объявят неделю ревью - пора разобраться, как растить свой грейд

Я не буду писать про классические “делай задачи на следующий грейд” или “помимо раскачки хардов не забывай про софты”. Сосредоточимся на деталях, quick wins и грязных трюках 😇

Для роста из Junior в Middle я бы посоветовал собрать 3 ачивки:


1. Самостоятельно затащить (небольшой) проект с эффектом на деньги
Вы можете зарешать весь литкод, лучше всех знать трансформеры, но ничто так не растит в миддла как возможность доверять человеку задачи end-to-end. Хорошо бы это показать тим лиду на реальном примере

Лайфхак: если вы не знаете, где найти такую задачу - сделайте простую систему алертов на метрики ML/бизнеса в телеграм. Для этого не нужны SOTA навыки, но придется пообщаться со многими людьми и убедиться в полезности алертов. Убиваете сразу 3 зайцев: Показываете самостоятельность, приносите пользу, становитесь заметны вне своей команды


2. Разобраться во всех кусках ML продукта, над которым работает ваша команда
Не только посмотреть код ML-модели, но и понять, почему были приняты все основные решени в архитектуре. Уметь в Aiflow / Docker / что угодно еще для поддержки модели. Понимать как именно модель приносит пользу бизнесу

Лайфхак: Не пытайтесь выглядеть всезнающим. Чтобы реально разобраться в деталях придется задать 1000 и 1 глупый вопрос. Со временем ваши глупые вопросы станут умными, а умные вопросы - имхо, один из главных показателей middle / senior DS


3. Взять на себя часть коммуникаций с бизнес-заказчиками
Например, разбор проблемных кейсов, которые они приносят. Вы автоматом глубже поймете тех детали вашего продукта, познакомитесь с бизнесом и станете более самостоятельным дата саентистом


Другие советы я выложу в сторис, когда мы с вами добьем пару бустов каналу 💪

Если у вас есть еще годные советы Junuior-ам, пишите в комменты - обсудим ⬇️
👍49🔥75💩1🦄1
Рост в ML: Junior —> Middle
Грязные трюки edition
😈


1. Умножай сроки х2
Почти наверняка, чтобы что-то сделать хорошо (или хотя бы просто сделать!), понадобится сильно больше времени, чем ты думаешь. Джуниоры часто не знают, что надо заложить время на тестирование, исправление ошибок, изменение изначальных требований и многое другое

Так что умножай сроки х2 - не прогадаешь. Актуально и для начинающих тим лидов:)

2. 30% времени - на курсы
До роста в синьора твоя кривая обучения стремится в космос, особенно на позиции джуниора. Каждый потраченный час на хороший курс или статью существенно улучшает знания и навыки. Пользуйся этим! Да, это инвестиция в будущее: если ты останешься в той же компании, то это ей окупится. Ну а если не останешься… то плохая программа роста там 😅

3. Скажи всем, что хочешь стать миддлом
Как ни странно, тим лиды и тиммейты не экстарсенсы. Хочешь стать миддлом / + 20% к зп / удаленку - хотя бы скажи про это. Лучше не прям перед ревью, а в начале полугода. И повторяй почаще) Так у тебя с тимлидом есть шанс придумать план, как стать миддлом, и есть шанс его воплотить, поправляя косяки по ходу дела. Если же об этом не говорить, может задач на ”показать себя” и не появится

P.S. Долго думал над форматом сторис - пока продолжаю его искать. Если у вас есть идеи - пишите в комменты, все учту)
👍55🔥9💩2
Рост в ML: Middle —> Senior

По просьбам из комментариев, кратко опишу, как я отличаю джунов-миддлов-синьеров

Джун - хорошо делает хорошо поставленные задачи. Запилить фичу, написать автотесты и тп
Миддл - может полноценно развивать ML-проект. Добавляет фичи, ускоряет инференс и тд
Синьор - сам найдет бизнес-проблему, сам придумает решение и сделает, подскажет как лучше

Для роста из миддла в синьера потребуется уже 1-3 года и сбор вот таких ачивок:

1. Стань лидером ML-проекта
Наверняка можно взять устоявшийся проект на развитие / придумать новый. Важно, чтобы все от общения с бизнесом до внедрения в прод мог лидить именно ты. Это покажет самостоятельность и подарит чувство “Да, этому чуваку можно доверить большое дело”

2. Работай в команде
Как правило, затаскивать большие штуки в одиночку - крайне сомнительная затея. Если ты работаешь в стартапе, может и получится. Но в любой крупной компании в одиночку шансы крайне малы. Бери себе в помощь джунов, найми стажера, делегируй часть работы соседней команде - будь креативен 👩‍🎨

3. Изучи лучше всех в компании конкретную область
Эта область может быть небольшой, но все в команде + многие руководители должны считать тебя лучшим экспертом в ней. Как правило, этого можно достичь либо долгой и усердной работой, либо перенятием лучшего опыта индустрии: читать статьи , ходить на конференции. А луше делат ьи то, и другое

P.S. Читать статьи (хабр и медиум тоже!) - это не 1-2 в неделю, а хотя бы 10-15. Большинство из них bullshit bingo, поэтому помогут развиваться процентов 5 статей

Как определить, что у тебя получился этот пункт: к тебе стали чаще ходить за советом и звать на встречи по принятию решений:)

4. Придется научиться общаться 😄
Да-да пресловутые soft skills. Большинство миддлов сыпятся именно на них. Можно прокачивать навыки общения, начав вести регулярные встречи с бизнесом (если их нет - поставь срочно!). Из неплохих лайфхаков - выбери 2-3 синьор/лид людей из бизнеса и поставь им 1-1 раз в пару недель. И общаться научишься, и свою visibility поднимешь)
👍39🔥14💩1
Визуализация эмбеддингов из коробки 📦

Наконец появилась приятная библиотека spotlight для визуализации данных в ноутбуке без тысяч строк на matplotlib и seaborn

Самое приятное для меня: помимо классических визуализаций табличек, spotlight умеет в неструктурированные данные (картинки) и эмбеддинги!

В общем, буду активно тестить🤓
👍35🔥6🤔1💩1
Хорошо рабатаешь - хорошо отдыхай

Я вернулся из почти 3-ех недельного отпуска, и к его концу мне уже очень хотелось вновь начать работать)
За это время я не отвечал ни в каких чатах, не смотрел дэшборды и тп - все прекрасно работало надеюсь 😅

Чтобы все в команде могли спокойно уходить в отпуск и не уставать сильно без него, у меня есть 3 правила:

1. Не писать и не отвечать в чатах до 9 и после 19
Подождать 9 утра или следующего дня может практически любая проблема
Если у вас периодически падает сервис по ночам и нужно прям дежурить - только тогда явно выделяйте дежурных с доп окладами и регулярной сменой. И только до того времени, когда вы стабилизируете свой сервис - это должно стать фокусом, а не тех долгом в далеком беклоге

2. Хотя бы 1 выходной с нулевой терпимостью к анализу данных
Я имею в виду не только не работать (надеюсь, вы и так не работаете в сб-вс), но и не продумывать архитектуры, не проходить мощные курсы, не зарешивать кагл и тд

В начале карьеры или в течение месяца еще можно сделать исключение, но на долгосроке без полноценного отдыха ничего хорошего с вами не будет

Чтобы точно не работать в выходные:
- Не катите в прод в пятницу 😄
- Подкладывайте бэкапы на случай падения процессов / сервисов на выходных
- Работайте над стабильностью ваших сервисов

3. Ну прям совсем не работайте в отпуске
Я насильно кикаю с зум-встреч тех, кто пришел на них в свой отпуск. Пару раз кикал даже своих руководителей)
Нам кажется, что за неделю-две без нас компания никак не проживет, но в реальности - еще как проживет! И это довольно полезное наблюдения в том числе для делегирования
👍98🔥12👎3
Розыгрыш подписки телеграмм-premium

Вместе с Ромой из канала Start career in DS проводим конкурс розыгрыш 🤡

Мы оба работаем в Яндекс Лавке и делаем прогноз спроса, ценообразование и оптимизацию ассортимента круче. У Ромы на канале можно прочитать много всего интересного)
Please open Telegram to view this post
VIEW IN TELEGRAM
🤡10❤‍🔥4🔥31
Forwarded from Start Career in DS
This media is not supported in the widget
VIEW IN TELEGRAM
❤‍🔥13🤡8
Наконец вышел видос на ютубе!

Давненько уже мы встретились с Сашей - автором @datafeeling и записали живой разговор про карьеру в ML
Долго монтировали все это дело, и теперь вы можете посмотреть

➡️ Выпуск на ютубе

P.S. Качество звука так себе, потому что это наш первый опыт самостоятельной записи на камеру 🙃
💩14🔥9🤔3🥴1
GPT-4 захватывает мир, в то же время..

Поиск Гугла ломается при добавлении цвета “Rose”. Начинает выдавать вообще не ML-иконки:)

У меня такому феномену 4 объяснения-гипотезы:
- Поиск Гугла не учитывает контекст последних запросов (до этого гуглил “ml icon”)
- Поиск Гугла не учитывает персональный вектор пользователя (странно парню рекомендовать пусть в спорных кейсах косметику)
- Что-то ломается из-за поиска по специфичному домену ML
- Popularity bias во всей красе (домен косметики явно популярнее ML)

Знатоки NLP и поиска, что думаете? ⬇️
👍21🤔8💩6🥴3
Мои итоги года, 2023

Почему сейчас? Под новый год вы утоните под постами с итогами и будет не до моего, ну а еще мне как раз исполнилось 27, я ровно 1 год проработал в Яндексе и пришли результаты ревью:)

Работа
Было несколько стримов, где нужно было дойти от 0 к 1. В итоге где-то это удалось, где-то мы убежали уже дальше от 1 к 20-30 (например, в прогнозе спроса). Ну а в одном стриме не вышло дойти до 1, мы пивотнулись и идем снова от 0 к 1. Суммарно, выглядит, что все идет здорово - даже получил повышенную оценку на ревью. Но не все прошло идеально, и я долго думал, чем отличались успешные стримы от не очень успешных:
- В успешных стримах прям все-все на старте смогли засинкаться, что такое целевая картина / успех. Если этого не сделать, то придется делать "не совсем то", и хорошо если потом получится пивотнуться, а не просто закрыть стрим
- Чем больше возьмете на себе ответственности, тем быстрее пойдете - парадокс, но работает. Если ваша команда и модели пилит, и за бизнес-метрики отвечает, и роудмап составляет - вряд ли что-то может вас затормозить 🚀

Внезапно нашел себе хобби в ML - изучаю достижения 2022г+ в CV classification/segmentetion. При этом сколько раз уже пытался взяться за изучение GPT-3/4 и другие SOTA в NLP, но каждый раз это было фиаско: быстро становилось скучно. А когда нашел интересную мне область - сразу хочется самому читать SOTA статьи. А всплыл такой интерес к CV, когда я несколько месяцев не мог выбрать комод и думал: ну неужели никто не научился не то что auto-подбирать мебель в интерьер, но хотя бы нормально классифицировать все атрибуты? Ну в общем, мало кто научился) Если попробовать поискать на популярных маркетплейсах что-то сложное, а-ля комбинацию стиль-цвет-размер-детали, то даже с фильтрами... работает так себе. Вбейте "Низкий комод в стиле лофт с графитовыми ручками" в поисковики маркетплейсов, посмотрите, что выйдет 😄 Жду момента, когда психану, и сам запилю классификацию атрибутов мебели по фото, чтобы уже выбрать несчатный комод))

Личное
В этом году я женился - и это самое лучшее решение, прям серьезно всем рекомендую, если нашли подходящего человека!) Ну и подготовка к свадьбе + сам день на самом деле очень веселое мероприятие

Побывыл в 3 почти крайних точках Евразии - на востоке (Курилы), западе (Португалия) и юге (Шри-Ланка). А вообще, пожил как минимум по неделе в 14 странах! Исполнил 2 большие мечты - побывать в замке-острове Мон-Сен-Мишель и побродить по развалинам древнего Рима.
Как оказалось, исполнять мечты вполне посильная задача - главное этим основательно заняться) Условно, можно в разы снизить стоимость поездки, если купить билеты заранее и собрать компанию, чтобы пошерить большое жилье. Шок, но в некоторых странах даже с учетом перелета я тратил меньше чем в Москве

Спорт и здоровье
Тут все достаточно неоднозначно. С одной стороны попробовал серф и кайт-серф, и едва на вошел в топ-100 полупрофи в России по теннису. С другой - появились сразу 2 травмы, причем внезапно не от экстремальных видов спорта, а от относительно "безобидных": Серф и теннис. В общем, если пробуете новый вид спорта, то отнеситесь к этому серьезно: с первого взгляда надо просто ехать на волне под солнышком, а в реальности огромную часть времени эта самая волна месит тебя с песком (и хорошо если с ним, а не рифами). Так что следующий год видимо будет годом здоровья - пора, уже почти дед в 27 😅
🔥95👍138
ML-щик в Телеграм на полставки

Телеграм выкатил рекомендации похожих каналов - ну наконец-то!) Многие уже ждут рекомендательную ленту, но давайте подумаем над менее очевидными реками

Судя по всему, сейчас главная метрика - доля premium пользователей, которые помогают телеге зарабатывать. Поэтому будем думать над рекомендациями, которые можно вставлять как доп фичи в премиум

Вторая по важности метрика на мой взгляд - это СAC подписчика для авторов. Сейчас это порядка 80-100 руб за 1 подписчика - ну жесть же! Крайне сложно стать популярным автором качественного контента, не продавая курсы или еще что: просто не будет 1 🍋, чтобы купить 10к подписчиков. А без качественных каналов где-то плачет ретеншен

Итого, идеальные рекомендации ведут на новый для пользователя канал + он готов сам за это платить. Интересно звучит, да?)

😱 При положительной реакции на пост 👍/🔥 показывать схожие посты в других каналах

Понравилась новость про GPT-4 - получаешь другие отборные новости по этой же теме. Актуально тем, кто хочет погрузиться внутрь темы. Ну или бесконечно смотреть смешные мемасы - сейчас для этого приходится залезать в инсту:)

Из плюсов такой фичи: очень ненавязчиво. Показывают реки только тогда, когда пользователь явно дал фидбек на пост + так легче рекомендовать что-то релевантное в данный момент

😱 Официальный бот-саммерайзер постов за день, присылает 3-5 саммери, сгруппированных по темам (мемасики, спорт, ML и тп)

Уже сейчас канал читают, если он попал в условные топ-10 у человека. А каналов на 1 человека уже >100. Накидывать юзеру еще больше каналов не всегда имеет смысл. А вот делать саммери каналов (можно даже и каналов из архива) - вот тут другое дело! В конце саммери можно писать топ каналов, из которых собрали эти самые саммери

В итоге, и ленту человеку миллиардом каналов не засоряем (можно вообще все в архив сложить), и время экономим. Ну и за такое не грех и купить premium подписку: Я вот с радостью бы читал саммери своих 50+ каналов про ML

А какие рекомендательные фичи сделали бы вы в телеге?)
🔥28👍5👎2💩1🥴1
Саша из @datafeeling сделал прикольного бесплатного бота для генерации resume-style картинок по обычным фоткам - @avatar_resume_bot

Я потестил - зашло, поэтому рекомендую попробовать)

Из прикольного:
- Работает с фотками почти любого качества
- Убирает наушники, капюшон и прочие артефакты
- Можно стилизовать (выбирать цвет волос, например)

Но может несколько поменять ваше лицо - надо нагенерить 3-5 фоток, чтобы выбрать похожую на себя генерацию
🔥29👍6👎31🤯1
Задача персональных рекомендаций

Сегодня наткнулся на интересный пост про распространённую проблема в рекомендательных системах — недостаток персонализации, когда показываются в основном популярные и не очень релевантные пользователю товары. В ML-сообществе проблема известна как popularity bias


Я бы чуть расширил тему, подумав, а что и как вообще можно рекомендовать людям? Какие "стратегии" рекомендаций есть?

1. Те кто купил товар Х, также вероятно купят товар Y
Прям классика рек систем - решается обычно через разложение матрицы user-item, например через SVD / ALS

В идеале, если юзер посмотрел фильм "Железный человек", то ему может порекомендоваться другой фильм саги "Мстители"

2. Рекомендуй похожие товары на то, что юзер уже купил
Идея клевая, а с реализацией.. все сложно 😅

Наверняка после покупки кухонного стола вам еще месяц везде рекомендовались столы, да? Это те самые "похожие" рекомендации, которые плохо сварили.
При этом через месяц после покупки стирального порошка вполне валидно рекомендовать даже тот же порошок!

3. Повторные покупки
Какие-то товары можно покупать много раз (стиральный порошок, еду, и тп). Уметь вовремя рекомендовать то, что юзер уже покупал - очень прибыльная задача

4. Последовательные покупки
То, что может создавать wow-эффект, чуть ли не верх мастерства, но я практически нигде не видел годной реализации
Вы купили кухонный стол (вероятно, обустраиваете кухню) - рекомендуем стулья, затем скатерть, затем тарелки с кружками и тп

5. Рекомендации популярных и трендовых товаров
Быт ьможет пользователь новый и вы еще ничего о нем не знаете. Или пользователь сам не знает еще, чего он хочет: в таких кейсах круто рекомендовать популярные или трендовые товары

В начале хайпа селфи палок вряд ли много кто даже знал о них. Но показав, что у вас они есть - вы вполне могли привлечь пользователя к покупке
👍31🔥9🤮1
Официально безработный ушел в саббатикал до февраля

В Яндекс.Лавке было много всего интересного, очень клевая команда, но впереди ждет еще бОльший челлендж! Подробности будут позже, ну а пока я очень радуюсь, что смогу отдохнуть целый месяц перед новой работой: ищите меня на побережье Вьетнама 🌴

Вокруг уже несколько людей взяли саббатикал не на 1 месяц, а на 3/6 или даже год! Причем пока все с очень положительными отзывами и довольно занятными карьерными переходами после него. Похоже он становится market normal

А вы брали / планируете саббатикал? И чем занимались в нем (особенно если 6 мес+)?
Please open Telegram to view this post
VIEW IN TELEGRAM
🎄58🔥19👍11😢53
Обычно не люблю считать стату канала за год, но tgstat тут все сделал за меня

>200К просмотров моих постов в 2023 - просто шок 🤯

Еще бОльший шок - 2.5К пересылок

Похоже, становлюсь инфлюенсером на минималках 😅
28🔥18
GPT-4 не особо впечатлил меня

Весь прошлый год хайповали LLM-ки и GenAI. Которые вроде крутые, но в массовое внедрение в бизнесы пока не вошли. Шок, но даже массовой замены поддержки на ChatGPT пока не случилось

В это же время мимо меня прошел релиз DINO-v2 🦕
И вот он уже очень меня очень удивил

Self Supervised Learning на картинках
Вдумайтесь: мы просто показали нейронке картинки без лейблов, аннотации текста и вообще чего-то еще, и получилось выучить SOTA фичи! Бьет даже OpenCLIP в zero-shot сетапе

Широта применения
Работает для классификации, сегментации, оценки карты глубины и кучи других задач

В общем, я бы ставил на подобные self-supervised encoder модели для применения в бизнесе, чем на gpt-like (вспомните бум BERT). Ну а пока можете потыкать демо DINO-v2

P.S. К посту прикреплены скрины оценки карты глубины, сегментации объектов и матчинга точек между 2умя картинками
🔥25👍10🗿4🥴21