ML for Value / Ваня Максимов – Telegram
ML for Value / Ваня Максимов
5.59K subscribers
191 photos
1 video
1 file
119 links
Путь от ML-модели до Value для компании | RecSys, Search, LLM, Pricing и CLTV

Ваня Максимов, @Ivan_maksimov
Head of AI | Recsys, search, llm @Y.Market, ex-WB, ex-Delivery Club

Консультирую компании, Веду курсы
Публикую релевантную рекламу
Download Telegram
GPT-4 захватывает мир, в то же время..

Поиск Гугла ломается при добавлении цвета “Rose”. Начинает выдавать вообще не ML-иконки:)

У меня такому феномену 4 объяснения-гипотезы:
- Поиск Гугла не учитывает контекст последних запросов (до этого гуглил “ml icon”)
- Поиск Гугла не учитывает персональный вектор пользователя (странно парню рекомендовать пусть в спорных кейсах косметику)
- Что-то ломается из-за поиска по специфичному домену ML
- Popularity bias во всей красе (домен косметики явно популярнее ML)

Знатоки NLP и поиска, что думаете? ⬇️
👍21🤔8💩6🥴3
Мои итоги года, 2023

Почему сейчас? Под новый год вы утоните под постами с итогами и будет не до моего, ну а еще мне как раз исполнилось 27, я ровно 1 год проработал в Яндексе и пришли результаты ревью:)

Работа
Было несколько стримов, где нужно было дойти от 0 к 1. В итоге где-то это удалось, где-то мы убежали уже дальше от 1 к 20-30 (например, в прогнозе спроса). Ну а в одном стриме не вышло дойти до 1, мы пивотнулись и идем снова от 0 к 1. Суммарно, выглядит, что все идет здорово - даже получил повышенную оценку на ревью. Но не все прошло идеально, и я долго думал, чем отличались успешные стримы от не очень успешных:
- В успешных стримах прям все-все на старте смогли засинкаться, что такое целевая картина / успех. Если этого не сделать, то придется делать "не совсем то", и хорошо если потом получится пивотнуться, а не просто закрыть стрим
- Чем больше возьмете на себе ответственности, тем быстрее пойдете - парадокс, но работает. Если ваша команда и модели пилит, и за бизнес-метрики отвечает, и роудмап составляет - вряд ли что-то может вас затормозить 🚀

Внезапно нашел себе хобби в ML - изучаю достижения 2022г+ в CV classification/segmentetion. При этом сколько раз уже пытался взяться за изучение GPT-3/4 и другие SOTA в NLP, но каждый раз это было фиаско: быстро становилось скучно. А когда нашел интересную мне область - сразу хочется самому читать SOTA статьи. А всплыл такой интерес к CV, когда я несколько месяцев не мог выбрать комод и думал: ну неужели никто не научился не то что auto-подбирать мебель в интерьер, но хотя бы нормально классифицировать все атрибуты? Ну в общем, мало кто научился) Если попробовать поискать на популярных маркетплейсах что-то сложное, а-ля комбинацию стиль-цвет-размер-детали, то даже с фильтрами... работает так себе. Вбейте "Низкий комод в стиле лофт с графитовыми ручками" в поисковики маркетплейсов, посмотрите, что выйдет 😄 Жду момента, когда психану, и сам запилю классификацию атрибутов мебели по фото, чтобы уже выбрать несчатный комод))

Личное
В этом году я женился - и это самое лучшее решение, прям серьезно всем рекомендую, если нашли подходящего человека!) Ну и подготовка к свадьбе + сам день на самом деле очень веселое мероприятие

Побывыл в 3 почти крайних точках Евразии - на востоке (Курилы), западе (Португалия) и юге (Шри-Ланка). А вообще, пожил как минимум по неделе в 14 странах! Исполнил 2 большие мечты - побывать в замке-острове Мон-Сен-Мишель и побродить по развалинам древнего Рима.
Как оказалось, исполнять мечты вполне посильная задача - главное этим основательно заняться) Условно, можно в разы снизить стоимость поездки, если купить билеты заранее и собрать компанию, чтобы пошерить большое жилье. Шок, но в некоторых странах даже с учетом перелета я тратил меньше чем в Москве

Спорт и здоровье
Тут все достаточно неоднозначно. С одной стороны попробовал серф и кайт-серф, и едва на вошел в топ-100 полупрофи в России по теннису. С другой - появились сразу 2 травмы, причем внезапно не от экстремальных видов спорта, а от относительно "безобидных": Серф и теннис. В общем, если пробуете новый вид спорта, то отнеситесь к этому серьезно: с первого взгляда надо просто ехать на волне под солнышком, а в реальности огромную часть времени эта самая волна месит тебя с песком (и хорошо если с ним, а не рифами). Так что следующий год видимо будет годом здоровья - пора, уже почти дед в 27 😅
🔥95👍138
ML-щик в Телеграм на полставки

Телеграм выкатил рекомендации похожих каналов - ну наконец-то!) Многие уже ждут рекомендательную ленту, но давайте подумаем над менее очевидными реками

Судя по всему, сейчас главная метрика - доля premium пользователей, которые помогают телеге зарабатывать. Поэтому будем думать над рекомендациями, которые можно вставлять как доп фичи в премиум

Вторая по важности метрика на мой взгляд - это СAC подписчика для авторов. Сейчас это порядка 80-100 руб за 1 подписчика - ну жесть же! Крайне сложно стать популярным автором качественного контента, не продавая курсы или еще что: просто не будет 1 🍋, чтобы купить 10к подписчиков. А без качественных каналов где-то плачет ретеншен

Итого, идеальные рекомендации ведут на новый для пользователя канал + он готов сам за это платить. Интересно звучит, да?)

😱 При положительной реакции на пост 👍/🔥 показывать схожие посты в других каналах

Понравилась новость про GPT-4 - получаешь другие отборные новости по этой же теме. Актуально тем, кто хочет погрузиться внутрь темы. Ну или бесконечно смотреть смешные мемасы - сейчас для этого приходится залезать в инсту:)

Из плюсов такой фичи: очень ненавязчиво. Показывают реки только тогда, когда пользователь явно дал фидбек на пост + так легче рекомендовать что-то релевантное в данный момент

😱 Официальный бот-саммерайзер постов за день, присылает 3-5 саммери, сгруппированных по темам (мемасики, спорт, ML и тп)

Уже сейчас канал читают, если он попал в условные топ-10 у человека. А каналов на 1 человека уже >100. Накидывать юзеру еще больше каналов не всегда имеет смысл. А вот делать саммери каналов (можно даже и каналов из архива) - вот тут другое дело! В конце саммери можно писать топ каналов, из которых собрали эти самые саммери

В итоге, и ленту человеку миллиардом каналов не засоряем (можно вообще все в архив сложить), и время экономим. Ну и за такое не грех и купить premium подписку: Я вот с радостью бы читал саммери своих 50+ каналов про ML

А какие рекомендательные фичи сделали бы вы в телеге?)
🔥28👍5👎2💩1🥴1
Саша из @datafeeling сделал прикольного бесплатного бота для генерации resume-style картинок по обычным фоткам - @avatar_resume_bot

Я потестил - зашло, поэтому рекомендую попробовать)

Из прикольного:
- Работает с фотками почти любого качества
- Убирает наушники, капюшон и прочие артефакты
- Можно стилизовать (выбирать цвет волос, например)

Но может несколько поменять ваше лицо - надо нагенерить 3-5 фоток, чтобы выбрать похожую на себя генерацию
🔥29👍6👎31🤯1
Задача персональных рекомендаций

Сегодня наткнулся на интересный пост про распространённую проблема в рекомендательных системах — недостаток персонализации, когда показываются в основном популярные и не очень релевантные пользователю товары. В ML-сообществе проблема известна как popularity bias


Я бы чуть расширил тему, подумав, а что и как вообще можно рекомендовать людям? Какие "стратегии" рекомендаций есть?

1. Те кто купил товар Х, также вероятно купят товар Y
Прям классика рек систем - решается обычно через разложение матрицы user-item, например через SVD / ALS

В идеале, если юзер посмотрел фильм "Железный человек", то ему может порекомендоваться другой фильм саги "Мстители"

2. Рекомендуй похожие товары на то, что юзер уже купил
Идея клевая, а с реализацией.. все сложно 😅

Наверняка после покупки кухонного стола вам еще месяц везде рекомендовались столы, да? Это те самые "похожие" рекомендации, которые плохо сварили.
При этом через месяц после покупки стирального порошка вполне валидно рекомендовать даже тот же порошок!

3. Повторные покупки
Какие-то товары можно покупать много раз (стиральный порошок, еду, и тп). Уметь вовремя рекомендовать то, что юзер уже покупал - очень прибыльная задача

4. Последовательные покупки
То, что может создавать wow-эффект, чуть ли не верх мастерства, но я практически нигде не видел годной реализации
Вы купили кухонный стол (вероятно, обустраиваете кухню) - рекомендуем стулья, затем скатерть, затем тарелки с кружками и тп

5. Рекомендации популярных и трендовых товаров
Быт ьможет пользователь новый и вы еще ничего о нем не знаете. Или пользователь сам не знает еще, чего он хочет: в таких кейсах круто рекомендовать популярные или трендовые товары

В начале хайпа селфи палок вряд ли много кто даже знал о них. Но показав, что у вас они есть - вы вполне могли привлечь пользователя к покупке
👍31🔥9🤮1
Официально безработный ушел в саббатикал до февраля

В Яндекс.Лавке было много всего интересного, очень клевая команда, но впереди ждет еще бОльший челлендж! Подробности будут позже, ну а пока я очень радуюсь, что смогу отдохнуть целый месяц перед новой работой: ищите меня на побережье Вьетнама 🌴

Вокруг уже несколько людей взяли саббатикал не на 1 месяц, а на 3/6 или даже год! Причем пока все с очень положительными отзывами и довольно занятными карьерными переходами после него. Похоже он становится market normal

А вы брали / планируете саббатикал? И чем занимались в нем (особенно если 6 мес+)?
Please open Telegram to view this post
VIEW IN TELEGRAM
🎄58🔥19👍11😢53
Обычно не люблю считать стату канала за год, но tgstat тут все сделал за меня

>200К просмотров моих постов в 2023 - просто шок 🤯

Еще бОльший шок - 2.5К пересылок

Похоже, становлюсь инфлюенсером на минималках 😅
28🔥18
GPT-4 не особо впечатлил меня

Весь прошлый год хайповали LLM-ки и GenAI. Которые вроде крутые, но в массовое внедрение в бизнесы пока не вошли. Шок, но даже массовой замены поддержки на ChatGPT пока не случилось

В это же время мимо меня прошел релиз DINO-v2 🦕
И вот он уже очень меня очень удивил

Self Supervised Learning на картинках
Вдумайтесь: мы просто показали нейронке картинки без лейблов, аннотации текста и вообще чего-то еще, и получилось выучить SOTA фичи! Бьет даже OpenCLIP в zero-shot сетапе

Широта применения
Работает для классификации, сегментации, оценки карты глубины и кучи других задач

В общем, я бы ставил на подобные self-supervised encoder модели для применения в бизнесе, чем на gpt-like (вспомните бум BERT). Ну а пока можете потыкать демо DINO-v2

P.S. К посту прикреплены скрины оценки карты глубины, сегментации объектов и матчинга точек между 2умя картинками
🔥25👍10🗿4🥴21
Пробую сделать персонализированную аватарку для канала

Решил поэкспериментировать со смешиванием своей фотки с чем-то еще в одном нехило известном GenAI приложении. Вчера фоткал мост в виде дракона, который изрыгает реальный огонь 🔥
Конечно захотел смешать свою фотку с этим чудом

Я ожидал все, что угодно: добавление кучи огня к моей фотке, перемещение меня в футуристический город, но получилось… ⬇️
😂
😁83🤣16🔥8🏆5😢3
Позиционирование канала ML4Value

Последнее время думаю, о чем же мой канал? Ведь ML4Value очень широкое понятие
Решил, что буду писать в основном про 4 вещи:

1. АВ тесты
Пожалуй, моя любимая душная тема) Без нее никакой связи ML и бизнеса получить не выйдет
И наибольшую известность мне принесло видео на YouTube "13 способов ускорить АВ тест: не CUPED-ом единым"

2. Recommender Systems
Вторая моя страсть ❤️‍🔥
Также планирую связать свою дальнейшую карьеру именно с recsys - так что будет много занятного материала

3. Value для бизнеса
Конечно же изначальную суть канал не потеряет) Подумываю даже о том, чтобы делать мини-обзоры на статьи из индустрии - предполагать, как это реально могло повлиять на бизнес, и выглядит ли АВ в статье корректным (спойлер - почти всегда нет)

4. Social / Entertainment
Надеюсь, немножко информации и про мою жизнь будет интересно - путешествия, номадство, может немножко про тимлидство:)


В связи с этим намечается опрос - стоит ли обновить название канала?
Варианты имеются такие:
- ML4Value - оставить как есть
- ML4SAVR (мл-фо-ЗАВР!, как диноЗАВР 🦖 ) = ML for Sequences, Ab-testing, Value and Recommendations
- ML4EVER = ML for Entertainment, Value, Experiments and Recommendations

Мне важно ваше мнение, поэтому запускаю опросник:)
👍25🤡7
Меняем ли название канала на..
Anonymous Poll
83%
ML4Value - Оставляем, как есть
10%
ML4SAVR - как диноЗАВР!
13%
ML4EVER
🔥1😁1