ML for Value / Ваня Максимов – Telegram
ML for Value / Ваня Максимов
5.59K subscribers
202 photos
1 video
1 file
121 links
Путь от ML-модели до Value для компании | RecSys, Search, LLM, Pricing и CLTV

Ваня Максимов, @Ivan_maksimov
Head of AI | Recsys, search, llm @Y.Market, ex-WB, ex-Delivery Club

Консультирую компании, Веду курсы
Публикую релевантную рекламу
Download Telegram
Вы не готовы, пацаны

Прочитал сегодня очередной пост про быстрые итерации, lean startup, все дела. Ощущение, что уже все хотят проверять по 300к гипотез в наносекунду. Но, по факту, мало кто к этому готов

2 А/В в месяц ломают хребет B2B-стартапам
Возникают риски для клиентов - нестабильный продукт, нужно обьяснять изменение метрик даже третьего порядка.
Внезапно оказывается, что эксперименты могут стоить денег! Не только потенциальная потеря метрик, но и косты на те же GPU. А минимальный бюджет на них выделить забыли
А еще и логгировать все данные нужно корректно: если у вас теряется 10% логов, тооо замерить эффект в +5% вряд ли получится

20 А/В - тестируют аналитическую культуру средних компаний
Неожиданно, но 20 А/В в месяц означает, что в среднем каждый день нужно принимать решение по завершившемуся АВ.
Это означает: корректно разводить аудиторию между АВ, пофиксить баги в сборе данных, сделать автоматические скрипты расчета всех метрик, договориться что все в компании смотрят на однин и тот же набор метрик и версию расчета конверсии, договориться о размене метрик...
Ну и самое главное: научиться по готовому анализу быстро принимать бинарное решение: катим в прод / нет.
А нет, погодите, еще при выкатке в прод фиксить все конфликты, накопившиеся за период экспа + костыли эксперимента превращать в продакшен-код:)

200 А/В - проверяют все процессы в IT-гигантах
Столько экспериментов в месяц означает, что их массово проводят все команды: продукт, маркетинг, логистика и тп. Следить за всеми невозможно. Тут придется налаживать процессы на уровне всей компании, чтобы проверка гипотез была полезной, а не запутывала все еще больше

Влияют ли эксперименты разных команд друг на друга? Одни катают экспы по 5 дней, другие только на сегменте ios, третьи показывают в копеечном экспе +30% выручки -- а каким экспериментам мы вообще можем доверять?
Придется построить плафторму А/В. Придется договариваться о метриках. Придется говорить, что в А/В маркетинг принес +3% клиентов, а не атрибуцировал к открывшим пуш 60% заказов

А вам оно надо? 😂

В общем, lean startup и быстрая проверка гипотез - это здорово, я сам очень топлю за это. Но будьте готовы, что нужно вложить немало усилий и денег, чтобы все это действительно приносило пользу

❤️ - В моей компании идет 200+ АВ тестов в месяц
🔥- 20-200 АВ
👍 - 2-20 АВ
😀 - Живем без АВ и счастливы
😁6346👍37🔥14🥴6
LLM ради денег, а не хайпа

Наконец, многие начали задумываться, приносят ли LLM-проекты реальную прибыль (пора перименовываться в LLM4Value 💀). По ощущениям:

~5% LLM и правда приносят прибыль
~20% примерно также эффективны по деньги-качество как и более простые решение (да-да, регулярки)
~75% адски жгут бюджеты и веру в скорый AGI

Хочется поскорее узнать о набитых шишках и провальных llm-инвестициях, чтобы не наступать на грабли

Конференция Conversations обещает быть как раз таким местом: много докладов про экономику LLM-проектов
5 декабря, оффлайн в Москве и онлайн отовсюду

Какие анонсы докладов меня заинтриговали:

- GenAI в разработке: как внедрять генеративные технологии в вашей самой дорогой команде и считать профит в деньгах и других метриках. Григорий Бездольный, Axenix
- LLM для слов, MCP для цифр: как можно оптимизировать экономику проектов с помощью MCP-серверов. Иван Четвериков, Raft
Как я и говорил, деньги-то начинают считать!)

- Автоматизация на грани: почему LLM-проекты терпят фиаско и как этого избежать? Дмитрий Легчиков, 2ГИС

Надеюсь на доклад в факап-митап стиле. Обычно фейлы идут из-за "классических" проблем с данными (нет нормального val dataset, итераций улучшения), таргетом (да-да, для llm его надо еще более строго определять) и несходимости экономики LLM-проекта

- AI-боты вместо звонков: как управлять диалогом с помощью LLM и масштабировать клиентский сервис. Александр Жариков, МТС
Имхо, ai чат-боты в поддержке - одна из немногих сфер положительного ROI от LLM

Еще будут доклады от Яндекс, Т-Банк, Just AI, Plata card и не только.

Полную программу можете посмотреть на сайте.
И там же взять билет со скидкой 10% по промокоду CVS25mlVm

Реклама. ООО «Маинд Крафт» ИНН: 7813286694 erid: 2W5zFJhLDUU
15👍3👎3🔥1
LLM х RecSys = ?

Почти все продакшен рекомендации состоят из 2ух частей: стабильные предпочтения пользователя + рекомендации по последним взаимодействиям

До недавних пор основной прогресс был за счет последних взаимодействий

-> Переход к real-time рекомендациям
-> Похожие товары на последние клики
-> SLIM/EASE по последним действиям
-> SASRec
-> Даже модный HSTU в основном опирается на последние действия


При этом стабильные предпочтения моделировались простым подходом вроде ALS над покупками за последний год - и было норм. Но в 2025 году вышло штук 5 статей от крупных компаний про учет стабильных предпочтений юзера через LLM с приличными приростами бизнес-метрик

И в вот этот кейс применения LLM я вполне верю (и он даже самоокупается!):

- Стабильные предпочтения пользователя по определению редко меняются.
Можно прогонять LLM лишь раз в неделю и только по юзерам с новыми действиями = не так много запросов к LLM + тайминги ответа не важны

- Нетривиальная связь покупки товара Х и интереса юзера.
Например, купил палатку -> вероятно, есть интерес ко всему походному (одежда, экипировка, сублиматы и тп), а не только палатки и вокруг них (условно, колышки для палатки и ночной фонарь в нее). ALS такую взаимосвязь не выучит, а LLM - вполне

- Особенность рексис
К
ак правило, за год-два почти все товары (и их item_id) в базе обновляются. Фактически это означает, что модели, завязанные на item_id очень быстро устаревают = плохо работают с учетом интереса юзера на горизонте 1-3 года. И в этом проблема ALS.
Но LLM работают с текстом (название + описание), который все еще актуален и спустя 3 года — это позволяет LLM лучше «пережить» обновление товаров (и item_id) с течением времени

В совокупности, эти 3 фактора привели к буму LLM в рекомендациях в 2025г. Но почти только в рекомендациях на основе стабильных предпочтений. В учете недавней истории все еще царят SASRec и HSTU

Занятные статьи про LLM для учета стабильных предпочтений в рексис: RecGPT от Taobao, моделька от LinkedIn, и отчасти PLUM от Google

В общем, некоторый LLM-прорыв имеется 🚀
👍2712🤯4👎3🙉3
➡️ Навигация по каналу v3

На связи Ваня Максимов @Ivan_maksimov - AI & Analytics Head в Яндекс.Маркете, 10+ лет в DS

Сложилось сразу 2 фактора: канал дорос до 5.5К подписчиков и наступило аж 400 дней на новом месте работы -- пора сделать апдейт про канал и меня

Чем я занимаюсь?
Магия дискавери: помогаю найти неочевидные и полезные товары в Я.Маркете.
На фотках к посту 3 неочевидных товара, которые я нашел в своих же рекомендациях

Кстати, "магия дискавери" - реальное название одной команды в я.картах!

Поформальнее, руковожу командами AI для персонализации и продуктовыми аналитиками:
60% - рексис: DL + классика + аналитика
20% - поиск и crm: персональное ранжирование + аналитика
15% - content intelligence с LLM, скажем так
5% - реклама

До этого из области RecSys построил с нуля все рекомендации в Delivery Club, внедрил R&D в Wildberries
А еще активно зарабатывал деньги для компаний классическим ML: оптимизация цен и промо-акций, автоматический заказ товаров на склады, планирование смен курьеров. Ну и конечно А/В тестировал все это дело! Довелось даже построить 2 платформы А/В: в Delivery Club и Лавке

На канале пишу о том, как преодолеть путь от ML модели до реального Value для бизнеса. И какие грабли я собрал на этом пути за 10 лет


👍 Самые залайканные / обсуждаемые посты с хэштегами
- Как впихнуть все интересы пользователя в один экран приложения? Новинки в DL RecSys: ARGUS-1B #recsys
- Серия про оптимизацию цен на товары #pricing
- Прогноз спроса и метрики регрессии: от RMSE до WAPE. Сколько товаров заказать на склад? #timeseries
- 13 способов ускорить АВ тест или “не CUPED-ом единым” #ab
- 70% фейлят ML system design собеседование #hiring #system_design
- Что тебя ждет при переходе team lead —> head of ML #career


💡Написать мне: @Ivan_maksimov
Можно позвать меня рассказать что-то интересное на конференции или в вашей компании, обсудить занятную ml-задачу, или проконсультироваться на счет ml-проекта
👍33🔥1664😢2
С наступающим Новым Годом 🎄🎅

Уходящий год выдался очень насыщенным: я сильно погрузился в lifelong рекомендации с огромным контекстом истории юзера (argus и llm x recsys), пробовал дружить персонализацию и промо (тут еще многое впереди!), расширялся в content intelligence, crm и поиск

А еще много путешествовал и тренировался в одном из топ теннисных центров на Тенерифе: немало последил за тренировками игроков топ-30 мира и сам сильно прокачался. В общем, было насыщенно!

Желаю, чтобы в 2026 у вас было еще больше впечатлений и чтобы исполнились все ваши ML-ные мечты: вкатиться в IT или вырасти в навыках/грейде, опубликовать статью на А* конфе, обучить SOTA модель, найти свое призвание и идеальную компанию

Ну и чтобы модельки учились, деньги мутились - ml4value все же 👍
Please open Telegram to view this post
VIEW IN TELEGRAM
37👍18🎄9👎1🤣1
[1/3] Что случилось в мире рекомендаций и поиска за 2024-25гг?

За последние 2 года в мире recsys идет революция не меньше изобретения attention и gpt. С интересом наблюдаю и применяю многое в работе - хочу поделиться, что происходит в нашем мире:)

1. Large Recsys Models
LRM, получается? 😅

Еще год-два назад SOTA SASRec работал с максимум 512 последними действиями (заказы, корзины, лайки, клики) пользователя. Естественно, у многих юзеров даже за 6 мес действий больше, а у активных контекст переполнялся за 1 месяц

И вот вышла революционная статья Actions Speak Louder than words с генеративной recsys моделью HSTU-8к. Основная фишка: меняем парадигму обучения с next action prediction на генеративную. По факту, чуть по-другому собираем датасет и эффективнее считаем матричные произведения

Это позволяет ускориться х5-х15 раз (снижается сложность О(seq_len^3) до О(seq_len^2). И, собственно, скейлиться до длины последовательности в 8к и размера модели в 1.5В параметров

Хайп HSTU подхватили и другие компании: Вышли более эффективные реализации вроде Argus-8k от Яндекса (мы в Я.Маркете тоже его используем), модели с 100k контекстом от Kuaishou и другие

2. Маленький «словарь» товаров с Semantic IDs 📕
Годами область RecSys отличалась от NLP по факту размером словаря. В NLP - это 30-100к благодаря эффективным токенайзерам, а в рексис 10-100М, тк «слово» = товар, а уникальных товаров много

Эта проблема мешала масштабированию моделек, холодному старту, качеству обучения и еще в десятках мест поменьше

Рисерчеры из Google придумали Better Generalization with Semantic IDs. Берут контентные вектора товаров (текст, картинка) и хитро последовательно кластеризуют их через RQ-VAE. Основная фишка в том, что финальный id товара = сумме id его кластеров

semantic_itemid = cluster_iter1 + cluster_iter2

Кластеров всего ~10-100K. Вуаля, наш словарь как у LLM — опять же можно масштабировать модели и делать генеративное обучение как в llm

3. Рекомендации в один шаг🦵
Классика рекомендаций: отбираем топ-1к товаров-кандидатов легкой моделью (обычно двухбашенная модель: вектор юзера х вектор товара + инференс через faiss). Затем переранжируем более тяжелой моделью. Из-за такой схемы на первом этапе кандидатогегерации могут теряться релевантные товары

OneRec объединили генерацию кандидатов, ранжирование и еще реранкер по разнообразию в один шаг! Честно говоря, сам еще продолжаю разбираться: там серия из 5 статей страниц на 200. Но это явно будет hot topic и в 2026

4. LLM-ки нашли свое место в RecSys 🧐
Нам долго обещали, что LLM заменят чисто рекомендательные модели, но нет. Попыток было много, в итоге пришли к компромиссу: LLM генерит «интерес пользователя» текстом (одежда для походов, декор в японском стиле), а более классические recsys модели - товары внутри этих интересов. Вариантов реализации много, мне нравится RecGPT: можно считать в оффлайн, не так много запросов к llm (ну как.. 10-100М, а не миллиарды-триллионы), можно прикручивать SGR и другие приятности


Хотя бы одно из этих улучшений внедрено в прод хорошо если в 10-20 компаниях в мире, с огромными приростами метрик. Так что сейчас - самое время внедрять это у вас, если еще не успели!)

В следующей части будут продуктовые recsys & search изменения: без статей, но с картинками 🖼
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4616🆒4👎3🔥3
[2/3] Продуктовые изменения в мире recsys & search и около них за 2024-25гг
Больше про маркетплейсы, такая уж специфика у меня


1. VR-примерка одежды у крупных продавцов (Zara, ASOS)
Наконец-та!

Убийца маржи всех маркетплейсов (особенно fashion) - возвраты. Если их заметно снизить, то ecom вполне может совсем уничтожить оффлайн-магазины

Обычно возврат идет после «примерки» одежды или товара в интерьере. В 2025 появились наконец приличные open-source virtual try-on модельки и компании стали их понемногу внедрять. Пока все же в тестовом режиме (фото 1)

2. PUGC - Professional user generated content
Ощущение, что уже 50+% карточек товаров и отзывов сгенерированы LLM-кой: пользователям нужны пруфы, что товар хороший. Тут в бой идет контент от экспертов (PUGC)

В Lazada вместо фотки товара уже по дефолту стоит его видео-обзор от продавца (фото 2)

В Китае процветает реинкарнация магазина на диване: social ecom

В России эта история пока не особо летит, но посмотрим, что нам сулит Новый год

3. Казино и игры в каждый продукт
Дают возможность получать баллы за заход в приложение/игры внутри и крутить колесо призов - обычно, случайная скидка на категорию или бренд

Механика простая, но прилично растит частотность. Есть в Lazada, Озоне, Я.Маркете, вот недавно запустилась даже в Золотом Яблоке! (Фото 3-5)

4. Маркетплейсы в GPT и GPT в маркетплейсах
Самое сладкое оставил в конце

General LLM заходят в ecom/кино/книги и другие классические области рексис и поиска. Посоветоваться с llm-кой перед крупной покупкой или выбрать с ней сериал на вечер становится нормой. Сами AI-браузеры стали делать лендинги для товаров прямо в результатах своих ответов: первая заметная коллаба случилась между Perplexity и Shopify (фото 6-7)

Но и сами маркетплейсы внедряют AI-ассистенты у себя. Мне пока заходят точечные юзкейсы: выбор подарка, уточнение про товар, сравнение товаров и тп. Никак уж не могу не упомянуть наш ai-ассистент в Я.Маркете (фото 8)

Интересно, кто в итоге победит в этой битве? Или каждое решение займут свою нишу?

5. Супер-пупер аппы
Поиск информации агрегируется в супераппах (да, chatgpt - тоже суперапп). Думаю, года через 3-4 около 80% всей потребляемой информации будет приходиться на ~10 супераппов (пара соцсетей, мессенджер, маркетплейс, банк и может еще пара сервисов). И сейчас многие пробуют таким супераппом стать или усилить существующий апп

Этот год запомнился попыткой WB стать супераппом: они купили Рив Гош, тревел-оператора Fun&Sun, строят отель в Египте, ну и конечно запустили Wibes (фото 9)

Еще Яндекс.Go не так заметно добавил много новых сервисов (бери заряд, межгород, аптеки, помощник) и кросс-сервисного ai-помощника, пока посмотреть можно через лист ожидания (фото 10)

Ничего не имею против супераппов - это хороший способ привлекать и монетизировать аудиторию. Посмотрим, что из всего этого выйдет 🍿

Дайте знать, интересно ли в канале читать не только про ML, но и про продукт

❤️ - кайф и про продукт
👍 - норм, если не слишком часто
👎 - только ML, только хардкор
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
75👍16👎85
[3/3] Тщетные надежды и мечты

Очень надеялся, что в рексис или поиске будет прорыв в этих темах в 2025, но он пока не случился

1. Economic recsys research
А именно, внятное объединение recsys + pricing/promo в единую систему

Даже в самом простом виде: продавец дал скидку 30%, но в кандидаты товар чаще попадать не стал, тк обычные двубашенный кандген ничего про скидку не знает

В более сложном: мы можем сами давать скидку + наливать трафик на товар рекомендациями. Как правило, просто скидка на не самый популярный товар не работает, тк никто о ней не знает. А наливание трафика без скидок - непонятно, в чем доп вэлью (и прирост конверсий) пользователя

2. Крутые решения по сбору наборов/образов

В сопутствующих товарах все еще рулят статистические методы. А в визуальной сопутке (одежда) дальше статьи 2017 года от ASOS на базе сближения векторов товаров от картиночного энкодера, мир особо не продвинулся

3. Long-term eval
- Почти все текущие датасеты имеют feedback loop: надо предсказать позитивы, смещенные на то, что показывала прод модель рекомендаций
- Все же мы эвалим точность next action или в лучшем случае actions за последующие 1-2 недели. А вот long-term эффект на LTV считает мало кто и особо про это не рассказывают (тут конечно nda, все дела)
- RL в recsys, который мог бы все это решить, все же пока скорее мертв в нашей сфере 💀

А на какие прорывы в 2026г надеетесь вы?
🔥14👍2