GPT-4 не особо впечатлил меня
Весь прошлый год хайповали LLM-ки и GenAI. Которые вроде крутые, но в массовое внедрение в бизнесы пока не вошли. Шок, но даже массовой замены поддержки на ChatGPT пока не случилось
В это же время мимо меня прошел релиз DINO-v2 🦕
И вот он уже очень меня очень удивил
Self Supervised Learning на картинках
Вдумайтесь: мы просто показали нейронке картинки без лейблов, аннотации текста и вообще чего-то еще, и получилось выучить SOTA фичи! Бьет даже OpenCLIP в zero-shot сетапе
Широта применения
Работает для классификации, сегментации, оценки карты глубины и кучи других задач
В общем, я бы ставил на подобные self-supervised encoder модели для применения в бизнесе, чем на gpt-like (вспомните бум BERT). Ну а пока можете потыкать демо DINO-v2
P.S. К посту прикреплены скрины оценки карты глубины, сегментации объектов и матчинга точек между 2умя картинками
Весь прошлый год хайповали LLM-ки и GenAI. Которые вроде крутые, но в массовое внедрение в бизнесы пока не вошли. Шок, но даже массовой замены поддержки на ChatGPT пока не случилось
В это же время мимо меня прошел релиз DINO-v2 🦕
И вот он уже очень меня очень удивил
Self Supervised Learning на картинках
Вдумайтесь: мы просто показали нейронке картинки без лейблов, аннотации текста и вообще чего-то еще, и получилось выучить SOTA фичи! Бьет даже OpenCLIP в zero-shot сетапе
Широта применения
Работает для классификации, сегментации, оценки карты глубины и кучи других задач
В общем, я бы ставил на подобные self-supervised encoder модели для применения в бизнесе, чем на gpt-like (вспомните бум BERT). Ну а пока можете потыкать демо DINO-v2
P.S. К посту прикреплены скрины оценки карты глубины, сегментации объектов и матчинга точек между 2умя картинками
🔥25👍10🗿4🥴2❤1
Пробую сделать персонализированную аватарку для канала
Решил поэкспериментировать со смешиванием своей фотки с чем-то еще в одном нехило известном GenAI приложении. Вчера фоткал мост в виде дракона, который изрыгает реальный огонь 🔥
Конечно захотел смешать свою фотку с этим чудом
Я ожидал все, что угодно: добавление кучи огня к моей фотке, перемещение меня в футуристический город, но получилось… ⬇️
Решил поэкспериментировать со смешиванием своей фотки с чем-то еще в одном нехило известном GenAI приложении. Вчера фоткал мост в виде дракона, который изрыгает реальный огонь 🔥
Конечно захотел смешать свою фотку с этим чудом
Я ожидал все, что угодно: добавление кучи огня к моей фотке, перемещение меня в футуристический город, но получилось… ⬇️
Позиционирование канала ML4Value
Последнее время думаю, о чем же мой канал? Ведь ML4Value очень широкое понятие
Решил, что буду писать в основном про 4 вещи:
1. АВ тесты
Пожалуй, моя любимая душная тема) Без нее никакой связи ML и бизнеса получить не выйдет
И наибольшую известность мне принесло видео на YouTube "13 способов ускорить АВ тест: не CUPED-ом единым"
2. Recommender Systems
Вторая моя страсть ❤️🔥
Также планирую связать свою дальнейшую карьеру именно с recsys - так что будет много занятного материала
3. Value для бизнеса
Конечно же изначальную суть канал не потеряет) Подумываю даже о том, чтобы делать мини-обзоры на статьи из индустрии - предполагать, как это реально могло повлиять на бизнес, и выглядит ли АВ в статье корректным (спойлер - почти всегда нет)
4. Social / Entertainment
Надеюсь, немножко информации и про мою жизнь будет интересно - путешествия, номадство, может немножко про тимлидство:)
В связи с этим намечается опрос - стоит ли обновить название канала?
Варианты имеются такие:
- ML4Value - оставить как есть
- ML4SAVR (мл-фо-ЗАВР!, как диноЗАВР 🦖 ) = ML for Sequences, Ab-testing, Value and Recommendations
- ML4EVER = ML for Entertainment, Value, Experiments and Recommendations
Мне важно ваше мнение, поэтому запускаю опросник:)
Последнее время думаю, о чем же мой канал? Ведь ML4Value очень широкое понятие
Решил, что буду писать в основном про 4 вещи:
1. АВ тесты
Пожалуй, моя любимая душная тема) Без нее никакой связи ML и бизнеса получить не выйдет
И наибольшую известность мне принесло видео на YouTube "13 способов ускорить АВ тест: не CUPED-ом единым"
2. Recommender Systems
Вторая моя страсть ❤️🔥
Также планирую связать свою дальнейшую карьеру именно с recsys - так что будет много занятного материала
3. Value для бизнеса
Конечно же изначальную суть канал не потеряет) Подумываю даже о том, чтобы делать мини-обзоры на статьи из индустрии - предполагать, как это реально могло повлиять на бизнес, и выглядит ли АВ в статье корректным (спойлер - почти всегда нет)
4. Social / Entertainment
Надеюсь, немножко информации и про мою жизнь будет интересно - путешествия, номадство, может немножко про тимлидство:)
В связи с этим намечается опрос - стоит ли обновить название канала?
Варианты имеются такие:
- ML4Value - оставить как есть
- ML4SAVR (мл-фо-ЗАВР!, как диноЗАВР 🦖 ) = ML for Sequences, Ab-testing, Value and Recommendations
- ML4EVER = ML for Entertainment, Value, Experiments and Recommendations
Мне важно ваше мнение, поэтому запускаю опросник:)
👍25🤡7
Меняем ли название канала на..
Anonymous Poll
83%
ML4Value - Оставляем, как есть
10%
ML4SAVR - как диноЗАВР!
13%
ML4EVER
🔥1😁1
Выводы про А/В-тестирование от Optimizely
Довольно известная плафторма АВ Optimizely выпустила репорт с анализом 127к экспов за последние 5 лет. И вот что они обнаружили
1. 88% экспериментов проваливаются
Да-да, лишь 1 из 10 ваших самых гениальных и продуманных идей в итоге растит метрики)
Эта цифра довольно хорошо согласуется и с репортами от крупнейших компаний (гугл, ютуб, амазон, airbnb)
2. Половина компаний проводит менее 34 экспериментов в год
Это очень МАЛО ~3 эксперимента в месяц. На моей практике в Delivery Club мы видели хороший суммарный эффект от АВ плафтормы на 10+ экспериментах в месяц. Ну и в конце концов разогнались до ~40-50 экспериментов в месяц (по данным optimizely это как у топ-3% компаний)
3. ~30% экспериментов используют метрику "Выручка". Но красится она в <1% случаев
В общем, думайте тщательно над выбором метрик - не берите просто самую верхнеуровневую! Как правило, почти всегда можно выбрать более узкую и специфичную для вашей фичи метрику (конверсию из действия Х в У, например). Для этого вам помогут деревья метрик и декомпозиция метрик
4. 10% экспов используют 4+ тестовые группы.. и несут х2 импакта - Тут есть вопросики 🤡
Среди 4+ вариантов без хороших поправок на множественное тестирование легко найти победителя, даже если его нет. Тогда конечно такие экспы будут *случайно* нести больше импакта. В общем, я бы покопался под капотом Optimizely - проверил, как они делают (и делают ли) поправку на множественное тестирование
Мое мнение - в 95% кейсов можно использовать 2 группы, в оставшихся 5% - 3 группы
5. Топ 5% АВ-тестов (всего 2 экспа из 34) приносят 50% импакта
Кажется, эпоха low-hanging fruits прошла. Нужно не бояться делать большие изменения и смотреть, что получится
Плюс, делать больше качественных экспериментов конечно!) Optimizely посчитали, что оптимально 1 разраб = не более 1 экспа в месяц
А какие выводы про АВ есть из вашего опыта?)
Довольно известная плафторма АВ Optimizely выпустила репорт с анализом 127к экспов за последние 5 лет. И вот что они обнаружили
1. 88% экспериментов проваливаются
Да-да, лишь 1 из 10 ваших самых гениальных и продуманных идей в итоге растит метрики)
Эта цифра довольно хорошо согласуется и с репортами от крупнейших компаний (гугл, ютуб, амазон, airbnb)
2. Половина компаний проводит менее 34 экспериментов в год
Это очень МАЛО ~3 эксперимента в месяц. На моей практике в Delivery Club мы видели хороший суммарный эффект от АВ плафтормы на 10+ экспериментах в месяц. Ну и в конце концов разогнались до ~40-50 экспериментов в месяц (по данным optimizely это как у топ-3% компаний)
3. ~30% экспериментов используют метрику "Выручка". Но красится она в <1% случаев
В общем, думайте тщательно над выбором метрик - не берите просто самую верхнеуровневую! Как правило, почти всегда можно выбрать более узкую и специфичную для вашей фичи метрику (конверсию из действия Х в У, например). Для этого вам помогут деревья метрик и декомпозиция метрик
4. 10% экспов используют 4+ тестовые группы.. и несут х2 импакта - Тут есть вопросики 🤡
Среди 4+ вариантов без хороших поправок на множественное тестирование легко найти победителя, даже если его нет. Тогда конечно такие экспы будут *случайно* нести больше импакта. В общем, я бы покопался под капотом Optimizely - проверил, как они делают (и делают ли) поправку на множественное тестирование
Мое мнение - в 95% кейсов можно использовать 2 группы, в оставшихся 5% - 3 группы
5. Топ 5% АВ-тестов (всего 2 экспа из 34) приносят 50% импакта
Кажется, эпоха low-hanging fruits прошла. Нужно не бояться делать большие изменения и смотреть, что получится
Плюс, делать больше качественных экспериментов конечно!) Optimizely посчитали, что оптимально 1 разраб = не более 1 экспа в месяц
А какие выводы про АВ есть из вашего опыта?)
👍24🔥12❤3
Зимовка в Азии: Вьетнам, Дананг 🇻🇳
Как и писал выше, в канале добавится немного постов про меня, номадство и другие social штуки)
Второй год провожу 1.5-2 месяца зимы в тепле и вообще об этом не жалею:) Был в прошлом году на Шри-Ланке, а в этом во Вьетнаме в Дананге - strongly recommended!
Дананг - Мекка digital nomad-ов во Вьетнаме
- Клевое и +- доступное жилье. Хорошая квартира на 2их будет стоить 600-1000$ в мес. Конечно можно и дешевле, но… не рекомендую:) В этом году это сильно дешевле, чем в Тае или Бали
- Куча хипстерских кафе (Puna и Bikini bottom❤️🔥 )
- Дананг - большой город с идеальным пляжем и инфраструктурой
- Тут можно заниматься теннисом (8/10) и серфингом (6/10) 🎾
- Много достопримечательностей в часе езды, мой топ-3: Древняя столица Хюэ, город ремесленников и фонариков Хойан, Мраморные горы 🏔️
Но есть пара моментов:
- Селиться нужно строго в розовой области на карте - 90% nomad-инфраструктуры именно там
- Без мопеда тяжело. Тут работает Grab такси, но тем не менее
- Это все же Азия. Поэтому можно встретить типикал караоке на всю улицу до 22, местные закусочные, рынки на каждом углу : кому-то заходит, а кому-то не очень 😅
В общем Дананг для зимовки - highly recommended
Как и писал выше, в канале добавится немного постов про меня, номадство и другие social штуки)
Второй год провожу 1.5-2 месяца зимы в тепле и вообще об этом не жалею:) Был в прошлом году на Шри-Ланке, а в этом во Вьетнаме в Дананге - strongly recommended!
Дананг - Мекка digital nomad-ов во Вьетнаме
- Клевое и +- доступное жилье. Хорошая квартира на 2их будет стоить 600-1000$ в мес. Конечно можно и дешевле, но… не рекомендую:) В этом году это сильно дешевле, чем в Тае или Бали
- Куча хипстерских кафе (Puna и Bikini bottom
- Дананг - большой город с идеальным пляжем и инфраструктурой
- Тут можно заниматься теннисом (8/10) и серфингом (6/10) 🎾
- Много достопримечательностей в часе езды, мой топ-3: Древняя столица Хюэ, город ремесленников и фонариков Хойан, Мраморные горы 🏔️
Но есть пара моментов:
- Селиться нужно строго в розовой области на карте - 90% nomad-инфраструктуры именно там
- Без мопеда тяжело. Тут работает Grab такси, но тем не менее
- Это все же Азия. Поэтому можно встретить типикал караоке на всю улицу до 22, местные закусочные, рынки на каждом углу : кому-то заходит, а кому-то не очень 😅
В общем Дананг для зимовки - highly recommended
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥35👍9❤7
3 всадника рекомендательного апокалипсиса
Сделать персональные рекомендации легко, но почти все системы настигают 3 проблемы
1. Оффлайн метрики, а не онлайн
Можно бесконечно долго оптимизировать ML-метрики типа recall@k, а в результате получить, например рекомендации очень релевантных пакетов или выдачу из одних утюгов
Далеко не всегда оффлайн метрики хорошо коррелируют с деньгами (онлайн): нужно очень хорошо постараться, чтобы найти связь
2. Каннибализация
Доля заказов из рекомендаций 60% - какие мы молодцы!
Нет)) Мы могли просто каннибализировать тот же поиск.
Могло стать даже хуже: каннибализировали поиск, где конверсия выше
На практике эффект ~1 к 10. То есть доля заказов из рек 60% - реальный прирост заказов vs без рек = 6%
Возможно для кликов/заказов из рек надо совершать меньше действий (скролл vs подумать над запросом, написать его, выставить фильтры). Но если юзер знает, что ищет (айфон 14 pro max), то он и без рек его найдет - поэтому в реках важно diversity, surprise
Вообще хорошо бы подумать, как сделать реки НЕ похожими на результаты поиска. YouTube например, убирает из данных для модели последний поисковой запрос даже!
3. Конверсия, а не деньги
Все мы любим оптимизировать конверсию: это понятно и не так сложно. Но реальный мир суров: можно вырастить конверсию и уронить средний чек - в итоге упадет выручка. А можно, например, рекомендовать супер релевантные товары, которые поедут из Южной Америки - и потерять деньги на логистике. В общем, деньги имеют значение 💰
@ml4value
Сделать персональные рекомендации легко, но почти все системы настигают 3 проблемы
1. Оффлайн метрики, а не онлайн
Можно бесконечно долго оптимизировать ML-метрики типа recall@k, а в результате получить, например рекомендации очень релевантных пакетов или выдачу из одних утюгов
Далеко не всегда оффлайн метрики хорошо коррелируют с деньгами (онлайн): нужно очень хорошо постараться, чтобы найти связь
2. Каннибализация
Доля заказов из рекомендаций 60% - какие мы молодцы!
Нет)) Мы могли просто каннибализировать тот же поиск.
Могло стать даже хуже: каннибализировали поиск, где конверсия выше
На практике эффект ~1 к 10. То есть доля заказов из рек 60% - реальный прирост заказов vs без рек = 6%
Возможно для кликов/заказов из рек надо совершать меньше действий (скролл vs подумать над запросом, написать его, выставить фильтры). Но если юзер знает, что ищет (айфон 14 pro max), то он и без рек его найдет - поэтому в реках важно diversity, surprise
Вообще хорошо бы подумать, как сделать реки НЕ похожими на результаты поиска. YouTube например, убирает из данных для модели последний поисковой запрос даже!
3. Конверсия, а не деньги
Все мы любим оптимизировать конверсию: это понятно и не так сложно. Но реальный мир суров: можно вырастить конверсию и уронить средний чек - в итоге упадет выручка. А можно, например, рекомендовать супер релевантные товары, которые поедут из Южной Америки - и потерять деньги на логистике. В общем, деньги имеют значение 💰
@ml4value
👍47🔥9❤4🤡2
ML4RecSys: что происходит? февраль 2024
Последнее время читаю про недавние прорывы в рекомендательных системах... и там все очень сомнительно
Даже не верится что в 2024 году в статьях с топовых конференций классические «стажерские» ошибки:
- неправильный train-test split
- сравнение с явно недо-тюнеными бейзлайнами
- выбор для сравнения только тех датасетов, где модель побеждает…
Поэтому выудить что-то явно работающее очень сложно 😕
Тем не менее, на мой взгляд, в адекватных статьях взлетели:
- Трансформеры для отбора кандидатов
- Разные стратегии поиска Hard negatives (покупка - позитивный таргет, но найти хороший негативный - занятная задача)
- Таргет более близкий к деньгам (не клики, а хотя бы клики дольше 10 сек)
Дальше уже разные топ компании репортят совсем разные вещи:
- У одних лучше encoder (BERT4Rec), у других - decoder модели (SASRec)
- Как будто огромное значение играет не архитектура, а выбор данных / как берут негативы / лосс
- В академии SOTA показывают модели с дополнительным contrastive loss, но в индустрии этого пока не видно
- Почти у всех проблемы метча оффлайн/онлайн метрик или рост конверсии + падения чека, но никто не говорит, как с этим справляется
- Многие внедряют разнообразие / novelty в рекомендации через постпроцесинг без всякого ML
- Как будто градиентый бустинг для ранжирования все еще на уровне с SOTA
В общем, пока инженерный подход в рекомендациях решает 🔥
Если вы знаете прикольные открытия / рабочие инженерные подходы в RecSys, делитесь в комментариях ⬇️
Последнее время читаю про недавние прорывы в рекомендательных системах... и там все очень сомнительно
Даже не верится что в 2024 году в статьях с топовых конференций классические «стажерские» ошибки:
- неправильный train-test split
- сравнение с явно недо-тюнеными бейзлайнами
- выбор для сравнения только тех датасетов, где модель побеждает…
Поэтому выудить что-то явно работающее очень сложно 😕
Тем не менее, на мой взгляд, в адекватных статьях взлетели:
- Трансформеры для отбора кандидатов
- Разные стратегии поиска Hard negatives (покупка - позитивный таргет, но найти хороший негативный - занятная задача)
- Таргет более близкий к деньгам (не клики, а хотя бы клики дольше 10 сек)
Дальше уже разные топ компании репортят совсем разные вещи:
- У одних лучше encoder (BERT4Rec), у других - decoder модели (SASRec)
- Как будто огромное значение играет не архитектура, а выбор данных / как берут негативы / лосс
- В академии SOTA показывают модели с дополнительным contrastive loss, но в индустрии этого пока не видно
- Почти у всех проблемы метча оффлайн/онлайн метрик или рост конверсии + падения чека, но никто не говорит, как с этим справляется
- Многие внедряют разнообразие / novelty в рекомендации через постпроцесинг без всякого ML
- Как будто градиентый бустинг для ранжирования все еще на уровне с SOTA
В общем, пока инженерный подход в рекомендациях решает 🔥
Если вы знаете прикольные открытия / рабочие инженерные подходы в RecSys, делитесь в комментариях ⬇️
👍28🔥17🤓2❤1🤡1
Вдогонку к прошлому посту про «стажерские» ошибки в статьях по RecSys - даже рисерч отдел Google немножко 🤏 ошибся с неймингом своих моделей
В итоге многие думали, что смотрят на Gemma-7B (7B параметров) как на похожего по размеру конкурента условного Mixtral-7B, но… у Gemma-7B около 8.5В (+21%) параметров - правильнее ее называть Gemma-9B
Соответственно «в лоб» такие модели сравнивать не очень корректно
В итоге многие думали, что смотрят на Gemma-7B (7B параметров) как на похожего по размеру конкурента условного Mixtral-7B, но… у Gemma-7B около 8.5В (+21%) параметров - правильнее ее называть Gemma-9B
Соответственно «в лоб» такие модели сравнивать не очень корректно
👍1