NEW BOT Телеграм, страница

Наткнулся, во время просмотра комментариев к видео про А/Б тесты, на крик вопиющего в пустыне.

Ютуб не позволяет нафигачить большой комментарий, а мне есть что сказать, поэтому буду бить его почастям.

Я конечно не такой крутой математик как господин Бабушкин. Скажу как практик из Х5, который сидел с ребятами Валерия по другую сторону стола/монитора. В моем проекте проводились десятки а/б тестов для валидации результата и оправдания инвестиций с его командой и на их платформе. В оффлайн ритейле (но думается, что также везде) есть несогласие с методами А/В тестов в практической области. Причина довольно простая, это сферические исследования в вакууме, которые ставят высокую обоснованность результатов во главе угла. С первого взгляда это даже неплохо, но давайте рассуждать дальше.

В его примерах фигурировало, что "если мы проводим исследование с 40 летними мужчинами то... " продолжим мысль. Успешным считается аб тест в котором на все 100% мужчин участвовавших в исследовании результат дал отклонение в положительную область с разной степенью успеха и результат имеет низкую ошибку. Если 10% мужчин не отреагировали или по другим причинам отреагировали негативно, то этот эксперимент получает от команды Валерия негативное заключение. С точки зрения практики этот результат надо интерпретировать как 90% успех, но бинарная логика платформ аб-тестирования отвечает одной из граней монетки - да или нет. И тут ответ будет - нет. Бизнес не может решать комплексные (сложные) задачи всегда с успехом на 100%. Это вам не кирпичный цвет кнопки, это система органических стимулов влияющая на мотивацию десятков умов, которые должны принять однозначное (с точки зрения платформы) решение.

Давайте приведу пример. Вы автопроизводитель и запускаете новый вариант автомобиля на замену существующему (ну допустим новая версия ауди а4). Краш-тесты старого автомобиля это контрольная группа, краш-тесты нового это тестовая. И вот вы получаете результат, звучит он следующим образом в 90% случаев в краш тесте нового автомобиля повреждения водителя были меньше чем в старом (остаются конечности, выживаемость). Но в одном типе тестов результаты хуже, водитель изуродован больше чем в старой версии авто, потому что балка безопасности спасающая теперь 90% водителей, расположена под таким углом, что в аварии с 32% перекрытием, под углом 65 градусов при скорости 93-96 км в час по законам физики не успевает уйти влево и входит водителю в грудь и это подтвердилось много раз при аналогичных условиях. В то время как в старом автомобиле именно этот кейс обеспечивает более высокую выживаемость. Несмотря на то, что эти пропорции безопасности сильно лучше чем в предыдущей модели заключение Валерия на этот тест будет - нет, продолжайте улучшать новый авто, так как не 100% случаев лучше чем старые авто. Задайте себе вопрос как потребитель - что в этой ситуации правильнее? Вы могли бы получить завтра более совершенный автомобиль, но вынуждены довольствоваться старым более опасным в целом, потому что не найдено решение для этих 10% случаев, когда стало хуже. Абсурд, верно? Нет, конечно во имя добра, надо и этот кейс решать, (даешь 100% безопасность автотранспорта!!!), но система АБ-тестов так не работает, она дает заключение только когда найдено "абсолютное" решение (как у ситхов).

Теперь применительно к ритейлу. Проводим мы тест, когда меняется выкладка товара на полку, ну например хороший кофе ставили на верхнюю полку, теперь начали ставить на среднюю. В 70% случаев покупатели отреагировали положительно и продажи кофе улучшились, в 20% нет никаких изменений, а в 10% случаев ухудшились по разным причинам, вплоть до непредсказуемых. Влияние на покупателя это комплексная задача. Этот эксперимент оценивает платформа Бабушкина и дает заключение - нет подтвержденного эффекта. Идите думайте дальше бизнес эксперты. Хороший кофе возвращают на верхнюю полку, эксперты от бизнеса идут думать как сделать так, чтобы повлиять на 30% оставшихся потребителей. Не придумали? - значит опцию видеть хороший кофе на средней полке бизнес потерял навсегда.

1/3

YouTube

10 вопросов про A/B-тесты | Часть 1 | Валерий Бабушкин | karpov.courses

Симулятор A/B-тестов: http://bit.ly/3nCdbvB

Сколько A/B-тестов за свою карьеру провёл Валерий Бабушкин? Что обязательно должно быть в каждом A/B-тесте? Можно ли практиковаться в проведении экспериментов дома, а не на работе?

Мы задали эти (и не только)…

1👍51❤15🔥6👎1🤣1

23.4K viewsedited 19:03

Время Валеры

Когда такого рода претензии высказываются коллегам Валерия их ответ прост. Мы просто написали заключение и поставили оценку (и даже показали распределение результатов те самые 70-20-10), решение принял топ-менеджмент. Если у вас есть идеи как это оценивать лучше чем наша платформа, сделайте и защитите у руководства, мы свою платформу у топов защитили. Но руководство, также как и я, не математики, а практики, и текущая религия - "биг дата это новый колосс" по сути не оставляет им выбор на принятие гибких решений. Им проще заставить не-математиков попрыгать вокруг математиков чтобы математики снизошли до индивидуальных настроек оценки или не тратить деньги на эксперименты.

К чему это все пришло. Спустя 2-3 года с тех пор как появилась эта платформа (по моей СУБЪЕКТИВНОЙ оценке) количество экспериментов упало в десятки раз. Где то дело текущей скорости - надо делать 10 итераций теста, а где то бизнесу проще заниматься повседневной операционной работой по поддержанию "как есть", чем заниматься десятками и сотнями разных экспериментов. Сейчас инициатива имеет инициатора через выплясывание вокруг математиков в смешных шляпах, чтобы тем было весело гонять туда сюда свои датасеты. Если ты недостаточно забавен в глазах согласовантов, то твои результаты будут иметь отрицательное заключение. Такой новый вариант вахтерства. Я знаю что говорю (стыдливо отводит глаза).

Ну и нечестным по отношению к Валерию было бы на бинарное заявление выдавать бинарную критику. Конечно плюсы от ввода аб тестов есть. Есть ситуации когда заключение отсеивает однозначно негативные результаты или пограничные результаты в стиле 50 на 50. Таких шарлатанов выдающих себя за экспертов от бизнеса тоже хватает, а может даже и большинство. Но сейчас этот шлагбаум слишком жесткий и рано или поздно колосс падет. Топ менеджмент конечно будет смотреть в рекомендации платформы тестирования, но оно будет лишь подсказкой, а не ЗАКЛЮЧЕНИЕМ как сейчас. Надо просто подождать, когда за год пройдет всего 2-3 успешных теста и количество внедренных инноваций упадет раз в 5 - 10, тогда вопросы появятся ко всем, включая математиков.

Я бы от всех практиков рекомендовал начать с простого - система должна выдавать пограничные заключения, не светофор да, нет, непонятно (что трактуется топами как нет). А все таки руководствоваться некоей нечеткой логикой интерпретации. В стиле "не идеально, но точно лучше чем раньше". Я понимаю, что в результате так и будет, но сегодня бигдата для бизнеса, скорее зло через призму моего 20 летнего практического опыта. Многие минорные улучшения отправляются в помойку, а весь взрослый бизнес выживает не за счет революций ,а именно эволюционными изменениями.

Ну и спасибо за интересный рассказ, смотреть как профессионал рассказывает о своем опыте и знаниях это всегда впечатляет.

2/3

👍44❤7

21.8K viewsedited 19:03

Время Валеры

Мне есть что на это ответить:

A/B тесты оценивают общий эффект, будь то средний, медианный, перцинтильный и т.д. Утверждение о том, что требуется 100% случаев для принятия решения, неверно. Возможно, у вас возникло неправильное понимание этого процесса. Рекомендую обсудить ваши наблюдения с командой Саши Сахнова. Это поможет устранить недоразумения и объяснить, как это действительно работает, чтобы в дальнейшем не возникало ложных представлений.

Если в 70% случаев стало лучше на 1%, в 20% не изменилось, а в 10% стало хуже на 7%, общий эффект будет:

0.7 * 0.01 + 0.2 * 0 - 0.1 * 0.07 = 0

В этом случае, изменение не имеет смысла, поскольку оно не приносит выгоды, а наоборот, может привести к потерям, учитывая затраты на его реализацию. Платформа предоставила вам распределение результатов. Теперь ваша задача - найти способы либо уменьшить потери в 10%, либо увеличить прибыль в 70%.

Что касается уменьшения количества экспериментов, возможно, это даже хорошо. Ведь каждый эксперимент требует значительных ресурсов, особенно в офлайн-ритейле. Возможно, раньше, когда большинство экспериментов считались успешными, не все было в порядке. В развитом бизнесе процент успешных экспериментов не может быть высоким, иначе зачем экспериментировать - сразу внедряйте на всех. Мне помнится, процент успешных экспериментов был на уровне 90+%, что вызывает сомнения в их достоверности. Более того, платформа - инструмент - решения принимает топ менеджмент, хочет рисковать - пусть рискует, измерительный прибор лишь говорит что видит

Особенно забавно это читать после вчерашнего поста. Мир, где бизнес живет под железной пятой математиков

3/3

1👍72🌚71❤19🔥6👨‍💻4👎3💩3🤯2

29.4K viewsedited 19:03

Время Валеры

Некий Игорь Котенков скинул мне почитать интересную заметку. Пишут что:

2020: The team completes a PoC using Ray for this workload, demonstrating the ability to handle "12X larger datasets than Apache Spark, improve cost efficiency by 91%, and process 13X more data per hour."

Интересно, что про этот Ray, я ничего по-моему не слышал

X (formerly Twitter)

Robert Nishihara (@robertnishihara) on X

This migration began 4 years ago 🫢 Not our typical Ray use case, but so impressive and it illustrates Ray's versatility. Also, it was worth it because they're saving over $100 million annually 😇

Some fascinating excerpts.

2016: Amazon aims to remove all…

1🗿47❤11👍5🥴3💊3

34.6K viewsedited 06:58

Время Валеры

Сегодня узнал новое.

Кандидат пытался убедить что O(n log n) эффективнее чем O(n). Конкретно сравнивали quick sort и взять первый элемент, чтобы найти максимум или идти по пути сравнения каждого элемента с текущим максимальным. Век живи - век учись

В целом, конечно, такое бывает, когда один алгоритм в асимптотике лучше, но у него большой оверхэд из-за какой-нибудь константы здоровенной, и на практике не лучше

1💅118🤔32👍14❤9👀8🤡7😁5😱5🍌4😐4❤‍🔥1

29.7K viewsedited 10:18

Время Валеры

Регулярно спрашивают как найту работу за пределами РФ, как показал отклик на мои вакансии в КЛ - желающих очень многою

Очевидно, что международные стартапы с русскоговорящими фаундерами или командами – один из самых простых способов получить оффер за рубежом, как минимум cultural fit пройти легче, да и компании, в которых вы работали, скорее всего скажут в таком случае чуть больше, чем ничего

Вакансии в таких компаниях собирают ребята в канале Connectable Jobs (попросили рассказать про себя), а также делятся прямыми контактами HR для отклика.
Как результат – уже десятки читателей получили офферы в Neon, InDrive, 1inch, Wheely и др.

Несколько актуальных вакансий:
– Machine Learning Systems Engineer в CentML (Remote US или Торонто)
– Frontend engineer (KYC) в Wallet on Telegram (remote)
– AI/LLM Engineer в Mayflower (Кипр, помогают с релокацией)
– Senior Data Scientist в Wooga (Берлин, помогают с релокацией)
– Head of Machine Learning Engineering в Exactly.аi (remote или Лондон)

Еще у ребят есть отдельный канал для вакансий в других областях, например, продукте, дизайне, аналитике и маркетинге.

1👍116💅33❤17💊17🤮10🥰8💩8🤯1

26.1K views09:52

Время Валеры

Прочитал статью - Poisoning Attacks against Recommender Systems: A Survey

Утверждают что можно заложить такие данные в датасет для рекомендашек, что потом можно это использовать для корыстных замыслов. Сделать это можно довольно просто, зайти на сайт и покликать специальным образом на специальные товары, чтобы это попало в обучающую выборку

Делят на три категории: Component-Specific, Goal-Driven, and Capability Probing

В целом ничего интересного, но провели мета-рисерч 45 статей на эту тему и упомянули их. Будь у меня время и рекомендательная система достаточного большо масштаба в открытом доступе для клиентов, я бы запустил internal red-team, чтобы попробовать ее поломать и посмотреть получается или нет.

Кстати - идея для стартапа

1💅66🔥30💊13❤8🐳5👍4😁3🗿1

32.4K views16:14

Время Валеры

Так вышло, что я все-еще ищу себе Principal ML Engineer. Локация - Лондон (можно выбрать еще KL если хочется). По деньгам +-как E7 в Meta. Смотрю в сторону IC, не менеджера, хотя на этом уровне всегда нужен leadership. Если интересно - можно написать мне в личку, обсудим

👍61🔥22💩11😁10❤6🤡5👀3🤔2😐1😨1

35.4K viewsedited 15:31

Время Валеры

Во вторник, 20 августа, в 18-00 по Лондону проведем стрим с Нерсесом

Нерсес Багиян, молодой руководитель аналитики в одном из бизнес-юнитов Райфайзен Банка, хедлайнер нескольких курсов на karpov.courses, а также первый стажер в менеджерской карьере Валеры Бабушкина

Нерсес стал руководителем в 22 года и за 4.5 года его команда выросла с 3 человек до несколько десятков. На стриме будем обсуждать какие плюсы и минусы быть руководителем в таком возрасте, становится ли больше времени при росте команды, а также почему все люди армяне

5👍137🔥56🤣49🤡17❤11🫡3🗿3🥴1👻1👀1🦄1

30K viewsedited 07:13

Время Валеры

Live stream scheduled for Aug 20, 2024 at 17:00

07:13

Время Валеры

Забавно что статья Кохави на KDD 2024 - False Positives in A/B Tests - практически тоже самое что и The reproducibility of research and the misinterpretation of p-values от Roayl Society of Open Science. По странному стечению обстоятельств прочитал их подряд и сразу заметил

И там и там считают FPR, и там и там использую prior. Результаты и там и там сходятся. Надо сказать, что статья Кохави чуть более прикладная и ссылается на статью от 2017 года.

Если кратко. Допустим 10 из 100 аб тестов у вас успешны и стат значимы в нужную сторону. При альфе 0.05 в среднем 5 тестов из 100 будут стат значимыми всегда, допустим 2.5 будут показывать в нужную сторону. Значит 1/4 ваших стат значимых и хороших аб тестов - будут ложными

Пошел искать статьи от 2018 года, ждите меня на KDD 2025.
#ArticleReview

66😁96❤19😱9👍7🥴7🔥5🥰1🤔1🆒1

26.6K viewsedited 14:22

Время Валеры

Начинаем стрим через полчаса, вопросы можно сюда

114💅41🔥12💊8❤4👍1

25.2K views16:34

Время Валеры

Live stream started

16:59

Время Валеры

Live stream finished (1 hour)

18:17

Время Валеры

Запись стрима с Нерсесом

YouTube

Стрим с Нерсесом - начальник начальников в 23 года

00:00:02 Блиц-вопросы
00:07:04 Работа в Яндексе
00:12:14 Отпуск и возвращение
00:13:34 Начало карьеры в Яндексе
00:17:21 Переход в другую компанию
00:22:20 Успехи и инвестиции в команду
00:27:05 Начальник начальников
00:32:47 Плюсы и минусы быть начальником…

14🔥68👍16💩5❤4👎2🥴2💅2☃1

28.4K views07:07

Время Валеры

Пишут что

❗️Павла Дурова обвиняют в соучастии в торговле наркотиками, преступлениях против детей и мошенничестве из-за отсутствия модерации в Telegram — TF1

Сейчас основатель мессенджера находится под стражей, уточнил телеканал.

А вот был бы у него Telegram integrity team, по аналогии с WhatsApp integrity, сейчас бы не чалился

Кстати, знаю бывшего Тех Лида из User Data Privacy оттуда

5🤡363👎59💊25👍18😱11❤10🥴10💅4😁3🗿3🥰1

22.9K views20:58

Время Валеры

С описанием ситуации от Адама согласен практически полностью

🤡119❤8👍5

19.9K views07:00

Время Валеры

Forwarded from Записки C3PO

Продолжаю читать, что пишут про Дурова и, что и ожидалось, никакой настоящей инфы нет, и 99,9% — чьи-то теории, додумывания и откровенные вбросы, как, к примеру, информация о том, что ордер выписали чуть ли не сразу перед посадкой самолёта.

Ситуацию нужно разделить на три ключевые составляющие, которые следуют одна за другой:
1. Регуляторика и законы на территории государства, которые должен выполнять продукт/компания, чтобы осуществлять там деятельность. Не важно, какие они: хорошие, плохие, приняты, чтобы построить цифровой ГУЛАГ, или вовсе для защиты граждан. Они есть, и их нужно соблюдать вне зависимости от вашей оценки.
2. Реакция компании на эти требования. При этом, что, на мой взгляд, многие упускают, между «не делать ничего» и «делать всё на 100%» есть огромный спектр состояний, где есть зона «достаточности» для регуляторов.
3. Последствия, которые несёт компания за свою реакцию на регуляции, и реакция регулятора на эту реакцию. Она тоже может быть разной: от максимально дружелюбной, в середине — нейтральной, и до абсолютного беспредела.

Требования: В текущей ситуации, насколько я понимаю, используется закон о цифровых услугах, который предполагает, что в соцсетях за контент, размещаемый на платформе, отвечает компания. Если почитать формулировки, то становится понятно, что эта мера для того, чтобы компании проактивно модерировали контент и боролись с фродом. При этом все последствия за нарушение закона экономические (штрафы), и несёт их юр. лицо, а не CEO. Французы же угрожают уголовной ответственностью конкретно физическому лицу. Возможно, есть какая-то законодательная база Франции (на уровне ЕС её нет), то есть что-то на уровне самодеятельности. Как писал, к требованиям можно относиться как угодно, и они могут быть абсолютно дебильными (как прорабатываемый закон о запрете e2e-шифрования в мессенджерах, на который Apple и WhatsApp заявили, что просто уйдут). Не нравятся требования и не хочешь выполнять? Уходи с рынка.

Реакция: Дуров знал о том, что он должен выполнять требования, я уверен, как писал, с ним пытались много раз сотрудничать, но какова была его реакция? Он показывал факи и кричал в интервью Такеру, что спецслужбы могут идти лесом, а государства самоустраниться, и он ничего делать не собирается. Видели мы, что арестовывают Тима Кука или Цукерберга? Нет. Но ведь там e2e-шифрование по умолчанию в отличие от Телеги, и компании отказываются выдавать личные данные и переписки? Отличие в том, что Дуров сознательно не шёл на сотрудничество, а Apple и WhatsApp взаимодействовали, показывали, какие меры они предпринимают, объясняли, как что работает и т.д. Этого оказалось достаточно, и никакие ключи, как пишут некоторые, отдавать спецслужбам не пришлось. То есть Дуров сознательно шлёт нафиг регуляторов в ЕС, не прекращает там деятельность своего продукта, отказывается от проактивной борьбы с фродом и скамом на платформе.

Последствия: глупо было бы не ожидать последствий. Но сами последствия последствиям рознь. Мы видим очень странные действия, которые откровенно смахивают на беспредел: уголовка на 20 лет, сажают самолёт, 0 информации и абсолютный фейл, на мой взгляд, в прозрачной коммуникации с обществом, что является, по идее, обязательством государства. В конечном счёте нельзя забывать, что бремя доказательства на стороне обвинения, и есть такая штука, как презумпция невиновности. Может, у французов есть доказательства того, что Дуров часть скама в Телеге, на TON отмывают бабки, и всё это время он сознательно не мешал этому, потому что так финансировал Телегу. А может, это просто фарс и беспредел по политическим причинам.

Осталось дождаться результатов работы судебной системы.

3🤡341👍117💩23❤22👎11🤮7✍3🤯3🔥2🥰2😁2

23.1K views07:00

Время Валеры

0:15

This media is not supported in your browser

VIEW IN TELEGRAM

0:18

This media is not supported in your browser

VIEW IN TELEGRAM

Теперь можно и важные вещи обсудить.

Неделю назад кто-то украл тапок из моего сада. Причем это была не первая попытка, но первая успешная. За неделю до этого тапок оказался под деревьями, зарытый в коре. И вот он пропал

Поэтому я решил поставить камеру с датчиками движения, которая обнаружила вора, вернувшегося на место преступления и попытавшегося украсть уже другой тапок (снова был обнаружен под деревьями, зарытый в коре)

3❤337🤣224🥰24🔥19👍15😁9💩6😱5🎃2😡2🍾1

24.8K views10:59

Время Валеры

Минутка исследований

VK поделились результатами своего первого исследования ML-сообщества России

Ребята проинтервьюировали более 300 ML-специалистов. Все основные результаты и интересности — в карточках

68👍123👎41🥱17🔥15❤13🤡3🦄1

30.2K views14:10

About

Blog

Apps

Platform