Не AБы какие тесты – Telegram
Не AБы какие тесты
1.47K subscribers
73 photos
61 links
Канал - оголтелая реклама курсов по A/B, ну еще размышления по A/B, статистике и не только.

https://news.1rj.ru/str/smatrosov - до связи
Download Telegram
Не пропускаем понедельник, товарищи-статистики!

Хотел продолжить серию про секвентальное тестирование, но уже довольно свежий (!) и интересный алгоритм показался мне прям сильно сложнее для объяснения, чем тот, что был ранее, поэтому сегодня поговорим про оценку кумулятивного эффекта - то, как несколько изменений, по которым были тесты, повлияли совместо.

Классическая и очень простая история это выделить глобальную контрольную группу, - holdout, - на которую какое-то время не будет распространяться никаких улучшений.

Но что если такую группу выделить по каким-то причинам невозможно, а оценить нужно?
Причины могут быть от технических до прое "забыли".

В начале года столкнулся с тем, что нужно было продумать, как оценить кумулятив при сценарии невозможности выделения holdout'a. И на методологию от Airbnb, которая мне очень пришлась по душе (так как математически выведена оценка!), меня навел Влад. Статья ниже написана в том числе благодаря его материалам, большое ему спасибо!

Статья начинается со слов "Winner's Curse", Проклятье победителя: смысл в том, что в рамках аукциона, где продается неких товар, победитель аукциона (а это часто наибольшая ставка) скорее всего заплатит больше, чем фактическая стоимость товара. Так и в рамках наивного суммирования эффектов от прошедших тестов - скорее всего оценка будет завышенной.

Разберем Winner's Curse: Bias Estimation for Total Effects of Features in Online Controlled Experiments
6👍4🔥1
Привет, товарищи-статистики!

Наконец-то написал про еще один метод последовательного тестирования, но очень свежий!

YEAST - YEt Another Sequential Test от ребят из Zalando от 2024-го года.

Это вам не методы из 40-х / 70-х / 80-х, которые индустрия переоткрыла для себя (хоть я и считаю, что Group Sequential Testing + "тщеность" бытия усилий самый простой, лаконичный и понятный из них + легче реализовывается)

Я наткнулся на него случайно: решил посмотреть на создателя известного калькулятора по AB - Эвана Миллера, в его ленте в Линкедин наткнулся на пост как раз про этот тест. И это оказалось - красиво!

Кажется, ребята смогли реализовать мечту многих начинающих AB-щников, а точнее даже типичного заказчика: при какой конкретно сумме транзакций / РТО / конверсий (условно, по B, но там чуть хитрее) мы сможем сказать, что результаты действительно лучше и надо катить. Так-то обычно заказчиками и начинающим после в ответ начинают рассказывать про критерии, и те немного начинают унывать от каких-то статистик, t-распределений..

Метод "идеалогически" является альтернативой всем ранее представленным тестам, работает с аблютной величиной метрики, - максимальная конкретика вместо t, лямбд и пр., - не нуждается в определении моделей данных как тот же (m)SPRT.

Метод уже внедрен в AB-платформу Zalando и является их стандартом.

Подготовил для вас, дорогие товарищи, максимально разжеванный разбор метода, в том числе математики, а она там может привести в уныние и бывалого :) Даже Эван намекнул: "they (Zalando) do real math instead of my 18th century aristocratic hand-waving" (он пытался что-то такое реализовать давненько)

Давайте поймём YEAST: Yet Another Sequential Test
👍158🔥6👏1
Привет, товарищи!

Пока у меня готовится ряд постов на предстоящую неделю, в том числе с аноном следующего потока по AB, хочу попиарить оффлайн-мероприятие "I see ML", которое пройдет в Москве, в среду, 27 августа, в 19:00 в "Сфера X5", Парк Горького, ул. Крымский Вал, 9.

Что будет: обсуждение 3-х докладов, - заявленных как научные открытия, - которые были на 26-й Международной конференции по машинному обучению (ICML), в формате кинопоказа. Как я понял, будут смотреть доклад и комментировать!

Доклады, которые будут комментировать:
- Position: AI Safety should prioritize the Future of Work (ICML outstanding paper 2025!)
Влияние ИИ на будущее рынка труда, о рисках, которые создает ИИ для интересов простых трудящихся, и о том, как это можно было бы преодолеть.

Чем полезно (как это понял я): возможно, будет меньше определенности в контексте "нас всех скоро заменит ИИ".

- Re-Imagine: Symbolic Benchmark Synthesis for Reasoning Evaluation
LLM-ки поражают (меня так уж частенько!) тем, как отвечают на заданные промпты, что задает вопрос, являются ли наблюдаемые результаты результатом истинного рассуждения или статистическим воспроизведением обучающей выборки. Чтобы, условно, отделить одно от другого, авторы предлагают фреймворк Re-Imagine для описания иерархии способностей к рассуждению у LLM и не только.

Чем полезно: возможно, фреймворк даст лучше понимание, насколько ваша модель зависит от памяти выборки, на которой она обучалась, и насколько в ней действительно есть потенциал рассуждать.

- Building Production Ready Agentic Systems: Architecture, LLM-based Evaluation, and GRPO Training
Spopity здесь рассказывает, как используют LLM и агентные шаблоны для создания помощника Shopify Sidekick с множеством навыков. В общем, они сделали ультра-умного помощника с многозадачностью, будут погружать в архитектуру, методы обучения, задачи и пр.

Чем полезно: таких помощников будут внедрять всюду и везде компании среднего уровня и больше; аналогичное будут делать и гос.учреждения. Возможно, внедрять это будете непосредственно вы. Неплохо бы поэтому иметь представление, как это делают другие. Возможно, кое-что расскажут и комментаторы.

Комментаторы: специалисты из X5, T-Банка, Яндекса

В целом, я надеюсь, ребята будут пытаться это обсудить с заземлением на наши реалии и степени развитости внедрения ИИ.

Регистрация тут.
5🔥4👍2👏1
Привет, товарищи-статистики!

На днях Дима Лунин из Авито выпустил свою 5-ую статью на хабре (с чем и поздравим!) по базе AB: "Методичка по AB-тестированию от аналитиков Авито". И когда пишет такой специалист как Дима, то прочитать стоит вне зависимости от того, база это или нет, так как, возможно, какие-то очень хорошо знакомые понятия предстанут вам под другим углом, такие углы ищу и я, корректируя и уточняя формулировки для курса.

Со своей стороны оставил ряд комментариев к статье (и не только к ней, кстати!), думаю, они могут быть полезны.

Читать комментарии к статье от Димы

P.S. В пятницу ждите пост про новый поток по AB, пора, мои товарищи, пора!
22
———
Привет, товарищи-статистики!

Возрадуемся! У нас новые укушенные статистикой и A/B: в начале августа завершил свое превращение 8-ой поток, самый большой из прошедших, отзывы на скринах.

Из основного, что выделил из отзывов для себя в качестве зоны улучшения это все-таки “дать практики”. Поэтому август я старался уделить части практики больше внимания, чем переработке теор. материалов, сделал, где это уместно, ДЗ + с некоторой темы будут проекты, ожидаемо, что это ряд дизайнов по AB. С трудом, но получалось: ну просто не та эта область, не та! И все же у людей есть запрос, штош, посмотрим на результаты.

А так, по отзывам приятно было читать уже классическое “так вот как под капотом это работает”, “читаю статьи и понимаю написанное!”, также приятно, что кто-то назвал это лучшим вложением в свое образование, а кто-то, будучи хедом в одном известном банке, который просто пришел на разведку, сказал, что будет отправлять на обучение ко мне ребят. Значит, пока делаю все в нужном направлении!

Теперь только поднажму с практикой!

Что будет в версии v9:

1. Появились резюме встреч (почти все финализировал)

2. Появился и код, где надо а-ля бутстрап, линеаризация и пр. - бери и используй; сейчас расширяю до симуляций и пр., где уместно

3. Кажется, удалось через работу с материалом, наконец-то, замедлить темп повествования в рамках встречи, появилась ощутимая размеренность! Но время каждой встречи будет в среднем 1.5 часа.

4. Курс занимает полноценный учебный семестр, отчасти потому, что я чуть лучше стал понимать, как лучше дозировать объем материала в неделю.

5. Блок про множественное тестирование теперь обзавелся +1 встречей, в основном потому, что нужно было расширить подводку в многомерным стат.тестам, из-за добавления теста Kim’a как аналог теста Welch’a, а также модификат от ребят из Т-Банка “Kim5”. Все это вместе и без того много, разделять на две части было необходимо.

Также обогатил блок по вопросам зависимых и независимых гипотез, переработал вводную по FWER, где расписал уже аналитические выводы формул Бонферрони, Холма-Бонферрони и пр.; аналогично и тему про FDR, там тоже больше раскрыты логика работы формул, рассмотрена +1 поправка Benjamini-Yekutieli.

6. Текстовые заготовки занимают теперь на 30 страниц A4 больше (в сумме 130). В них мы вспоминаем школьный курс алгебры (если требует тема), читаем интересные заметки для любознательных и пр., которые релевантны моменту и теме, конечно.

7. Помощь супруги как модератора была неоценима, она будет помогать мне незримо для вас и впредь :)

Что планируется:

8. Материал про A/B Байесу пишется, очень рассчитываю его дополнительно прочитать на этом потоке.

9. Мне подумалось, что пора давать больше индустриального: рассказать про AB-платформы и их особенности, которые возможны в текущее время только в бизнесе, а не в науке. Также планирую на этот поток допом.

Попробовал МТС Link. В общем, вместо будет Talk от Контура, сравнительный фидбек напишу после, но МТС в важных моментах по планированию, сохранению видео и, особенно, выставки презентации мне прям не понравился. Последнее меня сильно расстроило: какие максимум 600 слайдов, алло!? - у меня это среднее значение на лекцию)) да-да, +-600 на встречу (коллеги на открытых мероприятиях постоянно шутят про сколько слайдов я принес сегодня))

Продолжение далее.
🔥102👍2
Пора стартовать 9-ый поток "Наглядное АB-тестирование: от основ до современных стандартов" !

Старт я бы хотел сделать через неделю, то есть c 8-го сентября.

Список актуальных тем на скрине, о чем они кратко - тут.

- Обучение идет по вечерам, в 19 по Мск, 2-3 раза в неделю, не менее 3-х месяцев (скорее всего 4). Будние дни, обычно (но не всегда) в шахматном порядке 3x2: понедельник-среда-пятница, вторник-четверг
- Условия неизменны: "каждый поток веду лично, оказывая максимальное сопровождение по материалу; веду с удовольствием, в душе педагог; подача такая, будто надо объяснить детям, чтобы они могли объяснить это другим детям"
- Можно и нужно задавать вопросы, которые вам кажутся дурацкими, дебильным и пр. Это только приветствуется! Для стесняшек - всегда пожалуйста в личку)
- Все материалы, видео и презентации, будут доступны и после окончания в формате read.
- Цена 45к

Если есть желание - пишите мне в ЛС @smatrosov :) По курсу в начале вы будете общаться только со мной (!), далее подключу супругу в помощь.

На всякий случай: все официально, дорабатывается договор, расчет по реквизитам ИП; остерегайтесь плохих людей, сам я первый никому не напишу!

Отзывы в посте выше.

P.S. Те, кто писал мне ранее - о вас помню, вы записаны, свяжусь.
🔥161
Привет, товарищи-статистики!

Финальное промо курса, на котором я постараюсь из вас сделать скорее второго товарища из картинки, чем первого; так как статистика - это охуенно! Далее вернемся в ритм постов о статистике и не только, есть у меня пара занятных размышлений, думаю, вам будет по душе)

Итак, завтра, 8 сентября, стартует 9-ый поток курса по AB;
Дата следующего, 10-го, примерно середина января 2026-го.

Мы наглядно рассмотрим четыре блока по стат. проверке гипотез:
1. База: от введения в статистику до разбора работы с долевыми метриками
2. Продвинутые темы: любимая Ratio-метрика, линеариация, бутстрап, дельта-метод с повторением базы матанализа, конечно
3. Множественное тестирование: виды мультетеста, проблемы, поправки и пр.
4. Вишенки на торте: последовательное тестирование как "легальный" способ подглядывания в тесты, ошибки S, M, тест Welch’a и пр.

Календарь 9-го потока

Основная актуальная программа

Очень горжусь его нынешним состоянием, вложил душу в него, наверное, ц-дать раз!


Что говорят участники прошлых потоков?
- Не просто уверенное планирование и дизайн тест, а очень осмысленное, с возможность на пальцах объяснить бизнесу, как оно работает
- Офигенные примеры и простота изложение
- Стало кратно легче читать и понимать статьи по статистике
- Пройти собес по AB теперь не проблема, особенно, что ответы исходят из понимания, а не просто знания

Все отзывы

На этом 9-ом буду тестировать практику, очень интересно посмотреть, закроется ли нехватка ее для страждующих!

- Обучение идет по вечерам, в 19 по Мск, 2-3 раза в неделю, не менее 3-х месяцев (скорее всего 4). Будние дни, обычно (но не всегда) в шахматном порядке 3x2: понедельник-среда-пятница, вторник-четверг
- Условия неизменны: "каждый поток веду лично, оказывая максимальное сопровождение по материалу; веду с удовольствием, в душе педагог; подача такая, будто надо объяснить детям, чтобы они могли объяснить это другим детям"
- Можно и нужно задавать вопросы, которые вам кажутся дурацкими, дебильным и пр. Это только приветствуется! Для стесняшек - всегда пожалуйста в личку)
- Все материалы, видео и презентации, будут доступны и после окончания в формате read.
- Цена 45к

Есть желание принять участие - пишите мне в ЛС @smatrosov
🔥7
Привет, товарищи-статистики!

Кто понимает p-value, тот, простите, понимает его, а кто нет, тому формулировка про все эти нулевые гипотезы, какие-то экстремальности и прочее будут ну очень далекими и оторванными от простого сравнения A и B. Но что если есть какая-то другая мера, которая, возможно, поможет лучше объясниться с теми, кто не особо понимает за статистику?

E-value — кажется, та самая мера, которая аналогично p-value говорит о значимости, но отвечает на на другой вопрос: "Насколько сильным должен быть некоторый неучтённый фактор, а не тритмент, чтобы полностью объяснить мой результат?".

Разберемся как следует в очередном большом посте!
👍161
Привет, товарищи-статистики!
Поговорим про доверительные интервалы.

По окончанию теста мы всегда строим доверительный интервал эффекта с заданным уровнем надежности, который согласно заранее выставленной альфе равен 1 - альфа, пускай у нас он вышел 95%.

Внимание, вопрос, сколько раз такой интервал при стат. значимости охватит истинный эффект, если мощность = 80% ?

Так как уровень надежности и мощности независимы, то P(CI охватит Mu_эффект) * P(CI стат.значимый) = 0.95*0.8 = 0.76, то есть всего в 76%*. Это кажется как будто контринтуитивно, но дело в том, что прочие 4% стат. значимых интервала как раз не охватывают эффект и, в таком конфиге, переоценивают эффект, см. картинку.

Почему нет интервалов между нулем и эффектом? На самом деле редко-редко, но они проскальзывают в симуляции, а их отсутствие в подавляющем объясняется так: чтобы такой CI получился, у вас должны собраться обе выборки с малой дисперсией, при этом А, которую мы берем из одного распределения, должна быть больше своего 50-го перцентиля, а B - меньше своего 50-го.

Но полезнее все-таки информации 76 на 4, как минимум это мы можем как-то учитывать при расчетах экономической модели.

Что остается нестат. значимыми интервалам? 95 - 76 = 19 из них будут охватывать интервал, а 5 - 4 = 1 - нет (эти цифры - в идеале). Это уже, как мне кажется, не так полезно, но просто интересно.

Ссылка на симуляцию (там* надо играться с seed, чаще 76 будет, для сходимости ровно как на картинке, как мне кажется, надо заряжать еще больше попыток)

Пост появился благодаря Владу в том числе, спасибо тебе за комментарии и уделённое время.

P.S. Спрашивать на собеседовании я это, конечно, не буду.

*Важный UPDATE, возможно, слишком быстрый:
- Рома заставил еще раз задуматься, а все ли верно было рассчитано. У него выходило 77.5, это 80-2.5, где 2.5% значений лежали в зоне HA, которые находятся справа и попадают в 97.5 квантиль. То есть это были бы также "стат. значимые CI" (= не охватывают ноль, считать синонимом), но со значительным перелетом, без охвата истинного эффекта. Мы с Владом начинали с этих 77.5, потому что предполагали, что задача решается исключительно в голове, но симуляции нас заставили задуматься

- Упорно выходили значения 75-76, только оценкой перемножения наступления двух событий сразу вполне объясняло происходящее. И это казалось и кажется все еще логичным. Однако!

- Повторный возврат к симуляциям выявил следующее:
1) если у вас прям очень большие популяции, то изменение дисперсии в большую сторону (sic!) охватывало до 80% эффект согласно мощности. Это кажется логичным, так как такие популяции с большой дисперсией сильно разряженные, у вас будут высокодисперсивные выборки.

2) если популяции небольшие (1 млн.), то чем больше дисперсия, тем покрытие наоборот падает вплоть чуть ли не до 70%. Тут, возможно, проблема в конечной популяции и, как следствие, коррекции интервала. Хотя по идее конечная популяция создает проблему преувеличения надежности, тогда быть может, коррекция слишком сильная?..

3) Если зафиксировать seed генерации популяции, то результат = 77.5. Почему? Есть гипотеза, что фактически мы просто сдвигаем все элементы изначальной популяции на эффект, тем самым наши выборки также получались очень уж хорошо сдвинуты на этот эффект, то есть каждый элемент тестовой выборки получил тритмент с истинным эффектом (это имеет отношение sharp H0, которая как раз проверяет по каждому объекту сдвиг, представьте себе, что каждому из теста был свой клон в контроле). Тут, по-хорошему, проверить бы повторяемость этого.

Отсюда результат очередного подхода к этой проблеме такой:
- Покрытие мы получали от 70% до 80%
- Средние колебались от 75 до 76
- Есть подозрение, что есть оценщик всего этого, соблазнительна мысль, что это перемножение тех вероятностей выше, но такие результаты говорят будто о том, что это не независимые вероятности

Искали медь, а нашли портал в ад
👍214😱3
Доверительные интервалы, часть 2

Привет, товарищи-статистики!

Можно ли при стат.значимом результате добирать аудиторию для получения более суженного доверительного интервала эффекта? Хороший вопрос, так как кажется, что тут нет никакого подвоха, результат-то стат. значимый, можем открывать шампанское и вообще. Но все не так просто.

1) Концептуально, мы не застрахованы от того, что наш результат это ошибка 1-го рода, отсюда это мало чем отличается от обратной ситуации “донаберем данных до стат. значимости”. Стат. значимость не делает эффект достоверным, нам просто так удобнее думать.

2) Мы продолжим работать с условными CI, что охватили истинный эффект, то есть с 95 из 100, но после донабора охватывать истинный эффект будет уже 94. И вот тут вряд ли есть где-то ошибка в очень дубовой симуляции.

Почему так происходит? Дело в том, что каждые новые данные это реализация случайной величины с определенным разбросом, отсюда CI не только сужаются, но и колеблются, а поэтому из CI, которые уже охватили эффект, могут не охватить при новом наборе данных.

При этом CI как механизм охвата истинного параметра не сломаются, полна группа такая после добора:
CI охватил эффект | CI охватил эффект = 94,
CI не охватил эффект | CI охватил эффект = 1
CI не охватил эффект | CI не охватил эффект = 4,
CI охватил эффект | CI не охватил эффект = 1

Чуть перетасуем и получим более читаемый вид:
CI охватил эффект | CI охватил эффект = 94,
CI охватил эффект | CI не охватил эффект = 1

CI не охватил эффект | CI охватил эффект = 1
CI не охватил эффект | CI не охватил эффект = 4

п.2 порождают риск того, что ваш следующий интервал будет не стат. значимый. И что вы будете делать тогда? Мета-анализ зависимых гипотез? Но был ли он у вас в дизайне? Сможете ли вы его объяснить заказчику?

Я думаю, запланировать донабор возможно, но это потребует корректировки альфы и мощности; можно запланировать и мета-анализ. Просто это выглядит избыточным, мудреным и абсолютно не нужным. А незапланированный набор выглядит как, грубо говоря, подлог, который нужно штрафовать на уровне оценки объективности теста.

Если вам нужен узкий доверительный интервал, то на этапе дизайна:
- обратите внимание на то, что стандартная ошибка (вшитая в CI, если что) пропорциональна 1/корень(n). Это значит, например, увеличение в 2 раза выборки приведет только лишь к сокращению в 1.41 раза ширины CI, то есть на ~29%:
1/корень(1) - 1/корень(2) = 1 - 1/корень(2) = 1 - 0.71 = 0.29


Пользуйтесь эвристикой, вывод ее простой, сначала обобщим пример выше:
1 - 1/корень(1+k) = d, где d - доля снижения, где k - наш множитель

Через ряд алгебраических преобразований, мы получим:

k = (1 / (1-d) )^2, - смотри картинку поста для читаемости

Указывай долю снижения = получай множитель.


- подберите прокси-метрику с меньшей дисперсией, сохраняя тот же размер выборки по базовой метрике, но только помните про требования к таковой - связанность и сонаправленность с этой базовой

P.S. И к слову о штрафах. Так как игнорирование дизайна это бич стат. анализа, то уже давно думаю над тем, как внедрить как раз оценку объективности теста. Пока в голове просто прикидка а-ля пускай тест, задизайненный как следует и сделанный как планировалось, имеет объективность 100 баллов. За каждое отклонение, будь то “че-то еще давай посмотрим” или техническая проблема, минус сколько-то баллов. Само собой, не хватает конкретики, за что и насколько будем штрафовать, но мысль уже есть, думаю, рано или поздно что-нибудь да развернется. А если у вас что-то готово, делитесь :)
🔥112👍1
Привет, товарищи-статистики!

Пост 2-в-1

Во-первых, написал Введение в Causal Inference, выложить пришлось в формате гугл-дока в силу объема: доступ у меня, как говорится, ранний, еще допиливаю время от времени, но как-то больших дополний/изменений за последнее время не было да и не предвижу. Есть возможностью комментирования, - так мне можно помочь пофиксить чушь.

Постарался на 35+ страницах максимально мягко погрузить в тему, покрыть теорию настолько, насколько это позволит вам уверенне поступиться к практике. Надеюсь, вам понравится и пригодится!


Во-вторых, завтра будет моя любимая конфа, "Матемаркетинг 25" (ссылка на программу), там расскажу (также завтра) про расчет кумулятивных эффектов в X5 в мобильном приложении: доклад будет полезным тем, кто внедряет методологии по оценке эффектов. Я считаю, что вы можете после доклада не только понять его (сделаю всё-всё возможное + можно будет поговорить после), но легко переиспользовать через:
а) приложенные примеры в спредшитах/колабе
б) презентацию -> там полное и детальное доказательство подхода, копируйте -> представляете как готовую методологию

Есть промокод: ABBA10. Цена билета дорогая, но тут как и всегда расчет на то, что это оплатит ваша компания. И как всегда, повторю, ММ как и Aha стоят того, чтобы посетить: это как большой синк, который вы искренне ждали. Много ли таких? То-то!
🔥4013👍2
———
Привет, товарищи-статистики!

Аллилуйя! В декабре свидетелей статистики стало больше, завершился 9-ой поток по AB. Неожиданно, но половина людей пришли в рамках обучения от компаний: Авито, Литрес, Контур, Крейзи Панда пр., - наверное, это что-то да значит)

По отзывам в этот раз отмечу вот такое: "самое главное, что после курса появилось желание разобраться и тратить время на прикладную статистику" (это при том, что у человека за плечами было 1.5 года оной в вузе, тогда она казалась ему мёртвой)

Из того, над чем мне надо поработать:
- автоматизация проверки ДЗ. Да, ДЗ теперь есть, они с некоторого момента про сплошной дизайн, реальная практика как и хотели. Однако с моей стороны есть еще внутреннее сопротивление дз вообще, поэтому я задерживал проверки/

- темп повествования и местами дикция, тут еще думаю, как улучшить, ищу материалы

Из примечательного вам на заметку: нагрузка на участника составляет 7-8 часов в неделю (львиная доля это встречи)

Что вас ждет в версии v10:

0. Теперь есть симпатичные сертификаты по окончанию :) Могу выписать всем желающим, что были до)

1. Переработанные резюме каждой встречи, туда же теперь добавил ряд доп.материалов, которые не обязательны для курса, но существенно расширяют кругозор по статистике, математике, теорверу.

2. Помимо резюме для ряда встреч будет прям отдельный материал, рекомендованный для ознакомления: он будет больше про науку, ее методы и пр., большее погружение в Байеса

3. Также есть теперь срезовые шпаргалки: например, после завершения базы (это ~15 встреч) есть отдельная дока - разбор-повторение типичных вопросов из собеседований

4. Стало больше кода (линеаризация, дельта-метод, бутстрап), добавились симуляции, которые численно доказывают ряд утверждений про ЦПТ, ЗБЧ и пр.

5. Текстовые заготовки до и после встреч занимают теперь еще на 30 страниц A4 больше (в сумме 160). В них мы вспоминаем школьный курс алгебры (если требует тема), читаем интересные заметки для любознательных и пр., которые релевантны моменту и теме, конечно.

6. Разбил пару встреч на две, теперь точно каждая из будет в среднем 1.5 часа, то есть риск вскипания будет меньше)

7. Вновь переработал блок про множественное тестирование: ну теперь там прям совсем последовательно и дозировано, стало больше доказательств, четко разделены подходы FWER и FDR

8. Начал раскрывать особенности AB в индустрии: какие бывают особенности, какие могут быть коллизии (пересечение тестов, эффекты текущих тестов на прошлые и пр.)

9. Улучшил и углубил материал по дельта-методу: все-таки это очень важная тема в рамкам статистики, ей стоит упороться больше!

Что планируется:

- Все также рожаю A/B по Байесу. И сейчас-то немало байесианства вплетено в повествование (ба, да ты еретик), но отдельной прям встречи еще нет.

- Пытаюсь добавить материал про A/B-платформы

Встречи будут теперь как в лучших домах индустрии - в Talk от Контура: это действительно классный отечественный продукт!


Вообще, с учетом всех доп.материалов, углубления в методы в рамках встреч, понимание AB и умение его проводить - это лишь эффект этого курса. Вы, конечно, придете за AB, а уйдете мне теперь в этой жизни все понятно статистиками. Теперь куда с большей вероятностью, чем это было раньше.


Продолжение далее.
14👏2
Пора стартовать 10-ый поток "Наглядное АB-тестирование: от основ до современных стандартов" !

Старт планируется примерно в 20-ых чисел января, как раз все придут в себя после праздников и я тоже.

Список актуальных тем на скрине, о чем они кратко - тут.

- Обучение идет по вечерам, в 19 по Мск, 2-3 раза в неделю, примерно 4 месяца. Будние дни, обычно (но не всегда) в шахматном порядке 3x2: понедельник-среда-пятница, вторник-четверг
- Условия неизменны: "каждый поток веду лично, оказывая максимальное сопровождение по материалу; веду с удовольствием, в душе педагог; подача такая, будто надо объяснить детям, чтобы они могли объяснить это другим детям"
- Можно и нужно задавать вопросы, которые вам кажутся дурацкими, дебильным и пр. Это только приветствуется! Для стесняшек - всегда пожалуйста в личку)
- Все материалы, видео и презентации, будут доступны и после окончания в формате read.
- Цена, с учётом юбилейного 10го я сохраню 45к, на 11-ом планирую повышение!

Если есть желание - пишите мне в ЛС @smatrosov :) По курсу в начале вы будете общаться только со мной (!), далее подключу супругу в помощь по юр./фин.вопросам.

На всякий случай: все официально, есть договор, ЭДО, ИНН: 780535671209; остерегайтесь плохих людей, сам я первый никому не напишу, оплата только через интернет-эквайринг или счет для юр.лиц, никаких "на карту"!

Все отзывы, повторюсь, тут.

P.S. Те, кто писал мне ранее - о вас помню, вы записаны, свяжусь.
🔥86
Привет товарищи-статистики!

Последние дни декабря "очень продуктивны", поэтому вот вам новое на почитать "в обед".

Одно из самых занимательных в статистике, на мой взгляд, это то, а как вообще люди, чьими именами часто названы критерии, эти самые критерии вывели. К сожалению, обратная инженерия стат. теста не всегда может быть точна и будет отличаться от того, как оно было на самом деле.

И вот случай, а точнее вопрос про выбросы, заставил меня задуматься над совершенно другим, но связанным с выбросами проблемой - показательностью обычного среднего. То есть насколько вообще целесообразно использовать среднее, когда налицо есть выбросы. Очевидно, если у нас есть ряд [6, 7, 8, 9, 10, 100], то среднее = 23.3 так себе смотрится.

И как результат родил "критерий" показательности среднего как меры: результат наивный, требующим ряда проверок и пр., да и вообще, скорее всего нежизнеспособный. К тому же есть коэффициент вариации. Но для вас он полезен как раз другим: возможно, я смог показать рождение критерия. В статье расскажу как думал над ним, как несколько раз уходил не туда (и не факт, что "туда" как раз пришел), возвращался к началу, корректировал статистику для учета ряда нюансов и пр.

Рожаем критерий показательности среднего

P.S. Напоминаю про неспешный набор на 10-ый поток по AB и статистике, пост выше :)
8👍1
Привет, товарищи-работники!

Перед итогами года я хотел бы представить свое видение 2026-го года в контексте прежде всего работы. Кратко: считаю, что для трудящихся всё будет сложнее, чем в этом, но Эй-Ай нас не заменит.

Часть-1:
Текущая экономическая реальность представляет собой рост непроизводительных, то есть военных расходов из-за СВО, рост фискальной нагрузки (утильсбор + будущий технологический сбор и, конечно, НДС с сокращением "льготной" оборотки), высокая инфляция (расчёт ее официальным способом видится непоказательным), ставка ЦБ и курс рубля. Это не может не сказываться на индустрии, так как всё это бьёт по возможностям что-то купить большей части трудового населения.

Слово, которое я чаще стал слышать за последние полгода в рамках IT (через сообщества, людей и пр.), это "оптимизация". Сейчас речь прежде всего идет о сокращении бюджетов на мало перспективные проекты с переброской людей на что-то более обещающее. Пока не про сокращение ФОТ, но на увеличение команды смотрят с большей осторожностью.

Отсюда рекомендую:
1) получше спланировать свои расходы в будущем году, постарайтесь сохранять часть средств как финансовую подушку.
2) семь раз подумать, прежде чем вот так просто уходить с работы, особенно в никуда. Рынок труда сейчас, во-первых, рынок работодателя, во-вторых, людей ищут как будто меньше, часто слышу про фризы и пр.
3) если вы хотели как-то имеющиеся средства приумножить, но у вас их не с десяток миллионов, то лучше вложить их в образование. Это ничего не гарантирует, но хотя бы держит в тонусе ваш головной мозг.
4) если не хочется в образование, а денег все равно не с миллионы, то может имеет смысл уже позволить себе что-то, что давно хотели. Скорее всего дальше будет просто дороже, может, кратно. Это не противоречит с пунктом 1 при условии, если вы и без того откладываете на подушку. Если не откладываете, то лучше, как мне кажется, все-таки фин. подстраховка: цикл поиска нового места может занять больше, чем вы думаете сейчас

Часть-2:
Изменилось ли что-то по ожиданиям от кандидата в DA/PA ? На мой взгляд все, что писал тут, осталось верным и сейчас, но есть дополнений

Три обязательных навыка осталось как есть: Python, SQL, мат.cтат. Все они имеют одинаковую важность, но не одинаковую сложность освоения. Первые два набиваются через практику: кодим, делаем запросы, повторяем, результат.

А вот мат. стат всё-таки сложнее, не сильно, но сложнее.
Если вы метите в "просто синиоры", то базы+ряд продвинутых тем более чем достаточно. Это у нас понимание классической вероятности,условной вероятности, теоремы Байеса, дизайн тесто, t-test (+требования к нему), p-value, ошибки 1/2-го рода и пр. Провинутое это бутстрап, линеаризация, CUPED. На самом деле не так много, как кажется, поверьте.

Если вы хотите быть принципалом или методологом, понадобится раза в 2 больше, где нижняя планка показателя состоятельности это стоическое отношение к формулам (допускается сказать "пу-пу-пу"). Эти люди позволяют бизнесу считать сложные вещи правильно. Другой вопрос, что несмотря на то, что такие люди на рынке уже не первый год, спрос на них даже не начался! Просто сложных вещей не так уж много возникает из года в год. Там достаточно небольшой группы таких мозговитых, которые нанимают себе зрелые компании такие как X5, Авито, T-Банк и пр., остальным достаточно перенимать выработанную практику и нормально делать базу.

По базе, кстати, мой тех.лид Никита однажды совершенно справедливо сказал так: "все эти кьюпеды-хуюпеды, конечно, классно, если вы провалили базу, то это всё бессмысленно, так как подаете на вход в кьюпед заранее херню", - чем дольше работаю, чем ярче эти слова откликаются во мне.

Часть-3
Нейронки меняют найм, работу и привычный рост ребят от джуна и далее. Кратко, джунам тут уже не место, но и о замене всех не идет речь. Об этом написал далее: https://telegra.ph/GPT-ehto-instrument-a-ne-zamena-ne-vseh-12-30
👍209💯3🔥2