Привет, товарищи-статистики!
Вчера мой товарищ Влад, с которым мы работали в X5 и который теперь работает в Авито, выдал ML-базу: bias-variance decomposition через очень последовательное переписывание MSE - среднеквадратичной ошибки как метрики, оценивающей результатах нашего моделирования.
Я встречался с этой метрикой много раз в рамках материалов про ML, как и с идей bias-variance tradeoff, но в таком виде MSE, в котором и есть буквально bias и variance, признаюсь, увидел впервые. Выглядит как очень красиво, наконец-то есть связь с tradeoff не просто на уровне логического осмысления, но и через метрику!
Влад очень последовательно показывает вывод с применением классических свойств дисперсии и мат. ожидания, поэтому за преобразованием следить очень легко! К тому же есть промежуточные пояснения и подробные комментарии - всё как я люблю, в общем.
P.S. И как-то странно получается, но не так давно видел замечательное видео про то, почему у MSE именно квадрат (это тоже считается классикой вывода), к материалу будет только в плюс, видео на английском
Вчера мой товарищ Влад, с которым мы работали в X5 и который теперь работает в Авито, выдал ML-базу: bias-variance decomposition через очень последовательное переписывание MSE - среднеквадратичной ошибки как метрики, оценивающей результатах нашего моделирования.
Я встречался с этой метрикой много раз в рамках материалов про ML, как и с идей bias-variance tradeoff, но в таком виде MSE, в котором и есть буквально bias и variance, признаюсь, увидел впервые. Выглядит как очень красиво, наконец-то есть связь с tradeoff не просто на уровне логического осмысления, но и через метрику!
Влад очень последовательно показывает вывод с применением классических свойств дисперсии и мат. ожидания, поэтому за преобразованием следить очень легко! К тому же есть промежуточные пояснения и подробные комментарии - всё как я люблю, в общем.
P.S. И как-то странно получается, но не так давно видел замечательное видео про то, почему у MSE именно квадрат (это тоже считается классикой вывода), к материалу будет только в плюс, видео на английском
🔥12❤4👎1
С прошедшим Днём международной солидарности трудящихся, товарищи!
Раз уж у нас идут последовательно праздники за праздниками, то почему бы не поговорить вновь и про последовательное тестирование, которое может позволить нам совершенно валидно остановить тест раньше времени?
На этот раз поговорим о Group Sequential Testing, который легко интерпретировать и внедрить, да и честно сказать, он мне стал нравится куда больше из-за своей простоты, чем mSPRT.
Вас ждут:
- Разбор Alpha-spending функции
- границы по Pocock
- метод Lan, Kim и DeMets
- Futility как возможность остановить тест, когда тщетны наши попытки эффект обнаружить
- Beta-spending от Pampallona и Kim как раз для Futility
В общем, читайте про Group Sequential Testing
Раз уж у нас идут последовательно праздники за праздниками, то почему бы не поговорить вновь и про последовательное тестирование, которое может позволить нам совершенно валидно остановить тест раньше времени?
На этот раз поговорим о Group Sequential Testing, который легко интерпретировать и внедрить, да и честно сказать, он мне стал нравится куда больше из-за своей простоты, чем mSPRT.
Вас ждут:
- Разбор Alpha-spending функции
- границы по Pocock
- метод Lan, Kim и DeMets
- Futility как возможность остановить тест, когда тщетны наши попытки эффект обнаружить
- Beta-spending от Pampallona и Kim как раз для Futility
В общем, читайте про Group Sequential Testing
Telegraph
Group Sequential Tests: очередное ускорение тестов
Наивная Alpha-Spending Для начала имеет смысл рассмотреть базовый наивный подход к снаряду, он нам нужен только для того, чтобы от него потом оттолкнуться в плане теории и не возвращаться! В момент подглядывания (оно же промежуточный анализ, interim analysis)…
🔥12❤1
Привет, сomrads-statisticians!
Пока пишу очередной пост-разбор по статистике, хочу порекомедовать конференцию по аналитике Aha!25, так считаю, что и как Матемаркетинг, это действительно мероприятие стоящие вашего времени и денег. Она пройдет 29-30 мая в Москве, МГУ, кластер «Ломоносов» (Раменский бульвар, 1).
Программа по ссылке
Сам я буду в этот раз слушателем онлайн, поэтому не смогу увидеть никого из аналитической тусочки, эх. Но расскажу, что хочу послушать, тут не будет ничего неожиданного, я бы сказал, тут прям база:
- Артем Ерохин, X5 Tech "Проксимируй это: как использовать прокси-метрики умнее?". Метрики - это самое сложное на мой взгляд в AB, с ними больше подводных, чем с критериями, а с прокси так вообще: пойди еще докажи, что они прокси для целевой. Артем расскажет про современный подход в работе с ними так, что fit - use (но это неточно)
- Диля Хакимова, Яндекс, "Формула доверия: аналитические доверительные интервалы для Ratio- и Uplift-метрик". Диля говорит, что ее материал уникален с точки зрения вывода, плюс будет полный гайд, ну посмотрим. Если все понравится - напишу может даже пост.
- Дарья Леонова, Garage8, "A/B-тесты для миддлов и продактов: как выйти за рамки "Просто запускаем эксперименты". Там хоть и будет про типичные ошибки и сценарии, но мало ли что-то новое проскочит. Главное, что обещала Дарья, это показать системный подход. Интересно его сравнить с нашим, можем дополню последний.
Ну и еще про временные ряды, то, что мне по душе уж который год:
- Александр Исаков, Яндекс.Лавка, "Как прогнозировать тысячи временных рядов и не сойти с ума". Во-первых, это опыт конкурента :), во-вторых, временные ряды, камон! Посмотрим, насколько Саша будет конкретен в своем докладе.
Билеты можно купить тут.
Да, недешево, но подразумевается, что купит их вам компания, в которой вы работаете: поэтому идите к HR и просите обещанное когда-то в вакансии - возможность посетить конференцию для собственного роста!
Промокод 15%
ABBATESTING15
Пока пишу очередной пост-разбор по статистике, хочу порекомедовать конференцию по аналитике Aha!25, так считаю, что и как Матемаркетинг, это действительно мероприятие стоящие вашего времени и денег. Она пройдет 29-30 мая в Москве, МГУ, кластер «Ломоносов» (Раменский бульвар, 1).
Программа по ссылке
Сам я буду в этот раз слушателем онлайн, поэтому не смогу увидеть никого из аналитической тусочки, эх. Но расскажу, что хочу послушать, тут не будет ничего неожиданного, я бы сказал, тут прям база:
- Артем Ерохин, X5 Tech "Проксимируй это: как использовать прокси-метрики умнее?". Метрики - это самое сложное на мой взгляд в AB, с ними больше подводных, чем с критериями, а с прокси так вообще: пойди еще докажи, что они прокси для целевой. Артем расскажет про современный подход в работе с ними так, что fit - use (но это неточно)
- Диля Хакимова, Яндекс, "Формула доверия: аналитические доверительные интервалы для Ratio- и Uplift-метрик". Диля говорит, что ее материал уникален с точки зрения вывода, плюс будет полный гайд, ну посмотрим. Если все понравится - напишу может даже пост.
- Дарья Леонова, Garage8, "A/B-тесты для миддлов и продактов: как выйти за рамки "Просто запускаем эксперименты". Там хоть и будет про типичные ошибки и сценарии, но мало ли что-то новое проскочит. Главное, что обещала Дарья, это показать системный подход. Интересно его сравнить с нашим, можем дополню последний.
Ну и еще про временные ряды, то, что мне по душе уж который год:
- Александр Исаков, Яндекс.Лавка, "Как прогнозировать тысячи временных рядов и не сойти с ума". Во-первых, это опыт конкурента :), во-вторых, временные ряды, камон! Посмотрим, насколько Саша будет конкретен в своем докладе.
Билеты можно купить тут.
Да, недешево, но подразумевается, что купит их вам компания, в которой вы работаете: поэтому идите к HR и просите обещанное когда-то в вакансии - возможность посетить конференцию для собственного роста!
Промокод 15%
ABBATESTING15
👍6🔥3❤2
Не пропускаем понедельник, товарищи-статистики!
Хотел продолжить серию про секвентальное тестирование, но уже довольно свежий (!) и интересный алгоритм показался мне прям сильно сложнее для объяснения, чем тот, что был ранее, поэтому сегодня поговорим про оценку кумулятивного эффекта - то, как несколько изменений, по которым были тесты, повлияли совместо.
Классическая и очень простая история это выделить глобальную контрольную группу, - holdout, - на которую какое-то время не будет распространяться никаких улучшений.
Но что если такую группу выделить по каким-то причинам невозможно, а оценить нужно?
Причины могут быть от технических допрое "забыли".
В начале года столкнулся с тем, что нужно было продумать, как оценить кумулятив при сценарии невозможности выделения holdout'a. И на методологию от Airbnb, которая мне очень пришлась по душе (так как математически выведена оценка!), меня навел Влад. Статья ниже написана в том числе благодаря его материалам, большое ему спасибо!
Статья начинается со слов "Winner's Curse", Проклятье победителя: смысл в том, что в рамках аукциона, где продается неких товар, победитель аукциона (а это часто наибольшая ставка) скорее всего заплатит больше, чем фактическая стоимость товара. Так и в рамках наивного суммирования эффектов от прошедших тестов - скорее всего оценка будет завышенной.
Разберем Winner's Curse: Bias Estimation for Total Effects of Features in Online Controlled Experiments
Хотел продолжить серию про секвентальное тестирование, но уже довольно свежий (!) и интересный алгоритм показался мне прям сильно сложнее для объяснения, чем тот, что был ранее, поэтому сегодня поговорим про оценку кумулятивного эффекта - то, как несколько изменений, по которым были тесты, повлияли совместо.
Классическая и очень простая история это выделить глобальную контрольную группу, - holdout, - на которую какое-то время не будет распространяться никаких улучшений.
Но что если такую группу выделить по каким-то причинам невозможно, а оценить нужно?
Причины могут быть от технических до
В начале года столкнулся с тем, что нужно было продумать, как оценить кумулятив при сценарии невозможности выделения holdout'a. И на методологию от Airbnb, которая мне очень пришлась по душе (так как математически выведена оценка!), меня навел Влад. Статья ниже написана в том числе благодаря его материалам, большое ему спасибо!
Статья начинается со слов "Winner's Curse", Проклятье победителя: смысл в том, что в рамках аукциона, где продается неких товар, победитель аукциона (а это часто наибольшая ставка) скорее всего заплатит больше, чем фактическая стоимость товара. Так и в рамках наивного суммирования эффектов от прошедших тестов - скорее всего оценка будет завышенной.
Разберем Winner's Curse: Bias Estimation for Total Effects of Features in Online Controlled Experiments
Telegraph
Оценка кумулятивного эффекта
Объяснение будет следовать согласно докладам как Влада, так и ребят из Airb'n'b. Пускай у нас есть ряд экспериментов, в которых мы получили следущее: Observed - это та дельта, что мы наблюдаем, а True - это истинная дельта, "что есть на самом деле". Как видно…
❤6👍4🔥1
Привет, товарищи-статистики!
Наконец-то написал про еще один метод последовательного тестирования, но очень свежий!
YEAST - YEt Another Sequential Test от ребят из Zalando от 2024-го года.
Это вам не методы из 40-х / 70-х / 80-х, которые индустрия переоткрыла для себя (хоть я и считаю, что Group Sequential Testing + "тщеность"бытия усилий самый простой, лаконичный и понятный из них + легче реализовывается)
Я наткнулся на него случайно: решил посмотреть на создателя известного калькулятора по AB - Эвана Миллера, в его ленте в Линкедин наткнулся на пост как раз про этот тест. И это оказалось - красиво!
Кажется, ребята смогли реализовать мечту многих начинающих AB-щников, а точнее даже типичного заказчика: при какой конкретно сумме транзакций / РТО / конверсий (условно, по B, но там чуть хитрее) мы сможем сказать, что результаты действительно лучше и надо катить. Так-то обычно заказчиками и начинающим после в ответ начинают рассказывать про критерии, и те немного начинают унывать от каких-то статистик, t-распределений..
Метод "идеалогически" является альтернативой всем ранее представленным тестам, работает с аблютной величиной метрики, - максимальная конкретика вместо t, лямбд и пр., - не нуждается в определении моделей данных как тот же (m)SPRT.
Метод уже внедрен в AB-платформу Zalando и является их стандартом.
Подготовил для вас, дорогие товарищи, максимально разжеванный разбор метода, в том числе математики, а она там может привести в уныние и бывалого :) Даже Эван намекнул: "they (Zalando) do real math instead of my 18th century aristocratic hand-waving" (он пытался что-то такое реализовать давненько)
Давайте поймём YEAST: Yet Another Sequential Test
Наконец-то написал про еще один метод последовательного тестирования, но очень свежий!
YEAST - YEt Another Sequential Test от ребят из Zalando от 2024-го года.
Это вам не методы из 40-х / 70-х / 80-х, которые индустрия переоткрыла для себя (хоть я и считаю, что Group Sequential Testing + "тщеность"
Я наткнулся на него случайно: решил посмотреть на создателя известного калькулятора по AB - Эвана Миллера, в его ленте в Линкедин наткнулся на пост как раз про этот тест. И это оказалось - красиво!
Кажется, ребята смогли реализовать мечту многих начинающих AB-щников, а точнее даже типичного заказчика: при какой конкретно сумме транзакций / РТО / конверсий (условно, по B, но там чуть хитрее) мы сможем сказать, что результаты действительно лучше и надо катить. Так-то обычно заказчиками и начинающим после в ответ начинают рассказывать про критерии, и те немного начинают унывать от каких-то статистик, t-распределений..
Метод "идеалогически" является альтернативой всем ранее представленным тестам, работает с аблютной величиной метрики, - максимальная конкретика вместо t, лямбд и пр., - не нуждается в определении моделей данных как тот же (m)SPRT.
Метод уже внедрен в AB-платформу Zalando и является их стандартом.
Подготовил для вас, дорогие товарищи, максимально разжеванный разбор метода, в том числе математики, а она там может привести в уныние и бывалого :) Даже Эван намекнул: "they (Zalando) do real math instead of my 18th century aristocratic hand-waving" (он пытался что-то такое реализовать давненько)
Давайте поймём YEAST: Yet Another Sequential Test
Telegraph
YEAST: Yet Another Sequential Test
Часть 1. Построение базового критерия Сначала мы выведем стат. тест, который бы использовали для нашей процедуры. Поэтому надо начать со статистики ~ метрики для нашего тестирования. Определение метрики В рамках эксперимента мы может на некоторый момент времени…
👍15❤8🔥6👏1
Привет, товарищи!
Пока у меня готовится ряд постов на предстоящую неделю, в том числе с аноном следующего потока по AB, хочу попиарить оффлайн-мероприятие "I see ML", которое пройдет в Москве, в среду, 27 августа, в 19:00 в "Сфера X5", Парк Горького, ул. Крымский Вал, 9.
Что будет: обсуждение 3-х докладов, - заявленных как научные открытия, - которые были на 26-й Международной конференции по машинному обучению (ICML), в формате кинопоказа. Как я понял, будут смотреть доклад и комментировать!
Доклады, которые будут комментировать:
- Position: AI Safety should prioritize the Future of Work (ICML outstanding paper 2025!)
Влияние ИИ на будущее рынка труда, о рисках, которые создает ИИ для интересов простых трудящихся, и о том, как это можно было бы преодолеть.
Чем полезно (как это понял я): возможно, будет меньше определенности в контексте "нас всех скоро заменит ИИ".
- Re-Imagine: Symbolic Benchmark Synthesis for Reasoning Evaluation
LLM-ки поражают (меня так уж частенько!) тем, как отвечают на заданные промпты, что задает вопрос, являются ли наблюдаемые результаты результатом истинного рассуждения или статистическим воспроизведением обучающей выборки. Чтобы, условно, отделить одно от другого, авторы предлагают фреймворк Re-Imagine для описания иерархии способностей к рассуждению у LLM и не только.
Чем полезно: возможно, фреймворк даст лучше понимание, насколько ваша модель зависит от памяти выборки, на которой она обучалась, и насколько в ней действительно есть потенциал рассуждать.
- Building Production Ready Agentic Systems: Architecture, LLM-based Evaluation, and GRPO Training
Spopity здесь рассказывает, как используют LLM и агентные шаблоны для создания помощника Shopify Sidekick с множеством навыков. В общем, они сделали ультра-умного помощника с многозадачностью, будут погружать в архитектуру, методы обучения, задачи и пр.
Чем полезно: таких помощников будут внедрять всюду и везде компании среднего уровня и больше; аналогичное будут делать и гос.учреждения. Возможно, внедрять это будете непосредственно вы. Неплохо бы поэтому иметь представление, как это делают другие. Возможно, кое-что расскажут и комментаторы.
Комментаторы: специалисты из X5, T-Банка, Яндекса
В целом, я надеюсь, ребята будут пытаться это обсудить с заземлением на наши реалии и степени развитости внедрения ИИ.
Регистрация тут.
Пока у меня готовится ряд постов на предстоящую неделю, в том числе с аноном следующего потока по AB, хочу попиарить оффлайн-мероприятие "I see ML", которое пройдет в Москве, в среду, 27 августа, в 19:00 в "Сфера X5", Парк Горького, ул. Крымский Вал, 9.
Что будет: обсуждение 3-х докладов, - заявленных как научные открытия, - которые были на 26-й Международной конференции по машинному обучению (ICML), в формате кинопоказа. Как я понял, будут смотреть доклад и комментировать!
Доклады, которые будут комментировать:
- Position: AI Safety should prioritize the Future of Work (ICML outstanding paper 2025!)
Влияние ИИ на будущее рынка труда, о рисках, которые создает ИИ для интересов простых трудящихся, и о том, как это можно было бы преодолеть.
Чем полезно (как это понял я): возможно, будет меньше определенности в контексте "нас всех скоро заменит ИИ".
- Re-Imagine: Symbolic Benchmark Synthesis for Reasoning Evaluation
LLM-ки поражают (меня так уж частенько!) тем, как отвечают на заданные промпты, что задает вопрос, являются ли наблюдаемые результаты результатом истинного рассуждения или статистическим воспроизведением обучающей выборки. Чтобы, условно, отделить одно от другого, авторы предлагают фреймворк Re-Imagine для описания иерархии способностей к рассуждению у LLM и не только.
Чем полезно: возможно, фреймворк даст лучше понимание, насколько ваша модель зависит от памяти выборки, на которой она обучалась, и насколько в ней действительно есть потенциал рассуждать.
- Building Production Ready Agentic Systems: Architecture, LLM-based Evaluation, and GRPO Training
Spopity здесь рассказывает, как используют LLM и агентные шаблоны для создания помощника Shopify Sidekick с множеством навыков. В общем, они сделали ультра-умного помощника с многозадачностью, будут погружать в архитектуру, методы обучения, задачи и пр.
Чем полезно: таких помощников будут внедрять всюду и везде компании среднего уровня и больше; аналогичное будут делать и гос.учреждения. Возможно, внедрять это будете непосредственно вы. Неплохо бы поэтому иметь представление, как это делают другие. Возможно, кое-что расскажут и комментаторы.
Комментаторы: специалисты из X5, T-Банка, Яндекса
В целом, я надеюсь, ребята будут пытаться это обсудить с заземлением на наши реалии и степени развитости внедрения ИИ.
Регистрация тут.
x5-tech-event.timepad.ru
ИИнсомния: I see ML / События на TimePad.ru
Мы в X5 Tech | AI держим руку на пульсе технологий, поэтому предлагаем собраться 27 августа в 19:00 в Парке Горького, чтобы обсудить научные открытия в области искусственного интеллекта в кругу единомышленников.
❤5🔥4👍2👏1
Привет, товарищи-статистики!
На днях Дима Лунин из Авито выпустил свою 5-ую статью на хабре (с чем и поздравим!) по базе AB: "Методичка по AB-тестированию от аналитиков Авито". И когда пишет такой специалист как Дима, то прочитать стоит вне зависимости от того, база это или нет, так как, возможно, какие-то очень хорошо знакомые понятия предстанут вам под другим углом, такие углы ищу и я, корректируя и уточняя формулировки для курса.
Со своей стороны оставил ряд комментариев к статье (и не только к ней, кстати!), думаю, они могут быть полезны.
Читать комментарии к статье от Димы
P.S. В пятницу ждите пост про новый поток по AB, пора, мои товарищи, пора!
На днях Дима Лунин из Авито выпустил свою 5-ую статью на хабре (с чем и поздравим!) по базе AB: "Методичка по AB-тестированию от аналитиков Авито". И когда пишет такой специалист как Дима, то прочитать стоит вне зависимости от того, база это или нет, так как, возможно, какие-то очень хорошо знакомые понятия предстанут вам под другим углом, такие углы ищу и я, корректируя и уточняя формулировки для курса.
Со своей стороны оставил ряд комментариев к статье (и не только к ней, кстати!), думаю, они могут быть полезны.
Читать комментарии к статье от Димы
P.S. В пятницу ждите пост про новый поток по AB, пора, мои товарищи, пора!
Telegraph
Комментарии по механике AB-тестирования от Авито
1.Почему чаще всего сравниваем средние? Мне очень понравилось объяснение, почему чтобы определить, приносит ли больше денег наша фича, достаточно сравнить математические ожидания наших выборок A и B. А ведь для бизнеса это может быть неочевидно! Действительно…
❤22
———
Привет, товарищи-статистики!
Возрадуемся! У нас новые укушенные статистикой и A/B: в начале августа завершил свое превращение 8-ой поток, самый большой из прошедших, отзывы на скринах.
Из основного, что выделил из отзывов для себя в качестве зоны улучшения это все-таки “дать практики”. Поэтому август я старался уделить части практики больше внимания, чем переработке теор. материалов, сделал, где это уместно, ДЗ + с некоторой темы будут проекты, ожидаемо, что это ряд дизайнов по AB. С трудом, но получалось: ну просто не та эта область, не та! И все же у людей есть запрос, штош, посмотрим на результаты.
А так, по отзывам приятно было читать уже классическое “так вот как под капотом это работает”, “читаю статьи и понимаю написанное!”, также приятно, что кто-то назвал это лучшим вложением в свое образование, а кто-то, будучи хедом в одном известном банке, который просто пришел на разведку, сказал, что будет отправлять на обучение ко мне ребят. Значит, пока делаю все в нужном направлении!
Теперь только поднажму с практикой!
Что будет в версии v9:
1. Появились резюме встреч (почти все финализировал)
2. Появился и код, где надо а-ля бутстрап, линеаризация и пр. - бери и используй; сейчас расширяю до симуляций и пр., где уместно
3. Кажется, удалось через работу с материалом, наконец-то, замедлить темп повествования в рамках встречи, появилась ощутимая размеренность! Но время каждой встречи будет в среднем 1.5 часа.
4. Курс занимает полноценный учебный семестр, отчасти потому, что я чуть лучше стал понимать, как лучше дозировать объем материала в неделю.
5. Блок про множественное тестирование теперь обзавелся +1 встречей, в основном потому, что нужно было расширить подводку в многомерным стат.тестам, из-за добавления теста Kim’a как аналог теста Welch’a, а также модификат от ребят из Т-Банка “Kim5”. Все это вместе и без того много, разделять на две части было необходимо.
Также обогатил блок по вопросам зависимых и независимых гипотез, переработал вводную по FWER, где расписал уже аналитические выводы формул Бонферрони, Холма-Бонферрони и пр.; аналогично и тему про FDR, там тоже больше раскрыты логика работы формул, рассмотрена +1 поправка Benjamini-Yekutieli.
6. Текстовые заготовки занимают теперь на 30 страниц A4 больше (в сумме 130). В них мы вспоминаем школьный курс алгебры (если требует тема), читаем интересные заметки для любознательных и пр., которые релевантны моменту и теме, конечно.
7. Помощь супруги как модератора была неоценима, она будет помогать мне незримо для вас и впредь :)
Что планируется:
8. Материал про A/B Байесу пишется, очень рассчитываю его дополнительно прочитать на этом потоке.
9. Мне подумалось, что пора давать больше индустриального: рассказать про AB-платформы и их особенности, которые возможны в текущее время только в бизнесе, а не в науке. Также планирую на этот поток допом.
Попробовал МТС Link. В общем, вместо будет Talk от Контура, сравнительный фидбек напишу после, но МТС в важных моментах по планированию, сохранению видео и, особенно, выставки презентации мне прям не понравился. Последнее меня сильно расстроило: какие максимум 600 слайдов, алло!? - у меня это среднее значение на лекцию)) да-да, +-600 на встречу (коллеги на открытых мероприятиях постоянно шутят про сколько слайдов я принес сегодня))
Продолжение далее.
Привет, товарищи-статистики!
Возрадуемся! У нас новые укушенные статистикой и A/B: в начале августа завершил свое превращение 8-ой поток, самый большой из прошедших, отзывы на скринах.
Из основного, что выделил из отзывов для себя в качестве зоны улучшения это все-таки “дать практики”. Поэтому август я старался уделить части практики больше внимания, чем переработке теор. материалов, сделал, где это уместно, ДЗ + с некоторой темы будут проекты, ожидаемо, что это ряд дизайнов по AB. С трудом, но получалось: ну просто не та эта область, не та! И все же у людей есть запрос, штош, посмотрим на результаты.
А так, по отзывам приятно было читать уже классическое “так вот как под капотом это работает”, “читаю статьи и понимаю написанное!”, также приятно, что кто-то назвал это лучшим вложением в свое образование, а кто-то, будучи хедом в одном известном банке, который просто пришел на разведку, сказал, что будет отправлять на обучение ко мне ребят. Значит, пока делаю все в нужном направлении!
Теперь только поднажму с практикой!
Что будет в версии v9:
1. Появились резюме встреч (почти все финализировал)
2. Появился и код, где надо а-ля бутстрап, линеаризация и пр. - бери и используй; сейчас расширяю до симуляций и пр., где уместно
3. Кажется, удалось через работу с материалом, наконец-то, замедлить темп повествования в рамках встречи, появилась ощутимая размеренность! Но время каждой встречи будет в среднем 1.5 часа.
4. Курс занимает полноценный учебный семестр, отчасти потому, что я чуть лучше стал понимать, как лучше дозировать объем материала в неделю.
5. Блок про множественное тестирование теперь обзавелся +1 встречей, в основном потому, что нужно было расширить подводку в многомерным стат.тестам, из-за добавления теста Kim’a как аналог теста Welch’a, а также модификат от ребят из Т-Банка “Kim5”. Все это вместе и без того много, разделять на две части было необходимо.
Также обогатил блок по вопросам зависимых и независимых гипотез, переработал вводную по FWER, где расписал уже аналитические выводы формул Бонферрони, Холма-Бонферрони и пр.; аналогично и тему про FDR, там тоже больше раскрыты логика работы формул, рассмотрена +1 поправка Benjamini-Yekutieli.
6. Текстовые заготовки занимают теперь на 30 страниц A4 больше (в сумме 130). В них мы вспоминаем школьный курс алгебры (если требует тема), читаем интересные заметки для любознательных и пр., которые релевантны моменту и теме, конечно.
7. Помощь супруги как модератора была неоценима, она будет помогать мне незримо для вас и впредь :)
Что планируется:
8. Материал про A/B Байесу пишется, очень рассчитываю его дополнительно прочитать на этом потоке.
9. Мне подумалось, что пора давать больше индустриального: рассказать про AB-платформы и их особенности, которые возможны в текущее время только в бизнесе, а не в науке. Также планирую на этот поток допом.
Попробовал МТС Link. В общем, вместо будет Talk от Контура, сравнительный фидбек напишу после, но МТС в важных моментах по планированию, сохранению видео и, особенно, выставки презентации мне прям не понравился. Последнее меня сильно расстроило: какие максимум 600 слайдов, алло!? - у меня это среднее значение на лекцию)) да-да, +-600 на встречу (коллеги на открытых мероприятиях постоянно шутят про сколько слайдов я принес сегодня))
Продолжение далее.
🔥10❤2👍2
Пора стартовать 9-ый поток "Наглядное АB-тестирование: от основ до современных стандартов" !
Старт я бы хотел сделать через неделю, то есть c 8-го сентября.
Список актуальных тем на скрине, о чем они кратко - тут.
- Обучение идет по вечерам, в 19 по Мск, 2-3 раза в неделю, не менее 3-х месяцев (скорее всего 4). Будние дни, обычно (но не всегда) в шахматном порядке 3x2: понедельник-среда-пятница, вторник-четверг
- Условия неизменны: "каждый поток веду лично, оказывая максимальное сопровождение по материалу; веду с удовольствием, в душе педагог; подача такая, будто надо объяснить детям, чтобы они могли объяснить это другим детям"
- Можно и нужно задавать вопросы, которые вам кажутся дурацкими, дебильным и пр. Это только приветствуется! Для стесняшек - всегда пожалуйста в личку)
- Все материалы, видео и презентации, будут доступны и после окончания в формате read.
- Цена 45к
Если есть желание - пишите мне в ЛС @smatrosov :) По курсу в начале вы будете общаться только со мной (!), далее подключу супругу в помощь.
На всякий случай: все официально, дорабатывается договор, расчет по реквизитам ИП; остерегайтесь плохих людей, сам я первый никому не напишу!
Отзывы в посте выше.
P.S. Те, кто писал мне ранее - о вас помню, вы записаны, свяжусь.
Старт я бы хотел сделать через неделю, то есть c 8-го сентября.
Список актуальных тем на скрине, о чем они кратко - тут.
- Обучение идет по вечерам, в 19 по Мск, 2-3 раза в неделю, не менее 3-х месяцев (скорее всего 4). Будние дни, обычно (но не всегда) в шахматном порядке 3x2: понедельник-среда-пятница, вторник-четверг
- Условия неизменны: "каждый поток веду лично, оказывая максимальное сопровождение по материалу; веду с удовольствием, в душе педагог; подача такая, будто надо объяснить детям, чтобы они могли объяснить это другим детям"
- Можно и нужно задавать вопросы, которые вам кажутся дурацкими, дебильным и пр. Это только приветствуется! Для стесняшек - всегда пожалуйста в личку)
- Все материалы, видео и презентации, будут доступны и после окончания в формате read.
- Цена 45к
Если есть желание - пишите мне в ЛС @smatrosov :) По курсу в начале вы будете общаться только со мной (!), далее подключу супругу в помощь.
На всякий случай: все официально, дорабатывается договор, расчет по реквизитам ИП; остерегайтесь плохих людей, сам я первый никому не напишу!
Отзывы в посте выше.
P.S. Те, кто писал мне ранее - о вас помню, вы записаны, свяжусь.
🔥16❤1
Привет, товарищи-статистики!
Финальное промо курса, на котором я постараюсь из вас сделать скорее второго товарища из картинки, чем первого; так как статистика - это охуенно! Далее вернемся в ритм постов о статистике и не только, есть у меня пара занятных размышлений, думаю, вам будет по душе)
Итак, завтра, 8 сентября, стартует 9-ый поток курса по AB;
Дата следующего, 10-го, примерно середина января 2026-го.
Мы наглядно рассмотрим четыре блока по стат. проверке гипотез:
1. База: от введения в статистику до разбора работы с долевыми метриками
2. Продвинутые темы: любимая Ratio-метрика, линеариация, бутстрап, дельта-метод с повторением базы матанализа, конечно
3. Множественное тестирование: виды мультетеста, проблемы, поправки и пр.
4. Вишенки на торте: последовательное тестирование как "легальный" способ подглядывания в тесты, ошибки S, M, тест Welch’a и пр.
Календарь 9-го потока
Основная актуальная программа
Очень горжусь его нынешним состоянием, вложил душу в него, наверное, ц-дать раз!
—
Что говорят участники прошлых потоков?
- Не просто уверенное планирование и дизайн тест, а очень осмысленное, с возможность на пальцах объяснить бизнесу, как оно работает
- Офигенные примеры и простота изложение
- Стало кратно легче читать и понимать статьи по статистике
- Пройти собес по AB теперь не проблема, особенно, что ответы исходят из понимания, а не просто знания
Все отзывы
На этом 9-ом буду тестировать практику, очень интересно посмотреть, закроется ли нехватка ее для страждующих!
- Обучение идет по вечерам, в 19 по Мск, 2-3 раза в неделю, не менее 3-х месяцев (скорее всего 4). Будние дни, обычно (но не всегда) в шахматном порядке 3x2: понедельник-среда-пятница, вторник-четверг
- Условия неизменны: "каждый поток веду лично, оказывая максимальное сопровождение по материалу; веду с удовольствием, в душе педагог; подача такая, будто надо объяснить детям, чтобы они могли объяснить это другим детям"
- Можно и нужно задавать вопросы, которые вам кажутся дурацкими, дебильным и пр. Это только приветствуется! Для стесняшек - всегда пожалуйста в личку)
- Все материалы, видео и презентации, будут доступны и после окончания в формате read.
- Цена 45к
Есть желание принять участие - пишите мне в ЛС @smatrosov
Финальное промо курса, на котором я постараюсь из вас сделать скорее второго товарища из картинки, чем первого; так как статистика - это охуенно! Далее вернемся в ритм постов о статистике и не только, есть у меня пара занятных размышлений, думаю, вам будет по душе)
Итак, завтра, 8 сентября, стартует 9-ый поток курса по AB;
Дата следующего, 10-го, примерно середина января 2026-го.
Мы наглядно рассмотрим четыре блока по стат. проверке гипотез:
1. База: от введения в статистику до разбора работы с долевыми метриками
2. Продвинутые темы: любимая Ratio-метрика, линеариация, бутстрап, дельта-метод с повторением базы матанализа, конечно
3. Множественное тестирование: виды мультетеста, проблемы, поправки и пр.
4. Вишенки на торте: последовательное тестирование как "легальный" способ подглядывания в тесты, ошибки S, M, тест Welch’a и пр.
Календарь 9-го потока
Основная актуальная программа
Очень горжусь его нынешним состоянием, вложил душу в него, наверное, ц-дать раз!
—
Что говорят участники прошлых потоков?
- Не просто уверенное планирование и дизайн тест, а очень осмысленное, с возможность на пальцах объяснить бизнесу, как оно работает
- Офигенные примеры и простота изложение
- Стало кратно легче читать и понимать статьи по статистике
- Пройти собес по AB теперь не проблема, особенно, что ответы исходят из понимания, а не просто знания
Все отзывы
На этом 9-ом буду тестировать практику, очень интересно посмотреть, закроется ли нехватка ее для страждующих!
- Обучение идет по вечерам, в 19 по Мск, 2-3 раза в неделю, не менее 3-х месяцев (скорее всего 4). Будние дни, обычно (но не всегда) в шахматном порядке 3x2: понедельник-среда-пятница, вторник-четверг
- Условия неизменны: "каждый поток веду лично, оказывая максимальное сопровождение по материалу; веду с удовольствием, в душе педагог; подача такая, будто надо объяснить детям, чтобы они могли объяснить это другим детям"
- Можно и нужно задавать вопросы, которые вам кажутся дурацкими, дебильным и пр. Это только приветствуется! Для стесняшек - всегда пожалуйста в личку)
- Все материалы, видео и презентации, будут доступны и после окончания в формате read.
- Цена 45к
Есть желание принять участие - пишите мне в ЛС @smatrosov
🔥7
Привет, товарищи-статистики!
Кто понимает p-value, тот, простите, понимает его, а кто нет, тому формулировка про все эти нулевые гипотезы, какие-то экстремальности и прочее будут ну очень далекими и оторванными от простого сравнения A и B. Но что если есть какая-то другая мера, которая, возможно, поможет лучше объясниться с теми, кто не особо понимает за статистику?
E-value — кажется, та самая мера, которая аналогично p-value говорит о значимости, но отвечает на на другой вопрос: "Насколько сильным должен быть некоторый неучтённый фактор, а не тритмент, чтобы полностью объяснить мой результат?".
Разберемся как следует в очередном большом посте!
Кто понимает p-value, тот, простите, понимает его, а кто нет, тому формулировка про все эти нулевые гипотезы, какие-то экстремальности и прочее будут ну очень далекими и оторванными от простого сравнения A и B. Но что если есть какая-то другая мера, которая, возможно, поможет лучше объясниться с теми, кто не особо понимает за статистику?
E-value — кажется, та самая мера, которая аналогично p-value говорит о значимости, но отвечает на на другой вопрос: "Насколько сильным должен быть некоторый неучтённый фактор, а не тритмент, чтобы полностью объяснить мой результат?".
Разберемся как следует в очередном большом посте!
Telegraph
E-value: возможно, понятнее, чем p-value (или нет)
Определение p-value не особо помогает заказчику что-то понять в наблюдаемых результатах, просто поставьте себя на место того, кто смутно понимает что-то в статистике и произнесите в слух определение p-value. Ну какая-то абстракция, чес слово! Однако в принципе…
👍16❤1
Привет, товарищи-статистики!
Поговорим про доверительные интервалы.
По окончанию теста мы всегда строим доверительный интервал эффекта с заданным уровнем надежности, который согласно заранее выставленной альфе равен 1 - альфа, пускай у нас он вышел 95%.
Внимание, вопрос, сколько раз такой интервал при стат. значимости охватит истинный эффект, если мощность = 80% ?
Так как уровень надежности и мощности независимы, то P(CI охватит Mu_эффект) * P(CI стат.значимый) = 0.95*0.8 = 0.76, то есть всего в 76%*. Это кажется как будто контринтуитивно, но дело в том, что прочие 4% стат. значимых интервала как раз не охватывают эффект и, в таком конфиге, переоценивают эффект, см. картинку.
Почему нет интервалов между нулем и эффектом? На самом деле редко-редко, но они проскальзывают в симуляции, а их отсутствие в подавляющем объясняется так: чтобы такой CI получился, у вас должны собраться обе выборки с малой дисперсией, при этом А, которую мы берем из одного распределения, должна быть больше своего 50-го перцентиля, а B - меньше своего 50-го.
Но полезнее все-таки информации 76 на 4, как минимум это мы можем как-то учитывать при расчетах экономической модели.
Что остается нестат. значимыми интервалам? 95 - 76 = 19 из них будут охватывать интервал, а 5 - 4 = 1 - нет (эти цифры - в идеале). Это уже, как мне кажется, не так полезно, но просто интересно.
Ссылка на симуляцию (там* надо играться с seed, чаще 76 будет, для сходимости ровно как на картинке, как мне кажется, надо заряжать еще больше попыток)
Пост появился благодаря Владу в том числе, спасибо тебе за комментарии и уделённое время.
P.S. Спрашивать на собеседовании я это, конечно, не буду.
*Важный UPDATE, возможно, слишком быстрый:
- Рома заставил еще раз задуматься, а все ли верно было рассчитано. У него выходило 77.5, это 80-2.5, где 2.5% значений лежали в зоне HA, которые находятся справа и попадают в 97.5 квантиль. То есть это были бы также "стат. значимые CI" (= не охватывают ноль, считать синонимом), но со значительным перелетом, без охвата истинного эффекта. Мы с Владом начинали с этих 77.5, потому что предполагали, что задача решается исключительно в голове, но симуляции нас заставили задуматься
- Упорно выходили значения 75-76, только оценкой перемножения наступления двух событий сразу вполне объясняло происходящее. И это казалось и кажется все еще логичным. Однако!
- Повторный возврат к симуляциям выявил следующее:
1) если у вас прям очень большие популяции, то изменение дисперсии в большую сторону (sic!) охватывало до 80% эффект согласно мощности. Это кажется логичным, так как такие популяции с большой дисперсией сильно разряженные, у вас будут высокодисперсивные выборки.
2) если популяции небольшие (1 млн.), то чем больше дисперсия, тем покрытие наоборот падает вплоть чуть ли не до 70%. Тут, возможно, проблема в конечной популяции и, как следствие, коррекции интервала. Хотя по идее конечная популяция создает проблему преувеличения надежности, тогда быть может, коррекция слишком сильная?..
3) Если зафиксировать seed генерации популяции, то результат = 77.5. Почему? Есть гипотеза, что фактически мы просто сдвигаем все элементы изначальной популяции на эффект, тем самым наши выборки также получались очень уж хорошо сдвинуты на этот эффект, то есть каждый элемент тестовой выборки получил тритмент с истинным эффектом (это имеет отношение sharp H0, которая как раз проверяет по каждому объекту сдвиг, представьте себе, что каждому из теста был свой клон в контроле). Тут, по-хорошему, проверить бы повторяемость этого.
Отсюда результат очередного подхода к этой проблеме такой:
- Покрытие мы получали от 70% до 80%
- Средние колебались от 75 до 76
- Есть подозрение, что есть оценщик всего этого, соблазнительна мысль, что это перемножение тех вероятностей выше, но такие результаты говорят будто о том, что это не независимые вероятности
Искали медь, а нашли портал в ад
Поговорим про доверительные интервалы.
По окончанию теста мы всегда строим доверительный интервал эффекта с заданным уровнем надежности, который согласно заранее выставленной альфе равен 1 - альфа, пускай у нас он вышел 95%.
Внимание, вопрос, сколько раз такой интервал при стат. значимости охватит истинный эффект, если мощность = 80% ?
Так как уровень надежности и мощности независимы, то P(CI охватит Mu_эффект) * P(CI стат.значимый) = 0.95*0.8 = 0.76, то есть всего в 76%*. Это кажется как будто контринтуитивно, но дело в том, что прочие 4% стат. значимых интервала как раз не охватывают эффект и, в таком конфиге, переоценивают эффект, см. картинку.
Почему нет интервалов между нулем и эффектом? На самом деле редко-редко, но они проскальзывают в симуляции, а их отсутствие в подавляющем объясняется так: чтобы такой CI получился, у вас должны собраться обе выборки с малой дисперсией, при этом А, которую мы берем из одного распределения, должна быть больше своего 50-го перцентиля, а B - меньше своего 50-го.
Но полезнее все-таки информации 76 на 4, как минимум это мы можем как-то учитывать при расчетах экономической модели.
Что остается нестат. значимыми интервалам? 95 - 76 = 19 из них будут охватывать интервал, а 5 - 4 = 1 - нет (эти цифры - в идеале). Это уже, как мне кажется, не так полезно, но просто интересно.
Ссылка на симуляцию (там* надо играться с seed, чаще 76 будет, для сходимости ровно как на картинке, как мне кажется, надо заряжать еще больше попыток)
Пост появился благодаря Владу в том числе, спасибо тебе за комментарии и уделённое время.
P.S. Спрашивать на собеседовании я это, конечно, не буду.
*Важный UPDATE, возможно, слишком быстрый:
- Рома заставил еще раз задуматься, а все ли верно было рассчитано. У него выходило 77.5, это 80-2.5, где 2.5% значений лежали в зоне HA, которые находятся справа и попадают в 97.5 квантиль. То есть это были бы также "стат. значимые CI" (= не охватывают ноль, считать синонимом), но со значительным перелетом, без охвата истинного эффекта. Мы с Владом начинали с этих 77.5, потому что предполагали, что задача решается исключительно в голове, но симуляции нас заставили задуматься
- Упорно выходили значения 75-76, только оценкой перемножения наступления двух событий сразу вполне объясняло происходящее. И это казалось и кажется все еще логичным. Однако!
- Повторный возврат к симуляциям выявил следующее:
1) если у вас прям очень большие популяции, то изменение дисперсии в большую сторону (sic!) охватывало до 80% эффект согласно мощности. Это кажется логичным, так как такие популяции с большой дисперсией сильно разряженные, у вас будут высокодисперсивные выборки.
2) если популяции небольшие (1 млн.), то чем больше дисперсия, тем покрытие наоборот падает вплоть чуть ли не до 70%. Тут, возможно, проблема в конечной популяции и, как следствие, коррекции интервала. Хотя по идее конечная популяция создает проблему преувеличения надежности, тогда быть может, коррекция слишком сильная?..
3) Если зафиксировать seed генерации популяции, то результат = 77.5. Почему? Есть гипотеза, что фактически мы просто сдвигаем все элементы изначальной популяции на эффект, тем самым наши выборки также получались очень уж хорошо сдвинуты на этот эффект, то есть каждый элемент тестовой выборки получил тритмент с истинным эффектом (это имеет отношение sharp H0, которая как раз проверяет по каждому объекту сдвиг, представьте себе, что каждому из теста был свой клон в контроле). Тут, по-хорошему, проверить бы повторяемость этого.
Отсюда результат очередного подхода к этой проблеме такой:
- Покрытие мы получали от 70% до 80%
- Средние колебались от 75 до 76
- Есть подозрение, что есть оценщик всего этого, соблазнительна мысль, что это перемножение тех вероятностей выше, но такие результаты говорят будто о том, что это не независимые вероятности
Искали медь, а нашли портал в ад
👍21❤4😱3
Доверительные интервалы, часть 2
Привет, товарищи-статистики!
Можно ли при стат.значимом результате добирать аудиторию для получения более суженного доверительного интервала эффекта? Хороший вопрос, так как кажется, что тут нет никакого подвоха, результат-то стат. значимый, можем открывать шампанское и вообще. Но все не так просто.
1) Концептуально, мы не застрахованы от того, что наш результат это ошибка 1-го рода, отсюда это мало чем отличается от обратной ситуации “донаберем данных до стат. значимости”. Стат. значимость не делает эффект достоверным, нам просто так удобнее думать.
2) Мы продолжим работать с условными CI, что охватили истинный эффект, то есть с 95 из 100, но после донабора охватывать истинный эффект будет уже 94. И вот тут вряд ли есть где-то ошибка в очень дубовой симуляции.
Почему так происходит? Дело в том, что каждые новые данные это реализация случайной величины с определенным разбросом, отсюда CI не только сужаются, но и колеблются, а поэтому из CI, которые уже охватили эффект, могут не охватить при новом наборе данных.
При этом CI как механизм охвата истинного параметра не сломаются, полна группа такая после добора:
CI охватил эффект | CI охватил эффект = 94,
CI не охватил эффект | CI охватил эффект = 1
CI не охватил эффект | CI не охватил эффект = 4,
CI охватил эффект | CI не охватил эффект = 1
Чуть перетасуем и получим более читаемый вид:
CI охватил эффект | CI охватил эффект = 94,
CI охватил эффект | CI не охватил эффект = 1
CI не охватил эффект | CI охватил эффект = 1
CI не охватил эффект | CI не охватил эффект = 4
п.2 порождают риск того, что ваш следующий интервал будет не стат. значимый. И что вы будете делать тогда? Мета-анализ зависимых гипотез? Но был ли он у вас в дизайне? Сможете ли вы его объяснить заказчику?
Я думаю, запланировать донабор возможно, но это потребует корректировки альфы и мощности; можно запланировать и мета-анализ. Просто это выглядит избыточным, мудреным и абсолютно не нужным. А незапланированный набор выглядит как, грубо говоря, подлог, который нужно штрафовать на уровне оценки объективности теста.
Если вам нужен узкий доверительный интервал, то на этапе дизайна:
- обратите внимание на то, что стандартная ошибка (вшитая в CI, если что) пропорциональна 1/корень(n). Это значит, например, увеличение в 2 раза выборки приведет только лишь к сокращению в 1.41 раза ширины CI, то есть на ~29%:
1/корень(1) - 1/корень(2) = 1 - 1/корень(2) = 1 - 0.71 = 0.29
—
Пользуйтесь эвристикой, вывод ее простой, сначала обобщим пример выше:
1 - 1/корень(1+k) = d, где d - доля снижения, где k - наш множитель
Через ряд алгебраических преобразований, мы получим:
k = (1 / (1-d) )^2, - смотри картинку поста для читаемости
Указывай долю снижения = получай множитель.
—
- подберите прокси-метрику с меньшей дисперсией, сохраняя тот же размер выборки по базовой метрике, но только помните про требования к таковой - связанность и сонаправленность с этой базовой
P.S. И к слову о штрафах. Так как игнорирование дизайна это бич стат. анализа, то уже давно думаю над тем, как внедрить как раз оценку объективности теста. Пока в голове просто прикидка а-ля пускай тест, задизайненный как следует и сделанный как планировалось, имеет объективность 100 баллов. За каждое отклонение, будь то “че-то еще давай посмотрим” или техническая проблема, минус сколько-то баллов. Само собой, не хватает конкретики, за что и насколько будем штрафовать, но мысль уже есть, думаю, рано или поздно что-нибудь да развернется. А если у вас что-то готово, делитесь :)
Привет, товарищи-статистики!
Можно ли при стат.значимом результате добирать аудиторию для получения более суженного доверительного интервала эффекта? Хороший вопрос, так как кажется, что тут нет никакого подвоха, результат-то стат. значимый, можем открывать шампанское и вообще. Но все не так просто.
1) Концептуально, мы не застрахованы от того, что наш результат это ошибка 1-го рода, отсюда это мало чем отличается от обратной ситуации “донаберем данных до стат. значимости”. Стат. значимость не делает эффект достоверным, нам просто так удобнее думать.
2) Мы продолжим работать с условными CI, что охватили истинный эффект, то есть с 95 из 100, но после донабора охватывать истинный эффект будет уже 94. И вот тут вряд ли есть где-то ошибка в очень дубовой симуляции.
Почему так происходит? Дело в том, что каждые новые данные это реализация случайной величины с определенным разбросом, отсюда CI не только сужаются, но и колеблются, а поэтому из CI, которые уже охватили эффект, могут не охватить при новом наборе данных.
При этом CI как механизм охвата истинного параметра не сломаются, полна группа такая после добора:
CI охватил эффект | CI охватил эффект = 94,
CI не охватил эффект | CI охватил эффект = 1
CI не охватил эффект | CI не охватил эффект = 4,
CI охватил эффект | CI не охватил эффект = 1
Чуть перетасуем и получим более читаемый вид:
CI охватил эффект | CI охватил эффект = 94,
CI охватил эффект | CI не охватил эффект = 1
CI не охватил эффект | CI охватил эффект = 1
CI не охватил эффект | CI не охватил эффект = 4
п.2 порождают риск того, что ваш следующий интервал будет не стат. значимый. И что вы будете делать тогда? Мета-анализ зависимых гипотез? Но был ли он у вас в дизайне? Сможете ли вы его объяснить заказчику?
Я думаю, запланировать донабор возможно, но это потребует корректировки альфы и мощности; можно запланировать и мета-анализ. Просто это выглядит избыточным, мудреным и абсолютно не нужным. А незапланированный набор выглядит как, грубо говоря, подлог, который нужно штрафовать на уровне оценки объективности теста.
Если вам нужен узкий доверительный интервал, то на этапе дизайна:
- обратите внимание на то, что стандартная ошибка (вшитая в CI, если что) пропорциональна 1/корень(n). Это значит, например, увеличение в 2 раза выборки приведет только лишь к сокращению в 1.41 раза ширины CI, то есть на ~29%:
1/корень(1) - 1/корень(2) = 1 - 1/корень(2) = 1 - 0.71 = 0.29
—
Пользуйтесь эвристикой, вывод ее простой, сначала обобщим пример выше:
1 - 1/корень(1+k) = d, где d - доля снижения, где k - наш множитель
Через ряд алгебраических преобразований, мы получим:
k = (1 / (1-d) )^2, - смотри картинку поста для читаемости
Указывай долю снижения = получай множитель.
—
- подберите прокси-метрику с меньшей дисперсией, сохраняя тот же размер выборки по базовой метрике, но только помните про требования к таковой - связанность и сонаправленность с этой базовой
P.S. И к слову о штрафах. Так как игнорирование дизайна это бич стат. анализа, то уже давно думаю над тем, как внедрить как раз оценку объективности теста. Пока в голове просто прикидка а-ля пускай тест, задизайненный как следует и сделанный как планировалось, имеет объективность 100 баллов. За каждое отклонение, будь то “че-то еще давай посмотрим” или техническая проблема, минус сколько-то баллов. Само собой, не хватает конкретики, за что и насколько будем штрафовать, но мысль уже есть, думаю, рано или поздно что-нибудь да развернется. А если у вас что-то готово, делитесь :)
🔥11❤2👍1
Привет, товарищи-статистики!
Пост 2-в-1
Во-первых, написал Введение в Causal Inference, выложить пришлось в формате гугл-дока в силу объема: доступ у меня, как говорится, ранний, еще допиливаю время от времени, но как-то больших дополний/изменений за последнее время не было да и не предвижу. Есть возможностью комментирования, - так мне можно помочь пофиксить чушь.
Постарался на 35+ страницах максимально мягко погрузить в тему, покрыть теорию настолько, насколько это позволит вам уверенне поступиться к практике. Надеюсь, вам понравится и пригодится!
—
Во-вторых, завтра будет моя любимая конфа, "Матемаркетинг 25" (ссылка на программу), там расскажу (также завтра) про расчет кумулятивных эффектов в X5 в мобильном приложении: доклад будет полезным тем, кто внедряет методологии по оценке эффектов. Я считаю, что вы можете после доклада не только понять его (сделаю всё-всё возможное + можно будет поговорить после), но легко переиспользовать через:
а) приложенные примеры в спредшитах/колабе
б) презентацию -> там полное и детальное доказательство подхода, копируйте -> представляете как готовую методологию
Есть промокод: ABBA10. Цена билета дорогая, но тут как и всегда расчет на то, что это оплатит ваша компания. И как всегда, повторю, ММ как и Aha стоят того, чтобы посетить: это как большой синк, который вы искренне ждали. Много ли таких? То-то!
Пост 2-в-1
Во-первых, написал Введение в Causal Inference, выложить пришлось в формате гугл-дока в силу объема: доступ у меня, как говорится, ранний, еще допиливаю время от времени, но как-то больших дополний/изменений за последнее время не было да и не предвижу. Есть возможностью комментирования, - так мне можно помочь пофиксить чушь.
Постарался на 35+ страницах максимально мягко погрузить в тему, покрыть теорию настолько, насколько это позволит вам уверенне поступиться к практике. Надеюсь, вам понравится и пригодится!
—
Во-вторых, завтра будет моя любимая конфа, "Матемаркетинг 25" (ссылка на программу), там расскажу (также завтра) про расчет кумулятивных эффектов в X5 в мобильном приложении: доклад будет полезным тем, кто внедряет методологии по оценке эффектов. Я считаю, что вы можете после доклада не только понять его (сделаю всё-всё возможное + можно будет поговорить после), но легко переиспользовать через:
а) приложенные примеры в спредшитах/колабе
б) презентацию -> там полное и детальное доказательство подхода, копируйте -> представляете как готовую методологию
Есть промокод: ABBA10. Цена билета дорогая, но тут как и всегда расчет на то, что это оплатит ваша компания. И как всегда, повторю, ММ как и Aha стоят того, чтобы посетить: это как большой синк, который вы искренне ждали. Много ли таких? То-то!
Google Docs
Causal Inference
Оглавление Оглавление
0 Вступление
2 Вероятный сценарий для CI
2 Два подхода Causal Inference: Structural Causal Inference и Potential Outcome
3 Potential Outcome
3 Фундаментальная проблема Causal Inference
4 Решения: невозможное и классическое
5 Невозможное…
0 Вступление
2 Вероятный сценарий для CI
2 Два подхода Causal Inference: Structural Causal Inference и Potential Outcome
3 Potential Outcome
3 Фундаментальная проблема Causal Inference
4 Решения: невозможное и классическое
5 Невозможное…
🔥40❤13👍2