Forwarded from Техножрица 👩💻👩🏫👩🔧
Разные области математики в представлении бота Kandinsky 2:
- Mathematical analysis
- Linear algebra
- Abstract algebra
- Topology
- Geometry
- Mathematical statistics and probability
- Number theory
- Equations of Mathematical Physics
- Category theory
- Foundations of Mathematics (4k).
P.S. Чтобы не получать в генерации обложки учебников, можно добавить модификатор стиля (4k) или переформулировать запрос
- Mathematical analysis
- Linear algebra
- Abstract algebra
- Topology
- Geometry
- Mathematical statistics and probability
- Number theory
- Equations of Mathematical Physics
- Category theory
- Foundations of Mathematics (4k).
P.S. Чтобы не получать в генерации обложки учебников, можно добавить модификатор стиля (4k) или переформулировать запрос
❤2❤🔥1🆒1
#ml #applied #dyakonov #pzad
Интересные схемы взвешивания наблюдений, с оптимизацией кэфов на CV
https://www.youtube.com/watch?v=8DdHctyl6t0&list=PLaRUeIuewv8CMFox0oEjlyePUhUmo-x0h&index=5&ab_channel=AlexanderD%27yakonov
Интересные схемы взвешивания наблюдений, с оптимизацией кэфов на CV
https://www.youtube.com/watch?v=8DdHctyl6t0&list=PLaRUeIuewv8CMFox0oEjlyePUhUmo-x0h&index=5&ab_channel=AlexanderD%27yakonov
YouTube
ПЗАД2020. Лекция 3. CASE: Прогнозирование визитов покупателей супермаркетов и сумм их покупок
курс "Прикладные задачи анализа данных", ВМК МГУ, Дьяконов Александр (https://dyakonov.org/ag/)
страница курса: https://github.com/Dyakonov/PZAD/blob/master/README.md
страница курса: https://github.com/Dyakonov/PZAD/blob/master/README.md
🔥2
Forwarded from Борис опять
#работа
Посмотрел резюме, которые нам прислали через линкдин (не отсюда) на вакансию Data Engineer. И это фестиваль кринжа.
Мое любимое из разных резюме:
* Резюме на 12 страниц
* Парень, который вставил в резюме сканы шести своих бангладешских дипломов
* Ярко синий текст на белом фоне
* Прошлое место работы: клерк в банке
* Прошлое место работы: студент магистратуры
* Прошлое место работы: настраивал Майкрософт ворд и все такое
* Всратые пережатые сотней шакалов фотки
* Таблица на половину страницы, показывающая уровень знания четырёх языков в разрезе райтинг, листенинг, спикинг
* Простыня текста на половину первой и половину второй страницы
* Никакой верстки, просто ворд документ с текстом сплошняком сверху вниз. 3 страницы
* Резюме из конструкторов резюме с кучей разноцветных иконок
* Резюме файлом в формате .docx
Я и не предполагал, что обычное резюме из одной страницы, сверстанное в латехе, это такое большое преимущество. Среди всей пачки из 30+ резюме таких нашлось три штуки
Посмотрел резюме, которые нам прислали через линкдин (не отсюда) на вакансию Data Engineer. И это фестиваль кринжа.
Мое любимое из разных резюме:
* Резюме на 12 страниц
* Парень, который вставил в резюме сканы шести своих бангладешских дипломов
* Ярко синий текст на белом фоне
* Прошлое место работы: клерк в банке
* Прошлое место работы: студент магистратуры
* Прошлое место работы: настраивал Майкрософт ворд и все такое
* Всратые пережатые сотней шакалов фотки
* Таблица на половину страницы, показывающая уровень знания четырёх языков в разрезе райтинг, листенинг, спикинг
* Простыня текста на половину первой и половину второй страницы
* Никакой верстки, просто ворд документ с текстом сплошняком сверху вниз. 3 страницы
* Резюме из конструкторов резюме с кучей разноцветных иконок
* Резюме файлом в формате .docx
Я и не предполагал, что обычное резюме из одной страницы, сверстанное в латехе, это такое большое преимущество. Среди всей пачки из 30+ резюме таких нашлось три штуки
👍2
#ml #applied #dyakonov #pzad #anscombe
Продолжаем разбор прогнозирования дня визита и суммы покупок. Крутая идея с доминошками.
https://www.youtube.com/watch?v=6xRqHGkfc6Y&list=PLaRUeIuewv8CMFox0oEjlyePUhUmo-x0h&index=4&ab_channel=AlexanderD%27yakonov
Продолжаем разбор прогнозирования дня визита и суммы покупок. Крутая идея с доминошками.
https://www.youtube.com/watch?v=6xRqHGkfc6Y&list=PLaRUeIuewv8CMFox0oEjlyePUhUmo-x0h&index=4&ab_channel=AlexanderD%27yakonov
YouTube
ПЗАД2020. Лекция 4. Искусство визуализации (часть 1 - историческая)
курс "Прикладные задачи анализа данных", ВМК МГУ, Дьяконов Александр (https://dyakonov.org/ag/)
страница курса: https://github.com/Dyakonov/PZAD/blob/master/README.md
страница курса: https://github.com/Dyakonov/PZAD/blob/master/README.md
❤1
#ml #metrics #brier
Как известно, оценка Бриера (Брайера?) для бинарного классификатора представляет собой по сути среднеквадратическую ошибку между реальными исходами и предсказанными вероятностями. В теории это число между 0 и 1, где 0 означает идеальную калибрацию (из всех событий, предсказанных с вероятностью 25%, реализовались точно 25%, и тд). Я на эту метрику в работе часто смотрю, т.к. откалиброванность модельки очень важна, особенно когда бизнес-решения принимаются на вероятностях. И вот сегодня узнал нечто новое. Задумался, а чего вообще можно ожидать от модели, идеально предсказывающей вероятности, в терминах оценки Бриера. Давайте для этого скрафтим реализации миллиона событий, следующие заранее известным вероятностям:
probs = np.random.uniform(size=1000_000)
realizations = np.random.uniform(size=len(probs))
realizations = (realizations < probs).astype(np.int8)
В теории, у нас теперь есть массив единичек и нулей realizations, порождённый "истинными" вероятностями probs. Если ситуацию перевернуть, рассмотреть probs как вероятности, предсказанные моделью машинного обучения, а realizations как то, что мы реально пронаблюдали в жизни, то подобная точность должна быть мечтой любого ML-щика!
Как известно, оценка Бриера (Брайера?) для бинарного классификатора представляет собой по сути среднеквадратическую ошибку между реальными исходами и предсказанными вероятностями. В теории это число между 0 и 1, где 0 означает идеальную калибрацию (из всех событий, предсказанных с вероятностью 25%, реализовались точно 25%, и тд). Я на эту метрику в работе часто смотрю, т.к. откалиброванность модельки очень важна, особенно когда бизнес-решения принимаются на вероятностях. И вот сегодня узнал нечто новое. Задумался, а чего вообще можно ожидать от модели, идеально предсказывающей вероятности, в терминах оценки Бриера. Давайте для этого скрафтим реализации миллиона событий, следующие заранее известным вероятностям:
probs = np.random.uniform(size=1000_000)
realizations = np.random.uniform(size=len(probs))
realizations = (realizations < probs).astype(np.int8)
В теории, у нас теперь есть массив единичек и нулей realizations, порождённый "истинными" вероятностями probs. Если ситуацию перевернуть, рассмотреть probs как вероятности, предсказанные моделью машинного обучения, а realizations как то, что мы реально пронаблюдали в жизни, то подобная точность должна быть мечтой любого ML-щика!
❤1
↑ Какой же будет оценка Бриера для такой отличной модели? Что выдаст brier_score_loss(realizations, probs)?
Anonymous Quiz
0%
0
38%
0.166
25%
0.5
38%
1
А что, если реализации никак не связаны с вероятностями? realizations = (realizations < 0.5).astype(np.int8), какой будет оценка Бриера?
Anonymous Quiz
13%
1
63%
0.5
13%
0.33
13%
0
Ну и последнее. Что за оценку получит "антимодель", которая прогнозирует, что событие не случится, а оно обычно случается, и наоброт? realizations = (realizations > probs).astype(np.int8)
Anonymous Quiz
33%
1
22%
0.99
44%
0.5
0%
0
#astronomy #surdin
Достойный человек этот Сурдин. Профессионал, хороший лектор, действительно любит астрономию. Против войны. Я часто ловлю себя на мысли, какой бы это классный был руководитель Роскосмоса, вместо очередного путинского вора. С Сурдиным мы бы уже давно полетели на Энцелад и построили базы на Луне и Марсе. На его "Неземной подкаст" можно подписаться на бусти, от 200 р./мес. Я вот подписался, чтобы поддержать его просветительские выпуски. Там пока всего 188 человек. Кто со мной?
PS. Ого ) Спасибо тем, кто подписался, приятно.
Достойный человек этот Сурдин. Профессионал, хороший лектор, действительно любит астрономию. Против войны. Я часто ловлю себя на мысли, какой бы это классный был руководитель Роскосмоса, вместо очередного путинского вора. С Сурдиным мы бы уже давно полетели на Энцелад и построили базы на Луне и Марсе. На его "Неземной подкаст" можно подписаться на бусти, от 200 р./мес. Я вот подписался, чтобы поддержать его просветительские выпуски. Там пока всего 188 человек. Кто со мной?
PS. Ого ) Спасибо тем, кто подписался, приятно.
boosty.to
Неземной подкаст Владимира Сурдина - Увлекательные рассказы астронома о Вселенной
Exclusive content from Неземной подкаст Владимира Сурдина, subscribe and be the first to access!
❤1
#python #hettinger #codegems
Рэй о грамотном и эффективном использовании языковых конструкций Python, на примере юнит-тестов.
https://www.youtube.com/watch?v=jSIsyMd2-RY
Рэй о грамотном и эффективном использовании языковых конструкций Python, на примере юнит-тестов.
https://www.youtube.com/watch?v=jSIsyMd2-RY
YouTube
Pro tips for writing great unit tests - Raymond Hettinger
Pro tips for writing great unit tests - PyCon Italia 2022
There is an art to condensing test concepts into readable, fast, clear predicates.
- We look at many examples and show how they can be improve
- Master the use of any() and all() with generator expressions.…
There is an art to condensing test concepts into readable, fast, clear predicates.
- We look at many examples and show how they can be improve
- Master the use of any() and all() with generator expressions.…
👍1
#ml #applied #dyakonov #pzad
На 16:48 про генерацию некоррелирующих признаков MAD из двух видов средних подумалось провести мини-исследование: нагенерить много случайных 1d массивов с разным распределением, возможно, взять какие-то реальные датасеты, для них всех рассчитать все возможные комбинации таких средних и MAD, посмотреть, какие наиболее некоррелированы (в линейном смысле и смысле взаимной информации) с остальными того же датасета. Возможно, даже потестировать предсказательную силу таких фичей (если составить искусственные зависимости) по сравнению со случайной подвыборкой. Не знаю, можно ли тут ожидать вообще какого-то стабильного обобщения, но если такое вдруг обнаружится, это позволит в реальной работе быстро проверять экзотические "киллер фичи", до которых в конкретном проекте и руки бы не дошли.. Хм, тогда уже и комбинации математических операций полезные исследовать на 18:40.
https://www.youtube.com/watch?v=kOaMvRo2YPI
На 16:48 про генерацию некоррелирующих признаков MAD из двух видов средних подумалось провести мини-исследование: нагенерить много случайных 1d массивов с разным распределением, возможно, взять какие-то реальные датасеты, для них всех рассчитать все возможные комбинации таких средних и MAD, посмотреть, какие наиболее некоррелированы (в линейном смысле и смысле взаимной информации) с остальными того же датасета. Возможно, даже потестировать предсказательную силу таких фичей (если составить искусственные зависимости) по сравнению со случайной подвыборкой. Не знаю, можно ли тут ожидать вообще какого-то стабильного обобщения, но если такое вдруг обнаружится, это позволит в реальной работе быстро проверять экзотические "киллер фичи", до которых в конкретном проекте и руки бы не дошли.. Хм, тогда уже и комбинации математических операций полезные исследовать на 18:40.
https://www.youtube.com/watch?v=kOaMvRo2YPI
YouTube
ПЗАД2020. Лекция 6. Искусство визуализации (часть 2 - одномерный анализ)
курс "Прикладные задачи анализа данных", ВМК МГУ, Дьяконов Александр (https://dyakonov.org/ag/)
страница курса: https://github.com/Dyakonov/PZAD/blob/master/README.md
страница курса: https://github.com/Dyakonov/PZAD/blob/master/README.md
Forwarded from ML for Value / Ваня Максимов
Серый АВ - что делать дальше?
Недавно АВ важной для меня фичи покрасился в серый. Эмоционально я прям расстроился. Если у вас тоже такое бывает, то помните о 4 важных вещах:
1. Проверьте ваш MDE и процедуру тестирования
Убедитесь, что нет багов, и вы можете детектить достаточно маленькие эффекты (MDE - minimum detectable effect). Часто разумный эффект на крупной метрике задетектить статистически невозможно - переходите к прокси. Например, от общей конверсии к конверсии определенного шага воронки
2. Около 70% АВ тестов серые, и это нормально
В тестах мы проверяем гипотезы. И какими бы гениальными вы ни были, 2 из 3 ваших невероятных идей ничего не принесут в бизнес-метриках - это неприятно, но факт. Поэтому лучше учиться быстро проверять много гипотез, а не делать ставку на одну крупную
3. Серый АВ дает знание о том, чего делать дальше НЕ нужно
Знать, что точно не работает - прекрасно. Поэтому обычно из пула гипотез (про персональные рекомендации, способы оплаты и тп) тестируют самую сильную. И если она не работает - возможно, вам нужно копать в другую сторону
4. А что еще хорошего приносит ваша фича?
Может быть, технической стабильности - теперь не нужно дежурить по ночам? Или лучше RPS? Или прозрачность для бизнеса? В денежных метриках это не измерить, но такие вещи тоже очень важны
В общем, если ваш АВ вдруг стал серым, вспомните про эти 4 пункта,
выдохните, и продолжайте тестировать новые гипотезы 😉
Недавно АВ важной для меня фичи покрасился в серый. Эмоционально я прям расстроился. Если у вас тоже такое бывает, то помните о 4 важных вещах:
1. Проверьте ваш MDE и процедуру тестирования
Убедитесь, что нет багов, и вы можете детектить достаточно маленькие эффекты (MDE - minimum detectable effect). Часто разумный эффект на крупной метрике задетектить статистически невозможно - переходите к прокси. Например, от общей конверсии к конверсии определенного шага воронки
2. Около 70% АВ тестов серые, и это нормально
В тестах мы проверяем гипотезы. И какими бы гениальными вы ни были, 2 из 3 ваших невероятных идей ничего не принесут в бизнес-метриках - это неприятно, но факт. Поэтому лучше учиться быстро проверять много гипотез, а не делать ставку на одну крупную
3. Серый АВ дает знание о том, чего делать дальше НЕ нужно
Знать, что точно не работает - прекрасно. Поэтому обычно из пула гипотез (про персональные рекомендации, способы оплаты и тп) тестируют самую сильную. И если она не работает - возможно, вам нужно копать в другую сторону
4. А что еще хорошего приносит ваша фича?
Может быть, технической стабильности - теперь не нужно дежурить по ночам? Или лучше RPS? Или прозрачность для бизнеса? В денежных метриках это не измерить, но такие вещи тоже очень важны
В общем, если ваш АВ вдруг стал серым, вспомните про эти 4 пункта,
выдохните, и продолжайте тестировать новые гипотезы 😉
#ml #classificaion #probabilistic #brierscore
Возвращаясь к недавнему посту про оценку Бриера, суммаризирую:
1) Бриер=0 достигается не просто когда вероятности идеально откалиброваны. Для "нулевых" примеров предсказанные вероятности должны быть строго равны нулю, для "единичных" - единице.
2) в реальной задаче Бриер даже очень хорошей модели никогда не достигнет 0
3) более того, в каждой задаче своё распределение таргета, соответственно, минимально и максимально достижимые Бриер скоры РАЗНЫЕ. Например, для упоминавшегося выше равномерного распределения, Бриер идеальной модели стремится к 0.166, нерелевантной модели к 0.333, "антимодели" к 0.5
4) вещи становятся страннее, когда меняется распределение таргета. для "ненормального" и уж точно не равномерного таргета с картинки в комментах Бриер идеальной модели 0.221, Бриер перемешанных примеров 0.238, Бриер DummyClassifier (всегда предсказывает фактическую частоту класса 1) 0.230.
Т.е. абсолютная разница в оценках Бриера может быть мизерная, хотя на самом деле сравниваются идеальная модель и "почти случайное" угадывание.
Вывод: в каждом случае оценивайте границы оценок Бриера, хотя бы косвенными методами, прежде чем принимать решение о качестве модели.
Возвращаясь к недавнему посту про оценку Бриера, суммаризирую:
1) Бриер=0 достигается не просто когда вероятности идеально откалиброваны. Для "нулевых" примеров предсказанные вероятности должны быть строго равны нулю, для "единичных" - единице.
2) в реальной задаче Бриер даже очень хорошей модели никогда не достигнет 0
3) более того, в каждой задаче своё распределение таргета, соответственно, минимально и максимально достижимые Бриер скоры РАЗНЫЕ. Например, для упоминавшегося выше равномерного распределения, Бриер идеальной модели стремится к 0.166, нерелевантной модели к 0.333, "антимодели" к 0.5
4) вещи становятся страннее, когда меняется распределение таргета. для "ненормального" и уж точно не равномерного таргета с картинки в комментах Бриер идеальной модели 0.221, Бриер перемешанных примеров 0.238, Бриер DummyClassifier (всегда предсказывает фактическую частоту класса 1) 0.230.
Т.е. абсолютная разница в оценках Бриера может быть мизерная, хотя на самом деле сравниваются идеальная модель и "почти случайное" угадывание.
Вывод: в каждом случае оценивайте границы оценок Бриера, хотя бы косвенными методами, прежде чем принимать решение о качестве модели.
Telegram
Aspiring Data Science
#ml #metrics #brier
Как известно, оценка Бриера (Брайера?) для бинарного классификатора представляет собой по сути среднеквадратическую ошибку между реальными исходами и предсказанными вероятностями. В теории это число между 0 и 1, где 0 означает идеальную…
Как известно, оценка Бриера (Брайера?) для бинарного классификатора представляет собой по сути среднеквадратическую ошибку между реальными исходами и предсказанными вероятностями. В теории это число между 0 и 1, где 0 означает идеальную…
👍2❤1