Forwarded from Ave M
https://probml.github.io/pml-book/
Там их 3:
Book 0: “Machine Learning: A Probabilistic Perspective” (2012)
Book 1: “Probabilistic Machine Learning: An Introduction” (2022)
Book 2: “Probabilistic Machine Learning: Advanced Topics” (2023)
"Book 1" чуть-чуть поменялась с 2021 года, и возможно находится в состоянии перманентного CI/CD.
Там их 3:
Book 0: “Machine Learning: A Probabilistic Perspective” (2012)
Book 1: “Probabilistic Machine Learning: An Introduction” (2022)
Book 2: “Probabilistic Machine Learning: Advanced Topics” (2023)
"Book 1" чуть-чуть поменялась с 2021 года, и возможно находится в состоянии перманентного CI/CD.
pml-book
“Probabilistic machine learning”: a book series by Kevin Murphy
“Probabilistic Machine Learning” - a book series by Kevin Murphy
Forwarded from data.csv (Алексей Смагин)
12 советов для дата-журналистов — перевод и моя интерпретация :)
1️⃣ Один и тот же показатель, посчитанный по разной методологии, может сильно отличаться. Например, число сотрудников компании можно считать на конец года, а можно считать всех уникальных сотрудников, которые работали в определённом году.
Старайтесь не сравнивать такие величины, а если без этого никак — явно отразите это в своей визуализации.
2️⃣ В некоторых ситуациях доли важнее абсолютных чисел. Например, 1000 заболевших в Москве и 1000 заболевших в Костроме — это совсем разные тысячи.
3️⃣ Контекст решает. Важно не просто показывать пик на графике, а объяснять, что здесь произошло.
4️⃣ Следите, чтобы временной период, который вы выбрали для графика, рассказывал честную историю. Можно взять стоимость акций компании за месяц и увидеть, что они растут. А если отмотать на неделю назад, окажется, что они лишь немного оправились от страшного падения.
5️⃣ Очень часто в данных может быть элемент неопределённости — например, мы можем знать, что за период погибло от 700 до 2000 тысяч человек, но не знаем, сколько точно. Тогда честно будет показать эту неопределённость и на графике.
6️⃣ В данных часто могут быть пропуски, и иногда информация об этих пропусках может быть крайне важна. Представьте, что вы звоните людям по телефону и спрашиваете их об отношении к действующей власти. Честно будет скрыть информацию о том, сколько человек решили не отвечать?
1️⃣ Один и тот же показатель, посчитанный по разной методологии, может сильно отличаться. Например, число сотрудников компании можно считать на конец года, а можно считать всех уникальных сотрудников, которые работали в определённом году.
Старайтесь не сравнивать такие величины, а если без этого никак — явно отразите это в своей визуализации.
2️⃣ В некоторых ситуациях доли важнее абсолютных чисел. Например, 1000 заболевших в Москве и 1000 заболевших в Костроме — это совсем разные тысячи.
3️⃣ Контекст решает. Важно не просто показывать пик на графике, а объяснять, что здесь произошло.
4️⃣ Следите, чтобы временной период, который вы выбрали для графика, рассказывал честную историю. Можно взять стоимость акций компании за месяц и увидеть, что они растут. А если отмотать на неделю назад, окажется, что они лишь немного оправились от страшного падения.
5️⃣ Очень часто в данных может быть элемент неопределённости — например, мы можем знать, что за период погибло от 700 до 2000 тысяч человек, но не знаем, сколько точно. Тогда честно будет показать эту неопределённость и на графике.
6️⃣ В данных часто могут быть пропуски, и иногда информация об этих пропусках может быть крайне важна. Представьте, что вы звоните людям по телефону и спрашиваете их об отношении к действующей власти. Честно будет скрыть информацию о том, сколько человек решили не отвечать?
Forwarded from data.csv (Алексей Смагин)
7️⃣ Правило хорошего тона — полностью рассказывать аудитории об источниках и методологии подсчёта. Идеально, если исследование можно воспроизвести. График без источника — это вообще мусор, не смотрите на такие.
8️⃣ (Спорное) В одном материале не стоит использовать один и тот же вид графика для отображения разных показателей. В пример приводится число госпитализаций и число смертей — надо придумывать что-то другое.
Я не соглашусь, это ок 🤷♂️
9️⃣ Многогранность. Иногда дополнительные детали помогают лучше понимать контекст. Например, если вы даёте среднюю зарплату сотрудников самых крупных компаний, покажите на графике среднюю зарплату в регионе.
Таких деталей может быть много — главное, следить, что они не перегружают график и помогают воспринимать посыл.
1️⃣0️⃣ Вовлечение. Если мы говорим не об информации, которую очень важно прочитать, то за внимание читателя нужно бороться. В том числе — исследовать новые формы графиков для подачи вашего сообщения. Здесь важно помнить, что форма не должна преобладать над смыслом — если вашу прекрасную картинку невозможно понять, то и смысла в её красоте мало.
1️⃣1️⃣ Учитывайте платформу, где распространяете графику. У журнальной и постерной графики одни возможности и ограничения, у инфографики в мобильном телефоне — другие, у инфографики на большом экране — третьи. Завернуть ваши данные в нужный формат — это большая работа. Вот, например, Visual Capitalist очень часто забывают, что делают инфографику для веба — и выдают такие визуализации, будто они для печати.
1️⃣2️⃣ Классно, если за цифрами, которые вы подаёте, читатели смогут узнавать то, с чем они реально встречаются в повседневной жизни. Думайте, можете ли вы представить данные так, чтобы вызвать сопереживание.
Оригинал:
https://medium.com/@giorgialupi/data-memos-3927ab7e822a
8️⃣ (Спорное) В одном материале не стоит использовать один и тот же вид графика для отображения разных показателей. В пример приводится число госпитализаций и число смертей — надо придумывать что-то другое.
Я не соглашусь, это ок 🤷♂️
9️⃣ Многогранность. Иногда дополнительные детали помогают лучше понимать контекст. Например, если вы даёте среднюю зарплату сотрудников самых крупных компаний, покажите на графике среднюю зарплату в регионе.
Таких деталей может быть много — главное, следить, что они не перегружают график и помогают воспринимать посыл.
1️⃣0️⃣ Вовлечение. Если мы говорим не об информации, которую очень важно прочитать, то за внимание читателя нужно бороться. В том числе — исследовать новые формы графиков для подачи вашего сообщения. Здесь важно помнить, что форма не должна преобладать над смыслом — если вашу прекрасную картинку невозможно понять, то и смысла в её красоте мало.
1️⃣1️⃣ Учитывайте платформу, где распространяете графику. У журнальной и постерной графики одни возможности и ограничения, у инфографики в мобильном телефоне — другие, у инфографики на большом экране — третьи. Завернуть ваши данные в нужный формат — это большая работа. Вот, например, Visual Capitalist очень часто забывают, что делают инфографику для веба — и выдают такие визуализации, будто они для печати.
1️⃣2️⃣ Классно, если за цифрами, которые вы подаёте, читатели смогут узнавать то, с чем они реально встречаются в повседневной жизни. Думайте, можете ли вы представить данные так, чтобы вызвать сопереживание.
Оригинал:
https://medium.com/@giorgialupi/data-memos-3927ab7e822a
#ml #statistics
Алерон поделился новой Phik корреляцией
https://towardsdatascience.com/phik-k-get-familiar-with-the-latest-correlation-coefficient-9ba0032b37e7
Алерон поделился новой Phik корреляцией
https://towardsdatascience.com/phik-k-get-familiar-with-the-latest-correlation-coefficient-9ba0032b37e7
Towards Data Science
Phik (𝜙k) - get familiar with the latest correlation coefficient | Towards Data Science
That is also consistent between categorical, ordinal, and interval variables!