Forwarded from Ave M
https://probml.github.io/pml-book/
Там их 3:
Book 0: “Machine Learning: A Probabilistic Perspective” (2012)
Book 1: “Probabilistic Machine Learning: An Introduction” (2022)
Book 2: “Probabilistic Machine Learning: Advanced Topics” (2023)
"Book 1" чуть-чуть поменялась с 2021 года, и возможно находится в состоянии перманентного CI/CD.
Там их 3:
Book 0: “Machine Learning: A Probabilistic Perspective” (2012)
Book 1: “Probabilistic Machine Learning: An Introduction” (2022)
Book 2: “Probabilistic Machine Learning: Advanced Topics” (2023)
"Book 1" чуть-чуть поменялась с 2021 года, и возможно находится в состоянии перманентного CI/CD.
pml-book
“Probabilistic machine learning”: a book series by Kevin Murphy
“Probabilistic Machine Learning” - a book series by Kevin Murphy
Forwarded from data.csv (Алексей Смагин)
12 советов для дата-журналистов — перевод и моя интерпретация :)
1️⃣ Один и тот же показатель, посчитанный по разной методологии, может сильно отличаться. Например, число сотрудников компании можно считать на конец года, а можно считать всех уникальных сотрудников, которые работали в определённом году.
Старайтесь не сравнивать такие величины, а если без этого никак — явно отразите это в своей визуализации.
2️⃣ В некоторых ситуациях доли важнее абсолютных чисел. Например, 1000 заболевших в Москве и 1000 заболевших в Костроме — это совсем разные тысячи.
3️⃣ Контекст решает. Важно не просто показывать пик на графике, а объяснять, что здесь произошло.
4️⃣ Следите, чтобы временной период, который вы выбрали для графика, рассказывал честную историю. Можно взять стоимость акций компании за месяц и увидеть, что они растут. А если отмотать на неделю назад, окажется, что они лишь немного оправились от страшного падения.
5️⃣ Очень часто в данных может быть элемент неопределённости — например, мы можем знать, что за период погибло от 700 до 2000 тысяч человек, но не знаем, сколько точно. Тогда честно будет показать эту неопределённость и на графике.
6️⃣ В данных часто могут быть пропуски, и иногда информация об этих пропусках может быть крайне важна. Представьте, что вы звоните людям по телефону и спрашиваете их об отношении к действующей власти. Честно будет скрыть информацию о том, сколько человек решили не отвечать?
1️⃣ Один и тот же показатель, посчитанный по разной методологии, может сильно отличаться. Например, число сотрудников компании можно считать на конец года, а можно считать всех уникальных сотрудников, которые работали в определённом году.
Старайтесь не сравнивать такие величины, а если без этого никак — явно отразите это в своей визуализации.
2️⃣ В некоторых ситуациях доли важнее абсолютных чисел. Например, 1000 заболевших в Москве и 1000 заболевших в Костроме — это совсем разные тысячи.
3️⃣ Контекст решает. Важно не просто показывать пик на графике, а объяснять, что здесь произошло.
4️⃣ Следите, чтобы временной период, который вы выбрали для графика, рассказывал честную историю. Можно взять стоимость акций компании за месяц и увидеть, что они растут. А если отмотать на неделю назад, окажется, что они лишь немного оправились от страшного падения.
5️⃣ Очень часто в данных может быть элемент неопределённости — например, мы можем знать, что за период погибло от 700 до 2000 тысяч человек, но не знаем, сколько точно. Тогда честно будет показать эту неопределённость и на графике.
6️⃣ В данных часто могут быть пропуски, и иногда информация об этих пропусках может быть крайне важна. Представьте, что вы звоните людям по телефону и спрашиваете их об отношении к действующей власти. Честно будет скрыть информацию о том, сколько человек решили не отвечать?
Forwarded from data.csv (Алексей Смагин)
7️⃣ Правило хорошего тона — полностью рассказывать аудитории об источниках и методологии подсчёта. Идеально, если исследование можно воспроизвести. График без источника — это вообще мусор, не смотрите на такие.
8️⃣ (Спорное) В одном материале не стоит использовать один и тот же вид графика для отображения разных показателей. В пример приводится число госпитализаций и число смертей — надо придумывать что-то другое.
Я не соглашусь, это ок 🤷♂️
9️⃣ Многогранность. Иногда дополнительные детали помогают лучше понимать контекст. Например, если вы даёте среднюю зарплату сотрудников самых крупных компаний, покажите на графике среднюю зарплату в регионе.
Таких деталей может быть много — главное, следить, что они не перегружают график и помогают воспринимать посыл.
1️⃣0️⃣ Вовлечение. Если мы говорим не об информации, которую очень важно прочитать, то за внимание читателя нужно бороться. В том числе — исследовать новые формы графиков для подачи вашего сообщения. Здесь важно помнить, что форма не должна преобладать над смыслом — если вашу прекрасную картинку невозможно понять, то и смысла в её красоте мало.
1️⃣1️⃣ Учитывайте платформу, где распространяете графику. У журнальной и постерной графики одни возможности и ограничения, у инфографики в мобильном телефоне — другие, у инфографики на большом экране — третьи. Завернуть ваши данные в нужный формат — это большая работа. Вот, например, Visual Capitalist очень часто забывают, что делают инфографику для веба — и выдают такие визуализации, будто они для печати.
1️⃣2️⃣ Классно, если за цифрами, которые вы подаёте, читатели смогут узнавать то, с чем они реально встречаются в повседневной жизни. Думайте, можете ли вы представить данные так, чтобы вызвать сопереживание.
Оригинал:
https://medium.com/@giorgialupi/data-memos-3927ab7e822a
8️⃣ (Спорное) В одном материале не стоит использовать один и тот же вид графика для отображения разных показателей. В пример приводится число госпитализаций и число смертей — надо придумывать что-то другое.
Я не соглашусь, это ок 🤷♂️
9️⃣ Многогранность. Иногда дополнительные детали помогают лучше понимать контекст. Например, если вы даёте среднюю зарплату сотрудников самых крупных компаний, покажите на графике среднюю зарплату в регионе.
Таких деталей может быть много — главное, следить, что они не перегружают график и помогают воспринимать посыл.
1️⃣0️⃣ Вовлечение. Если мы говорим не об информации, которую очень важно прочитать, то за внимание читателя нужно бороться. В том числе — исследовать новые формы графиков для подачи вашего сообщения. Здесь важно помнить, что форма не должна преобладать над смыслом — если вашу прекрасную картинку невозможно понять, то и смысла в её красоте мало.
1️⃣1️⃣ Учитывайте платформу, где распространяете графику. У журнальной и постерной графики одни возможности и ограничения, у инфографики в мобильном телефоне — другие, у инфографики на большом экране — третьи. Завернуть ваши данные в нужный формат — это большая работа. Вот, например, Visual Capitalist очень часто забывают, что делают инфографику для веба — и выдают такие визуализации, будто они для печати.
1️⃣2️⃣ Классно, если за цифрами, которые вы подаёте, читатели смогут узнавать то, с чем они реально встречаются в повседневной жизни. Думайте, можете ли вы представить данные так, чтобы вызвать сопереживание.
Оригинал:
https://medium.com/@giorgialupi/data-memos-3927ab7e822a
#ml #statistics
Алерон поделился новой Phik корреляцией
https://towardsdatascience.com/phik-k-get-familiar-with-the-latest-correlation-coefficient-9ba0032b37e7
Алерон поделился новой Phik корреляцией
https://towardsdatascience.com/phik-k-get-familiar-with-the-latest-correlation-coefficient-9ba0032b37e7
Towards Data Science
Phik (𝜙k) - get familiar with the latest correlation coefficient | Towards Data Science
That is also consistent between categorical, ordinal, and interval variables!
Forwarded from Data Science Private Sharing
Написал на Хабре еще один туториал (в рамках курса ML System Design).
На этот раз посвященный ClearML - системе трекинга Ml-экспериментов.
https://habr.com/ru/post/691314/
Заходим, читаем и не забываем ставить лайки :)
На этот раз посвященный ClearML - системе трекинга Ml-экспериментов.
https://habr.com/ru/post/691314/
Заходим, читаем и не забываем ставить лайки :)