Forwarded from data.csv (Алексей Смагин)
12 советов для дата-журналистов — перевод и моя интерпретация :)
1️⃣ Один и тот же показатель, посчитанный по разной методологии, может сильно отличаться. Например, число сотрудников компании можно считать на конец года, а можно считать всех уникальных сотрудников, которые работали в определённом году.
Старайтесь не сравнивать такие величины, а если без этого никак — явно отразите это в своей визуализации.
2️⃣ В некоторых ситуациях доли важнее абсолютных чисел. Например, 1000 заболевших в Москве и 1000 заболевших в Костроме — это совсем разные тысячи.
3️⃣ Контекст решает. Важно не просто показывать пик на графике, а объяснять, что здесь произошло.
4️⃣ Следите, чтобы временной период, который вы выбрали для графика, рассказывал честную историю. Можно взять стоимость акций компании за месяц и увидеть, что они растут. А если отмотать на неделю назад, окажется, что они лишь немного оправились от страшного падения.
5️⃣ Очень часто в данных может быть элемент неопределённости — например, мы можем знать, что за период погибло от 700 до 2000 тысяч человек, но не знаем, сколько точно. Тогда честно будет показать эту неопределённость и на графике.
6️⃣ В данных часто могут быть пропуски, и иногда информация об этих пропусках может быть крайне важна. Представьте, что вы звоните людям по телефону и спрашиваете их об отношении к действующей власти. Честно будет скрыть информацию о том, сколько человек решили не отвечать?
1️⃣ Один и тот же показатель, посчитанный по разной методологии, может сильно отличаться. Например, число сотрудников компании можно считать на конец года, а можно считать всех уникальных сотрудников, которые работали в определённом году.
Старайтесь не сравнивать такие величины, а если без этого никак — явно отразите это в своей визуализации.
2️⃣ В некоторых ситуациях доли важнее абсолютных чисел. Например, 1000 заболевших в Москве и 1000 заболевших в Костроме — это совсем разные тысячи.
3️⃣ Контекст решает. Важно не просто показывать пик на графике, а объяснять, что здесь произошло.
4️⃣ Следите, чтобы временной период, который вы выбрали для графика, рассказывал честную историю. Можно взять стоимость акций компании за месяц и увидеть, что они растут. А если отмотать на неделю назад, окажется, что они лишь немного оправились от страшного падения.
5️⃣ Очень часто в данных может быть элемент неопределённости — например, мы можем знать, что за период погибло от 700 до 2000 тысяч человек, но не знаем, сколько точно. Тогда честно будет показать эту неопределённость и на графике.
6️⃣ В данных часто могут быть пропуски, и иногда информация об этих пропусках может быть крайне важна. Представьте, что вы звоните людям по телефону и спрашиваете их об отношении к действующей власти. Честно будет скрыть информацию о том, сколько человек решили не отвечать?
Forwarded from data.csv (Алексей Смагин)
7️⃣ Правило хорошего тона — полностью рассказывать аудитории об источниках и методологии подсчёта. Идеально, если исследование можно воспроизвести. График без источника — это вообще мусор, не смотрите на такие.
8️⃣ (Спорное) В одном материале не стоит использовать один и тот же вид графика для отображения разных показателей. В пример приводится число госпитализаций и число смертей — надо придумывать что-то другое.
Я не соглашусь, это ок 🤷♂️
9️⃣ Многогранность. Иногда дополнительные детали помогают лучше понимать контекст. Например, если вы даёте среднюю зарплату сотрудников самых крупных компаний, покажите на графике среднюю зарплату в регионе.
Таких деталей может быть много — главное, следить, что они не перегружают график и помогают воспринимать посыл.
1️⃣0️⃣ Вовлечение. Если мы говорим не об информации, которую очень важно прочитать, то за внимание читателя нужно бороться. В том числе — исследовать новые формы графиков для подачи вашего сообщения. Здесь важно помнить, что форма не должна преобладать над смыслом — если вашу прекрасную картинку невозможно понять, то и смысла в её красоте мало.
1️⃣1️⃣ Учитывайте платформу, где распространяете графику. У журнальной и постерной графики одни возможности и ограничения, у инфографики в мобильном телефоне — другие, у инфографики на большом экране — третьи. Завернуть ваши данные в нужный формат — это большая работа. Вот, например, Visual Capitalist очень часто забывают, что делают инфографику для веба — и выдают такие визуализации, будто они для печати.
1️⃣2️⃣ Классно, если за цифрами, которые вы подаёте, читатели смогут узнавать то, с чем они реально встречаются в повседневной жизни. Думайте, можете ли вы представить данные так, чтобы вызвать сопереживание.
Оригинал:
https://medium.com/@giorgialupi/data-memos-3927ab7e822a
8️⃣ (Спорное) В одном материале не стоит использовать один и тот же вид графика для отображения разных показателей. В пример приводится число госпитализаций и число смертей — надо придумывать что-то другое.
Я не соглашусь, это ок 🤷♂️
9️⃣ Многогранность. Иногда дополнительные детали помогают лучше понимать контекст. Например, если вы даёте среднюю зарплату сотрудников самых крупных компаний, покажите на графике среднюю зарплату в регионе.
Таких деталей может быть много — главное, следить, что они не перегружают график и помогают воспринимать посыл.
1️⃣0️⃣ Вовлечение. Если мы говорим не об информации, которую очень важно прочитать, то за внимание читателя нужно бороться. В том числе — исследовать новые формы графиков для подачи вашего сообщения. Здесь важно помнить, что форма не должна преобладать над смыслом — если вашу прекрасную картинку невозможно понять, то и смысла в её красоте мало.
1️⃣1️⃣ Учитывайте платформу, где распространяете графику. У журнальной и постерной графики одни возможности и ограничения, у инфографики в мобильном телефоне — другие, у инфографики на большом экране — третьи. Завернуть ваши данные в нужный формат — это большая работа. Вот, например, Visual Capitalist очень часто забывают, что делают инфографику для веба — и выдают такие визуализации, будто они для печати.
1️⃣2️⃣ Классно, если за цифрами, которые вы подаёте, читатели смогут узнавать то, с чем они реально встречаются в повседневной жизни. Думайте, можете ли вы представить данные так, чтобы вызвать сопереживание.
Оригинал:
https://medium.com/@giorgialupi/data-memos-3927ab7e822a
#ml #statistics
Алерон поделился новой Phik корреляцией
https://towardsdatascience.com/phik-k-get-familiar-with-the-latest-correlation-coefficient-9ba0032b37e7
Алерон поделился новой Phik корреляцией
https://towardsdatascience.com/phik-k-get-familiar-with-the-latest-correlation-coefficient-9ba0032b37e7
Towards Data Science
Phik (𝜙k) - get familiar with the latest correlation coefficient | Towards Data Science
That is also consistent between categorical, ordinal, and interval variables!
Forwarded from Data Science Private Sharing
Написал на Хабре еще один туториал (в рамках курса ML System Design).
На этот раз посвященный ClearML - системе трекинга Ml-экспериментов.
https://habr.com/ru/post/691314/
Заходим, читаем и не забываем ставить лайки :)
На этот раз посвященный ClearML - системе трекинга Ml-экспериментов.
https://habr.com/ru/post/691314/
Заходим, читаем и не забываем ставить лайки :)
Forwarded from Ivan Novikov
Информация по дополнительному проекту
Также под началом Ролана проходит проект по калибровке поверхности волатильности.
Все желающие принять активное участие, приглашаются на созвоны в телеграмме с 14:00 по 15:00 в субботу,
где можно узнать актуальную информацию по проекту, задать вопросы и поделиться наработками.
Название: Калибровка поверхности волатильности крипто-опционов.
Описание: Цель проекта - понять динамику поверхности волатильности для крипто-опционов. Торговля опционами на BTC и ETH на централизованных биржах существует уже некоторое время. Но только сейчас он начинает привлекать значительное внимание и переживает заметный рост, в основном благодаря сильному интересу институциональных инвесторов и трейдеров к криптопространству. Практическая сторона проекта начнется сначала со сбора данных о волатильности поверхностных котировок с биржи Deribit, которая на сегодняшний день является крупнейшей биржей для торговли опционами.
Собрав эти данные, мы сможем откалибровать различные модели из курса по вычислительным финансам, получив большой практический опыт работы с численными методами, используемыми при калибровке и расчетах рисков. И, наконец, мы протестируем некоторые классические стратегии торговли опционами и рассмотрим потенциальные возможности арбитража на этом рынке.
Организаторы:
Ролан Гринис - ментор
@scaevolabars, @AlicePH - менеджеры проекта от ЦМФ
@mrfendel, @molozey - ассистенты
Материалы:
- Скрейпер данных на Kotlin от Ролана (с выгрузкой в БД для будущей удобной работы с данными)
- Скрейпер данных на Python от @molozey (Андрей) и ссылка на запись с пояснением
- Ноутбук по методу Levenberg-Marquad с калибровкой модели SABR от @scaevolabars (Сергей)
- Getting Markprices for Deribit options
- Getting Quotes for perpetual swaps form Deribit
- Public trading dashboard for Derbit with order books and option chains
- Post about historical data on Deribit
- Доп. ссылка на статью о крипто-опционах
- Курс по опционам от Deribit
Также под началом Ролана проходит проект по калибровке поверхности волатильности.
Все желающие принять активное участие, приглашаются на созвоны в телеграмме с 14:00 по 15:00 в субботу,
где можно узнать актуальную информацию по проекту, задать вопросы и поделиться наработками.
Название: Калибровка поверхности волатильности крипто-опционов.
Описание: Цель проекта - понять динамику поверхности волатильности для крипто-опционов. Торговля опционами на BTC и ETH на централизованных биржах существует уже некоторое время. Но только сейчас он начинает привлекать значительное внимание и переживает заметный рост, в основном благодаря сильному интересу институциональных инвесторов и трейдеров к криптопространству. Практическая сторона проекта начнется сначала со сбора данных о волатильности поверхностных котировок с биржи Deribit, которая на сегодняшний день является крупнейшей биржей для торговли опционами.
Собрав эти данные, мы сможем откалибровать различные модели из курса по вычислительным финансам, получив большой практический опыт работы с численными методами, используемыми при калибровке и расчетах рисков. И, наконец, мы протестируем некоторые классические стратегии торговли опционами и рассмотрим потенциальные возможности арбитража на этом рынке.
Организаторы:
Ролан Гринис - ментор
@scaevolabars, @AlicePH - менеджеры проекта от ЦМФ
@mrfendel, @molozey - ассистенты
Материалы:
- Скрейпер данных на Kotlin от Ролана (с выгрузкой в БД для будущей удобной работы с данными)
- Скрейпер данных на Python от @molozey (Андрей) и ссылка на запись с пояснением
- Ноутбук по методу Levenberg-Marquad с калибровкой модели SABR от @scaevolabars (Сергей)
- Getting Markprices for Deribit options
- Getting Quotes for perpetual swaps form Deribit
- Public trading dashboard for Derbit with order books and option chains
- Post about historical data on Deribit
- Доп. ссылка на статью о крипто-опционах
- Курс по опционам от Deribit
GitHub
GitHub - grinisrit/noa-atra: Analytics for Trading with NOA
Analytics for Trading with NOA. Contribute to grinisrit/noa-atra development by creating an account on GitHub.
Forwarded from Ivan Novikov
Материалы курса:
- Гитхаб с ноутбуками
- Записи по 2,3 лекции в PDF (стохастические процессы)
Рекомендуемые ресурсы:
- Записи лекций Seydel в PDF + его сайт с материалами по курсу Computational Finance
- Плейлист лекций по вычислительным финансам от Lech Grzelak + GitHub с кодом
- Пост с книгами по двум курсам выше
- Методичка на русском языке по курсу Математической теории финансов в МФТИ
- Пост с дополнительной литературой
- Ссылки на посты с литературой по стохастическим процессам:
Shreeve Stochastic Calculus I and Stochastic Calculus 2;
Damiano Brigo Interest Rate Models;
Степанов Сергей Стохастический мир;
Лекции MIT по стохастическим процессам;
- Гитхаб с ноутбуками
- Записи по 2,3 лекции в PDF (стохастические процессы)
Рекомендуемые ресурсы:
- Записи лекций Seydel в PDF + его сайт с материалами по курсу Computational Finance
- Плейлист лекций по вычислительным финансам от Lech Grzelak + GitHub с кодом
- Пост с книгами по двум курсам выше
- Методичка на русском языке по курсу Математической теории финансов в МФТИ
- Пост с дополнительной литературой
- Ссылки на посты с литературой по стохастическим процессам:
Shreeve Stochastic Calculus I and Stochastic Calculus 2;
Damiano Brigo Interest Rate Models;
Степанов Сергей Стохастический мир;
Лекции MIT по стохастическим процессам;
GitHub
noa/docs/quant at master · grinisrit/noa
Differentiable Programming Algorithms in Modern C++ - grinisrit/noa