Where is data, Lebowski – Telegram
Where is data, Lebowski
237 subscribers
83 photos
2 videos
83 links
Канал про разное в data-мире:
- от библиотек визуализации до data egineering
- от графиков до элементов разработки
- от .csv до API
Download Telegram
Немного холиварная тема про круговые диаграммы, многие их любят, удобно и вообще там доли, это классно, ну и стандартные инструменты (Excel\Sheets) их предлагают.
Попробуем рассмотреть не только круговые: столбчатые (bar), кольцо (donut), квадратные (tree) и круговые (pie).
Для демонстрации используются данные Sample Superstore.xlsx , признак Category.
На первых представленных рисунках изображены доли каждой категории, есть доминирующая Office Supplies ~60% и две похожие Technology ~18.5% и Furniture ~21%.

Оценить на какой удобнее предлагаю каждому. Однако стоит отметить следующее - на какой графический атрибут мы смотрим при изучении визуализации и как он зависит от отображаемых параметров. Изучаем формулы на прикрепленных рисунках.
Человек оценивает глядя на визуализацию:
- pie - площадь сектора, зависит линейно от угла, радиус константен
- bubble - площадь круга, квадратично зависит от радиуса
- square - площадь квадрата, квадратично зависит от стороны квадрата
- donut - площадь сектора кольца, линейно зависит от угла раскрыва, квадратично от радиусов обеих окружностей

Соответственно, используя каждый графический примитив (или не очень примитив 😉) мы должны сохранять исходные соотношения между долями. Например, разница между категориями Furniture и Office supplies составляет 64.8% или 0.352 раза.
При использовании tree\bubble мы смотрим на площадь или на длину стороны\радиуса, сохранить отношение и площадей и сторон с радиусами мы не можем (они находятся в квадратичной зависимости) - отсюда искажение или не соответствие исходным данным.
При использовании pie\donut площадь линейно зависит от угла сектора, данные не искажаются, но в силу вступают особенности зрения, мы менее точно всопринимаем разницу в углах, чем в длине линий (изучите приложенный рисунок с прямыми линиями и частями окружности соответствующих длин, в каком случае вам проще определить кто длинее и насколько 🧐).
Получается из всех перечисленных видов визуализации не искажающим данные, как фактически, так и с точки зрения зрительного восприятия, являются столбчатые диаграммы.
В конце процитирую Александра Богачева, автора книги Графики, которые убеждают всех :
...одна из важных характеристик типа визуализации данных – то, насколько точно он позволяет раскодировать значения, записанные с помощью геометрических фигур и их свойств.
Проводились исследования на эту тему. Оказалось, что точнее всего позволяют считывать значения точечная и столбиковая диаграммы. А именно – сочетание длины столбика с его расположением относительно базовой (общей) линии. Угол, в частности сектор в круговой диаграмме, считывается значительно хуже. Еще расплывчатее показывают значения разные оттенки насыщенности цвета и объемные фигуры

..передать ощущение части и целого нужно гораздо реже, чем мы думаем. Чаще всего мы хотим сравнить компоненты целого между собой. А это круговая диаграмма делает плохо. Она предлагает нашему мозгу сравнивать либо углы секторов, либо визуальную площадь этих секторов. И то, и другое мозг делает плохо – нам гораздо проще сравнить длину столбиков.

Автор не настроен радикально по отношению к круговым диаграммам и приводит решения, которые помогут создать качественную визуализацию, стоит отметить, что накладные расходы на использование круговых диаграмм в совокупности со сложностью раскодирования угла\площади, не заслуживают столько внимания и столь частого применения на практике.
Последний рисунок на сегодня - точность восприятия информации в зависимости от выбранного графического примитива.

Всем хорошей и качественной визуализации🖐
#pie #part1
Рисунки к посту выше 😉
Завершился Метамаркетинг-21

Посмотрел пару интересных выступлений, жаль не попал на Рому Бунина, говорят, было круче `marvel` 🤘

Саша Михайлов заприметил ламповые объявления - предложения работы, кажется, это действительно из прошлого, как письма писать😉
Кому интересно разбираем пирожки🥐🥯
Forwarded from data будни (Саша Михайлов)
ламповые объявления о работе с Матемаркетинга

кажется, это не попало в официальные трансляции) выложу сюда часть, чтобы добро не продпало
Audio
Иногда приятно, когда ваш любимый  jupyter-notebook  издаёт любимый звук по окончании расчетов, вот ловите как можно это сделать - https://musicinformationretrieval.com/ipython_audio.html

Как сказал  DS-коллега, после этого кода я уже никогда не буду прежним:

```
import IPython.display as ipd
beep = np.sin(2*np.pi*400*np.arange(10000)/10000)
def end_sound():
return ipd.Audio(beep, rate=10000, autoplay=True)

```

А пока вам новогоднего настроения👇🔊