График из книги "Графики, которые убеждают всех". Александр Богачев https://www.litres.ru/aleksandr-bogachev/grafiki-kotorye-ubezhdaut-vseh/
В питоне в основном для рисования графиков используется три библиотеки:
- matplotlib. pyplot
- seaborn
- plotly.
Pyplot рисует стандартные графики, которые можно использовать на этапе анализа и предобработки данных. Они простые, без украшательств.
Seaborn - статичные графики, но уже можно использовать различные стили. Открывают простор для фантазии. Можно использовать для презентаций.
Plotly - интерактивные графики, можно с ними работать уже после отрисовки. Увеличивать, получать информацию при наведении курсора. Их уже удобно использовать в отчетах.
- matplotlib. pyplot
- seaborn
- plotly.
Pyplot рисует стандартные графики, которые можно использовать на этапе анализа и предобработки данных. Они простые, без украшательств.
Seaborn - статичные графики, но уже можно использовать различные стили. Открывают простор для фантазии. Можно использовать для презентаций.
Plotly - интерактивные графики, можно с ними работать уже после отрисовки. Увеличивать, получать информацию при наведении курсора. Их уже удобно использовать в отчетах.
👍1
Выполнение команд в sql
Поняла по тесту выше, что не все знают в какой последовательности выполняются операторы в sql: SELECT, FROM, WHERE, GROUP BY.
Первым делом выполняется команда FROM, не смотря на то, что стоит она не первая.
Во FROM мы пишем из какой таблицы будем брать данные.
То есть сначала при формировании запроса, отвечаем на вопрос: Откуда берём данные?
Поняла по тесту выше, что не все знают в какой последовательности выполняются операторы в sql: SELECT, FROM, WHERE, GROUP BY.
Первым делом выполняется команда FROM, не смотря на то, что стоит она не первая.
Во FROM мы пишем из какой таблицы будем брать данные.
То есть сначала при формировании запроса, отвечаем на вопрос: Откуда берём данные?
Визуализация
Вернёмся к графикам.
Столбчатая диаграмма - отражает сравнение категорий и их место в ряду. Выводы можно делать, сравнивая категории между собой. Или определяя место. Например, "магазин А на втором месте по выручке"
Круговая диаграмма и столбчатая с накоплением показывает долю от целого. Например, мужчин в мире - 45%, женщин 55%.
Вернёмся к графикам.
Столбчатая диаграмма - отражает сравнение категорий и их место в ряду. Выводы можно делать, сравнивая категории между собой. Или определяя место. Например, "магазин А на втором месте по выручке"
Круговая диаграмма и столбчатая с накоплением показывает долю от целого. Например, мужчин в мире - 45%, женщин 55%.
График с временной шкалой используется для визуализации изменений одного параметра во времени. Можно отмечать резкий/плавный рост, снижение, стабилизацию параметра, провалы и т. д.
График зависимости одной величины от другой . Диаграмма рассеяния.
Тоже самое можно смотреть, только теперь мы отслеживаем корреляцию двух величин и делаем выводы.
Гистограмма
Похожа на столбчатую диаграмму, но смысл у неё другой.
Гистограмма показывает как распределяется величина. Всё значение делятся на равные интервалы и распределяются по интервалам. На диаграмме указывается по оси y, какое количество значений переменной попало в интервал.
Часто значения распределяются вокруг среднего симметрично. И это называется нормальным распределение. Но это история для другой заметки.
Эта диаграмма полезна скорее не для презентаций, а для анализа. Для презентации лучше разбить значение на категории, если возможно, посчитать долю каждой категории или количество значений в категории и сделать круговую или столбчатую диаграмму, соответственно.
График зависимости одной величины от другой . Диаграмма рассеяния.
Тоже самое можно смотреть, только теперь мы отслеживаем корреляцию двух величин и делаем выводы.
Гистограмма
Похожа на столбчатую диаграмму, но смысл у неё другой.
Гистограмма показывает как распределяется величина. Всё значение делятся на равные интервалы и распределяются по интервалам. На диаграмме указывается по оси y, какое количество значений переменной попало в интервал.
Часто значения распределяются вокруг среднего симметрично. И это называется нормальным распределение. Но это история для другой заметки.
Эта диаграмма полезна скорее не для презентаций, а для анализа. Для презентации лучше разбить значение на категории, если возможно, посчитать долю каждой категории или количество значений в категории и сделать круговую или столбчатую диаграмму, соответственно.
👍1
Визуализация
Какую выбрать столбиковую диаграмму: горизонтальную или вертикальную?
Если названия категорий длинные, то лучше сделать горизонтальную, чтобы названия проще читались.
При коротких названиях - можно вертикальную.
При выборе столбиковой диаграммы следует исходить из того, что вертикальная легче и точнее считывается.
Поэтому алгоритм выбора такой: рисуем вертикальную. Если названия длинные - горизонтальную.
Основой выбора графика должны быть его удобство и читаемость.
Какую выбрать столбиковую диаграмму: горизонтальную или вертикальную?
Если названия категорий длинные, то лучше сделать горизонтальную, чтобы названия проще читались.
При коротких названиях - можно вертикальную.
При выборе столбиковой диаграммы следует исходить из того, что вертикальная легче и точнее считывается.
Поэтому алгоритм выбора такой: рисуем вертикальную. Если названия длинные - горизонтальную.
Основой выбора графика должны быть его удобство и читаемость.
Визуализация в python
Для себя делала файл по основным графикам и диаграммам, которые могут пригодиться на этапе анализа и в презентации результатов.
Воды вообще нет, текста особо тоже. Только примеры кодов, которые можно копировать и дорабатывать под себя. Смотрите на содержание - оно максимально понятно.
Сначала общие какие-то вещи. Потом 3 раздела по библиотекам: plt, sns и plotly
ССЫЛКА: https://colab.research.google.com/drive/1yLtXePgSai1ODUIkYkldmjJf4onlVs8o?usp=sharing
Для себя делала файл по основным графикам и диаграммам, которые могут пригодиться на этапе анализа и в презентации результатов.
Воды вообще нет, текста особо тоже. Только примеры кодов, которые можно копировать и дорабатывать под себя. Смотрите на содержание - оно максимально понятно.
Сначала общие какие-то вещи. Потом 3 раздела по библиотекам: plt, sns и plotly
ССЫЛКА: https://colab.research.google.com/drive/1yLtXePgSai1ODUIkYkldmjJf4onlVs8o?usp=sharing
Google
Работа с графиками.ipynb
Colaboratory notebook
👍3❤2
Делаю файл такой же как выше по A/B тестам в Питоне. Нужно тут выкладывать?
Выкладывать файл колаба по A/B - тестам, когда закончу?
Anonymous Poll
91%
Да
5%
Нет
5%
Что за файл?)
Далее немного тестов. Продолжим по sql. Важно понимать в каком порядке работают основные операторы в sql.
Какой оператор в SQL отработает следующим после FROM?
Anonymous Quiz
30%
SELECT
58%
WHERE
0%
HAVING
12%
GROUP BY
👍2
Какой оператор в SQL сработает после WHERE?
Anonymous Quiz
28%
ORDER BY
9%
HAVING
47%
GROUP BY или SELECT
17%
FROM
График из книги "Графики, которые убеждают всех". Александр Богачев https://www.litres.ru/aleksandr-bogachev/grafiki-kotorye-ubezhdaut-vseh/
Аня - аналитик данных👩🌾
График из книги "Графики, которые убеждают всех". Александр Богачев https://www.litres.ru/aleksandr-bogachev/grafiki-kotorye-ubezhdaut-vseh/
Хочется подобное исследование провести самой. Канал по-тихоньку набирается. Понятно, что выборка будет маленькая и наврятли по ней пока можно судить о свойствах Генеральной совокупности, но всё же;)
Апрель 2022 года. Вы счастливы в целом, не смотря на всё трудности, которые встречаете?
Final Results
32%
Определённо да
18%
Определённо нет
39%
Скорее да
11%
Скорее нет
Визуализация
Интересная подсказка: чтобы график не был перегружен данными, данные имеющие малую долю можно объединить в категорию "прочее".
Чтобы на графике не было наслоения множества линий друг на друга - выделить цветом только важные, остальные сделать серыми - общая тенденция будет видна, при этом основное сообщение будет подкреплено цветными линиями.
Интересная подсказка: чтобы график не был перегружен данными, данные имеющие малую долю можно объединить в категорию "прочее".
Чтобы на графике не было наслоения множества линий друг на друга - выделить цветом только важные, остальные сделать серыми - общая тенденция будет видна, при этом основное сообщение будет подкреплено цветными линиями.
Аня - аналитик данных👩🌾
https://youtu.be/xBTiBcPatd8
Посмотрела. Видео для тех, кто только думает освоить эту профессию. Практика максимально простая в колабе. Мне было неинтересно.
Forwarded from Pavel Dubinin
Полезные ссылки для знакомства и работы с DataLens
Большой функциональный демо дашборд:
- datalens.yandex/demo - публичный, только чтение
- Развернуть дашборд в своем DataLens для редактирования
Сообщество:
- Телеграм чат (вы сейчас тут)
- Предложить и проголосовать за новую фичу
- Плейлист официальных мероприятий на YouTube
Обучение:
- Быстрый старт, пошаговая инструкция
- Более детальные пошаговые инструкции по сценариям
- Туториалы по аналитическим функциям: агрегации, оконные функции, Level-of-Detail выражения
- Создание SQL-чартов (если вам нужно больше гибкости модели данных)
- Образовательные проекты
FAQ в документации:
- https://cloud.yandex.ru/docs/datalens/qa/
Публичные кейсы использования DataLens:
- КазаньЭкспресс - Аналитика retail маркетплейса
- Правительство С.-Петербурга - Аналитика городских сервисов
- Окраина - Аналитика на мясоперерабатывающем заводе
- МВидео - Платформа данных в облаке, геоаналитика
- Rubetek - Аналитика IOT по датчикам домов и квартир застройщика ПИК
- Moneycare - Кредитный брокер, корпоративный BI
- AnywayAnyDay - Аналитика онлайн туристического агентства
- JustSchool - Аналитика над CRM школы английского языка
- SevenTech - Аналитика технологического стартапа над ClickHouse
- НефтеТрансСервис - Промышленная аналитика интернета вещей
- RADAR - Аналитика аудитории наружной рекламы по всей России
- Цифровое образование - Аналитика олимпиад, учеников, школ
- Биологический Факультет МГУ - Предсказание и аналитика урожая
- tproger – Веб аналитика портала
- Car-Taxi - Продуктовая аналитика сервиса эвакуации авто
- Кинопоиск - Публичная статистика оценок фильмов
Примеры публичных дашбордов:
- Анализ качества воздуха
- Статистика коронавируса
- Погода
- Показатели Российских ВУЗов
- Демография Ставрополья
- Исследование про работу вахтовым методом в РФ
- Безработица РФ
- Пример с LOD выражениями от @ab0xa
(присылайте ваши примеры в чат, если хотите поделиться своим опытом!)
Презентации:
- DataLens
- Yandex Cloud Data Platform
Помощь:
- Обсудить ваш проект
- Завести тикет в техподдержку
- Найти партнера для проекта
Большой функциональный демо дашборд:
- datalens.yandex/demo - публичный, только чтение
- Развернуть дашборд в своем DataLens для редактирования
Сообщество:
- Телеграм чат (вы сейчас тут)
- Предложить и проголосовать за новую фичу
- Плейлист официальных мероприятий на YouTube
Обучение:
- Быстрый старт, пошаговая инструкция
- Более детальные пошаговые инструкции по сценариям
- Туториалы по аналитическим функциям: агрегации, оконные функции, Level-of-Detail выражения
- Создание SQL-чартов (если вам нужно больше гибкости модели данных)
- Образовательные проекты
FAQ в документации:
- https://cloud.yandex.ru/docs/datalens/qa/
Публичные кейсы использования DataLens:
- КазаньЭкспресс - Аналитика retail маркетплейса
- Правительство С.-Петербурга - Аналитика городских сервисов
- Окраина - Аналитика на мясоперерабатывающем заводе
- МВидео - Платформа данных в облаке, геоаналитика
- Rubetek - Аналитика IOT по датчикам домов и квартир застройщика ПИК
- Moneycare - Кредитный брокер, корпоративный BI
- AnywayAnyDay - Аналитика онлайн туристического агентства
- JustSchool - Аналитика над CRM школы английского языка
- SevenTech - Аналитика технологического стартапа над ClickHouse
- НефтеТрансСервис - Промышленная аналитика интернета вещей
- RADAR - Аналитика аудитории наружной рекламы по всей России
- Цифровое образование - Аналитика олимпиад, учеников, школ
- Биологический Факультет МГУ - Предсказание и аналитика урожая
- tproger – Веб аналитика портала
- Car-Taxi - Продуктовая аналитика сервиса эвакуации авто
- Кинопоиск - Публичная статистика оценок фильмов
Примеры публичных дашбордов:
- Анализ качества воздуха
- Статистика коронавируса
- Погода
- Показатели Российских ВУЗов
- Демография Ставрополья
- Исследование про работу вахтовым методом в РФ
- Безработица РФ
- Пример с LOD выражениями от @ab0xa
(присылайте ваши примеры в чат, если хотите поделиться своим опытом!)
Презентации:
- DataLens
- Yandex Cloud Data Platform
Помощь:
- Обсудить ваш проект
- Завести тикет в техподдержку
- Найти партнера для проекта
Telegram
Yandex DataLens
Сообщество пользователей Yandex DataLens
- Правила: t.me/YandexDataLens/28609/28610
- Полезное: t.me/YandexDataLens/28609/28894
Номер заявления РКН: 4962849290
- Правила: t.me/YandexDataLens/28609/28610
- Полезное: t.me/YandexDataLens/28609/28894
Номер заявления РКН: 4962849290
👍4
Аналитика данных / Data Study
Гайд_по_профессии_аналитика_данных.pdf
Вот в этом файлике, который я нашла на другом канале (Я лишь перепостила) есть список вопросов, которые распространены на собеседованиях. По-тихоньку поотвечаю как бы я ответила на эти вопросы. Тег будет #вопросы_с_собеседований