настенька и графики – Telegram
настенька и графики
27.2K subscribers
2.62K photos
84 videos
15 files
3.18K links
Датавиз, аналитика и всякое полезное и интересное

💜 Кто я и что делаю: https://nastengraph.notion.site/nastengraph/Anastasiya-Kuznetsova-096ebfb42a9e4014b7700fa00fea54d6

🎓 Мой курс по основам датавиза: https://nastengraph.ru/
Download Telegram
Основные форматы файлов в сфере анализа данных и как их читать на Python.
Написала огромную штуку про улучшение перфоманса дашбордов в Tableau. Хотела мини-чеклист, но что-то не получилось.

Писала вообще для себя на основании материала "Designing Efficient Production Dashboards" , потому что я в этой теме ну так себе и хотелось какие-то понятные решения, что делать и что не делать.

Хочу супер обратить внимание на две штуки, которые помогут:
- видео Ромы Бунина “Под капотом Tableau”, чтобы понимать, как работает Tableau
- https://tableau-speedtest.site/ от Виталия Ковалёва для проверки скорости работы книги (хорошо замерять до и после применения всяких штук по оптимизации)
Если бы эта картинка попалась мне сильно раньше, ML может уложился бы в моей голове попроще. Читшит для scikit-learn – ML библиотеки на Python, но отлично раскладывает основные типы задач машинного обучения в принципе. Схемка интерактивная, так что сразу можно углябляться в методы.

Если нужно предсказать категорию:
- Классификация – есть размеченные данные, например спам/не спам и нужно классифицировать остальные (например, Наивный Байес)
- Кластеризация – данные на резмечены и нужно выделить группы по их схожести (например, K-means)

Если нужно предсказать числовое значение:
- Регрессия (например, линейная регрессия)

Если задача – снизить размерность данных, то поможет, например, PCA (метод главных компонент).

ps я давно не писала, потому что мне точно так же страшно, как и всем
За год ничего лучше irisов того года я пока не придумала💜

Сегодня предлагаю вам ещё посмотреть таймлайн про Women in Computing. Это пример создания таймлайна от knight lab от Northwestern University. Я как-то давно пользовалась этим сервисом и там супер удобно – можно вставлять фото, видео, аудио и накладывать это на таймлайн, рассказывая историю. И у них много других схожих продуктов для создания историй вокруг данных и не только.
1
Вы уже, наверное, слышали, но Tableau приостанавливает работу с корпоративными клиентами. Tableau Public работает и думаю, что тут проблем не будет. Российские BI-системы тоже есть (бурно обсуждают в чате, если рассматриваете переход туда), самый очевидный выбор сейчас - DataLens.

📍Еще есть проверенные opensource BI-системы:
- Redash - https://redash.io/ - дэши
- Superset - https://superset.apache.org/ - дэши
- Metabase - https://www.metabase.com/ - дэши
они прямо очень похожи между собой по структуре и методу создания

📍Дэшборды на R можно делать при помощи shiny:
- 1, 2, 3
- flexdashboard (тьюториал)
Шайни - просто пакет-надстройка для создания веб приложений, поэтому внутри все те же пакеты для датавиза (ggplot, plotly)

📍Дэшборды на Python при помощи dash и plotly
- 1, 2

Подборка российских аналогов разных сервисов (без дэшей, вдруг что-то понадобится)
This media is not supported in your browser
VIEW IN TELEGRAM
plotly – библиотека, которая позволяет добавлять интерактивность в графики (R и Python). На R так вообще ggplotly добавляешь к обычному графику из ggplot и вот он уже интерактивный с тултипами и всякими штуками.

На Python есть еще библиотека plotly-resampler (надстройка над плотли), которая позволяет интерактивно ресэмплить данные, брать их кусочки и углубляться внутрь. По словам авторов работает быстрее, чем обычный плотли как раз за счет ресэмплинга.

Еще давненько был пост про то, как юпитер ноутбуки могут начать заменять дэшборды. Думаю, для всяких полуисследовательских задач и эдхоков это может стать отличным решением.
1
Залипла на аккаунт Python Maps от Adam Symington, который любит Python и карты.
- Карта подводных коммуникационных кабелей. Когда я первый раз унала, что вообще это все вот так лежит под землей в воде была очень удивлена. Никогда не задумывалась, как это все работает, было интересно. Про кабели еще есть такая статья, если интересно.
- Карта рек в Африке, на эту еще и тьюториал есть.

про визуализацию карт есть хорошее видео от Татьяны Балтыжаковой (канал Geodatamess)
Книга Mastering Shiny от Hadley Wickham бесплатная и с заданиями

https://mastering-shiny.org/index.html

И в качестве примера шайни аппки – Tableau Zen Parser для визуализации зависимостей в таблошных файлах (и R и Tableau и прямо ах).
Карта автомагистралей от Milos Popoivic на R и сразу с тьюториалом, как это все делать.
Одна из моих самых любимых сеточек – карта науки. Сделана на данных пользователей научных порталов (что они смотрят, ищут, читают и тд). Получилась штука, очень классно показывающая междисциплинарность. Данным в исследовании уже больше 10 лет, но все равно нахожу ее очень интересной.
Ну и вот такая по всем статьям, которые когда-либо публиковались в журнале Nature. Объемная, с визуализацией развития областей.
1
В начале феврале постила исследование про сравнение распространенность разных английских слов среди мужчин и женщин, американцев и англичан. У них есть возможность скачать весь объем данных, что я собственно и сделала. Получился такой мини-дэш.

Чтобы не гуглить каждое слово (как делала я), можно нажать на кнопку "What's the word?" и посмотреть на страничку в википедии про это. Там у них не простая такая метрика и распространенность приводится к z-оценкам и в итоге, если она отрицательная, то такое слово знают менее 50% участников. И, например, оценка -1.96 - слово знают около 2.5% людей, а +1.96 - знают около 97.5%. Базово отсортировано по словам, которые лучше знают мужчины или англичане, но можно переключить.

Как-то так, очень хотела гантельки себе в паблик)
5
Нравится эта общая, но полезная статья про UX дизайн дашбордов, с идеей того, что пользователи в ваших дашбордах должны видеть то же, что и вы и ничего лишнее их не отвлекало. Когда в дэше много цветов, форм, паттернов и данных, получаются дата-джунгли, в которых очень сложно найти нужную информацию.

Что стоит учитывать:
1. Контекст пользователей. Кто они, их цели, мотивация и потребности, какую информацию они хотят получить и на какие вопросы ответить, их бэкграунд знаний.
2. Путь пользователя. В дэшах он часто не линейный, часто итеративный: зашел, потыкал, вышел; зашел, потыкал одно, другое, снова первое и вышел и тд. На это приложила картинку, кажется, хорошо помогает понять суть.
3. Каждая ключевая визуализация отвечает на конкретный вопрос. Она включает в себя 3 важных элемента: что конкретно вы измеряете и на какой вопрос она отвечает, какие данные в себя включает, какую часть данных в ней важнее выделить относительно остальных.
8
Apple подкасты прислали мне оповещение о новом подкасте Самата Галимова (запуск завтра) с Таней Мисютиной (Лаборатория данных) про визуализацию данных. Без картинок слушать сложнее, поэтому вот проекты, которые обсуждали в самом начале:
- землетрясения
- визуализация Московского марафона (вообще топ, если не смотрели, очень классно!)

Я не очень люблю подкасты про датавиз, потому что на слух реально очень тяжело такое воспринимать, а графики хочется смотреть. Но вот рассуждения во второй части про раскручивание данных было интересно представлять в голове и пытаться раскрутить еще дальше.

А еще у Тани и Ромы совсем скоро курс как раз про визуализацию данных (как это все крутить, придумывать визы и можно попрактиковать алгоритм визуализации в Tableau). Вроде бы еще есть места: https://datalaboratory.ru/course/
4
Дата-арт работы от Gladys Estolas про рынок акций. Обычно каждая линия пейзажа – курс каких-то акций. Очень красивое, работы тут, можно купить напечатанные и конечно nft: https://www.stoxart.com
11