Analyzecore – Telegram
Analyzecore
1.83K subscribers
59 photos
14 videos
88 links
Sergii Bryl, Executive leader in field of Data Analytics & AI
Download Telegram
Классная статья о том как “устроены” цвета (речь про оттенок, насыщенность, яркость). В статье много примеров, как, управляя этими тремя факторами, получать не просто разные, но и более качественные цветовые палитры для визуализации.

Вот несколько советов:
⁃ избегайте “чистых” цветов
⁃ избегайте ярких насыщенных цветов
⁃ сочетайте цвета с разной яркостью
⁃ избегайте слишком слабого и слишком сильного контраста с фоном

И мой любимый совет (вольный перевод):
Выбрать хорошие цвета сложно. Совершенно нормально не уметь этого делать и просто копировать. Нет ничего постыдного в том, чтоб “подсмотреть” палитру.

Cтатья изобилует ссылками на соответствующие инструменты по работе с цветами. Очень рекомендую!

https://blog.datawrapper.de/beautifulcolors/index.html
Интересная идея: взять bar chart и "наполнить" его реальным количеством случаев, в данном случае - заболеваний COVID-19. Очень похоже на waffle chart, через который в R и воспроизвели график, но оригинал все же лучше.

воспроизведение графика в R:
https://rud.is/b/2020/07/24/aligning-the-dots-on-covid-prison-waffles/

оригинал чартов в статье:
https://www.themarshallproject.org/2020/05/01/a-state-by-state-look-at-coronavirus-in-prisons
Минутка ужасной статистики 😢

Вес всех земных млекопитающих распределен так:
- 30% люди
- 67% домашний скот и домашние животные
- 3% дикие животные

Источник: https://twitter.com/ProfMarkMaslin/status/1311920897075359746
В далеком 2014 году я начал вести блог analyzecore.com про всевозможные аналитические решения с помощью языка R. Несмотря на то, что последние 2-3 года я не пишу активно, блог понемногу посещают и число просмотров приближается к своего рода майлстоуну в 500 тыс.

Эта отметка еще знаковая и потому, что с этой точки я планирую изменить тематику и писать больше о своем виденье развития аналитики и культуры работы с данными в компаниях. Пока не знаю что из этого выйдет, но сейчас я хочу подвести небольшой итог моего блогинга как аналитика и составить свой топ-5 статей с учетом их популярности среди читателей.

Итак, мой топчик (3-5 места):
5 место: Несколько вариантов визуализации когортного анализа: от практичного до не очень. Для меня статья особенная тем, что один чарт попал в longlist авторитетного и уважаемого мной конкурса KANTAR Informational is beautiful awards 2016
https://www.analyzecore.com/2015/12/10/cohort-analysis-retention-rate-visualization-r/

4 место: Статья о подходах к анализу последовательностей покупок
https://www.analyzecore.com/2014/12/04/sequence-carts-in-depth-analysis-with-r/

3 место: Вторая часть статьи о мультиканальной атрибуции с фокусом на практические моменты, которые могут возникнуть в процессе применения методики (Марковские цепи)
https://www.analyzecore.com/2017/05/31/marketing-multi-channel-attribution-model-r-part-2-practical-issues/
Продолжение топ-5 статей на моем старом блоге, который вот-вот достигнет 500 тыс. просмотров:

2 место: Статья про одновременно простой и мощный подход к сегментации клиентов, который я нашел в книге Jim Novo "Drilling Down". Кстати, сам Джим ретвитнул эту статью!
https://www.analyzecore.com/2015/02/16/customer-segmentation-lifecycle-grids-with-r/

1 место: Абсолютный чемпион! Статья про мультиканальную атрибуцию с помощь Марковских цепей, в которой я попытался простым языком описать суть подхода на примерах
https://www.analyzecore.com/2016/08/03/attribution-model-r-part-1/


И три бонусные статьи, которые я рекомендую:

визуализация когортного анализа с помощью heatmap
https://www.analyzecore.com/2015/05/03/cohort-analysis-with-heatmap/

мониторинг аномалий в метриках
https://www.analyzecore.com/2018/06/13/anomaly-detection-for-business-metrics-with-r/

классная техника предсказания кривой churn и расчета прогнозного LTV
https://www.analyzecore.com/2018/09/19/ltv-prediction-for-a-recurring-subnoscription-with-r/
#just_for_fun

Столбчатая диаграмма (bar plot) отображает сравнение нескольких дискретных категорий. Одна её ось показывает сравниваемые категории, другая — измеримую величину. Иногда столбчатые диаграммы отображают несколько величин для каждой сравниваемой категории. (из wiki)

А можно просто взять и нарисовать bar'ами чей-то портрет. А можно не чей-то, а, например, портрет Паши Педенко, который ведет интересный канал про Product Management и смежные с ним сферы. Паша совместно с Яриком Степаненко (моим коллегой по MacPaw) регулярно записывают классный подкаст Product&Growth Show, ссылки на который можно найти там же в канале.

Паша еще не знает, что я его нарисовал и прорекламировал его канал. Это сюрприз, если что. Заодно проверю, пересекаются ли наши аудитории )))

А для тех, кто хочет подобным образом кого-то порадовать, тут репозиторий с подобными трюками на R
"Визуализация данных помогла появиться новому воображению, приспособленному для навигации в реальности, намного большей, чем жизненный опыт любого человека."

Невероятная подборка старых визуализаций, начиная с 18 века: https://exhibits.stanford.edu/dataviz
Sony Music обратилась к Nadieh Bremer с идеей создать более “data art inspired” версию традиционного золотого или платинового диска.

В детальной статье Nadieh можно фактически прожить процесс создания визуализации музыки.

https://www.visualcinnamon.com/2020/06/sony-music-data-art
16 декабря OWOX проведет вебинар, на котором Сергей Абрамов из iProspect и Дмитрий Щеголяев из Эльдорадо расскажут, как с помощью OWOX BI им удалось предсказать вероятность, с которой пользователь купит товар, что привело к увеличению ROI контекстной рекламы в 2,2 раза!

Обещают, что будет полезно ➡️ https://www.owox.com/c/515
Что делает визуализацию данных по настоящему хорошей, объясняет David McCandless с помощью визуализации ))

Классный концепт, который показывает из чего должна состоять удачная во всех смыслах визуализация.

https://informationisbeautiful.net/visualizations/what-makes-a-good-data-visualization/
Огромный туториал по самой популярной R-библиотеке для визуализации данных ggplot2. Множество примеров как можно управлять различными параметрами для улучшения качества визуализации.

https://cedricscherer.netlify.app/2019/08/05/a-ggplot2-tutorial-for-beautiful-plotting-in-r/
Хороший пример эффективной визуализации данных. Достаточно посмотреть на чарт, чтобы понять главную мысль автора.

https://www.theguardian.com/environment/ng-interactive/2019/may/25/the-power-switch-tracking-britains-record-coal-free-run
В канале @smart_data_channel Денис Соловьев публикует мини-интервью про структуру команд и роли по работе с данными в разных компаниях. Очень интересно заглянуть у кого как устроена аналитика.
В последнем интервью цикла поучаствовал и я. Поделился тем, что нам удалось построить за последние два года. Далее репост:
Forwarded from Smart Data (Denis Solovyov)
Заканчиваем нашу рубрику, в которой опытные специалисты и руководители рассказывают о структуре команд по работе с данными в их компаниях.

И сегодня у нас последнее мини-интервью с Сергеем Брылем - Chief Data Science Officer в MacPaw. У Сергея есть телеграм-канал @analyzecore и блог https://www.analyzecore.com, где он в основном пишет про анализ данных, Data Science и визуализацию с использованием языка R.

Сергей Брыль:
"MacPaw мультипродуктовая компания, в текущем портфеле есть 10 продуктов, которые представлены на различных платформах. Поэтому, продуктовая аналитика для нас является ключевой экспертизой, а продуктовые аналитики - ядром команды аналитики.

На данный момент мы развиваем 6 направлений, которые входят в структуру Data Science Department. Важность и независимость аналитической функции в компании обеспечивается через то, что я представляю ее интересы на уровне Executive team.

Product Analytics. Мы пришли к выводу, что продуктовая аналитика должна быть глубоко интегрирована в продуктовую команду. С самого начала аналитики должны помочь разработать показатели успеха продукта, измерять прогресс и помогать выявлять риски и области роста для бизнеса. Более того, их понимание, основанное на данных, должно быть постоянным вкладом в разработку продукта. Функционально они подчиняются Chief Data Science Officer, а линейно - соответствующим продуктовым менеджерам.

Такой тип организационной структуры дает нам возможность:

- распространять дата-дривен культуру непосредственно на людей, принимающих ежедневные решения, вовлекать в культуру всю продуктовую команду
- всегда быть в контексте происходящего в продукте и очень оперативно и гибко действовать
- добиваться большей синергичности с другими аналитическими командами в решении задач

Кроме вышесказанного, это удобно для продуктового менеджера, иметь единую точку входа в достаточно широкую аналитическую функцию, как в MacPaw. Достаточно пообщаться с аналитиком своей команды, чтобы иметь представление какие дополнительные исследования могут быть сделаны силами всего Data Science направления.

С другой стороны, такая структура предполагает достаточно высокие требования к продуктовым аналитикам как в hard, так и soft skills.

Другие направления построены на специализированной глубокой экспертизе и в организационной структуре представлены в виде сервисов (или экспертных центров).

DataHub - тут сосредоточена наша data инженерная экспертиза. Команда DataHub делает возможной тонко-настраиваемую аналитику с помощью кастомных технических решений и интеграций с продуктами и сервисами.

Особое значение это направление приобретает из-за того, что в портфеле нашей компании продукты на различных платформах, используют различные рекламные каналы, имеют разные модели монетизации и другие специфические особенности.

AI Lab. Миссия команды повышать эффективность процессов и ежедневных решений с помощью Machine Learning.

Этот сервис отвечает за два вектора развития:

- улучшение существующих решений в области продаж продуктов и улучшения пользовательского опыта
- использование машинного обучения как части продукта (фичи)

Market & Customer/User Research - сервис, который дает нам аналитику из внешнего мира о:

- рынках и аудиториях, их особенностях
- пользовательском опыте

Это дает возможность обогащать наши внутренние данных внешними, количественные данные качественными. В итоге, мы получаем взгляд на 360 градусов о предмете изучения. Мы можем сравнить наши успехи на определенном рынке или у определенной аудитории с доступной аналитикой о них. Мы можем подтвердить, опровергнуть или сгенерировать новые гипотезы, которые мы строим о поведении пользователей на наших внутренних данных.

MarTech - сервис, который сфокусирован на автоматизации маркетинга с использованием аналитических данных. Кроме того, это наш инновационный и исследовательский центр. Благодаря работе сервиса, мы являемся бета-тестировщиками, имеем ранний доступ к различным аналитическим и маркетинговым инструментам и более подготовлены к изменениям в этой сфере.
Forwarded from Smart Data (Denis Solovyov)
Internal Analytics - наше экспериментальное направление. Идея: анализировать данные, которые мы генерируем как компания и использовать их для принятия решений. Это направление ценно еще и тем, что работает над развитием дата-дривен культуры в поддерживающих сервисах и популяризирует подход в самых разных подразделениях компании.

Что касается организационной структуры направления, мы достаточно гибкие и готовы к быстрым изменения. Постоянно проверяем все ли работает как мы задумывали и, при необходимости, внедряем изменения."
Круговая диаграмма или pie chart, наверное, один из самых критикуемых вариантов визуализации. Но, не в случае, когда с чувством юмора все в порядке )))
robot_dreams (r_d медиа, @robotdreams_cc) запустили новую рубрику «Естественный интеллект», в которой лидеры украинского IT сами рассказывают о себе — что любят, какие книги читают и верят ли в покорение Марса.

Мне повезло открыть эту рубрику своим интервью, в котором рассказал как пришел в IT из банка, зачем завел блог и какие качества ценю в работе и многое другое.