Analyzecore – Telegram
Analyzecore
1.83K subscribers
59 photos
14 videos
88 links
Sergii Bryl, Executive leader in field of Data Analytics & AI
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
Буквально «проглотил» за пару дней книгу Prozorro. Покупал ее ещё через предзаказ и, вот, она вышла и прочитана.

Prozorro - это игра слов, в переводе на русский «Прозрачно» с отсылкой к Zorro как борцу за справедливость. Удачное название для электронной системы госзакупок. Prozorro самый известный государственный стартап в Украине, который кардинальным образом изменил правила игры в одной из самых коррумпированных сфер. Проект победитель международных конкурсов.

Я давно слежу за деятельностью таких ребят как Макс Нефьодов (он соавтор книги) и всегда с огромным удивлением и восторгом относился к тому, как им удалось и до недавнего времени удавалось «провернуть» такого рода реформы в различных государственных сферах.

Я и многие из моих друзей и коллег не понаслышке знакомы со всеми сложностями трансформаций, например, в сфере построения data-driven/informed культуры в компании. Я смотрю на достижения нашей команды за последние полтора года и испытываю удовлетворение и веру, что все получится.
Но! Сейчас я говорил про передовую IT компанию, которая использует современные фреймворки, является гибкой и готовой к изменениям, имеет устоявшиеся ценности и развивает внутреннюю культуру.

Сделать более сложный проект в рамках огромного государства, где госслужащие даже не используют электронный календарь, успеть воспользоваться небольшим «окном возможностей», «протолкнуть» совершенно новую законодательную базу, когда в стране масса других более важных проблем, не потратить ни одной гривны из госбюджета и т.д.... Выглядит и, наверное, так и есть - просто невероятно! Но, с другой стороны, этот опыт подтверждает, что все возможно.

Лично я не ожидал, что история Prozorro настолько многоэтапная и увлекательна. В общем, рекомендую к изучению и вдохновению на свершения хотя бы на своём месте. Огромный респект всем причастным к Prozorro!
В 2018 году R комьюнити, вдохновленное выходом книги R for Data Science от евангелистов tidy принципа обработки данных и авторов множества соответствующих пакетов (библиотек) для языка R, Garrett Grolemund и знаменитого Hadley Wickham, запустило классную инициативу #TidyTuesday.

Инициатива направлена на демонстрацию возможности языка R, как мощного инструмента для обработки и визуализации данных. И заключается она в том, что каждый вторник энтузиасты играют tidy-мускулами и выкладывают в Twitter результаты работы с новым датасетом с хештегом #TidyTuesday. И в этих работах встречаются очень хорошие визуализации данных с соответствующим R кодом.

Вот несколько космических, в прямом и переносном смысле, примеров:

https://twitter.com/CedScherer/status/1283855238731005952
https://twitter.com/AtMissing/status/1283247615874936834
https://twitter.com/cararthompson/status/1283411992980729856
https://twitter.com/jakekaupp/status/1285389608319164419

Очень рекомендую следить!

Кстати, сама книга R for Data Science бесплатно доступна в виде web-ресурса (тоже рекомендую).
Благодаря Александру Конотопскому (СЕО и фаундер Ajax) канал Big Money вернулся в список моих подписок на Youtube. Правда, с поправкой - я смотрю выпуски, в которых Александр соведущий, и пока это означало, что контент очень достойный. Речь в основном о бизнесе, но, на мой взгляд, хороший аналитик отличается тем, что мыслит категориями и целями бизнеса. Поэтому, рекомендую! )

Пока таких выпусков всего два, но, я надеюсь, будет больше:
с Олегом Рогинским, people.ai
c Кириллом Бигаем и Дмитрием Волошиным, preply.com
Алексей Макаров собрал исчерпывающий список ресурсов по аналитике и классно описал мотивацию их изучать!

Интересная метафора: "начинающим аналитикам очень важно найти для себя тех гигантов, на чьи плечи они смогут взобраться. Список этих гигантов (простите за пафосную красноречивость) — ниже"

Мне же особенно приятно, что в список попали ресурсы ребят из моей команды MacPaw, как и, даже, этот телеграм-канал и блог 😎
The Pudding, ребята, которые создают крутые визуальные эссе, поделились тем, как у них устроен процесс работы над data stories. Если коротко, то для того, чтобы появилась дата история, надо ответить на такие вопросы:

⁃ Есть ли у вас уникальный вопрос, и можно ли на него ответить с помощью данных?
⁃ Существуют ли данные (для ответа на вопрос)?
⁃ Этично ли собирать или использовать эти данные?
⁃ Интересны ли результаты анализа?
⁃ Тот ли вы человек, который расскажет эту историю? (про привлечение эксперта из области вопроса, если есть необходимость)
⁃ Составьте план своей истории; это все еще интересно?
⁃ Сделайте историю; это все еще интересно? (про рефлексию над окончательным вариантом, все ли ок)

На каждом этапе/вопросе, идея может отложиться до лучших времен, измениться или продолжить свое движение к публикации.

Pudding был бы не “пудинг”, если бы и в такой статье не было хорошей визуализации: по мере чтения, движение процесса элегантно сопровождается по общей схеме (слева).

https://pudding.cool/process/pivot-continue-down/

via @revealthedata
“Я помогаю человеку высадиться на Луне”

В субботу с несколькими ребятами из нашей команды возили Диму Осиюка (каналы @WebAnalyst и @MarkeTech) на конференцию 8p (Одесса) с докладом на актуальную тему Incrementality Marketing Measurement (про инкрементальный анализ рекламных кампаний). Кроме Диминого доклада, мне очень понравился бизнес-поток и понравилось, что в этом году появилось слово Analytics в названии одного из потоков, т.к. изначально это конференция больше для маркетологов и направлений SEO, PPC, Affiliates и т.д.

Так вот, меня зацепил один простой вопрос. Вы наверняка постоянно слышите его на конференциях. Спикеры обращаются к аудитории и спрашивают что-то вроде: кто из вас занимается маркетингом? А кто аналитикой? А кто занимается бизнесом?

Кроме этого, у каждого участника был набор стикеров с названием профессиональной отрасли, которые можно было клеить на бейдж и тем самым помогать другим сориентироваться стоит ли с вами знакомиться )) - что, в целом, выглядит классной идеей.

Большинство, клея такой стикер на свой бейдж или отвечая на вопрос спикера “чем вы занимаетесь?”, автоматически выбирал SEO, PPC, Affiliate, Analytics, Business и т.д...

И о чем я подумал: как же это важно осознавать, что на самом деле каждый из этих ребят занимается бизнесом. Да, через какую-то свою профессиональную сферу, но бизнесом. И как это должно мотивировать - быть причастным к чему-то большему, чем твой кусок работы.

Пожалуй, это точно не новый, но от того не менее важный инсайт, который я увёз с собой.

В заголовке фраза, которую, по легенде, произнес уборщик в NASA в ответ на вопрос Джона Кеннеди “Что вы тут делаете?”. Возможно, это не более чем легенда, но очень красиво подчеркивает мысль.
This media is not supported in your browser
VIEW IN TELEGRAM
Главный фестиваль от сообщества ODS.ai для всех, кто связан с data science, machine learning и AI -
Data Fest 2020 состоится 19-20 сентября, с 11-00 до 19-00 по московскому времени.

В этом году Data Fest 2020 пройдет онлайн, а значит подключиться смогут еще больше участников со всего мира.
В программе - больше 35 секций о бизнесе, индустрии, инженерии, науке и сообществе + нетворкинг в Spatial.Chat, где можно пообщаться со спикерами и единомышленниками.

Ключевые спикеры (и это далеко не все!):
Алексей Натёкин,
Валерий Бабушкин, Михаил Рожков, Асхат Уразбаев,
Павел Плесков, Dr. Eghbal Rahimikia, Ser-Huang Poon.


Участие бесплатное, регистрация и подробности по ссылке
Классная статья о том как “устроены” цвета (речь про оттенок, насыщенность, яркость). В статье много примеров, как, управляя этими тремя факторами, получать не просто разные, но и более качественные цветовые палитры для визуализации.

Вот несколько советов:
⁃ избегайте “чистых” цветов
⁃ избегайте ярких насыщенных цветов
⁃ сочетайте цвета с разной яркостью
⁃ избегайте слишком слабого и слишком сильного контраста с фоном

И мой любимый совет (вольный перевод):
Выбрать хорошие цвета сложно. Совершенно нормально не уметь этого делать и просто копировать. Нет ничего постыдного в том, чтоб “подсмотреть” палитру.

Cтатья изобилует ссылками на соответствующие инструменты по работе с цветами. Очень рекомендую!

https://blog.datawrapper.de/beautifulcolors/index.html
Интересная идея: взять bar chart и "наполнить" его реальным количеством случаев, в данном случае - заболеваний COVID-19. Очень похоже на waffle chart, через который в R и воспроизвели график, но оригинал все же лучше.

воспроизведение графика в R:
https://rud.is/b/2020/07/24/aligning-the-dots-on-covid-prison-waffles/

оригинал чартов в статье:
https://www.themarshallproject.org/2020/05/01/a-state-by-state-look-at-coronavirus-in-prisons
Минутка ужасной статистики 😢

Вес всех земных млекопитающих распределен так:
- 30% люди
- 67% домашний скот и домашние животные
- 3% дикие животные

Источник: https://twitter.com/ProfMarkMaslin/status/1311920897075359746
В далеком 2014 году я начал вести блог analyzecore.com про всевозможные аналитические решения с помощью языка R. Несмотря на то, что последние 2-3 года я не пишу активно, блог понемногу посещают и число просмотров приближается к своего рода майлстоуну в 500 тыс.

Эта отметка еще знаковая и потому, что с этой точки я планирую изменить тематику и писать больше о своем виденье развития аналитики и культуры работы с данными в компаниях. Пока не знаю что из этого выйдет, но сейчас я хочу подвести небольшой итог моего блогинга как аналитика и составить свой топ-5 статей с учетом их популярности среди читателей.

Итак, мой топчик (3-5 места):
5 место: Несколько вариантов визуализации когортного анализа: от практичного до не очень. Для меня статья особенная тем, что один чарт попал в longlist авторитетного и уважаемого мной конкурса KANTAR Informational is beautiful awards 2016
https://www.analyzecore.com/2015/12/10/cohort-analysis-retention-rate-visualization-r/

4 место: Статья о подходах к анализу последовательностей покупок
https://www.analyzecore.com/2014/12/04/sequence-carts-in-depth-analysis-with-r/

3 место: Вторая часть статьи о мультиканальной атрибуции с фокусом на практические моменты, которые могут возникнуть в процессе применения методики (Марковские цепи)
https://www.analyzecore.com/2017/05/31/marketing-multi-channel-attribution-model-r-part-2-practical-issues/
Продолжение топ-5 статей на моем старом блоге, который вот-вот достигнет 500 тыс. просмотров:

2 место: Статья про одновременно простой и мощный подход к сегментации клиентов, который я нашел в книге Jim Novo "Drilling Down". Кстати, сам Джим ретвитнул эту статью!
https://www.analyzecore.com/2015/02/16/customer-segmentation-lifecycle-grids-with-r/

1 место: Абсолютный чемпион! Статья про мультиканальную атрибуцию с помощь Марковских цепей, в которой я попытался простым языком описать суть подхода на примерах
https://www.analyzecore.com/2016/08/03/attribution-model-r-part-1/


И три бонусные статьи, которые я рекомендую:

визуализация когортного анализа с помощью heatmap
https://www.analyzecore.com/2015/05/03/cohort-analysis-with-heatmap/

мониторинг аномалий в метриках
https://www.analyzecore.com/2018/06/13/anomaly-detection-for-business-metrics-with-r/

классная техника предсказания кривой churn и расчета прогнозного LTV
https://www.analyzecore.com/2018/09/19/ltv-prediction-for-a-recurring-subnoscription-with-r/
#just_for_fun

Столбчатая диаграмма (bar plot) отображает сравнение нескольких дискретных категорий. Одна её ось показывает сравниваемые категории, другая — измеримую величину. Иногда столбчатые диаграммы отображают несколько величин для каждой сравниваемой категории. (из wiki)

А можно просто взять и нарисовать bar'ами чей-то портрет. А можно не чей-то, а, например, портрет Паши Педенко, который ведет интересный канал про Product Management и смежные с ним сферы. Паша совместно с Яриком Степаненко (моим коллегой по MacPaw) регулярно записывают классный подкаст Product&Growth Show, ссылки на который можно найти там же в канале.

Паша еще не знает, что я его нарисовал и прорекламировал его канал. Это сюрприз, если что. Заодно проверю, пересекаются ли наши аудитории )))

А для тех, кто хочет подобным образом кого-то порадовать, тут репозиторий с подобными трюками на R
"Визуализация данных помогла появиться новому воображению, приспособленному для навигации в реальности, намного большей, чем жизненный опыт любого человека."

Невероятная подборка старых визуализаций, начиная с 18 века: https://exhibits.stanford.edu/dataviz
Sony Music обратилась к Nadieh Bremer с идеей создать более “data art inspired” версию традиционного золотого или платинового диска.

В детальной статье Nadieh можно фактически прожить процесс создания визуализации музыки.

https://www.visualcinnamon.com/2020/06/sony-music-data-art
16 декабря OWOX проведет вебинар, на котором Сергей Абрамов из iProspect и Дмитрий Щеголяев из Эльдорадо расскажут, как с помощью OWOX BI им удалось предсказать вероятность, с которой пользователь купит товар, что привело к увеличению ROI контекстной рекламы в 2,2 раза!

Обещают, что будет полезно ➡️ https://www.owox.com/c/515
Что делает визуализацию данных по настоящему хорошей, объясняет David McCandless с помощью визуализации ))

Классный концепт, который показывает из чего должна состоять удачная во всех смыслах визуализация.

https://informationisbeautiful.net/visualizations/what-makes-a-good-data-visualization/
Огромный туториал по самой популярной R-библиотеке для визуализации данных ggplot2. Множество примеров как можно управлять различными параметрами для улучшения качества визуализации.

https://cedricscherer.netlify.app/2019/08/05/a-ggplot2-tutorial-for-beautiful-plotting-in-r/
Хороший пример эффективной визуализации данных. Достаточно посмотреть на чарт, чтобы понять главную мысль автора.

https://www.theguardian.com/environment/ng-interactive/2019/may/25/the-power-switch-tracking-britains-record-coal-free-run