Analyzecore – Telegram
Analyzecore
1.83K subscribers
59 photos
14 videos
88 links
Sergii Bryl, Executive leader in field of Data Analytics & AI
Download Telegram
Немного подумал и решил, что сильно ограничиваю себе темой визуализации данных.

Поэтому, быстренько изменил заголовок и линку канала. Собираюсь шарить тут все что мне кажется интересным, от жизненных историй до машинного обучения. Визуализация никуда не девается, но если вы планировали читать только про неё, то сорян, будет интереснее (надеюсь 😀)
Поделюсь двумя интерактивными визуализациями (не новыми, но может быть кто-то не видел), которые объясняют, что называется "на пальцах", как работает простой алгоритм машинного обучения и дают определения некоторым терминам из этой области.

Работа сделана на столько красиво, что можно часами скролить туда-сюда и наблюдать эту магию.

P.S.: для одного из слайдов своего выступления на конференции Analyze! в 2018 году, я попросил дизайнера использовать идею представления дерева решений как раз на основе одной из статей-визуализаций

http://www.r2d3.us/visual-intro-to-machine-learning-part-1/

http://www.r2d3.us/visual-intro-to-machine-learning-part-2/
Когда ты озабочен проблемой глобального потепления и любишь heatmap, то твоя душевая и твоя маска могут выглядить так :)
У природы есть свои способы организации информации: организмы растут и регистрируют информацию из окружающей среды. Это особенно заметно на деревьях, которые через свои кольца рассказывают историю их роста.

Опираясь на это явление в качестве визуальной метафоры, авторы представили Соединенные Штаты в виде среза дерева с формами, находящимися под влиянием иммиграции.

Потрясающая идея для визуализации!

https://web.northeastern.edu/naturalizing-immigration-dataviz//
Почти одновременно (с разницей в один день 😀), на двух уважаемых мной блогах (Паши Левчука и Олега Якубенко) вышли статьи на тему прогнозирования оттока клиентов с использованием когортного анализа. Если вы имеете дело с подписочным продуктом, то такой прогноз дает вам несколько перспектив:
- собственно, отток пользователей и оценку будущей аудитории,
- оценку LTV пользователей,
- оценку доходов продукта.

В обеих статьях авторы демонстрирую как с помощью электронных таблиц можно добиться неплохих результатов.

Есть другой продвинутый способ получить прогноз оттока пользователей (и других показателей). Наиболее точный из тех, которые мне доводилось применять и, что очень важно для новых продуктов, - который демострирует высокую точность даже на минимальных исторических данных. Об этом подходе я писал полтора года назад и мы используем его для некоторых продуктов MacPaw.

Что важно, первоначально он был реализован в электронных таблица и я перенес его в R. Поэтому, его можно реализовать в том иструменте, который вы предпочитаете (ссылка на пример в экселе в конце моей статьи).

Ссылка на мою статью (английский)

Ссылки на статьи Паши и Олега
Когда-то я работал в банке 🏦. Мы всегда использовали таблицы для представления результатов анализа. Какую бы информацию не готовили, это почти всегда были таблицы. В лучшем случае, добавляли ужасный и бесполезный для отчета пайчарт, а особо продвинутые аналитики - донат чарт 🍩

Это могли быть довольно большие таблицы с кучей разнообразных цифр. Но, в банке все привыкли работать с таблицами и никого это не смущало. Свою тягу к красивому я реализовал там же, в таблицах. Я научился делать очень красивые таблицы, стал мастером красивых таблиц. )))

Прошло несколько лет и я случайно посмотрел вдохновляющее видео, которое открыло для меня визуализацию данных. Какой-то другой, совершенно удивительный мир, в котором цифры перерождались в визуальные объекты и могли очень точно и красиво донести основную мысль. (что, кстати, не отрицает и противоположного эффекта).

Хочу поделиться этим видео с вами и может быть кто-то еще разделит мой восторг и отношение к визуализации данных. Если нет, то вы, как минимум, найдете много интересных фактов. Если что, есть субтитры на многих языках.
https://www.ted.com/talks/david_mccandless_the_beauty_of_data_visualization

В качестве бонуса вторая ссылка на классику жанра от Ханса Рослинга. Мне кажется, одно из самых известных выступлений про визуализацию данных.
https://www.youtube.com/watch?v=hVimVzgtD6w
Возвращаясь мыслями к видео из предыдущего поста, на котором выступает David McCandless.

Его компания Information is Beautiful совместно с креативным директором Kantar в 2012 году запустили прекрасное мероприятие Kantar Information is Beautiful Awards. Это ежегодный конкурс визуализаций данных, инфографики, интерактивов и информационного искусства.

Я всегда с интересом слежу за результатами, т.к. там большое количество потрясающих визуализаций и безграничный источник вдохновения. Здесь можно увидеть полный каталог за все годы конкурса.

В это сложно поверить, но визуализация данных скромного автор этого канала тоже есть в каталоге. Этот чарт из статьи про идеи визуализации для когортного анализа попал в лонглист конкурса в 2016 году 😎 По условиям конкурса, это дает право разместить на визуализации соответствующий бейджик 🙌
This media is not supported in your browser
VIEW IN TELEGRAM
Буквально «проглотил» за пару дней книгу Prozorro. Покупал ее ещё через предзаказ и, вот, она вышла и прочитана.

Prozorro - это игра слов, в переводе на русский «Прозрачно» с отсылкой к Zorro как борцу за справедливость. Удачное название для электронной системы госзакупок. Prozorro самый известный государственный стартап в Украине, который кардинальным образом изменил правила игры в одной из самых коррумпированных сфер. Проект победитель международных конкурсов.

Я давно слежу за деятельностью таких ребят как Макс Нефьодов (он соавтор книги) и всегда с огромным удивлением и восторгом относился к тому, как им удалось и до недавнего времени удавалось «провернуть» такого рода реформы в различных государственных сферах.

Я и многие из моих друзей и коллег не понаслышке знакомы со всеми сложностями трансформаций, например, в сфере построения data-driven/informed культуры в компании. Я смотрю на достижения нашей команды за последние полтора года и испытываю удовлетворение и веру, что все получится.
Но! Сейчас я говорил про передовую IT компанию, которая использует современные фреймворки, является гибкой и готовой к изменениям, имеет устоявшиеся ценности и развивает внутреннюю культуру.

Сделать более сложный проект в рамках огромного государства, где госслужащие даже не используют электронный календарь, успеть воспользоваться небольшим «окном возможностей», «протолкнуть» совершенно новую законодательную базу, когда в стране масса других более важных проблем, не потратить ни одной гривны из госбюджета и т.д.... Выглядит и, наверное, так и есть - просто невероятно! Но, с другой стороны, этот опыт подтверждает, что все возможно.

Лично я не ожидал, что история Prozorro настолько многоэтапная и увлекательна. В общем, рекомендую к изучению и вдохновению на свершения хотя бы на своём месте. Огромный респект всем причастным к Prozorro!
В 2018 году R комьюнити, вдохновленное выходом книги R for Data Science от евангелистов tidy принципа обработки данных и авторов множества соответствующих пакетов (библиотек) для языка R, Garrett Grolemund и знаменитого Hadley Wickham, запустило классную инициативу #TidyTuesday.

Инициатива направлена на демонстрацию возможности языка R, как мощного инструмента для обработки и визуализации данных. И заключается она в том, что каждый вторник энтузиасты играют tidy-мускулами и выкладывают в Twitter результаты работы с новым датасетом с хештегом #TidyTuesday. И в этих работах встречаются очень хорошие визуализации данных с соответствующим R кодом.

Вот несколько космических, в прямом и переносном смысле, примеров:

https://twitter.com/CedScherer/status/1283855238731005952
https://twitter.com/AtMissing/status/1283247615874936834
https://twitter.com/cararthompson/status/1283411992980729856
https://twitter.com/jakekaupp/status/1285389608319164419

Очень рекомендую следить!

Кстати, сама книга R for Data Science бесплатно доступна в виде web-ресурса (тоже рекомендую).
Благодаря Александру Конотопскому (СЕО и фаундер Ajax) канал Big Money вернулся в список моих подписок на Youtube. Правда, с поправкой - я смотрю выпуски, в которых Александр соведущий, и пока это означало, что контент очень достойный. Речь в основном о бизнесе, но, на мой взгляд, хороший аналитик отличается тем, что мыслит категориями и целями бизнеса. Поэтому, рекомендую! )

Пока таких выпусков всего два, но, я надеюсь, будет больше:
с Олегом Рогинским, people.ai
c Кириллом Бигаем и Дмитрием Волошиным, preply.com
Алексей Макаров собрал исчерпывающий список ресурсов по аналитике и классно описал мотивацию их изучать!

Интересная метафора: "начинающим аналитикам очень важно найти для себя тех гигантов, на чьи плечи они смогут взобраться. Список этих гигантов (простите за пафосную красноречивость) — ниже"

Мне же особенно приятно, что в список попали ресурсы ребят из моей команды MacPaw, как и, даже, этот телеграм-канал и блог 😎
The Pudding, ребята, которые создают крутые визуальные эссе, поделились тем, как у них устроен процесс работы над data stories. Если коротко, то для того, чтобы появилась дата история, надо ответить на такие вопросы:

⁃ Есть ли у вас уникальный вопрос, и можно ли на него ответить с помощью данных?
⁃ Существуют ли данные (для ответа на вопрос)?
⁃ Этично ли собирать или использовать эти данные?
⁃ Интересны ли результаты анализа?
⁃ Тот ли вы человек, который расскажет эту историю? (про привлечение эксперта из области вопроса, если есть необходимость)
⁃ Составьте план своей истории; это все еще интересно?
⁃ Сделайте историю; это все еще интересно? (про рефлексию над окончательным вариантом, все ли ок)

На каждом этапе/вопросе, идея может отложиться до лучших времен, измениться или продолжить свое движение к публикации.

Pudding был бы не “пудинг”, если бы и в такой статье не было хорошей визуализации: по мере чтения, движение процесса элегантно сопровождается по общей схеме (слева).

https://pudding.cool/process/pivot-continue-down/

via @revealthedata
“Я помогаю человеку высадиться на Луне”

В субботу с несколькими ребятами из нашей команды возили Диму Осиюка (каналы @WebAnalyst и @MarkeTech) на конференцию 8p (Одесса) с докладом на актуальную тему Incrementality Marketing Measurement (про инкрементальный анализ рекламных кампаний). Кроме Диминого доклада, мне очень понравился бизнес-поток и понравилось, что в этом году появилось слово Analytics в названии одного из потоков, т.к. изначально это конференция больше для маркетологов и направлений SEO, PPC, Affiliates и т.д.

Так вот, меня зацепил один простой вопрос. Вы наверняка постоянно слышите его на конференциях. Спикеры обращаются к аудитории и спрашивают что-то вроде: кто из вас занимается маркетингом? А кто аналитикой? А кто занимается бизнесом?

Кроме этого, у каждого участника был набор стикеров с названием профессиональной отрасли, которые можно было клеить на бейдж и тем самым помогать другим сориентироваться стоит ли с вами знакомиться )) - что, в целом, выглядит классной идеей.

Большинство, клея такой стикер на свой бейдж или отвечая на вопрос спикера “чем вы занимаетесь?”, автоматически выбирал SEO, PPC, Affiliate, Analytics, Business и т.д...

И о чем я подумал: как же это важно осознавать, что на самом деле каждый из этих ребят занимается бизнесом. Да, через какую-то свою профессиональную сферу, но бизнесом. И как это должно мотивировать - быть причастным к чему-то большему, чем твой кусок работы.

Пожалуй, это точно не новый, но от того не менее важный инсайт, который я увёз с собой.

В заголовке фраза, которую, по легенде, произнес уборщик в NASA в ответ на вопрос Джона Кеннеди “Что вы тут делаете?”. Возможно, это не более чем легенда, но очень красиво подчеркивает мысль.
This media is not supported in your browser
VIEW IN TELEGRAM
Главный фестиваль от сообщества ODS.ai для всех, кто связан с data science, machine learning и AI -
Data Fest 2020 состоится 19-20 сентября, с 11-00 до 19-00 по московскому времени.

В этом году Data Fest 2020 пройдет онлайн, а значит подключиться смогут еще больше участников со всего мира.
В программе - больше 35 секций о бизнесе, индустрии, инженерии, науке и сообществе + нетворкинг в Spatial.Chat, где можно пообщаться со спикерами и единомышленниками.

Ключевые спикеры (и это далеко не все!):
Алексей Натёкин,
Валерий Бабушкин, Михаил Рожков, Асхат Уразбаев,
Павел Плесков, Dr. Eghbal Rahimikia, Ser-Huang Poon.


Участие бесплатное, регистрация и подробности по ссылке
Классная статья о том как “устроены” цвета (речь про оттенок, насыщенность, яркость). В статье много примеров, как, управляя этими тремя факторами, получать не просто разные, но и более качественные цветовые палитры для визуализации.

Вот несколько советов:
⁃ избегайте “чистых” цветов
⁃ избегайте ярких насыщенных цветов
⁃ сочетайте цвета с разной яркостью
⁃ избегайте слишком слабого и слишком сильного контраста с фоном

И мой любимый совет (вольный перевод):
Выбрать хорошие цвета сложно. Совершенно нормально не уметь этого делать и просто копировать. Нет ничего постыдного в том, чтоб “подсмотреть” палитру.

Cтатья изобилует ссылками на соответствующие инструменты по работе с цветами. Очень рекомендую!

https://blog.datawrapper.de/beautifulcolors/index.html
Интересная идея: взять bar chart и "наполнить" его реальным количеством случаев, в данном случае - заболеваний COVID-19. Очень похоже на waffle chart, через который в R и воспроизвели график, но оригинал все же лучше.

воспроизведение графика в R:
https://rud.is/b/2020/07/24/aligning-the-dots-on-covid-prison-waffles/

оригинал чартов в статье:
https://www.themarshallproject.org/2020/05/01/a-state-by-state-look-at-coronavirus-in-prisons
Минутка ужасной статистики 😢

Вес всех земных млекопитающих распределен так:
- 30% люди
- 67% домашний скот и домашние животные
- 3% дикие животные

Источник: https://twitter.com/ProfMarkMaslin/status/1311920897075359746