Наши читатели - компания N-iX - поделились интересной вакансией.
Команда приглашает BigData-гуру присоединиться к необычному проекту GOGO, цель которого состоит в предоставлении сервиса Wi-Fi-доступа на борту самолетов.
Уже сейчас сервис доступен на более 2900 коммерческих и более 6600 бизнес-самолетов! ✈️
N-iX сотрудничает в таких направлениях как BigData, Business Intelligence, Data Analysis и ищет таланты, которые могут внести свой вклад в развитие проекта.
Если есть опыт работы с Apache Spark, Python и Scala, у тебя хорошее понимание методологий разработки программного обеспечения и хороший английский, работал с Hadoop architecture и AWS (S3, EMR cluster, Lambda, Kinesis), тогда ты идеальный кандидат!
Команда приглашает BigData-гуру присоединиться к необычному проекту GOGO, цель которого состоит в предоставлении сервиса Wi-Fi-доступа на борту самолетов.
Уже сейчас сервис доступен на более 2900 коммерческих и более 6600 бизнес-самолетов! ✈️
N-iX сотрудничает в таких направлениях как BigData, Business Intelligence, Data Analysis и ищет таланты, которые могут внести свой вклад в развитие проекта.
Если есть опыт работы с Apache Spark, Python и Scala, у тебя хорошее понимание методологий разработки программного обеспечения и хороший английский, работал с Hadoop architecture и AWS (S3, EMR cluster, Lambda, Kinesis), тогда ты идеальный кандидат!
Топ 9 статей о BigData за февраль:
1️⃣ arXiv.org для ИИ
2️⃣ Какие должности скоро хахватит ИИ
3️⃣ 6 способов как аналитикой сократить расходы
4️⃣ Архитектура Apache Kafka
5️⃣ Роль аналитики в Product Development
6️⃣ Как квантовые компьютеры могут изменить все
7️⃣ Как машинное обучение дополняет бизнес-аналитику
8️⃣ Инфографика: нехватка Data Scientist
9️⃣ 8 шагов для того чтобы стать Data Scientist
1️⃣ arXiv.org для ИИ
2️⃣ Какие должности скоро хахватит ИИ
3️⃣ 6 способов как аналитикой сократить расходы
4️⃣ Архитектура Apache Kafka
5️⃣ Роль аналитики в Product Development
6️⃣ Как квантовые компьютеры могут изменить все
7️⃣ Как машинное обучение дополняет бизнес-аналитику
8️⃣ Инфографика: нехватка Data Scientist
9️⃣ 8 шагов для того чтобы стать Data Scientist
Несколько советов аналитику.
Ниже я приведу несколько советов, которые сохранили бы мне много времени в прошлом и, возможно, сохранят ваше время (и нервы) в будущем.
8️⃣ Не собирайте комитет экспертов. Если вы увидите картину, как группа людей сидит и рисует графики (или дэшборды) на доске, при этом даже не приступив к ознакомлению с базами данных… 🏃🏻♂️ Бегите!
7️⃣ Не делайте дэшборд по «ТЗ». Если вам прислали наброски графиков и больше ничего – готовьтесь к тому, что вы провалите задание. Спрашивайте не «что рисовать?», а «что показать?» или «что объяснить?».
6️⃣ Не стройте ничего на сводных таблицах. Присланный файл excel с 18 листами, которые, по сути, являются сводными таблицами – не пойдёт. Просите источник. Эти 18 листов будут вам сниться еще очень долго.
5️⃣ Не дублируйте excel. Вот и всё. Повторить таблицы и графики, которые кто-то разработал на заре 90-ых – это не задача для вас. 😎 Вы выше этого.
4️⃣ Не используйте ВСЕ данные мира. Толку мало – а отчёт «тормозит».
3️⃣ Не требуйте от диаграммы слишком многого. Это всего лишь график, который ответит на пару вопросов. Он не должен отвечать на вопрос жизни, вселенной и вообще.
2️⃣ Не устраивайте Рождество. Если это возможно – избегайте цветовой схемы «зелёный-красный». Тяжелый и кричащий дэшборд, да ещё и непонятный дальтоникам.
1️⃣ Забудьте всё, что описано выше, если вам и вашим пользователям по душе то, как вы работаете и что из этого выходит.
Ниже я приведу несколько советов, которые сохранили бы мне много времени в прошлом и, возможно, сохранят ваше время (и нервы) в будущем.
8️⃣ Не собирайте комитет экспертов. Если вы увидите картину, как группа людей сидит и рисует графики (или дэшборды) на доске, при этом даже не приступив к ознакомлению с базами данных… 🏃🏻♂️ Бегите!
7️⃣ Не делайте дэшборд по «ТЗ». Если вам прислали наброски графиков и больше ничего – готовьтесь к тому, что вы провалите задание. Спрашивайте не «что рисовать?», а «что показать?» или «что объяснить?».
6️⃣ Не стройте ничего на сводных таблицах. Присланный файл excel с 18 листами, которые, по сути, являются сводными таблицами – не пойдёт. Просите источник. Эти 18 листов будут вам сниться еще очень долго.
5️⃣ Не дублируйте excel. Вот и всё. Повторить таблицы и графики, которые кто-то разработал на заре 90-ых – это не задача для вас. 😎 Вы выше этого.
4️⃣ Не используйте ВСЕ данные мира. Толку мало – а отчёт «тормозит».
3️⃣ Не требуйте от диаграммы слишком многого. Это всего лишь график, который ответит на пару вопросов. Он не должен отвечать на вопрос жизни, вселенной и вообще.
2️⃣ Не устраивайте Рождество. Если это возможно – избегайте цветовой схемы «зелёный-красный». Тяжелый и кричащий дэшборд, да ещё и непонятный дальтоникам.
1️⃣ Забудьте всё, что описано выше, если вам и вашим пользователям по душе то, как вы работаете и что из этого выходит.
Работа с #BI и статистические вычисления.
Мы все знаем инструменты бизнес аналитики. Многие из нас сталкивались с математической статистикой или эконометрикой. Что, если я скажу вам, что эти два инструмента могут работать вместе, более того - дополнять друг друга?
От выдумки к реальности, дополняя друг друга, эти два инструмента могут творить неимоверные вещи, такие как:
▪️ определение статистических выбросов в наборе данных
▪️ построение различных кластеров
▪️ прогнозирование будущих периодов различными моделями
▪️ применение статистических критериев (тестов)
▪️ выведение показателей вероятностти на дэшборд
▪️ построение графика сети взаимосвязей
Те из вас, кто работает, скажем, c R или Python скажут "пффф! это есть и так, без какого-либо BI!". И будут правы. Но! ☝🏼 Представьте результаты вашей модели в форме интерактивного дешборда, да ещё и с интерактивными параметрами, которые можно менять на лету. 💥 То-то же :)
Это целый мир новых возможностей. Ниже ссылка на краткий обзор возможносте на примере Tableau, R и Python. Надеюсь, что он вас вдохновит :)
Мы все знаем инструменты бизнес аналитики. Многие из нас сталкивались с математической статистикой или эконометрикой. Что, если я скажу вам, что эти два инструмента могут работать вместе, более того - дополнять друг друга?
От выдумки к реальности, дополняя друг друга, эти два инструмента могут творить неимоверные вещи, такие как:
▪️ определение статистических выбросов в наборе данных
▪️ построение различных кластеров
▪️ прогнозирование будущих периодов различными моделями
▪️ применение статистических критериев (тестов)
▪️ выведение показателей вероятностти на дэшборд
▪️ построение графика сети взаимосвязей
Те из вас, кто работает, скажем, c R или Python скажут "пффф! это есть и так, без какого-либо BI!". И будут правы. Но! ☝🏼 Представьте результаты вашей модели в форме интерактивного дешборда, да ещё и с интерактивными параметрами, которые можно менять на лету. 💥 То-то же :)
Это целый мир новых возможностей. Ниже ссылка на краткий обзор возможносте на примере Tableau, R и Python. Надеюсь, что он вас вдохновит :)
Tableau и R
Сегодняшний пост будет крайне краток, но (надеюсь) информативен. 💡
Вдохновленный прошлым постом, я решил сделать краткую инструкцию/обзор на интеграцию Tableau и R.
Ccылка ниже или жмакайте тут, приятного просмотра 🎥
Сегодняшний пост будет крайне краток, но (надеюсь) информативен. 💡
Вдохновленный прошлым постом, я решил сделать краткую инструкцию/обзор на интеграцию Tableau и R.
Ccылка ниже или жмакайте тут, приятного просмотра 🎥
YouTube
Интеграция R в Tableau
Интеграция R в Tableau. Инструкция и пример применения.
Каталог данных
Каталог данных - это инструмент управления метаданными, призваный упростить и ускорить работу с #BigData.
Ниже представлю вам руководство по внедрению подобного каталога. Основные шаги при таком внедрении:
1️⃣ Определить и описать пилотный проект
2️⃣ Привлечь нужных сотрудников
3️⃣ Выбрать и подключить источники данных
4️⃣ Обучить сотрудников и стимулировать использование инструмента
5️⃣ Определить и измерить рзультат
Этот отчёт - хороший пример того, как ваш бизнес может планировать, создавать, развёртывать, управлять и расширять каталог данных.
Каталог данных - это инструмент управления метаданными, призваный упростить и ускорить работу с #BigData.
Ниже представлю вам руководство по внедрению подобного каталога. Основные шаги при таком внедрении:
1️⃣ Определить и описать пилотный проект
2️⃣ Привлечь нужных сотрудников
3️⃣ Выбрать и подключить источники данных
4️⃣ Обучить сотрудников и стимулировать использование инструмента
5️⃣ Определить и измерить рзультат
Этот отчёт - хороший пример того, как ваш бизнес может планировать, создавать, развёртывать, управлять и расширять каталог данных.
Визуальная метафора.
Одним из методов разнообразия дэшборда, который активно используют аналитики, является визуальная метафора.
Под визуальной метафорой обычно понимают графическое изображение некоего объёма информации по принципу аналогии, сходства, сравнения. Визуальная метафора может иметь вид:
🌳 конкретных предметов живой и неживой природы
📈схемов-рисунков как в мind-map (ментальных картах)
🎆сюрреалистичных изображений без конкретного содержания - лишь линии, цвета, штриховка
С помощью визуальной метафоры мы можем обозначать события, состояния, чувства, работать в разных точках временной линии, планируя будущее, анализируя и перепросматривая (если это необходимо) прошлое, осознавая настоящее. А главное - это позволяет вовлечь потребителя дэшборда в его содержание.
Целое математическое выражение, состоящее из большого количества знаков, мы можем принять за некий Х. Так же и большой объём информации можно обозначить метафорой рисунка. Количество единиц информации, которое можно одновременно воспринять, составляет около 7. Решая задачи с помощью визуальной метафоры, мы можем большой информативный объём «укладывать» в 7 обьектов.
Ниже хочу представить детальный осмотр того, как на практике применять визуальную метафору в дэшбордах.
Одним из методов разнообразия дэшборда, который активно используют аналитики, является визуальная метафора.
Под визуальной метафорой обычно понимают графическое изображение некоего объёма информации по принципу аналогии, сходства, сравнения. Визуальная метафора может иметь вид:
🌳 конкретных предметов живой и неживой природы
📈схемов-рисунков как в мind-map (ментальных картах)
🎆сюрреалистичных изображений без конкретного содержания - лишь линии, цвета, штриховка
С помощью визуальной метафоры мы можем обозначать события, состояния, чувства, работать в разных точках временной линии, планируя будущее, анализируя и перепросматривая (если это необходимо) прошлое, осознавая настоящее. А главное - это позволяет вовлечь потребителя дэшборда в его содержание.
Целое математическое выражение, состоящее из большого количества знаков, мы можем принять за некий Х. Так же и большой объём информации можно обозначить метафорой рисунка. Количество единиц информации, которое можно одновременно воспринять, составляет около 7. Решая задачи с помощью визуальной метафоры, мы можем большой информативный объём «укладывать» в 7 обьектов.
Ниже хочу представить детальный осмотр того, как на практике применять визуальную метафору в дэшбордах.
Радиальная полосчатая диаграмма (Radial Bar Chart)
Радиальная полосчатая диаграмма - это просто столбиковая диаграмма, однако она построена на полярной системе координат, а не на декартовой. Хотя она и выглядят круто 😎 - есть проблема с правильным восприятием, которая может привести к неверному толкованию. Важно помнить, что визуально данные могут не соответствовать действительным показателям. Всё дело в том, что каждый столбец удаляющийся от центра к краю окружности кажется длиннее предыдущего, даже если они представляют одинаковые значения, и должен отличаться по радиусу. Так что каждый столбец оценивается по углу, а не по его длине. Люди лучше воспринимают прямые линии, тем не менее радиальная полосчатая диаграмма несомненно выглядит эффектней 🎉.
Такой тип диаграмм рекоммендуется использовать в первую очередь с целью презентации или публицистики. Вы получите свой "вау!" 😱, но будьте крайне осторожны в использовании её для внутренней аналитики. Этой диаграммой можно ненароком навязать ложный вывод о данных.
Радиальная полосчатая диаграмма - это просто столбиковая диаграмма, однако она построена на полярной системе координат, а не на декартовой. Хотя она и выглядят круто 😎 - есть проблема с правильным восприятием, которая может привести к неверному толкованию. Важно помнить, что визуально данные могут не соответствовать действительным показателям. Всё дело в том, что каждый столбец удаляющийся от центра к краю окружности кажется длиннее предыдущего, даже если они представляют одинаковые значения, и должен отличаться по радиусу. Так что каждый столбец оценивается по углу, а не по его длине. Люди лучше воспринимают прямые линии, тем не менее радиальная полосчатая диаграмма несомненно выглядит эффектней 🎉.
Такой тип диаграмм рекоммендуется использовать в первую очередь с целью презентации или публицистики. Вы получите свой "вау!" 😱, но будьте крайне осторожны в использовании её для внутренней аналитики. Этой диаграммой можно ненароком навязать ложный вывод о данных.
Очистка данных: маркетинг и рассылки
Маркетологи знают, насколько важны данные клиентов для их повседневной работы и результатов. Тем не менее, многие не в полной мере осознают опасность "грязных" данных для маркетинга.
▪️ Прежде всего, неточные («плохие») данные влияют на вовлечённость клиентов и репутацию бренда. (Например, письмо с неправильно написанным именем).
▪️Во-вторых, бренды с устаревшими данными наносят ущерб репутации почтового сервера. (Отправляя пачками письма на "мёртвые" ящики, можно заблокировать часть входящей почты).
▪️«Чистые» данные также делают бизнес более продуктивным. (Чистые данные = корректные модели и точные прогнозы).
Некоторые способы держать данные о получателях чистыми:
▪️Спросить своих клиентов, действительно ли они хотят получать информацию ❓
▪️Проверить, не пора ли "сделать перерыв".
▪️Или наоборот - отправить письмо-напоминание, чтобы оживить аудиторию.
Маркетологи знают, насколько важны данные клиентов для их повседневной работы и результатов. Тем не менее, многие не в полной мере осознают опасность "грязных" данных для маркетинга.
▪️ Прежде всего, неточные («плохие») данные влияют на вовлечённость клиентов и репутацию бренда. (Например, письмо с неправильно написанным именем).
▪️Во-вторых, бренды с устаревшими данными наносят ущерб репутации почтового сервера. (Отправляя пачками письма на "мёртвые" ящики, можно заблокировать часть входящей почты).
▪️«Чистые» данные также делают бизнес более продуктивным. (Чистые данные = корректные модели и точные прогнозы).
Некоторые способы держать данные о получателях чистыми:
▪️Спросить своих клиентов, действительно ли они хотят получать информацию ❓
▪️Проверить, не пора ли "сделать перерыв".
▪️Или наоборот - отправить письмо-напоминание, чтобы оживить аудиторию.
Украинские авторы дэшбордов.
Сегодня решил рассказать о авторах дэшбородов, которые делают аналитику об Украине. Надеюсь, их труды будут интересны, послужат вдохновением.
Texty - автор, который делает достаточно много дэшбордов в формате публицистики. Из последнего - дэшборды по выборам.
CRPS - ещё один автор, работающий в более публицистической манере. Присутствуют интересные варианты Sankey диаграммы.
jumpfish2 - автор, который делает много инфографики в разрезе украинского социума.
Alexander - аналитика по продажам автомобилей.
LiliyaStativko - аналитика по Запорожью и не только. Весьма интересный дэшборд "метро заглохло".
Смотрите, подписывайтесь, поддерживайте украинских авторов.
Сегодня решил рассказать о авторах дэшбородов, которые делают аналитику об Украине. Надеюсь, их труды будут интересны, послужат вдохновением.
Texty - автор, который делает достаточно много дэшбордов в формате публицистики. Из последнего - дэшборды по выборам.
CRPS - ещё один автор, работающий в более публицистической манере. Присутствуют интересные варианты Sankey диаграммы.
jumpfish2 - автор, который делает много инфографики в разрезе украинского социума.
Alexander - аналитика по продажам автомобилей.
LiliyaStativko - аналитика по Запорожью и не только. Весьма интересный дэшборд "метро заглохло".
Смотрите, подписывайтесь, поддерживайте украинских авторов.
Big Data дебаты
В обществе присутствует коллосальный запрос на #дебаты. Мы решили не отставать. Даёшь зрелищ! 🎉
Есть такое явление, как Data Debate. Это движение, при котором специалисты в области #BigData дебатируют на спорные темы. Такие дебаты проходят на площадке The British Library и Alan Turing Institute.
Волна дебатов прошла в 2018, и мы ждем с нетерпением будет ли серия дебатов в 2019. Присоединяйтесь, давайте следить вместе на сайте Alan Turing Institute.
Хорошая новость - видеозаписи дебатов публикуються на youtube и ниже несколько записей таких дебатов.
The AI will see you now - https://www.youtube.com/watch?v=DwjmEZ6-Qy4
Freedom or troll - https://www.youtube.com/watch?v=1NlfIG3sUBM
Data and inequality - https://www.youtube.com/watch?v=KcbAhH5TM5o
В обществе присутствует коллосальный запрос на #дебаты. Мы решили не отставать. Даёшь зрелищ! 🎉
Есть такое явление, как Data Debate. Это движение, при котором специалисты в области #BigData дебатируют на спорные темы. Такие дебаты проходят на площадке The British Library и Alan Turing Institute.
Волна дебатов прошла в 2018, и мы ждем с нетерпением будет ли серия дебатов в 2019. Присоединяйтесь, давайте следить вместе на сайте Alan Turing Institute.
Хорошая новость - видеозаписи дебатов публикуються на youtube и ниже несколько записей таких дебатов.
The AI will see you now - https://www.youtube.com/watch?v=DwjmEZ6-Qy4
Freedom or troll - https://www.youtube.com/watch?v=1NlfIG3sUBM
Data and inequality - https://www.youtube.com/watch?v=KcbAhH5TM5o
The Alan Turing Institute
Events
Условная вероятность P(A|B)
Простой пример условной вероятности использует повсеместную колоду карт. Из стандартной колоды из 52, какова вероятность того, что вы разыграете туза во втором тираже, если знаете, что туз уже был разыгран (и оставлен вне колоды) в первом розыгрыше?
Поскольку колода из 52 игральных карт содержит 4 туза, вероятность получения первого туза составляет 4/52. Но вероятность вытянуть туза с учетом того, что первая вытянутая карта была тузом, равна 3/51 - 3 туза осталось в колоде с оставшимся 51 картой. Следовательно, условная вероятность предполагает, что другое событие уже произошло.
Теоремма Байеса гласит: P(A|B)=(P(B|A)P(A)/P(B))
P(A) - априорная вероятность гипотезы A
P(A|B) - вероятность гипотезы A при наступлении события B
P(B|A) - вероятность наступления события B при истинности гипотезы A
P(B) - полная вероятность наступления события B
Пример:
Проверка на наркотики на работе. Положительный результат этого теста свидетельствует о том, что предполагаемый сотрудник употребляет нелегальные наркотики. Однако не все люди с положительным результатом на самом деле употребляют наркотики. В этом примере предположим, что 4% потенциальных работников употребляют наркотики, уровень ложных срабатываний составляет 5%, а уровень ложных отрицательных результатов составляет 10%.
В условии есть 3 ключевых элемента информации:
▪️ Распространенность употребления наркотиков среди этих потенциальных работников, которая дается как вероятность 4% (или 0,04). Мы можем использовать правило дополнения, чтобы определить вероятность того, что сотрудник не употребляет наркотики: 1 - 0,04 = 0,96
▪️ Распространенность употребления наркотиков среди этих потенциальных работников, которая дается как вероятность 4% (или 0,04). Мы можем использовать правило дополнения, чтобы определить вероятность того, что сотрудник не употребляет наркотики: 1 - 0,04 = 0,96
▪️Вероятность того, что у предполагаемого сотрудника будет отрицательный результат, когда он действительно принимал наркотики, - ложноотрицательный показатель - составляет 10% (или 0,10)
Потенциальный сотрудник может получить положительный результат, когда они принимают наркотики ИЛИ когда они не принимают наркотики. Используя правило вероятности «ИЛИ» означает, что вы должны что-то приплюсовать. Так как можно получить положительный результат двумя разными способами, просто сложите их вместе после того, как рассчитаете вероятности отдельно: P (положительный) = (0,960,05) + (0,040,90) = 0.048 + 0.036 = 0.084.
Давайте наконец узнаем вероятность того, что положительный результат на тесте - ложный.
P(нет наркотиков|положительный) = (0.960.05)/0.084 = 0.048/0.084 = 0.5714.
НИЧОСИ! 😱 На самом деле вероятность того, что положительный тест сотрудника ложный - 57,14%. Что означает следующее - каждый вотрой уволенный за наркотики будет уволен ошибочно!
Будьте внимательны с условной возможностью и изспользуйте ее с умом!
Простой пример условной вероятности использует повсеместную колоду карт. Из стандартной колоды из 52, какова вероятность того, что вы разыграете туза во втором тираже, если знаете, что туз уже был разыгран (и оставлен вне колоды) в первом розыгрыше?
Поскольку колода из 52 игральных карт содержит 4 туза, вероятность получения первого туза составляет 4/52. Но вероятность вытянуть туза с учетом того, что первая вытянутая карта была тузом, равна 3/51 - 3 туза осталось в колоде с оставшимся 51 картой. Следовательно, условная вероятность предполагает, что другое событие уже произошло.
Теоремма Байеса гласит: P(A|B)=(P(B|A)P(A)/P(B))
P(A) - априорная вероятность гипотезы A
P(A|B) - вероятность гипотезы A при наступлении события B
P(B|A) - вероятность наступления события B при истинности гипотезы A
P(B) - полная вероятность наступления события B
Пример:
Проверка на наркотики на работе. Положительный результат этого теста свидетельствует о том, что предполагаемый сотрудник употребляет нелегальные наркотики. Однако не все люди с положительным результатом на самом деле употребляют наркотики. В этом примере предположим, что 4% потенциальных работников употребляют наркотики, уровень ложных срабатываний составляет 5%, а уровень ложных отрицательных результатов составляет 10%.
В условии есть 3 ключевых элемента информации:
▪️ Распространенность употребления наркотиков среди этих потенциальных работников, которая дается как вероятность 4% (или 0,04). Мы можем использовать правило дополнения, чтобы определить вероятность того, что сотрудник не употребляет наркотики: 1 - 0,04 = 0,96
▪️ Распространенность употребления наркотиков среди этих потенциальных работников, которая дается как вероятность 4% (или 0,04). Мы можем использовать правило дополнения, чтобы определить вероятность того, что сотрудник не употребляет наркотики: 1 - 0,04 = 0,96
▪️Вероятность того, что у предполагаемого сотрудника будет отрицательный результат, когда он действительно принимал наркотики, - ложноотрицательный показатель - составляет 10% (или 0,10)
Потенциальный сотрудник может получить положительный результат, когда они принимают наркотики ИЛИ когда они не принимают наркотики. Используя правило вероятности «ИЛИ» означает, что вы должны что-то приплюсовать. Так как можно получить положительный результат двумя разными способами, просто сложите их вместе после того, как рассчитаете вероятности отдельно: P (положительный) = (0,960,05) + (0,040,90) = 0.048 + 0.036 = 0.084.
Давайте наконец узнаем вероятность того, что положительный результат на тесте - ложный.
P(нет наркотиков|положительный) = (0.960.05)/0.084 = 0.048/0.084 = 0.5714.
НИЧОСИ! 😱 На самом деле вероятность того, что положительный тест сотрудника ложный - 57,14%. Что означает следующее - каждый вотрой уволенный за наркотики будет уволен ошибочно!
Будьте внимательны с условной возможностью и изспользуйте ее с умом!
#Пример: Частота использований слов в Игре Престолов
Сегодняшний пост будет весьма коротким. Хочу показать хороший пример дэшборда с множественными осями. И тема достаточно актульна для многих - Игра Престолов 🤩
Дешборд доступен по ссылке ниже.
Сегодняшний пост будет весьма коротким. Хочу показать хороший пример дэшборда с множественными осями. И тема достаточно актульна для многих - Игра Престолов 🤩
Дешборд доступен по ссылке ниже.
Как PowerPoint может стоит жизни
Все мы знаем что такое PowerPoint. Многие его любят, кто-то терпеть не может. Но, так или иначе, каждый из нас с ним сталкивался. Мы с вами хорошо понимаем, что PowerPoint пусть и инструмент презентации, нежели аналитики, но PowerPoint (в своей сути) - это тоже инструмент визуализации.
Эта история о том, как не правильный акцент на слайде стоил людям жизней. ☠️
16 января 2003.
Миссия NASA STS-107. Космический шаттл «Колумбия» с экипажем из семи человек запускали на низкую орбиту. Через 82 секунды после запуска кусок теплоизоляционной пены выпал из крепления и ударил корпус. Поврежденный корпус мог отказать 🔥 при входе в атмосферу.
Штаб определил возможные шаги:
▪️экипаж выйдет в космос и оценит повреждения
▪️ отправить спасательную миссию
▪️ идти на посадку с повреждением
Корпорация Boeing представила презентацию, после которой было принято решение идти на посадку. Посадку, которая унесла жизни 7 людей.
Дело в том, что на одном из 28 слайдов говорилось что теплозащитному покрытию удар пены не страшен. НО заключалось в том, что на испытаниях сила удара была в 600 раз слабее, чем в этот раз.
Что было не так со слайдом?
▪️Во-первых, заголовок на роковом слайде обнадеживает и вводит в заблуждение: «Данные испытаний указывают на устойчивость покрытия к проникновению»
▪️На слайде 4 разных пункта, ни один из которых не объясняется.
▪️На одном слайде слишком много текста — больше 100 слов и цифр.
▪️ Самый важный факт — что удар о крыло «Колумбии» был сильнее, чем при испытаниях — написали в самом конце, мелким шрифтом.
Немного о PowerPoint:
🔸 С момента выпуска в 1987 году PowerPoint стала очень популярна. Каждый день в мире проходит около 30 млн презентаций.
🔸 Вместе с тем, ученые называют PowerPoint убийцей критического мышления.
🔸 CEO Amazon Джефф Безос даже запретил использовать эту программу для презентаций.
Все мы знаем что такое PowerPoint. Многие его любят, кто-то терпеть не может. Но, так или иначе, каждый из нас с ним сталкивался. Мы с вами хорошо понимаем, что PowerPoint пусть и инструмент презентации, нежели аналитики, но PowerPoint (в своей сути) - это тоже инструмент визуализации.
Эта история о том, как не правильный акцент на слайде стоил людям жизней. ☠️
16 января 2003.
Миссия NASA STS-107. Космический шаттл «Колумбия» с экипажем из семи человек запускали на низкую орбиту. Через 82 секунды после запуска кусок теплоизоляционной пены выпал из крепления и ударил корпус. Поврежденный корпус мог отказать 🔥 при входе в атмосферу.
Штаб определил возможные шаги:
▪️экипаж выйдет в космос и оценит повреждения
▪️ отправить спасательную миссию
▪️ идти на посадку с повреждением
Корпорация Boeing представила презентацию, после которой было принято решение идти на посадку. Посадку, которая унесла жизни 7 людей.
Дело в том, что на одном из 28 слайдов говорилось что теплозащитному покрытию удар пены не страшен. НО заключалось в том, что на испытаниях сила удара была в 600 раз слабее, чем в этот раз.
Что было не так со слайдом?
▪️Во-первых, заголовок на роковом слайде обнадеживает и вводит в заблуждение: «Данные испытаний указывают на устойчивость покрытия к проникновению»
▪️На слайде 4 разных пункта, ни один из которых не объясняется.
▪️На одном слайде слишком много текста — больше 100 слов и цифр.
▪️ Самый важный факт — что удар о крыло «Колумбии» был сильнее, чем при испытаниях — написали в самом конце, мелким шрифтом.
Немного о PowerPoint:
🔸 С момента выпуска в 1987 году PowerPoint стала очень популярна. Каждый день в мире проходит около 30 млн презентаций.
🔸 Вместе с тем, ученые называют PowerPoint убийцей критического мышления.
🔸 CEO Amazon Джефф Безос даже запретил использовать эту программу для презентаций.
Наборы данных, #dataset, свободные для использования
Друзья, сегодня я поделюсь с вами инструментом, незаменимым для любого аналитика, а именно - поисковая система Google. Но, не обычный сервис Google, а инстумент для получения бесплатных и готовых к использованию наборов данных 🎉
Google Dataset Search дополняет Google Scholar, поисковую систему компании для академических исследований и отчетов.
Несколько поисковых запросов, которые приглашаю "прогуглить":
▪️ Ukraine Nominal GDP
▪️ Ukraine Real Households Disposable Income
▪️ Ukraine UA: Maternal Mortality Ratio
▪️ Украина ВНД на душу населения
Кроме Google, обращаю внимание еще на такие ресурсы:
🔸 Kaggle - это интернет-сообщество исследователей данных и машиностроителей, принадлежащее Google LLC.
🔸 FiveThirtyEight - золотая жила из более чем 100 наборов данных о спорте и политике. Примеры: предсказания мартовского безумия, политические опросы и т. д.
🔸 The Pudding - этот веб-сайт, посвященный журналистике, призван объяснить горячо обсуждаемые культурные события визуальными очерками, полученными из оригинальных наборов данных и первичных исследований. Их GitHub является центром данных поп-культуры. Примеры: женские и мужские карманы брюк, погодные условия на Марсе и т. д.
🔸 Buzzfeed - если вы знаете Buzzfeed, вы знаете, что их новостной сайт освещает различные темы в политике, спорте и текущих событиях. У них также есть богатый список наборов данных на GitHub. Примеры: твиты Трампа, тексты адресов каждого штата Союза и т. д.
Друзья, сегодня я поделюсь с вами инструментом, незаменимым для любого аналитика, а именно - поисковая система Google. Но, не обычный сервис Google, а инстумент для получения бесплатных и готовых к использованию наборов данных 🎉
Google Dataset Search дополняет Google Scholar, поисковую систему компании для академических исследований и отчетов.
Несколько поисковых запросов, которые приглашаю "прогуглить":
▪️ Ukraine Nominal GDP
▪️ Ukraine Real Households Disposable Income
▪️ Ukraine UA: Maternal Mortality Ratio
▪️ Украина ВНД на душу населения
Кроме Google, обращаю внимание еще на такие ресурсы:
🔸 Kaggle - это интернет-сообщество исследователей данных и машиностроителей, принадлежащее Google LLC.
🔸 FiveThirtyEight - золотая жила из более чем 100 наборов данных о спорте и политике. Примеры: предсказания мартовского безумия, политические опросы и т. д.
🔸 The Pudding - этот веб-сайт, посвященный журналистике, призван объяснить горячо обсуждаемые культурные события визуальными очерками, полученными из оригинальных наборов данных и первичных исследований. Их GitHub является центром данных поп-культуры. Примеры: женские и мужские карманы брюк, погодные условия на Марсе и т. д.
🔸 Buzzfeed - если вы знаете Buzzfeed, вы знаете, что их новостной сайт освещает различные темы в политике, спорте и текущих событиях. У них также есть богатый список наборов данных на GitHub. Примеры: твиты Трампа, тексты адресов каждого штата Союза и т. д.
Дуговая диаграмма
Дуговая диаграмма – альтернативный вариант двумерных сетевых диаграмм. На дуговой диаграмме точки размещаются на одной линии (одномерной оси), а с помощью дуг изображаются взаимосвязи между данными точками.
Для изображения частотности взаимодействия между отправной и целевой точками пересечения можно использовать толщину линии дуги. Дуговые диаграммы удобны для выявления совпадения данных.
Минус дуговой диаграммы состоит в том, что она не показывает структуру и связи между точками так наглядно, как это делают схемы 2D, а при слишком большом количестве связей становится нечитаемой из-за нагромождения линий.
Пример дуговой диаграммы доступен тут. Даграмма показывает анализ прибыли компании из Fortune 200, данные за 2016 год.
Дуговая диаграмма – альтернативный вариант двумерных сетевых диаграмм. На дуговой диаграмме точки размещаются на одной линии (одномерной оси), а с помощью дуг изображаются взаимосвязи между данными точками.
Для изображения частотности взаимодействия между отправной и целевой точками пересечения можно использовать толщину линии дуги. Дуговые диаграммы удобны для выявления совпадения данных.
Минус дуговой диаграммы состоит в том, что она не показывает структуру и связи между точками так наглядно, как это делают схемы 2D, а при слишком большом количестве связей становится нечитаемой из-за нагромождения линий.
Пример дуговой диаграммы доступен тут. Даграмма показывает анализ прибыли компании из Fortune 200, данные за 2016 год.
Как бизнес-аналитика спасает жизни: борьба с малярией
Tableau, Mapbox, Exasol и Alteryx заявили, что в течение трех лет предоставят 4,3 миллиона долларов на программное обеспечение и услуги с целью ликвидации малярии для 60 миллионов человек в Африке. В Tableau планируют пожертвовать 100 миллионов долларов на решение глобальных проблем, в том числе малярии. Инициатива «НЕТ Малярии» была запущена в 2015 совместно с PATH и правительством Замбии.
До сих пор Visualize No Malaria дала хорошие результаты. Правительство Замбии сократило число зарегистрированных случаев малярии на 85 процентов и смертности от малярии на 92 процента в южной провинции Замбии, население которой составляет 1,8 миллиона человек.
Результаты обусловлены тем, что данные о состоянии здоровья предоставляются каждый час, поэтому официальные лица 🧐 могут принимать более быстрые решения в отношении доставки лекарств, опрыскивания в помещениях, размещения сеток и других методов.
Ниже схема визуализации на систему визуализации малярии.
Tableau, Mapbox, Exasol и Alteryx заявили, что в течение трех лет предоставят 4,3 миллиона долларов на программное обеспечение и услуги с целью ликвидации малярии для 60 миллионов человек в Африке. В Tableau планируют пожертвовать 100 миллионов долларов на решение глобальных проблем, в том числе малярии. Инициатива «НЕТ Малярии» была запущена в 2015 совместно с PATH и правительством Замбии.
До сих пор Visualize No Malaria дала хорошие результаты. Правительство Замбии сократило число зарегистрированных случаев малярии на 85 процентов и смертности от малярии на 92 процента в южной провинции Замбии, население которой составляет 1,8 миллиона человек.
Результаты обусловлены тем, что данные о состоянии здоровья предоставляются каждый час, поэтому официальные лица 🧐 могут принимать более быстрые решения в отношении доставки лекарств, опрыскивания в помещениях, размещения сеток и других методов.
Ниже схема визуализации на систему визуализации малярии.
Данные и интуиция в принятии решений
Многие из вас уже знают, что решения могут базироваться или на основании данных, или на основании экспертного мнения. Оба эти механизма далеки от идеала, но ничего лучшего человечество пока не придумало 🤷🏼♂️
Даниел Ка́неман, лауреат Нобелевской премии в 2002 и один из основоположников поведенческой экономики, выделяет такое понятие как экспертная интуиция.
В теории говорится о том, что экспертное мнение и интуиция - это две стороны одной медали. Это механизм психики предоставить эффективное решение, базируясь на личном опыте.
Мы все пользуемся экспертной интуицией каждый день, мы понимаем, в каком настроении близкие нам люди 💑 , или, увидев машину, точно оцениваем, успеем ли перейти дорогу 🚘.
Для того, чтобы этот механизм был эффективен, нужны следующие условия:
1️⃣ Обычная, предсказуемая среда. Среда, в которой существуют правила и в которой можно спрогнозировать будущее.
2️⃣ Наличие осознанного опыта. То есть експерт должен знать правила, по которым существует среда.
3️⃣ Возможность получать быструю обратную связь. Должна быть возможность проверять предположения.
Из вышеописанного я могу выделить 2 интересных вывода:
🔸 Если у вас нет опыта в определенной сфере или на определенном рынке - обязательно стоит найти эксперта, который знает правила этой среды
🔸 Если среда хаотична (к примеру, валютный рынок или рынок ценных бумаг), не слушайте экспертов, изучайте данные
Ну и, конечно, проверяйте свои предположения (проведите исследование на тестовой группе или запустите тестовый образец).
Кратко о теории описано в видео, а детально можно прочитать по ссылке ниже.
Многие из вас уже знают, что решения могут базироваться или на основании данных, или на основании экспертного мнения. Оба эти механизма далеки от идеала, но ничего лучшего человечество пока не придумало 🤷🏼♂️
Даниел Ка́неман, лауреат Нобелевской премии в 2002 и один из основоположников поведенческой экономики, выделяет такое понятие как экспертная интуиция.
В теории говорится о том, что экспертное мнение и интуиция - это две стороны одной медали. Это механизм психики предоставить эффективное решение, базируясь на личном опыте.
Мы все пользуемся экспертной интуицией каждый день, мы понимаем, в каком настроении близкие нам люди 💑 , или, увидев машину, точно оцениваем, успеем ли перейти дорогу 🚘.
Для того, чтобы этот механизм был эффективен, нужны следующие условия:
1️⃣ Обычная, предсказуемая среда. Среда, в которой существуют правила и в которой можно спрогнозировать будущее.
2️⃣ Наличие осознанного опыта. То есть експерт должен знать правила, по которым существует среда.
3️⃣ Возможность получать быструю обратную связь. Должна быть возможность проверять предположения.
Из вышеописанного я могу выделить 2 интересных вывода:
🔸 Если у вас нет опыта в определенной сфере или на определенном рынке - обязательно стоит найти эксперта, который знает правила этой среды
🔸 Если среда хаотична (к примеру, валютный рынок или рынок ценных бумаг), не слушайте экспертов, изучайте данные
Ну и, конечно, проверяйте свои предположения (проведите исследование на тестовой группе или запустите тестовый образец).
Кратко о теории описано в видео, а детально можно прочитать по ссылке ниже.
Озвучивание данных (Data #sonification)
На заре этого канала, 28 июля 2018, я делился новостью с заголовком "Big Sound вместо Big Data?" и в ней шла речь о том, что большие массивы данных исследователи изучают на слух, чтобы определить статистические отклонения.
Этот подход продолжил распространяться среди аналитиков. В некоторых случаях он используется потому что классическая визуализация 📊 не справляется. Однако такие случаи скорее исключение. Тем не менее, метод используется как дополнение к класической визуализации.
Многие используют #Python для этой задачи, к примеру Alan Smith показывает вариант дополнения визуализации аудио, используя Python, анализируя кривую доходности облигаций США.
Еще один пример - анализ среднего уровня доходности в конкретном районе Нью-Йорка, следуя по маршруту ветки метрополитена.
Но я хочу обратить внимание на другой, более простой в использовании инструмент - twotone.io. Это бесплатный инструмент от Google, который позволит озвучить данные.
Вот - мой вариант озвучивания на данных добычи урана в Украине. Приглашаю также попробовать. Возможно вы посморите на данные в другом свете, и они вдохновят на написание шедевра 🎼
На заре этого канала, 28 июля 2018, я делился новостью с заголовком "Big Sound вместо Big Data?" и в ней шла речь о том, что большие массивы данных исследователи изучают на слух, чтобы определить статистические отклонения.
Этот подход продолжил распространяться среди аналитиков. В некоторых случаях он используется потому что классическая визуализация 📊 не справляется. Однако такие случаи скорее исключение. Тем не менее, метод используется как дополнение к класической визуализации.
Многие используют #Python для этой задачи, к примеру Alan Smith показывает вариант дополнения визуализации аудио, используя Python, анализируя кривую доходности облигаций США.
Еще один пример - анализ среднего уровня доходности в конкретном районе Нью-Йорка, следуя по маршруту ветки метрополитена.
Но я хочу обратить внимание на другой, более простой в использовании инструмент - twotone.io. Это бесплатный инструмент от Google, который позволит озвучить данные.
Вот - мой вариант озвучивания на данных добычи урана в Украине. Приглашаю также попробовать. Возможно вы посморите на данные в другом свете, и они вдохновят на написание шедевра 🎼