Описание Data Lineage в стиле "для самых маленьких".
Самому "наследию" дана ёмкая аналогия: "Data lineage is like a family tree but for data".
Есть проработанные описания основных сценариев применения с иллюстрациями:
🔹диагностика ошибок;
🔹анализ того, на что повлияют вносимые изменения;
🔹проверка качества данных;
🔹управление метаданными;
🔹проверка на соответствие нормам законодательства;
🔹очистка данных или их миграция.
🔗Ссылка
#инструменты #тренды
Самому "наследию" дана ёмкая аналогия: "Data lineage is like a family tree but for data".
Есть проработанные описания основных сценариев применения с иллюстрациями:
🔹диагностика ошибок;
🔹анализ того, на что повлияют вносимые изменения;
🔹проверка качества данных;
🔹управление метаданными;
🔹проверка на соответствие нормам законодательства;
🔹очистка данных или их миграция.
🔗Ссылка
#инструменты #тренды
Рома снова сделал годноту: готовую матрицу компетенций BI-аналитика. Очень злободневно с учетом того, что пора бы уже заниматься планом индивидуального развития на следующий год.
#компетенции
#компетенции
Forwarded from Reveal the Data
🧑🎓 Матрица компетенций BI-аналитика
Сделал матрицу компетенций, она родилась за год большой работы по менторству BI-аналитиков и «сериала» с Русланом. С радостью и гордостью хочу поделиться ей с комьюнити. Получилось круто.
Матрица будет полезна и новичкам — есть подсветка проседающих навыков и ссылки на учебные материалы. И компаниям — для составления планов развития сотрудников.
Необходимо оценить себя по 68 навыкам из 6 направлений, которые важны BI-аналитику на мой взгляд. Каждый навык имеет уровень «прокачки» от 1 до 4 и описание, с примером ожиданий знаний от уровня. Но это только пример, при сомнениях, оцените навык по ощущениям от «джун» до «лид».
Матрица – не истинна в последней инстанции, а ориентир и быстрый способ оценить себя. В идеале должна заполняться вместе с ментором, кто мог бы валидировать результат и дать практику.
Спасибо большое всем, кто помогал и участвовал в тестировании. Буду рад идеям, ссылкам и примерам результатов в комментариях.
🔗 Ссылка
#избранное
Сделал матрицу компетенций, она родилась за год большой работы по менторству BI-аналитиков и «сериала» с Русланом. С радостью и гордостью хочу поделиться ей с комьюнити. Получилось круто.
Матрица будет полезна и новичкам — есть подсветка проседающих навыков и ссылки на учебные материалы. И компаниям — для составления планов развития сотрудников.
Необходимо оценить себя по 68 навыкам из 6 направлений, которые важны BI-аналитику на мой взгляд. Каждый навык имеет уровень «прокачки» от 1 до 4 и описание, с примером ожиданий знаний от уровня. Но это только пример, при сомнениях, оцените навык по ощущениям от «джун» до «лид».
Матрица – не истинна в последней инстанции, а ориентир и быстрый способ оценить себя. В идеале должна заполняться вместе с ментором, кто мог бы валидировать результат и дать практику.
Спасибо большое всем, кто помогал и участвовал в тестировании. Буду рад идеям, ссылкам и примерам результатов в комментариях.
🔗 Ссылка
#избранное
Отличный пример того, как можно визуализировать структуру обучения или курса с помощью графов - сервис Learney.
Можно выбрать какой-то метод или алгоритм машинного обучения и посмотреть, на каких разделах математики и статистики он основан.
А при желании - еще и поизучать статьи и видео по теме не отходя от кассы.
🔗Ссылка
#учебное #инструменты
Можно выбрать какой-то метод или алгоритм машинного обучения и посмотреть, на каких разделах математики и статистики он основан.
А при желании - еще и поизучать статьи и видео по теме не отходя от кассы.
🔗Ссылка
#учебное #инструменты
В статье "Everything Popular in the 2021 Data Science Landscape" можно найти анализ результатов проведенного в этом году опроса Kaggle Machine Learning & Data Science Survey.
Сами выводы получились интересные, а вот визуализации подкачали, их как-будто делали по "вредным советам": топы с сортировкой по возрастанию (как на заглавном скриншоте), пай-чарты с 10 категориями, божественная столбчатая диаграмма с распределением по странам.
Больше 50 процентов опрошенных - из Индии, США на втором месте, РФ - на 7 (что характерно, между Бразилией и Нигерией). Не удивлюсь, если такое распределение сильно повлияло на применимость результататов к нашей действительности.
Тем не менее, можно посмотреть, например, топ языков программирования (тут без сюрпризов), используемых библиотек, IDE-шек и облачных сервисов.
Ну и, конечно, порадовал самый часто используемый Big Data product - "MySQL". =)
🔗Ссылка
#анализ_рынка #визуализации
Сами выводы получились интересные, а вот визуализации подкачали, их как-будто делали по "вредным советам": топы с сортировкой по возрастанию (как на заглавном скриншоте), пай-чарты с 10 категориями, божественная столбчатая диаграмма с распределением по странам.
Больше 50 процентов опрошенных - из Индии, США на втором месте, РФ - на 7 (что характерно, между Бразилией и Нигерией). Не удивлюсь, если такое распределение сильно повлияло на применимость результататов к нашей действительности.
Тем не менее, можно посмотреть, например, топ языков программирования (тут без сюрпризов), используемых библиотек, IDE-шек и облачных сервисов.
Ну и, конечно, порадовал самый часто используемый Big Data product - "MySQL". =)
🔗Ссылка
#анализ_рынка #визуализации
Обзор итогов года для мира баз данных от Andy Pavlo.
Отметил для себя:
🔹 PostgreSQL в топе;
🔹 Производители баз данных "мочат" друг друга в ходе сравнительных тестов (без ClickHouse не обошлось);
🔹 Куча инвестиций прилетело в дата-стартапы и производитетелей баз данных, "золотой век", говорят.
#базы_данных
Отметил для себя:
🔹 PostgreSQL в топе;
🔹 Производители баз данных "мочат" друг друга в ходе сравнительных тестов (без ClickHouse не обошлось);
🔹 Куча инвестиций прилетело в дата-стартапы и производитетелей баз данных, "золотой век", говорят.
#базы_данных
Все еще со скрипом вкатываюсь в работу после январских праздников.
Пока это происходит, могу предложить немного самостоятельного изучения: 100 интерактивных notebooks на самые разные темы, размещенные на сервисе Observable.
🔗Ссылка на статью (или можно потыкаться в раздел explore прямо на сайте).
#визуализации
Пока это происходит, могу предложить немного самостоятельного изучения: 100 интерактивных notebooks на самые разные темы, размещенные на сервисе Observable.
🔗Ссылка на статью (или можно потыкаться в раздел explore прямо на сайте).
#визуализации
А еще все тот же Оbservable подвел итоги нескольких опросов пользователей о том, что те использовали в работе в прошлом году.
Количество инструментов зашкаливает - их аж 180, на картинке расположены в порядке убывания популярности.
🔗Ссылка
#визуализации #анализ_рынка
Количество инструментов зашкаливает - их аж 180, на картинке расположены в порядке убывания популярности.
🔗Ссылка
#визуализации #анализ_рынка
"Что было в мире искусственного интеллекта в 2021 году" - краткий конспект отчета "State of AI Report 2021" для тех, кому лень самим ковыряться в 188-страничном документе.
Понравились части со сбывшимися, не сбывшимися и актуальными на ближайшие месяцы прогнозами.
🔗Ссылка
#анализ_рынка
Понравились части со сбывшимися, не сбывшимися и актуальными на ближайшие месяцы прогнозами.
🔗Ссылка
#анализ_рынка
Классный пример того, как можно превратить скучный слайд к ежеквартальному отчету в интересно рассказанную историю.
На первый взгляд кажется, что тринадцать слайдов вместо одного (хоть и с 8 буллетами) - перебор.
Но когда видишь своими глазами, какое изменение в архитектуре решения следует из каждого пункта, даже абстрактный список изменений кажется более понятным.
Еще одна важная мысль из статьи: не обязательно иметь реальные данные, чтобы использовать визуализации для лучшего донесения своих мыслей до аудитории.
P.S. картинка тут для привлечения внимания, рекомендую самостоятельно посмотреть по ссылке, как она последовательно рисуется в ходе презентации.
🔗Ссылка
#визуализации #сторителлинг
На первый взгляд кажется, что тринадцать слайдов вместо одного (хоть и с 8 буллетами) - перебор.
Но когда видишь своими глазами, какое изменение в архитектуре решения следует из каждого пункта, даже абстрактный список изменений кажется более понятным.
Еще одна важная мысль из статьи: не обязательно иметь реальные данные, чтобы использовать визуализации для лучшего донесения своих мыслей до аудитории.
P.S. картинка тут для привлечения внимания, рекомендую самостоятельно посмотреть по ссылке, как она последовательно рисуется в ходе презентации.
🔗Ссылка
#визуализации #сторителлинг
👍1
Уже немного касался темы зрелости работы с данными в организациях, например вот тут. Как правило, ее описывают в виде 4-5 этапов, различающихся по степени использования аналитики при принятии решений.
Своя модель "Beginner -> Novice -> Knowledgable -> Literate -> Fluent" представлена и в сегодняшней статье "How do I measure my company’s Data Maturity?".
Авторы, кажется, смогли прикрутить к нему систему оценки внутри каждого из блоков:
🔹Talent & Competences;
🔹Processes & Governance;
🔹Technology.
Удобно, что можно не только почитать, но еще и пройти тест (возможно даже без регистрации и смс).
🔗Ссылка
#компетенции
Своя модель "Beginner -> Novice -> Knowledgable -> Literate -> Fluent" представлена и в сегодняшней статье "How do I measure my company’s Data Maturity?".
Авторы, кажется, смогли прикрутить к нему систему оценки внутри каждого из блоков:
🔹Talent & Competences;
🔹Processes & Governance;
🔹Technology.
Удобно, что можно не только почитать, но еще и пройти тест (возможно даже без регистрации и смс).
🔗Ссылка
#компетенции
Не покидает меня интерес к теме зрелости аналитики. Сегодня это вылилось в акцию "2 статьи по цене одной".
В "The AI Hierarchy of Needs" в очередной раз преизобретают пирамиду Маслоу.
Мысль довольно очевидная: чем меньше размер и качество самого нижнего уровня (сбора данных), тем меньше шансов успешно применять на практике Data Science и AI.
В "Empowering the Data Analyst" поверх этого намазывают задачи специалистов и роли в командах (инженеры, аналитики, дата-саентисты).
Еще тут мы встретим забавную классификацию аналитиков:
🔹те, кто поставляет данные;
🔹те, кто поставляет инсайты.
Автор склоняет всех к переходу из первой категории во вторую или из состояния Data as a Product (DaaP) в Data as a Service (DaaS). В основном, через обеспечение self-service аналитики и развития в команде компетенций "стратегических бизнес партнеров", помогающих принимать решения на основании данных.
P.S. Сам себе удивляюсь, но визуализация в виде пирамиды в обоих местах кажется уместной.
#компетенции
В "The AI Hierarchy of Needs" в очередной раз преизобретают пирамиду Маслоу.
Мысль довольно очевидная: чем меньше размер и качество самого нижнего уровня (сбора данных), тем меньше шансов успешно применять на практике Data Science и AI.
В "Empowering the Data Analyst" поверх этого намазывают задачи специалистов и роли в командах (инженеры, аналитики, дата-саентисты).
Еще тут мы встретим забавную классификацию аналитиков:
🔹те, кто поставляет данные;
🔹те, кто поставляет инсайты.
Автор склоняет всех к переходу из первой категории во вторую или из состояния Data as a Product (DaaP) в Data as a Service (DaaS). В основном, через обеспечение self-service аналитики и развития в команде компетенций "стратегических бизнес партнеров", помогающих принимать решения на основании данных.
P.S. Сам себе удивляюсь, но визуализация в виде пирамиды в обоих местах кажется уместной.
#компетенции
С конца февраля перманентно находился в стадии непринятия происходящих перемен. О постах в таком состоянии речь вообще не шла.
Несмотря на моральную тяжесть всего происходящего, отдушину нашел в образовательном контенте. Кажется, для меня это становится нормой в кризисы ("привет" пандемиям, если про них кто-то еще помнит).
Скину отдельным сообщением материалы, которые мне помогли. Так, если вы захотите поделиться ими - мои душевные страдания никому не помешают.
#личное
Несмотря на моральную тяжесть всего происходящего, отдушину нашел в образовательном контенте. Кажется, для меня это становится нормой в кризисы ("привет" пандемиям, если про них кто-то еще помнит).
Скину отдельным сообщением материалы, которые мне помогли. Так, если вы захотите поделиться ими - мои душевные страдания никому не помешают.
#личное
❤13
Это должны были быть итоги моего 2021 "учебного" года, но история внесла свои коррективы.
Теперь это список "Что делать если есть физическая возможность, силы и время учиться в 2022".
Пройти курсы:
🔹Ваня Замесин открыл бесплатный доступ к записям курса "Что делать когда ж*па". Он, в основном, про психотерапию и способы разобраться с своими внутренними проблемами. Прошел, много думал, нашел для себя полезное.
🔹У Наташи Бабаевой есть классный курс про работу с изменениями: "Change basics". Он в сторителлинговом формате и, по моему мнению, стоит своих денег. Вот тут первый бесплатный урок, чтобы понять, подойдет он вам или нет.
🔹DataLearn от Димы Аношина - наверное самый очевидный бесплатный способ вкатиться в инжиниринг данных и, особенно, его облачную часть.
🔹Никогда не поздно пройти симулятор продуктовой аналитики "GoPractice", по опыту он котируется примерно везде. Мой и несколько других отзывов.
Поковырять что-то руками:
🔸Фреймворк Ромы Бунина по проектированию дашбордов: "Как создавать полезные для бизнеса дашборды: алгоритм, принципы верстки, инструменты, архитектура". Попробовали с коллегами с предыдущей работы на боевых примерах, отлично укладывает в голове его назначение и проблемы.
🔸Новые для себя аналитические инструменты. Кажется, open-source BI актуален как никогда. Вот проект Коли Валиотти "Гайд по современным BI-системам", в нем ссылки на видеообзоры и тестовые кейсы. Я вот преисполнился Apache Superset, внезапно в простых сценариях нравится больше привычного Power BI.
Просто почитать про аналитику:
🔹"Данные: визуализируй, расскажи, используй: Сторителлинг в аналитике", Коул Нассбаумер Нафлик.
🔹"Аналитическая культура", Карл Андерсон.
🔹"Байесовская статистика: Star Wars, LEGO, резиновые уточки и многое другое", Уилл Курт.
🔹"Ключевые инструменты бизнес-аналитики. 67 инструментов, которые должен знать каждый менеджер", Бернард Марр. Мой обзор.
🔹"Все лгут. Поисковики, Big Data и Интернет знают о вас все", Сет Cтивенс-Давидовиц. Мой обзор.
Когда-нибудь я доделаю свои обзоры на остальные книги в списке, но это не точно.
#учебное #дайджест
Теперь это список "Что делать если есть физическая возможность, силы и время учиться в 2022".
Пройти курсы:
🔹Ваня Замесин открыл бесплатный доступ к записям курса "Что делать когда ж*па". Он, в основном, про психотерапию и способы разобраться с своими внутренними проблемами. Прошел, много думал, нашел для себя полезное.
🔹У Наташи Бабаевой есть классный курс про работу с изменениями: "Change basics". Он в сторителлинговом формате и, по моему мнению, стоит своих денег. Вот тут первый бесплатный урок, чтобы понять, подойдет он вам или нет.
🔹DataLearn от Димы Аношина - наверное самый очевидный бесплатный способ вкатиться в инжиниринг данных и, особенно, его облачную часть.
🔹Никогда не поздно пройти симулятор продуктовой аналитики "GoPractice", по опыту он котируется примерно везде. Мой и несколько других отзывов.
Поковырять что-то руками:
🔸Фреймворк Ромы Бунина по проектированию дашбордов: "Как создавать полезные для бизнеса дашборды: алгоритм, принципы верстки, инструменты, архитектура". Попробовали с коллегами с предыдущей работы на боевых примерах, отлично укладывает в голове его назначение и проблемы.
🔸Новые для себя аналитические инструменты. Кажется, open-source BI актуален как никогда. Вот проект Коли Валиотти "Гайд по современным BI-системам", в нем ссылки на видеообзоры и тестовые кейсы. Я вот преисполнился Apache Superset, внезапно в простых сценариях нравится больше привычного Power BI.
Просто почитать про аналитику:
🔹"Данные: визуализируй, расскажи, используй: Сторителлинг в аналитике", Коул Нассбаумер Нафлик.
🔹"Аналитическая культура", Карл Андерсон.
🔹"Байесовская статистика: Star Wars, LEGO, резиновые уточки и многое другое", Уилл Курт.
🔹"Ключевые инструменты бизнес-аналитики. 67 инструментов, которые должен знать каждый менеджер", Бернард Марр. Мой обзор.
🔹"Все лгут. Поисковики, Big Data и Интернет знают о вас все", Сет Cтивенс-Давидовиц. Мой обзор.
Когда-нибудь я доделаю свои обзоры на остальные книги в списке, но это не точно.
#учебное #дайджест
👍26🔥17
В последнее время мне часто требуется донести до людей, что такое системы аналитики данных, пресловутый "modern data stack", какие компоненты они включают и зачем нужны.
В этом сильно помогают архитектурные схемы, чтобы хоть как-то структурировать поток англоязычных терминов.
Один из самых полезных примеров - схемы Andreessen Horowitz из статьи "Emerging Architectures for Modern Data Infrastructure". Это уже второе обновление статьи с 2020 года.
Интересно, что тут попахивает сторителлингом (или он мне теперь везде мерещится):
🔹 покажем страшную схему с десятками всех возможных компонентов;
🔹 расскажем про каждый из 6 функциональных блоков, от источников до визуализаций;
🔹 приземлим это все на решение конкретных кейсов: BI-система, платформа обработки данных, AI и машинное обучение.
Удобно, можно прямо так брать и добавлять в презентацию или немного допилить напильником под свои задачи, убрав лишнее.
🔗Ссылка
#инфраструктурное
В этом сильно помогают архитектурные схемы, чтобы хоть как-то структурировать поток англоязычных терминов.
Один из самых полезных примеров - схемы Andreessen Horowitz из статьи "Emerging Architectures for Modern Data Infrastructure". Это уже второе обновление статьи с 2020 года.
Интересно, что тут попахивает сторителлингом (или он мне теперь везде мерещится):
🔹 покажем страшную схему с десятками всех возможных компонентов;
🔹 расскажем про каждый из 6 функциональных блоков, от источников до визуализаций;
🔹 приземлим это все на решение конкретных кейсов: BI-система, платформа обработки данных, AI и машинное обучение.
Удобно, можно прямо так брать и добавлять в презентацию или немного допилить напильником под свои задачи, убрав лишнее.
🔗Ссылка
#инфраструктурное
👍11🔥3
Сегодня в эфире замечательный 177 выпуск подкаста Make Sense про менеджмент, аналитическую культуру, soft skills аналитиков и общий смысл аналитической работы.
Понравилось:
🔹 как описывается разница между обычным и отличным специалистом;
🔹 общий подход гостя к вопросам менеджмента и развития сотрудников;
🔹 отрицание культа данных;
🔹 весь выпуск - "реклама" развития рациональности и критического мышления.
Давно не слышал ничего, что так бы сильно отзывалось и отражало мою позицию к описанным выше вопросам.
🔗Ссылка
#компетенции
Понравилось:
🔹 как описывается разница между обычным и отличным специалистом;
🔹 общий подход гостя к вопросам менеджмента и развития сотрудников;
🔹 отрицание культа данных;
🔹 весь выпуск - "реклама" развития рациональности и критического мышления.
Давно не слышал ничего, что так бы сильно отзывалось и отражало мою позицию к описанным выше вопросам.
🔗Ссылка
#компетенции
🔥9👍4