Роль очистки данных нередко недооценивают, а мне вот близка позиция автора статьи «Data Cleaning IS Analysis, Not Grunt Work», что это и есть аналитическая работа в чистом виде.
Аргументация выглядит так: «We’re doing cleaning because we want to extract the useful signal from the noise, and we decide certain bits of noise “correctable” at the data point level for that purpose».
В целом, в статье предлагается уйти от общепринятого подхода, когда для решения задачи данные сначала единовременно очищаются, а после анализируются.
Альтернатива такова: ничего безвозвратно не перетирать, создавая алгоритмы трансформации данных с возможностью отката и переиспользования (в статье есть визуализация для наглядности).
Ничего не напоминает? Мне вот кажется, что это попытка приземлить инфраструктурные практики продвинутых компаний на "простых" аналитиков (пропаганда перехода от ETL к ELT, если угодно).
🔗Ссылка
#инструменты
Аргументация выглядит так: «We’re doing cleaning because we want to extract the useful signal from the noise, and we decide certain bits of noise “correctable” at the data point level for that purpose».
В целом, в статье предлагается уйти от общепринятого подхода, когда для решения задачи данные сначала единовременно очищаются, а после анализируются.
Альтернатива такова: ничего безвозвратно не перетирать, создавая алгоритмы трансформации данных с возможностью отката и переиспользования (в статье есть визуализация для наглядности).
Ничего не напоминает? Мне вот кажется, что это попытка приземлить инфраструктурные практики продвинутых компаний на "простых" аналитиков (пропаганда перехода от ETL к ELT, если угодно).
🔗Ссылка
#инструменты
В исследованиях рынков есть такой классный тип артефактов - Landscape. В идеале, он должен помогать понять 2 вещи:
🔹какие типы процессов или операций есть в отрасли;
🔹какие существуют инструменты для их реализации или автоматизации.
У такого формата есть существенный минус: сходу ничерта не ясно, да и понять что-то без дополнительной аналитики и пояснений непросто (особенно в новой для себя сфере).
Поэтому особое внимание к себе привлекают материалы вроде сегодняшнего The 2020 Data & AI Landscape, где есть и ландшафт рынка и понятные выводы.
Помимо картинок есть описание основных трендов в развитии инфраструктур для обработки данных, самой аналитики и AI (их довольно много, рекомендую самостоятельно ознакомиться).
Вот ссылка на картинку в хорошем разрешении.
🔗Ссылка на статью
#инструменты #анализ_рынка
🔹какие типы процессов или операций есть в отрасли;
🔹какие существуют инструменты для их реализации или автоматизации.
У такого формата есть существенный минус: сходу ничерта не ясно, да и понять что-то без дополнительной аналитики и пояснений непросто (особенно в новой для себя сфере).
Поэтому особое внимание к себе привлекают материалы вроде сегодняшнего The 2020 Data & AI Landscape, где есть и ландшафт рынка и понятные выводы.
Помимо картинок есть описание основных трендов в развитии инфраструктур для обработки данных, самой аналитики и AI (их довольно много, рекомендую самостоятельно ознакомиться).
Вот ссылка на картинку в хорошем разрешении.
🔗Ссылка на статью
#инструменты #анализ_рынка
Google запустил публичную бета-версию своей платформы «Know Your Data» для работы с датасетами в графическом веб-интерфейсе.
Если упрощать, то это аттракцион под названием «почувствуй себя дата саентистом, зная примерно 0 языков программирования».
В качестве примера можно поковыряться в любом из стандартных наборов данных TensorFlow.
Можно быстро и по-всякому пофильтровать изображения, посмотреть, как все размечено, протегировано, как параметры соотносятся друг с другом (поделать exploratory data analysis).
🔗Ссылка
#инструменты
Если упрощать, то это аттракцион под названием «почувствуй себя дата саентистом, зная примерно 0 языков программирования».
В качестве примера можно поковыряться в любом из стандартных наборов данных TensorFlow.
Можно быстро и по-всякому пофильтровать изображения, посмотреть, как все размечено, протегировано, как параметры соотносятся друг с другом (поделать exploratory data analysis).
🔗Ссылка
#инструменты
В статье с Хабра «Все что вы (не) хотели знать о Data Science» обнаружил интересный взгляд на содержание профессии Data Scientist.
Стоит посмотреть хотя бы ради описания того, как разные функциональные роли вроде data engineer, analyst, MLOps накладываются на 3 ключевых области компетенций:
🔹математика и статистика;
🔹разработка и администрирование;
🔹знание предметной области.
Еще есть верхнеуровнево про грейды дата саентистов, подготовку к собеседованиям и специфику Ситимобила.
🔗Ссылка
P.S. Утаскиваю из комментариев замечательное дополнение: «Как стать дата-шрушером aka вкатиться в DS». Более практичный и подробный взгляд изнутри с нецензурщиной и мемами.
#компетенции
Стоит посмотреть хотя бы ради описания того, как разные функциональные роли вроде data engineer, analyst, MLOps накладываются на 3 ключевых области компетенций:
🔹математика и статистика;
🔹разработка и администрирование;
🔹знание предметной области.
Еще есть верхнеуровнево про грейды дата саентистов, подготовку к собеседованиям и специфику Ситимобила.
🔗Ссылка
P.S. Утаскиваю из комментариев замечательное дополнение: «Как стать дата-шрушером aka вкатиться в DS». Более практичный и подробный взгляд изнутри с нецензурщиной и мемами.
#компетенции
Спонсор сегодняшнего поста - статья с vc «Тренды ИИ: что происходит в сфере искусственного интеллекта в 2021 году».
По-моему отличная идея: ближе к середине года смотреть, какие из прошлых прогнозов начали сбываться, а какие еще нет.
Главный тренд 2021 года: демократизация ИИ.
Сам стэк технологий становится доступнее простым смертным. В результате появляются новые продукты, сервисы, open-source инструменты. Соответственно, растет количество новостей и публикаций реальных (и не очень) кейсов в СМИ.
По итогам 2020 года:
Что и где, как и прогнозировалось, развивается и получает практическое применение:
🔹NLP примерно везде;
🔹компьютерное зрение;
🔹беспилотники;
🔹исследования лекарств в медтехе;
🔹дипфейки;
🔹рассуждения об этике и морали применительно к AI.
Что пока не полетело:
🔻цифровые двойники предприятий;
🔻чипирование и нейроинтерфейсы;
🔻повальное внедрение чат-ботов (но это не точно);
🔻готовые платформы для создания продуктов на базе ИИ.
🔗Ссылка
#анализ_рынка
По-моему отличная идея: ближе к середине года смотреть, какие из прошлых прогнозов начали сбываться, а какие еще нет.
Главный тренд 2021 года: демократизация ИИ.
Сам стэк технологий становится доступнее простым смертным. В результате появляются новые продукты, сервисы, open-source инструменты. Соответственно, растет количество новостей и публикаций реальных (и не очень) кейсов в СМИ.
По итогам 2020 года:
Что и где, как и прогнозировалось, развивается и получает практическое применение:
🔹NLP примерно везде;
🔹компьютерное зрение;
🔹беспилотники;
🔹исследования лекарств в медтехе;
🔹дипфейки;
🔹рассуждения об этике и морали применительно к AI.
Что пока не полетело:
🔻цифровые двойники предприятий;
🔻чипирование и нейроинтерфейсы;
🔻повальное внедрение чат-ботов (но это не точно);
🔻готовые платформы для создания продуктов на базе ИИ.
🔗Ссылка
#анализ_рынка
Небольшой текст, описывающий внедрение процесса обязательного документирования в команде аналитиков.
Как часто бывает, это компиляция нескольких подходов и методов вроде Culture Map, 5W1H, командного целеполагания и измерения промежуточных результатов.
🔗Ссылка
#компетенции
Как часто бывает, это компиляция нескольких подходов и методов вроде Culture Map, 5W1H, командного целеполагания и измерения промежуточных результатов.
🔗Ссылка
#компетенции
«12 SQL and NoSQL Datastores for Your Application» - еще одна
статья-введение в современные СУБД.
Есть слайды, на которых нормально пояснены:
🔹разница между OLTP / OLAP;
🔹SQL / NoSQL;
🔹разные варианты хранения неструктурированных или частично структурированных данных.
Гвоздь программы: сводная табличка с классическими и облачными решениями (AWS, Azure, GCP) для хранения всех возможных типов данных.
🔗Ссылка
#базы_данных
статья-введение в современные СУБД.
Есть слайды, на которых нормально пояснены:
🔹разница между OLTP / OLAP;
🔹SQL / NoSQL;
🔹разные варианты хранения неструктурированных или частично структурированных данных.
Гвоздь программы: сводная табличка с классическими и облачными решениями (AWS, Azure, GCP) для хранения всех возможных типов данных.
🔗Ссылка
#базы_данных
Краткая история появления роли дата-инженера на фоне развития инструментов для работы с данными и команд, которые их используют.
Упрощенно, это путешествие от мира, где данными владеют суровые «айтишники» к светлому будущему, где независимые команды управляют каждая своим доменом данных и эффективно обмениваются информацией.
🔗Ссылка
#data_engineering
Упрощенно, это путешествие от мира, где данными владеют суровые «айтишники» к светлому будущему, где независимые команды управляют каждая своим доменом данных и эффективно обмениваются информацией.
🔗Ссылка
#data_engineering
Занятный кейс использования матриц в Excel в качестве альтернативы протягиванию формул.
Вроде как таблицы с большим количеством вычислений становятся более «антивандальными» и простыми в поддержке.
С другой стороны, использование такой функциональности для совсем уж базовых сценариев вроде «вычел-поделил» похоже на выстрел из пушки по воробьям.
Надо будет попробовать на досуге (вроде как работает и в Google Sheets).
И да, поделитесь опытом подобных извращений, если имели удовольствие его получить.
🔗Ссылка
#excelное
Вроде как таблицы с большим количеством вычислений становятся более «антивандальными» и простыми в поддержке.
С другой стороны, использование такой функциональности для совсем уж базовых сценариев вроде «вычел-поделил» похоже на выстрел из пушки по воробьям.
Надо будет попробовать на досуге (вроде как работает и в Google Sheets).
И да, поделитесь опытом подобных извращений, если имели удовольствие его получить.
🔗Ссылка
#excelное
С помощью статьи «Analytics Maturity Model: Levels, Technologies, and Applications» можно глубже погрузиться в тему data literacy и уровни развития аналитики в организациях.
По сути, описаны отличия пяти уровней зрелости:
🔹Отсутствие аналитики;
🔹Описательная;
🔹Диагностическая;
🔹Предикативная;
🔹Предписательная.
Очень круто, что сформулированы необходимые изменения для перехода с этапа на этап и общие рекомендации в конце статьи.
Немного другая интерпретация, чуть менее подробно, но зато на русском - тут.
🔗Ссылка
#компетенции
По сути, описаны отличия пяти уровней зрелости:
🔹Отсутствие аналитики;
🔹Описательная;
🔹Диагностическая;
🔹Предикативная;
🔹Предписательная.
Очень круто, что сформулированы необходимые изменения для перехода с этапа на этап и общие рекомендации в конце статьи.
Немного другая интерпретация, чуть менее подробно, но зато на русском - тут.
🔗Ссылка
#компетенции
«Data Strategy: Good Data vs. Bad Data» - классная статья про то, как стратегия компании влияет (точнее, должна влиять) на стратегию по работе с данными.
Есть интересная классификация данных:
🔹«хорошие» - это те, которые осознанно собраны и обработаны для того, чтобы решить конкретную задачу бизнеса;
🔻«плохие» - это те, которые мы просто собрали и пытаемся на их основании делать выводы, не отталкиваясь от текущей стратегии и приоритетов.
Еще тут зачем-то снова переизобрели HADI-циклы (или PDCA, как кому удобнее), но уже применительно к обработке данных.
Получилось 5 этапов: Action -> Data -> Information -> Insight -> Decision.
🔗Ссылка
#компетенции #стратегия
Есть интересная классификация данных:
🔹«хорошие» - это те, которые осознанно собраны и обработаны для того, чтобы решить конкретную задачу бизнеса;
🔻«плохие» - это те, которые мы просто собрали и пытаемся на их основании делать выводы, не отталкиваясь от текущей стратегии и приоритетов.
Еще тут зачем-то снова переизобрели HADI-циклы (или PDCA, как кому удобнее), но уже применительно к обработке данных.
Получилось 5 этапов: Action -> Data -> Information -> Insight -> Decision.
🔗Ссылка
#компетенции #стратегия
Продолжение классной статьи про роль дата-инженера, на этот раз про тренды и будущее.
Очевидно, все они напрямую связаны с общими по отрасли (аналитика, ML, Big Data):
🔹дата-инженеры в будущем частично заменят дата-саентистов (задач по инфраструктуре будет только больше);
🔹после того, как ответственность за данные перетечет из единого центра компетенций к отдельным командам, каждой из них потребуется поддержка дата-инженера или свой собственный специалист такого профиля;
🔹появится больше стартапов-единорогов, решающих задачи дата-инженеров (далеко ходить не надо, Snowflake и Databricks уже безумно взлетели);
🔹инструменты для перемещения данных станут повсеместно распространены, будут у всех, учить их обязательно;
🔹обработка данных в реальном времени станет отраслевым стандартом.
🔗Ссылка
#data_engineering #компетенции
Очевидно, все они напрямую связаны с общими по отрасли (аналитика, ML, Big Data):
🔹дата-инженеры в будущем частично заменят дата-саентистов (задач по инфраструктуре будет только больше);
🔹после того, как ответственность за данные перетечет из единого центра компетенций к отдельным командам, каждой из них потребуется поддержка дата-инженера или свой собственный специалист такого профиля;
🔹появится больше стартапов-единорогов, решающих задачи дата-инженеров (далеко ходить не надо, Snowflake и Databricks уже безумно взлетели);
🔹инструменты для перемещения данных станут повсеместно распространены, будут у всех, учить их обязательно;
🔹обработка данных в реальном времени станет отраслевым стандартом.
🔗Ссылка
#data_engineering #компетенции
Инструментальных статей для аналитиков и дата-саентистов на любом ресурсе хоть отбавляй.
Может сложиться впечатление, что эта роль - чисто про hard-skills: взял правильный инструмент, закодил/залоукодил обработку данных, красиво визуализировал.
При чтении сегодняшней статьи разу вспоминается фраза «самые важные вещи на свете - это не вещи». Переформулировать это изречение можно так: инструменты - это замечательно, но критическое мышление и здравый смысл еще никто не отменял.
Про них и расскажут по ссылке ниже.
🔗 Ссылка
#компетенции
Может сложиться впечатление, что эта роль - чисто про hard-skills: взял правильный инструмент, закодил/залоукодил обработку данных, красиво визуализировал.
При чтении сегодняшней статьи разу вспоминается фраза «самые важные вещи на свете - это не вещи». Переформулировать это изречение можно так: инструменты - это замечательно, но критическое мышление и здравый смысл еще никто не отменял.
Про них и расскажут по ссылке ниже.
🔗 Ссылка
#компетенции
Кажется, что ведение канала - единственная вещь, которая заставляет меня на 100% ощущать себя слоупоком.
Еще в прошлую пятницу ребята из @it_resume выкатили на Хабр подборку telegram-каналов для аналитиков.
Ссылка на нее довольно резво разлетелась по всем задействованным каналам (что чертовски логично).
А вот у меня только сегодня доходят руки написать что-то типа «Мама, я в телевизоре!».
Лично меня порадовала сама статья:
В ней есть почти все классные каналы, которые читаю. На ребят, с которыми не был знаком, тоже было не грех подписаться.
Широк набор освещаемых тем: от дата-инжиниринга и хард-скилловых вещей до визуализации и нежно любимого мной BI.
Неожиданно для меня список получился довольно «очеловеченным». Упоминания авторов и их историй напомнили о том, что за всеми постами, ссылками, картинками стоят живые люди. Поэтому и сами каналы такие разные - со своим стилем, экспертизой в предметной области, взглядом на аналитику. И круто, что таким образом можно смотреть на предмет своего интереса с разных сторон.
Жаль только, что ряд классных каналов не попал в подборку. Частично с этим поборолся Роман Бунин вот тут. Я тоже занялся систематизацией того, что читаю, возможно чем-то поделюсь позже.
🔗Ссылка
#каналы
Еще в прошлую пятницу ребята из @it_resume выкатили на Хабр подборку telegram-каналов для аналитиков.
Ссылка на нее довольно резво разлетелась по всем задействованным каналам (что чертовски логично).
А вот у меня только сегодня доходят руки написать что-то типа «Мама, я в телевизоре!».
Лично меня порадовала сама статья:
В ней есть почти все классные каналы, которые читаю. На ребят, с которыми не был знаком, тоже было не грех подписаться.
Широк набор освещаемых тем: от дата-инжиниринга и хард-скилловых вещей до визуализации и нежно любимого мной BI.
Неожиданно для меня список получился довольно «очеловеченным». Упоминания авторов и их историй напомнили о том, что за всеми постами, ссылками, картинками стоят живые люди. Поэтому и сами каналы такие разные - со своим стилем, экспертизой в предметной области, взглядом на аналитику. И круто, что таким образом можно смотреть на предмет своего интереса с разных сторон.
Жаль только, что ряд классных каналов не попал в подборку. Частично с этим поборолся Роман Бунин вот тут. Я тоже занялся систематизацией того, что читаю, возможно чем-то поделюсь позже.
🔗Ссылка
#каналы
Оставлю тут мою любимую картинку со слоупоком для привлечения внимания.
Ежегодный обзор российского рынка аналитики от Cnews традиционно хорош тем, что в нем есть подробная информация про денежки.
Топ-15 компаний рейтинга вместе зарабатывают 24,9 млрд рублей, на 15% больше прошлогоднего результата.
Измерять таким способом размеры рынка странновато, но темпы роста примерно прикинуть можно.
Вот рейтинг поставщиков аналитических решений с прибылью год к году.
Если интересно, на разводящей странице можно найти все материалы исследования:
🔗Ссылка
#анализ_рынка
Топ-15 компаний рейтинга вместе зарабатывают 24,9 млрд рублей, на 15% больше прошлогоднего результата.
Измерять таким способом размеры рынка странновато, но темпы роста примерно прикинуть можно.
Вот рейтинг поставщиков аналитических решений с прибылью год к году.
Если интересно, на разводящей странице можно найти все материалы исследования:
🔗Ссылка
#анализ_рынка
Business Intelligence Strategy: How to Develop and Document your BI Roadmap.
Статья описывает подход к развитию корпоративной BI-системы, который меня так и тянет назвать «продуктовым».
Все как по учебнику: стратегия, вижен, roadmap, отслеживание метрик, процессы и документирование.
В качестве бонуса есть классная картинка Gartner про уровни зрелости BI.
🔗 Ссылка
#business_intelligence
Статья описывает подход к развитию корпоративной BI-системы, который меня так и тянет назвать «продуктовым».
Все как по учебнику: стратегия, вижен, roadmap, отслеживание метрик, процессы и документирование.
В качестве бонуса есть классная картинка Gartner про уровни зрелости BI.
🔗 Ссылка
#business_intelligence
По названию статьи «Why constantly looking at metrics sets companies up for failure» можно предположить, что автор призывает сжечь дашборды и жить в неведении.
На самом деле, он напоминает про здравый смысл в повседневной деятельности:
🔹задавать себе вопросы о метриках и их интерпретации;
🔹фокусироваться не на всех одновременно, а только на важных в текущий момент времени;
🔹автоматизировать отслеживание важных метрик и выявление проблем.
Вопросы, которыми периодически стоит задаваться:
🔸What value would the metric need to reach in order to cause alarm?
🔸Is there some upper or lower bound that simply is not acceptable?
🔸Would the metric begin to influence other metrics or processes once it exceeds a certain level?
🔸Is simply breaching the current goal a good enough notification?
🔸Is the trend more important than the actual value?
🔗Ссылка
#business_intelligence #компетенции
На самом деле, он напоминает про здравый смысл в повседневной деятельности:
🔹задавать себе вопросы о метриках и их интерпретации;
🔹фокусироваться не на всех одновременно, а только на важных в текущий момент времени;
🔹автоматизировать отслеживание важных метрик и выявление проблем.
Вопросы, которыми периодически стоит задаваться:
🔸What value would the metric need to reach in order to cause alarm?
🔸Is there some upper or lower bound that simply is not acceptable?
🔸Would the metric begin to influence other metrics or processes once it exceeds a certain level?
🔸Is simply breaching the current goal a good enough notification?
🔸Is the trend more important than the actual value?
🔗Ссылка
#business_intelligence #компетенции
В последнее время чаще встречаю в англоязычных материалах устойчивое выражение «Modern Data Stack».
Сегодняшняя статья «Five Predictions for the Future of the Modern Data Stack» хороша для ознакомления с ним по трем причинам.
Во-первых, сформулированы признаки «современного набора технологий для обработки данных»:
🔹поставляется как услуга;
🔹построен вокруг облачного хранилища данных;
🔹доступ к данным для большого количества людей обеспечивается через запросы в SQL-формате;
🔹оплата только за использованные ресурсы;
🔹фокус на построении автоматизированных пайплайнов.
Во-вторых, описана история развития этих технологий.
В-третьих, есть предположения, куда он будет развиваться:
🔸внедрение прикладного AI;
🔸переход к data as a service;
🔸добавление инструментов для Data Governance;
🔸больше стриминга вместо батчинга;
🔸использование в современных приложениях (как запихать в OLAP-хранилища OLTP-нагрузку автор сам не придумал, но подход довольно интересный).
🔗Ссылка
#data_engineering #инфраструктурное
Сегодняшняя статья «Five Predictions for the Future of the Modern Data Stack» хороша для ознакомления с ним по трем причинам.
Во-первых, сформулированы признаки «современного набора технологий для обработки данных»:
🔹поставляется как услуга;
🔹построен вокруг облачного хранилища данных;
🔹доступ к данным для большого количества людей обеспечивается через запросы в SQL-формате;
🔹оплата только за использованные ресурсы;
🔹фокус на построении автоматизированных пайплайнов.
Во-вторых, описана история развития этих технологий.
В-третьих, есть предположения, куда он будет развиваться:
🔸внедрение прикладного AI;
🔸переход к data as a service;
🔸добавление инструментов для Data Governance;
🔸больше стриминга вместо батчинга;
🔸использование в современных приложениях (как запихать в OLAP-хранилища OLTP-нагрузку автор сам не придумал, но подход довольно интересный).
🔗Ссылка
#data_engineering #инфраструктурное
Опубликованы результаты ежегодного опроса аудитории Stack Overflow (он же «Developer Survey 2021»).
Большая часть информации пригодится аналитикам разве что для расширения кругозора, но и кое-что интересное есть.
В части баз данных топ используемых технологий остался практически без изменений (что удивительно).
Классно сделаны хордовые диаграммы, отображающие с чем хотят поработать текущие пользователи каждой из СУБД. Если прокрутить ниже, можно найти тоже самое про фреймворки и языки программирования.
И забавный факт: Python, наконец, обогнал по популярности SQL и теперь располагается на третьем месте в топе.
Полная версия исследования для любознательных:
🔗Ссылка
#базы_данных #анализ_рынка
Большая часть информации пригодится аналитикам разве что для расширения кругозора, но и кое-что интересное есть.
В части баз данных топ используемых технологий остался практически без изменений (что удивительно).
Классно сделаны хордовые диаграммы, отображающие с чем хотят поработать текущие пользователи каждой из СУБД. Если прокрутить ниже, можно найти тоже самое про фреймворки и языки программирования.
И забавный факт: Python, наконец, обогнал по популярности SQL и теперь располагается на третьем месте в топе.
Полная версия исследования для любознательных:
🔗Ссылка
#базы_данных #анализ_рынка