В статье "5 Roles in Data in 2021" в едином формате описаны 5 ролей в современных дата-командах:
🔹Data Analyst
🔹Business analyst
🔹Data scientist
🔹Data engineer
🔹Machine Learning Engineer
Немного не хватает сводной таблички или иллюстрации границ ответственности.
Зато есть еще такая статья с добавлением продактов и SRE для полноты картины.
🔗Ссылка
#компетенции
🔹Data Analyst
🔹Business analyst
🔹Data scientist
🔹Data engineer
🔹Machine Learning Engineer
Немного не хватает сводной таблички или иллюстрации границ ответственности.
Зато есть еще такая статья с добавлением продактов и SRE для полноты картины.
🔗Ссылка
#компетенции
Не очень понимаю, зачем в октябре составлять топ визуализаций за год.
Тем не менее, некоторые из них мне сильно приглянулись:
🔹Интерактивный sankey из вложения к посту;
🔹3D-карта протянутых под океанами оптических кабелей;
🔹гонка стран по потреблению алкоголя;
🔹стильная карта ментальных заболеваний в темной теме.
Ниже по ссылке можно найти еще 6 вариантов на любой вкус. Получилась очень разнообразная подборка как по исследуемым темам, так и по вариантам отображения информации.
🔗Ссылка
#визуализации
Тем не менее, некоторые из них мне сильно приглянулись:
🔹Интерактивный sankey из вложения к посту;
🔹3D-карта протянутых под океанами оптических кабелей;
🔹гонка стран по потреблению алкоголя;
🔹стильная карта ментальных заболеваний в темной теме.
Ниже по ссылке можно найти еще 6 вариантов на любой вкус. Получилась очень разнообразная подборка как по исследуемым темам, так и по вариантам отображения информации.
🔗Ссылка
#визуализации
Восхитительная карта технологий для аналитики данных ("Технославия").
Авторы отмечают следующие тренды 2021 года:
🔹Много инструментов удалили и заменили, основные новшества: SageMaker, Kubernetes, PyTorch, MLFlow, Kubeflow;
🔹Добавилась целая "инфраструктурная территория" с гипероблаками и кубернетисом;
🔹DS-ноутбуки признаны IDE, так как функциональность их продолжает расти;
🔹Растет количество realtime-технологий, но они все еще на отдельном "острове".
P.S. "Болото очистки данных" - one love, очень жизненно.
🔗Ссылка
#инфраструктурное
Авторы отмечают следующие тренды 2021 года:
🔹Много инструментов удалили и заменили, основные новшества: SageMaker, Kubernetes, PyTorch, MLFlow, Kubeflow;
🔹Добавилась целая "инфраструктурная территория" с гипероблаками и кубернетисом;
🔹DS-ноутбуки признаны IDE, так как функциональность их продолжает расти;
🔹Растет количество realtime-технологий, но они все еще на отдельном "острове".
P.S. "Болото очистки данных" - one love, очень жизненно.
🔗Ссылка
#инфраструктурное
Forwarded from LEFT JOIN
⚡️Масштабное независимое исследование онлайн-курсов по аналитике ⚡️
Мы с моими коллегами из компании твердо решили узнать все-все самое важное об онлайн образовании по теме аналитики и data science. Об онлайн образовании говорят повсеместно, курсы чрезвычайно распространены, ведь профессии в IT-сфере сейчас очень популярны. Думаю, что огромная часть аудитории данного канала либо прошла, либо собирается пройти курсы, связанные с анализом данных.
Прошу вас пройти опрос и оставить ваше искреннее мнение о той школе, курс в которой вы прошли. Хорошее, плохое, главное, не безразличное!
Буду признателен коллегам владельцам каналов по аналитике за репост. Разумеется, результатами опроса мы вскоре с вами поделимся в виде симпатичного дашборда 🤓
➡️ Ссылка на опрос
p.s. Любые комменты по опросу тоже приветствуются
Мы с моими коллегами из компании твердо решили узнать все-все самое важное об онлайн образовании по теме аналитики и data science. Об онлайн образовании говорят повсеместно, курсы чрезвычайно распространены, ведь профессии в IT-сфере сейчас очень популярны. Думаю, что огромная часть аудитории данного канала либо прошла, либо собирается пройти курсы, связанные с анализом данных.
Прошу вас пройти опрос и оставить ваше искреннее мнение о той школе, курс в которой вы прошли. Хорошее, плохое, главное, не безразличное!
Буду признателен коллегам владельцам каналов по аналитике за репост. Разумеется, результатами опроса мы вскоре с вами поделимся в виде симпатичного дашборда 🤓
➡️ Ссылка на опрос
p.s. Любые комменты по опросу тоже приветствуются
Вчера окончательно подтвердилось, что смогу поехать на Матемаркетинг 2021. По очевидным причинам давно не был на оффлайн-мероприятиях, рад, что такое сейчас вообще возможно.
Алексею, команде Матемаркетинга, спикерам (среди которых, кстати, можно увидеть авторов клевых аналитических каналов) - огромное спасибо!
Сегодня ребята писали, что еще есть шанс забежать в последний вагон уходящего поезда, стоит поспешить, если еще не решились.
🔗Ссылка
#конференции
Алексею, команде Матемаркетинга, спикерам (среди которых, кстати, можно увидеть авторов клевых аналитических каналов) - огромное спасибо!
Сегодня ребята писали, что еще есть шанс забежать в последний вагон уходящего поезда, стоит поспешить, если еще не решились.
🔗Ссылка
#конференции
"Browser-Based Database Clients" - обзорная статья про варианты подключения к базам данных через браузер:
🔸SQL-клиенты гиперскейлеров (AWS, GCP, Azure);
🔸ноутбукоподобные клиенты (Count.co, Databricks SQL notebook, Franchise);
🔸BI-инструменты, которые могут в SQL (Redash, Metabase, Superset);
🔸Другое (SQLPad, PopSQL, JackDB).
С инструментами из последней категории сталкиваюсь впервые, кажется могут подойти для базовых сценариев, когда дашборды не нужны.
🔗Ссылка
#базы_данных #инструменты
🔸SQL-клиенты гиперскейлеров (AWS, GCP, Azure);
🔸ноутбукоподобные клиенты (Count.co, Databricks SQL notebook, Franchise);
🔸BI-инструменты, которые могут в SQL (Redash, Metabase, Superset);
🔸Другое (SQLPad, PopSQL, JackDB).
С инструментами из последней категории сталкиваюсь впервые, кажется могут подойти для базовых сценариев, когда дашборды не нужны.
🔗Ссылка
#базы_данных #инструменты
Мне близок Сашин взгляд на то, что болит у аналитиков - обобщил бы это как "борьба за качество данных".
Я тоже походил по Матемаркетингу, пообщался с людьми, доклады послушал.
К перечисленному в посте могу добавить 2 больших блока болей:
🔸Демократизация данных и self-service BI. Аналитики все чаще становятся бутылочным горлышком в процессе принятия решений и больше времени тратят в роли интерфейса к базе данных для своих коллег. Решают ее все по-разному, в основном с помощью новых процессов, open-source инструментов или самостоятельной разработки.
🔸Работа аналитиков в маркетинге сильно меняется из-за новых privacy-политик от Apple и Google и возможности запрета трекинга. Способы дальше работать есть, но со стороны выглядят как костыли. Я в этом, честно говоря, не разбираюсь и был сильно удивлен масштабом бедствия.
P.S. был безумно рад всех увидеть в оффлайне и познакомитсья с кучей клевых ребят!
#конференции
Я тоже походил по Матемаркетингу, пообщался с людьми, доклады послушал.
К перечисленному в посте могу добавить 2 больших блока болей:
🔸Демократизация данных и self-service BI. Аналитики все чаще становятся бутылочным горлышком в процессе принятия решений и больше времени тратят в роли интерфейса к базе данных для своих коллег. Решают ее все по-разному, в основном с помощью новых процессов, open-source инструментов или самостоятельной разработки.
🔸Работа аналитиков в маркетинге сильно меняется из-за новых privacy-политик от Apple и Google и возможности запрета трекинга. Способы дальше работать есть, но со стороны выглядят как костыли. Я в этом, честно говоря, не разбираюсь и был сильно удивлен масштабом бедствия.
P.S. был безумно рад всех увидеть в оффлайне и познакомитсья с кучей клевых ребят!
#конференции
Telegram
data будни
работаю инженером данных и пишу в основном про это.
Профильные ссылки с коротким резюме (статьи, доклады, подкасты), иногда «софтовое» — например, про поиск работы.
Профильные ссылки с коротким резюме (статьи, доклады, подкасты), иногда «софтовое» — например, про поиск работы.
Forwarded from data будни (Саша Михайлов)
Что болит
Общее впечатление что все хотят в data driven. Уже никого не надо убеждать в ценности данных — этот этап пройден.
Теперь следующая проблема — данные собрали, пайплайны настроили, первые дашборды нарисовали. Постепенно данных становится всё больше: добавляются новые, старые — меняются. И в какой-то момент наступает ДАТА-ХАОС!
И вот сейчас основные боли — это документация и описанные модели данных.
⁃ Таблицы на десятки и сотни колонок без описания и странными названиями
⁃ Таблиц по заказам — пять разных вариантов (плюс ещё сколько-то вьюх по ним)
⁃ Эвенты, названные абы как
⁃ Метрики, которые каждый рассчитывает по-своему и в конце ни у кого ничего не сходится ¯\_(ツ)_/¯
Короче, тренд сезона — дата-инфраструктура.
Общее впечатление что все хотят в data driven. Уже никого не надо убеждать в ценности данных — этот этап пройден.
Теперь следующая проблема — данные собрали, пайплайны настроили, первые дашборды нарисовали. Постепенно данных становится всё больше: добавляются новые, старые — меняются. И в какой-то момент наступает ДАТА-ХАОС!
И вот сейчас основные боли — это документация и описанные модели данных.
⁃ Таблицы на десятки и сотни колонок без описания и странными названиями
⁃ Таблиц по заказам — пять разных вариантов (плюс ещё сколько-то вьюх по ним)
⁃ Эвенты, названные абы как
⁃ Метрики, которые каждый рассчитывает по-своему и в конце ни у кого ничего не сходится ¯\_(ツ)_/¯
Короче, тренд сезона — дата-инфраструктура.
👍1
Кажется, к 2021 году всех уже убедили, что эксель - это не база данных.
И тут такое: статья про то, как анализировать с его помощью csv-шку с 10 миллионами строк.
Автору всего-то понадобилась версия посвежее, подключение к файлу без его загрузки на лист, Power Query и слабоумие с отвагой.
Кейс занятный, но что-то внутри меня протестует против такого сценария использования.
🔗Ссылка
#excelное
И тут такое: статья про то, как анализировать с его помощью csv-шку с 10 миллионами строк.
Автору всего-то понадобилась версия посвежее, подключение к файлу без его загрузки на лист, Power Query и слабоумие с отвагой.
Кейс занятный, но что-то внутри меня протестует против такого сценария использования.
🔗Ссылка
#excelное
Энтузиаст проанализировал 30000 вакансий и составил вот такую сеть IT-шных навыков.
В области работы с данными удивляет небольшой размер "шарика" Python и отсутствие популярных библиотек (может, убрали, чтобы не перегружать элементами).
В статье "Building a Network of Related IT-Skills" подробно описывается сбор, очистка и обработка данных.
🔗Ссылка
#проекты
В области работы с данными удивляет небольшой размер "шарика" Python и отсутствие популярных библиотек (может, убрали, чтобы не перегружать элементами).
В статье "Building a Network of Related IT-Skills" подробно описывается сбор, очистка и обработка данных.
🔗Ссылка
#проекты
Когда-то это должно было случиться: теперь можно не только на работе ковыряться в больших данных и ML, но еще и дома делать тоже самое, но в игровой форме.
#проекты
#проекты
Search Data, Trends & Analytics: Catching the Pulse of a Market and its Consumers (no cookies required)
Пример того, как можно реализовать отслеживание трендов на минималках с использованием данных по поисковым запросам.
В полной версии дашборда можно поковыряться самому.
Статья с описанием методологии тут:
🔗Ссылка
#проекты
Пример того, как можно реализовать отслеживание трендов на минималках с использованием данных по поисковым запросам.
В полной версии дашборда можно поковыряться самому.
Статья с описанием методологии тут:
🔗Ссылка
#проекты
В статье "Data Advantage Matrix: A New Way to Think About Data Strategy" нашел интересный взгляд на построение стратегии по работе с данными. Автор предлагает использовать матрицу для оценки верхнеуровневых инициатив.
Всего оценивается 4 вида создаваемых преимуществ:
🔹Операционные;
🔹Стратегические;
🔹Продуктовые;
🔹Бизнесовые.
В рамках каждого можно запускать проекты в одной из 3 стадий проработанности:
🔸Базовый (MVP, low-code);
🔸Средний (инвестиции в платформенные сервисы и дата-команды);
🔸Продвинутый (полный data driven).
В зависимости от сферы деятельности компании, приоритет преимуществ и проектов будет отличаться. На заглавной картинке пример для SaaS-стартапа, в статье есть и другие.
🔗Ссылка
#стратегия
Всего оценивается 4 вида создаваемых преимуществ:
🔹Операционные;
🔹Стратегические;
🔹Продуктовые;
🔹Бизнесовые.
В рамках каждого можно запускать проекты в одной из 3 стадий проработанности:
🔸Базовый (MVP, low-code);
🔸Средний (инвестиции в платформенные сервисы и дата-команды);
🔸Продвинутый (полный data driven).
В зависимости от сферы деятельности компании, приоритет преимуществ и проектов будет отличаться. На заглавной картинке пример для SaaS-стартапа, в статье есть и другие.
🔗Ссылка
#стратегия
Автор статьи "Data Product Trends That Will Rule in 2022" представляет свое видение исследований разных трендвотчеров и организаций про будущее дата-продуктов.
Получилось следующее:
🔹Big Data as a Product - готовые платформы данных для аналитики в любых отраслях бизнеса;
🔹Рост качества пользовательского опыта не только внутри продукта, но и в целом при работе с поставщиком;
🔹Решения для безопасного обмена данными между компаниями по всему миру;
🔹Больше экспериментов и симуляций на реальных, а не тестовых данных;
🔹Качественные результаты работы ML-моделей на небольших объемах данных, в том числе на edge-устройствах;
🔹Управление данными и обеспечение их безопасности все чаще будет встроено в дата-продукты "по-умолчанию";
🔹"Diversified Data Centric Mindset" - обеспечение равного доступа к своему сервису для людей разных национальностей, владеющих разными языками и вот это вот все;
🔹ИИ будет все более приближаться к возможностям естественного интеллекта (штош, посмотрим).
Во все, кроме последних 2 пунктов, можно даже поверить.
🔸Diversity-штуки, кажется, до нас еще просто не успеют в таком объеме добраться к следующему году.
🔸Artificial general intelligence - это вообще более долгосрочная история, не стал бы сейчас на ней спекулировать.
🔗Ссылка
#продукты #тренды
Получилось следующее:
🔹Big Data as a Product - готовые платформы данных для аналитики в любых отраслях бизнеса;
🔹Рост качества пользовательского опыта не только внутри продукта, но и в целом при работе с поставщиком;
🔹Решения для безопасного обмена данными между компаниями по всему миру;
🔹Больше экспериментов и симуляций на реальных, а не тестовых данных;
🔹Качественные результаты работы ML-моделей на небольших объемах данных, в том числе на edge-устройствах;
🔹Управление данными и обеспечение их безопасности все чаще будет встроено в дата-продукты "по-умолчанию";
🔹"Diversified Data Centric Mindset" - обеспечение равного доступа к своему сервису для людей разных национальностей, владеющих разными языками и вот это вот все;
🔹ИИ будет все более приближаться к возможностям естественного интеллекта (штош, посмотрим).
Во все, кроме последних 2 пунктов, можно даже поверить.
🔸Diversity-штуки, кажется, до нас еще просто не успеют в таком объеме добраться к следующему году.
🔸Artificial general intelligence - это вообще более долгосрочная история, не стал бы сейчас на ней спекулировать.
🔗Ссылка
#продукты #тренды
Описание Data Lineage в стиле "для самых маленьких".
Самому "наследию" дана ёмкая аналогия: "Data lineage is like a family tree but for data".
Есть проработанные описания основных сценариев применения с иллюстрациями:
🔹диагностика ошибок;
🔹анализ того, на что повлияют вносимые изменения;
🔹проверка качества данных;
🔹управление метаданными;
🔹проверка на соответствие нормам законодательства;
🔹очистка данных или их миграция.
🔗Ссылка
#инструменты #тренды
Самому "наследию" дана ёмкая аналогия: "Data lineage is like a family tree but for data".
Есть проработанные описания основных сценариев применения с иллюстрациями:
🔹диагностика ошибок;
🔹анализ того, на что повлияют вносимые изменения;
🔹проверка качества данных;
🔹управление метаданными;
🔹проверка на соответствие нормам законодательства;
🔹очистка данных или их миграция.
🔗Ссылка
#инструменты #тренды
Рома снова сделал годноту: готовую матрицу компетенций BI-аналитика. Очень злободневно с учетом того, что пора бы уже заниматься планом индивидуального развития на следующий год.
#компетенции
#компетенции
Forwarded from Reveal the Data
🧑🎓 Матрица компетенций BI-аналитика
Сделал матрицу компетенций, она родилась за год большой работы по менторству BI-аналитиков и «сериала» с Русланом. С радостью и гордостью хочу поделиться ей с комьюнити. Получилось круто.
Матрица будет полезна и новичкам — есть подсветка проседающих навыков и ссылки на учебные материалы. И компаниям — для составления планов развития сотрудников.
Необходимо оценить себя по 68 навыкам из 6 направлений, которые важны BI-аналитику на мой взгляд. Каждый навык имеет уровень «прокачки» от 1 до 4 и описание, с примером ожиданий знаний от уровня. Но это только пример, при сомнениях, оцените навык по ощущениям от «джун» до «лид».
Матрица – не истинна в последней инстанции, а ориентир и быстрый способ оценить себя. В идеале должна заполняться вместе с ментором, кто мог бы валидировать результат и дать практику.
Спасибо большое всем, кто помогал и участвовал в тестировании. Буду рад идеям, ссылкам и примерам результатов в комментариях.
🔗 Ссылка
#избранное
Сделал матрицу компетенций, она родилась за год большой работы по менторству BI-аналитиков и «сериала» с Русланом. С радостью и гордостью хочу поделиться ей с комьюнити. Получилось круто.
Матрица будет полезна и новичкам — есть подсветка проседающих навыков и ссылки на учебные материалы. И компаниям — для составления планов развития сотрудников.
Необходимо оценить себя по 68 навыкам из 6 направлений, которые важны BI-аналитику на мой взгляд. Каждый навык имеет уровень «прокачки» от 1 до 4 и описание, с примером ожиданий знаний от уровня. Но это только пример, при сомнениях, оцените навык по ощущениям от «джун» до «лид».
Матрица – не истинна в последней инстанции, а ориентир и быстрый способ оценить себя. В идеале должна заполняться вместе с ментором, кто мог бы валидировать результат и дать практику.
Спасибо большое всем, кто помогал и участвовал в тестировании. Буду рад идеям, ссылкам и примерам результатов в комментариях.
🔗 Ссылка
#избранное
Отличный пример того, как можно визуализировать структуру обучения или курса с помощью графов - сервис Learney.
Можно выбрать какой-то метод или алгоритм машинного обучения и посмотреть, на каких разделах математики и статистики он основан.
А при желании - еще и поизучать статьи и видео по теме не отходя от кассы.
🔗Ссылка
#учебное #инструменты
Можно выбрать какой-то метод или алгоритм машинного обучения и посмотреть, на каких разделах математики и статистики он основан.
А при желании - еще и поизучать статьи и видео по теме не отходя от кассы.
🔗Ссылка
#учебное #инструменты
В статье "Everything Popular in the 2021 Data Science Landscape" можно найти анализ результатов проведенного в этом году опроса Kaggle Machine Learning & Data Science Survey.
Сами выводы получились интересные, а вот визуализации подкачали, их как-будто делали по "вредным советам": топы с сортировкой по возрастанию (как на заглавном скриншоте), пай-чарты с 10 категориями, божественная столбчатая диаграмма с распределением по странам.
Больше 50 процентов опрошенных - из Индии, США на втором месте, РФ - на 7 (что характерно, между Бразилией и Нигерией). Не удивлюсь, если такое распределение сильно повлияло на применимость результататов к нашей действительности.
Тем не менее, можно посмотреть, например, топ языков программирования (тут без сюрпризов), используемых библиотек, IDE-шек и облачных сервисов.
Ну и, конечно, порадовал самый часто используемый Big Data product - "MySQL". =)
🔗Ссылка
#анализ_рынка #визуализации
Сами выводы получились интересные, а вот визуализации подкачали, их как-будто делали по "вредным советам": топы с сортировкой по возрастанию (как на заглавном скриншоте), пай-чарты с 10 категориями, божественная столбчатая диаграмма с распределением по странам.
Больше 50 процентов опрошенных - из Индии, США на втором месте, РФ - на 7 (что характерно, между Бразилией и Нигерией). Не удивлюсь, если такое распределение сильно повлияло на применимость результататов к нашей действительности.
Тем не менее, можно посмотреть, например, топ языков программирования (тут без сюрпризов), используемых библиотек, IDE-шек и облачных сервисов.
Ну и, конечно, порадовал самый часто используемый Big Data product - "MySQL". =)
🔗Ссылка
#анализ_рынка #визуализации
Обзор итогов года для мира баз данных от Andy Pavlo.
Отметил для себя:
🔹 PostgreSQL в топе;
🔹 Производители баз данных "мочат" друг друга в ходе сравнительных тестов (без ClickHouse не обошлось);
🔹 Куча инвестиций прилетело в дата-стартапы и производитетелей баз данных, "золотой век", говорят.
#базы_данных
Отметил для себя:
🔹 PostgreSQL в топе;
🔹 Производители баз данных "мочат" друг друга в ходе сравнительных тестов (без ClickHouse не обошлось);
🔹 Куча инвестиций прилетело в дата-стартапы и производитетелей баз данных, "золотой век", говорят.
#базы_данных