Smart Data – Telegram
Smart Data
1.4K subscribers
22 photos
3 files
58 links
Канал про Data Engineering, аналитику и данные.

По всем вопросам: @ds_im
Download Telegram
Channel created
Channel photo updated
#счеговсёначиналось

Всем привет!

Меня зовут Денис Соловьёв, я web-аналитик и Data Engineer в компании Promodo. Я решил создать канал про Data Engineering, аналитику и данные в целом, так как уверен, что полезный контент помогает находить оптимальные решения для бизнеса и развить критическое мышление.
Благодаря этому, мы развиваем индустрию и делаем этот мир немножко лучше 🌎
Это, так сказать, миссия нашего канала)

Здесь я буду публиковать посты, ссылки, видео и подкасты, которые затрагивают общие принципы работы с данными, полезные инструменты из арсенала инженеров данных и аналитиков, облачные технологии а также главные тренды data-индустрии.
Я хочу, чтобы читатели не просто зацикливались на конкретных инструментах, но и понимали, как их переложить на конкретные задачи бизнеса и приносили реальную бизнес-ценность. Поэтому постараюсь дополнять материалы примерами кейсов, где имеет смысл применять тот или другой инструмент.

Также побуждаю всех к здоровой дискуссии в комментариях, так как именно в дискуссии рождаются крутые идеи для оптимизации существующих решений и создания классных продуктов.

Я планирую каждый пост помечать хештегом. Пока есть идея размечать посты по уровню сложности: #easy, #medium и #hard. Возможно, потом придумаю какую-то систему для объединения постов в темы. Обязательно об этом расскажу)

И напоследок немного о себе:
- финансист по образованию, но свой карьерный путь начал в digital-маркетинге
- 1 год работал менеджером по платному трафику, потом стал руководителем отдела
- руководить мне не понравилось, и я начал изучать всё, что касается данных
- люблю строить современные аналитические платформы в облаке
- анализировать умею, но больше кайфую от инжиниринга
- отдыхаю, проводя время с близкими людьми)

P.S. Пожалуйста, в комментариях относитесь друг к другу с уважением. У всех разный уровень знаний и навыков, но все мы учимся и канал как раз для этого и создан.
👍1
#easy

Всем привет!

Я подумал, что часто буду использовать профильную терминологию в своих постах. Поэтому, сделал для вас справочник основных понятий, с которыми встречаются практически все специалисты по данным.

Также я убеждён, что правильное оперирование понятиями - не менее важно, чем владение каким-то инструментом. Это ключевые слова, которые определяют отрасль. И чтобы говорить с ней на одном языке, нужно их знать и грамотно использовать.

Попытался расписать как можно понятнее.

В общем, сохраняйте себе в надёжное место, чтобы вы всегда могли туда подсмотреть:)

P.S. Я написал самые основные понятия. Со временем справочник будет пополняться
#easy

Когда я создавал канал, я хотел, чтобы люди читали его как книгу. Поэтому, решил всю информацию выкладывать последовательно - начиная от общих принципов работы компаний с данными и заканчивая разбором инструментов и трендами рынка.

Поэтому, сегодня я решил снова написать более фундаментальный пост о том, зачем вообще нужны данные и аналитика в организации.

Давайте начнём с того, какие вообще есть типы компаний. Все существующие компании мы можем условно разделить на 2 основные категории:
1) коммерческие компании;
2) некоммерческие компании.

Теперь давайте определим, какие цели преследуют эти 2 типа компаний:
- коммерческие компании, главным образом, преследуют такие цели, как увеличение своей рыночной стоимости, получение прибыли и увеличение доли рынка. Т.е. такие компании банально хотят больше зарабатывать в краткосрочной и долгосрочной перспективе;
- некоммерческие компании, напротив, в первую очередь думают о какой-то социальной пользе (например, благотворительный фонд). Их целью не является получение прибыли.

В любом случае оба типа компаний хотят приносить какую-то ценность (есть, конечно, и исключения). Но чтобы приносить эту ценность нужны конкретные действия, шаги, принимаемые решения.

И тут снова у нас есть выбор: мы можем принимать стратегические и тактические решения, полагаясь только на нашу интуицию либо опираясь на конкретные факты. И чтобы эти факты получить, нам нужна аналитика и данные. Причём чем качественнее данные (за это, как раз, отвечают инженеры данных) и чем качественнее аналитика (а за это уже отвечают аналитики), тем достовернее факты мы будем получать. Как итог, мы принимаем более эффективные решения и приносим ценность.

Т.е. мы можем декомпозировать нашу конечную цель таким образом:
Данные -> Аналитика -> Принимаемые решения -> Конкретные действия -> Ценность

Мы собираем данные и анализируем их не потому, что это модно, а потому что это помогает приносить большую ценность. И все должны это понимать - специалисты, топ-менеджеры, собственники компаний. Нужно создать такую среду в организации, чтобы все думали в первую очередь о конечной ценности, конечном продукте, а не о том, какой он гениальный прогер или ещё кто-то.

Надеюсь, этот пост останется у каждого из вас на подкорке:)

P.S. Считаю, что лучшие решения всегда принимаются на стыке рационального (аналитика и данные) и иррационального (банальная чуйка). Это то, что двигает компании вперёд. Хочу услышать ваше мнение на этот счёт. Пишите в комментариях.
#easy

Пока еду в метро, решил написать ещё небольшой пост вдогонку предыдущему.

Я часто сталкивался и сталкиваюсь с кейсами, когда компании забывают о конечной ценности. Например, есть компании, которые заказывают дорогое end-to-end решение (сквозную аналитику) и потом даже не открывают дашборды. Или компании, которые обрабатывают данные на стороне с помощью Databricks (Spark), имея в облачном хранилище данных только 100 тыс. строк (которые можно просто обработать на SQL внутри). Многие зацикливаются на сложных и модных штуках, забывая, что нужно анализировать, принимать решения и приносить ценность.

P. S. Будет намного больше толку от таблиц и графиков в excel, если их регулярно анализируют и принимают решения, чем от Spark и Delta Lake, если потом эти данные просто лежат мёртвым грузом.
#easy

Где-то пол года назад я прочитал книгу Ицхака Адизеса "Идеальный руководитель". Автор считает, что успех любой организации зависит от создания атмосферы взаимного доверия и уважения внутри команды топ-менеджмента и компании в целом.

При этом на создание такой атмосферы влияют 4 фактора:
1) Люди
2) Процессы
3) Структура
4) Единые взгляды и ценности

Вчера мы выяснили, какова роль аналитики и данных в компании. Мы определили, что аналитика и данные нужны, чтобы создавать какую-то ценность.

Теперь давайте обсудим, каким образом происходит создание этой ценности. Я решил переложить 4 фактора успешного функционирования компании на работу с данными. Т.е. следующие посты будут посвящены таким вопросам:
- кто работает с данными и какая у них роль;
- как происходит процесс работы с данными внутри компаний;
- как может выглядеть организационная структура отделов, которые работают с данными;
- как создать единую систему взглядов и ценностей.

P.S. Кстати, в названии "Идеальный руководитель" есть ирония. Так как сам Ицхак потом приводит веские аргументы, что идеальных руководителей не существует.
#easy

Итак, 1-й фактор эффективности (эффективность = взаимное доверие и уважение) - это Люди.

Но прежде чем рассказывать о hard-skills и soft-skills, которыми должны обладать конкретные специалисты по данным, я хочу рассказать о позициях, которые могут встречаться в data-team. Я выделяю такие основные позиции:

Web-аналитик - один из тех людей, кто занимается первичным сбором данных. Под первичным сбором данных я подразумеваю сбор данных на уровне источников, т.е. это не построение ETL-процессов и data-пайплайнов. Главная задача web-аналитика - собрать данные о поведении пользователей на сайте и в мобильном приложении в системы web/app аналитики, такие как Google Analytics, Яндекс Метрика, Firebase Analytics, AppsFlyer и др. Они собирают данные о том, с каких источников трафика приходят пользователи на сайт или в мобильное приложение, какие страницы они посещают, на какие кнопки нажимают, какие товары покупают в интернет-магазине и т.д. Часто web-аналитики выступают в роли продуктовых аналитиков - они анализируют данные в системах web/app аналитики, строят гипотезы по улучшению эффективности сайта или приложения как продукта, делают A/B-тесты.

Data Engineer (инженер данных) - человек, который отвечает за построение надёжных и масштабируемых ETL-процессов и data-пайплайнов. Его главная задача - извлечь данные из источников, преобразовать данные в пригодный для анализа и data science вид и загрузить их в хранилище данных (Data Warehouse) или озеро данных (Data Lake).

BI Engineer (BI-разработчик) - человек, который отвечает за проектирование и создание отчётности в BI-инструменте (Power BI, Tableau и т.д.). Его главная задача - сделать так, чтобы бизнес-пользователям было удобно пользоваться отчётами и дашбордами, они могли находить инсайты в данных и принимать решения. BI-разработчики более высокого уровня могут не ограничиваться только проектированием и созданием BI-решений. Они также анализируют уже созданные отчёты, находят инсайты, строят гипотезы и предоставляют рекомендации бизнесу.

Data Analyst (аналитик данных) - человек, который анализирует данные (часто, уже подготовленные инженерами данных). Его главная задача - находить инсайты и предоставлять рекомендации бизнесу. В отличие от BI-разработчика он использует более продвинутые методы и инструменты анализа, такие как SQL, Python или R. Аналитики данных более высокого уровня применяют знания статистики и строят простые модели для Machine Learning. Часто Data-аналитики выступают в роли продуктовых аналитиков.

Product Analyst (продуктовый аналитик) - человек, основная задача которого - находить инсайты в данных, строить гипотезы и предоставлять рекомендации по улучшению продукта. Под продуктом подразумевается IT-продукт, т.е. сайт, мобильное приложение, web-приложение и т.д. Продуктовые аналитики используют в своём арсенале инструменты web/app аналитики, SQL, Python/R и сервисы для A/B тестирования (например, Google Optimize).

Data Scientist - человек, который строит модели Machine Learning, Deep Learning и занимается предиктивной аналитикой. Главная его задача - находить закономерности в данных благодаря построенным ML/DL моделям и помогать бизнесу находить скрытые точки роста.

Очень часто один человек может исполнять несколько ролей. Всё зависит от типа компании, её размера, орг. структуры и конкретного проекта. Я, например, выполняю задачи web-аналитика, инженера данных и BI-разработчика)

P.S. Думаю, пост будет очень полезен новичкам, кто ещё не определился с выбором профессии. Возможно, в этих описаниях вы найдёте своё призвание:)
#easy

Вот видео с выступления Алексея Натёкина. Видео довольно старое, но не потерявшее актуальности. Думаю, многие опытные ребята его видели. Здесь Алексей как раз рассказывает про разницу между инженерами данных, аналитиками данных и Data Scientists.

P.S. На сегодня всё. Надеюсь, было полезно. А я пошёл хардкодить на Python.
Channel photo updated