Тимлидское об аналитике – Telegram
Тимлидское об аналитике
1.68K subscribers
34 photos
1 video
62 links
Мысли, идеи, озарения и советы от тимлида дата-аналитики Яндекс.eLama.
Download Telegram
Что реализуется в витринах
* очистка и починка данных
* бизнес-логика - процессы и алгоритмы и всяческие нюансы, описанные заказчиком
* расчет метрик
* организация данных удобным для анализа образом
* костыли для совсем частных случаев

(Пока не будем трогать всякое машинное обучение и прочий рокет-саенс)

Для решения этих задач используются различные операции:
* объединение данных из разных источников, для обогащения информации
* агрегация
* сегментация
* фильтрация
* вычисления
* "уплощение", т.е. преобразование полей с массивом к множеству строк
* сопоставление (мэппинг)
и другие.

В качестве инструментов используются обычно SQL и/или Python.

Обновление витрин - это операция дополнения их вновь появившимися данными, а также перерасчет имеющихся в случае их изменения.

Частота обновления зависит от требовний к аналитике. Мы вот обновляемся раз в сутки.

Обновление каждой витрины производится одним из способов:
* полный перерасчет и перезапись всей таблицы
* дополнение таблицы новыми строками - возможно, если старые строки точно не должны меняться
* перезапись последних N периодов (например, 30 дней) - когда данные в источнике могут меняться задним числом некоторое время. Например, расходы в рекламных системах могут корректироваться - возвращаются деньги за фрод-клики.

Когда создан запрос, реализующий витрину, необходимо проверить корректность данных. Как это сделать - отдельный большой вопрос, о нем в следующий раз.
👍121
Короче,
рыжий котик - это будет дата-инженер,
белый котик - дата-аналитик,
полосатый - занимается вопросами саморазвития
🥰4
Дайджест №3

Приветствую любителей аналитики!
Перед первыми майскими вспомним-ка, что там у нас было интересного в канале.
Чтобы было что почитать на досуге. Если, конечно, перед вами не стоят такие важные проекты как деплой на дачу или релиз шашлыков.

Прошлые вспоминалки
Дайджест №1
Дайджест №2

Аналитика для бизнеса
Техническое задание на витрину данных
Нюансы сбора данных Часть 1 и Часть 2
Разработка витрин данных

Аналитика для жизни
Напряжение или расслабление?
Три компонента мотивации команды
4👍1👀1
Ну что, коллеги, отдохнули?
Время управлять временем!
🥰2
Вторая маст-хэв книга наряду с "Потоком" Михая - это, конечно, знаменитый "Тайм-драйв" Глеба Архангельского. Если вы её еще не читали, найдите книжку сегодня же (она давно гуляет по интернету). А если читали - перечитайте еще раз и принимайте на вооружение!

Я внедрил в свою жизнь почти все советы из книги и постепенно буду их выдавать.

Первая глава про отдых, а значит, про энергию, а эту тему я раскрою отдельно.

Глава 2. Мотивация: как справляться с неприятными задачами.
Освойте методы настройки на выполнение неприятных мелких дел - "лягушек".

2.1. Используйте якоря для настройки.
Якоря = материальные привязки — музыка, цвета, ритуалы.

2.2. Применяйте метод швейцарского сыра:
выполнить задачу не в логическом порядке, а в произвольном, выгрызая самые приятные кусочки.

2.3. Награждайте себя за выпонение маленьких дел.

2.4. Ежедневно съедайте с утра "лягушку", т.е. выполняйте мелкое неприятное дело, чтобы они не копились.

2.5. Дробите "слонов" на "бифштексы", которые должны реально приближать к выполнению всего "слона". Декомпозиция крупной задачи помогает преодолеть страх перед ней.

PS. Конспекты многих книг уже есть в сети, либо можно попросить их сгенерить ИИ. Но бесплатные знания, к сож., хуже работают, т.к. меньше ценятся. Поэтому я бы порекомендовал конспектировать самостоятельно.

Но главное - внедряйте сразу!
🔥94
Давеча писал о разработке витрин, а оказалось, что эта привычная мне сущность вызывает вопросы у читателей.

На днях опубликовалась моя статья о разработке витрины данных для анализа эффективности рекламных кампаний.

Взято из реальной жизни, поэтому приглашаю заценить: https://vaiti.io/oczenivaem-reklamnye-kampanii-s-pomoshhyu-sql/
🔥9👍3👀2
Отгремели салюты в честь Великой Победы, отзвучали поздравления.
Но сегодня перед нашей страной стоят новые вызовы, к счастью, не такие страшные, как тогда.
И в том числе, в сфере айти, а значит, и дата-аналитики.

Многие вендоры ушли из России, забрав инструменты, на которых строились практически все этапы работы с данными.
Ушел Google с его колоночной СУБД BigQuery и всем Cloud-ом, ушел Amazon c его серверными мощностями, ушел Microsoft с его мощнейшим инструментом визуализации Power BI. Ушли Zapier, OWOX, Amplitude, Tableau и множество других полезных аналитику коммерческих продуктов.

Слава высшим силам, у нас была хоть какая-то своя альтернатива. За три минувших года российский бизнес перестроился на российский и/или опенсорсный стек.
Да, наши технологии во многом отстают от западных, проблем много, но это значит, нам есть чем заняться!

И российский инструментарий развивается, постепенно заполняя резко опустевшие ниши.

Яндекс развивает свои облачные сервисы и выкатывает свой Менеджер тэгов на замену Google Tag Manager, DIS Group представил Платформу по управлению данными IDP, CleverData совершенствует свою Платформу данных клиентов Join.

На конференциях по аналитике стало спокойней: спикеры делятся опытом решения текущих задач: атрибуция каналов, классификация обращений пользователей и т.д.
В 22-м осенью я был на Матемаркетинге, он сильно отличался от 24-го: тогда большинство взоров было направлено на срочную смену архитектуры, многие предлагали свои ещё сырые, но уже рабочие варианты.

Еламе тоже пришлось съехать с западного стека, в чем я принимал живейшее участие.
Мы заменили BigQuery на яндексовый Managed Clickhouse, Google Analytics на Метрику, Google Workspace на Яндекс.Диск, Power BI на Data Lense и поменяли множество других инструментов.

Это было непросто, нервно, но мы выстояли.
Можно воспринимать эту работу по-разному - как борьбу, как возможности развития и интересное поле для самореализации, или вовсе отказаться от неё, отправившись следом за ушедшими поставщиками.

Я никого не оцениваю и вообще почти никогда не смешиваю работу с политикой. Но свой выбор сделал.
🔥136💩3👍1👏1
Продолжим разбирать цикл жизни витрины данных и пришла пора разобраться, как отлаживать/тестировать витрину.

Этот этап занимает не меньше, а то и больше времени, чем разработка, т.к. ценность витрины - не в коде, а в результирующих данных.

Задачу на разработку или доработку витрины, в общем случае можно завершать следующими действиями:

Для проверки доработанной витрины:
* Проверяем ее на дубли подсчетом по уникальному составному ключу до группировки.
* Сравниваем старые поля новой версии с текущей с помощью EXCEPT DISTINCT.
* Новые поля проверяем так же, как при создании новой витрины.

Для проверки вновь создаваемой витрины:
* Проверяем ее на дубли.
* Находим лишние строки, фильтруя конечную витрину по «инвертированным» условиям ТЗ.
* Составляем на основе требований ТЗ примеры исходных данных и ожидаемых результатов для них — и убеждаемся, что запрос верно обрабатывает все варианты.

Читайте подробнее в моей статейке.
🔥10
И вновь приветствую, любители аналитики!

Я тут немного уходил по уши в ремонт, потом болел, поэтому на время пропал с радаров. Не обессудьте!
Но нынче наконец отпуск, надеюсь наверстать.

И возвращаюсь к темам о стрессе, напрягах и выгорании, которые для многих даже более актуальны, чем недостаток энергии (а зачастую, являются причинами этого недостатка).

Давно заметил за собой, что зациклен на результате.
Плохо это или хорошо? Ведь в каждом втором резюме или вакансии встречается фраза "ориентированность на результат", значит, это благодетель?
Вот какие заметки я нашел в своих анналах.

>> 2016-06-25
По мне, работа, сделанная на 90% - не сделанная работа. Ведь результат – законченная на 100% работа, и только она приносит мне удовлетворение.

Чем это плохо?
- Я постоянно недоволен и это заметно. Недовольство угнетает или напрягает окружающих.
- Это понижает самооценку
- Это отнимает силы, вдохновение, конструктивный настрой, снижает продуктивность
- Это может зацикливать на одной задаче.

Чем это хорошо?
+ Помогает доводить начатое до конца
+ Самокритичен, добиваюсь приемлемого качества.

Как нивелировать плохое?

1) Давать себе больше времени на решение задачи. Если не решается – отложить.

Почему я не даю себе времени?
* Осудят окружающие?
Решение: Объяснять, что задача потребует больше ресурсов. Я и так много сделал, больше чем другой бы.
* Хочется поскорее освободить себя от этого дела и перейти к более интересному.
Решение: по-возможности отложить дело, пока не восстановится готовность им заниматься.

2) Научиться радоваться промежуточным результатам. И других убеждать в ценности промежуточных результатов.

Что мешает?
* Страх, что дело не сдвинется дальше: не хватит сил, времени, способностей.
На чем он основан? Опыт фейлов запоминается лучше, чем опыт успехов. Гораздо лучше.

>> конец цитаты

Даже такой не очень глубокий самоанализ в блокноте помогает снизить свой стресс, взять себя в руки, принять решение, а также изменить своё поведение так, чтобы не вредить себе, а становиться продуктивнее и счастливее.
👍62
Заходите сегодня, коллеги! Пообщаемся о том, как у нас готовят данные
Forwarded from Simulative
📎 Витрины данных: как аналитики превращают сырые данные в удобные таблицы

Ребята, мы решили продолжать традицию контентных стримов без регистрации и смс.

Сегодня в 18:30 по МСК нас вновь навестит Павел Беляев — руководитель группы дата-аналитиков в компании Яндекс eLama и автор телеграм-канала «Тимлидское об аналитике».

💡 О чём поговорим?

Витрина данных — готовая таблица для анализа, где всё очищено, структурировано и подогнано под задачи. Но за кажущейся простотой скрывается целая жизнь: от рождения до «пенсии».

Разберём все этапы:

1️⃣ Выявление потребности и ТЗ
2️⃣ Сбор данных (иногда — охота за недостающими)
3️⃣ Разработка скрипта/запроса
4️⃣ Отладка и тестирование
5️⃣ Внедрение и использование
6️⃣ Доработки (куда без них?)
7️⃣ «Уход на покой» — когда витрина теряет актуальность

Павел поделится личным опытом, лайфхаками и подводными камнями, через которые прошёл сам и его команда.

💬 Будет много практики, примеров и ответов на ваши вопросы.

❗️Не пропустите! Ссылку на подключение к трансляции мы пришлем за 1 час до её начала.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍93❤‍🔥1🤝1
Приветствую любителей аналитики!

Если следовать дальше по жизненному циклу витрины данных, то придем к шагу визуализации витрины.
Этой задачей занимаются BI-аналитики (сокращение от Business Intelligence, если что).
Я не застремался и взял интервью у нашего биайщика - Алины.

Получилось живенько, зацените!

https://vkvideo.ru/video897309_456239035

PS. Если вам зайдет, буду интервьюировать и других интересных специалистов.
10🔥7👍3
Кто пропустил стрим про витрины , ловите запись!
Forwarded from Simulative
❗️ Делимся записью эфира: 7 этапов создания витрин данных

Недавно мы в прямом эфире разбирали 7 этапов создания витрин данных — от сбора сырой информации до «пенсии» устаревших таблиц. Если пропустили — ловите запись:

Смотрите там, где удобно:
VK Video
YouTube

Павел Беляев (тимлид дата-аналитиков в Яндекс eLama) рассказал, с какими подводными камнями сталкивается команда, как правильно ставить ТЗ и почему даже идеальная витрина однажды устаревает.

А теперь важное 👇


Если после эфира вы подумали:
💭 «Хочу так же уверенно разбираться в данных»
💭 «Как бы потренироваться на реальных задачах?»

— у нас как раз стартовали два курса-симулятора, где вы сможете прокачать навыки в безопасной среде, но на реальных кейсах:

🟠 «Инженер данных» — учитесь строить надежные пайплайны и витрины.
🟠 «Fullstack-аналитик» — осваиваете и анализ, и инженерию, чтобы закрывать задачи комплексно.

Если сомневаетесь, какой курс выбрать, — пишите, поможем определиться! Главное — начать!

➡️ Узнать больше о курсах
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6
Энергетический дневник

Приветствую, любители аналитики!

Расскажу-ка я вам о своей личной методике самоанализа с целью повышения своей эффективности.
Она подкинула мне системные инсайты и дала важнейший инструмент для работы наряду с состоянием потока Михая и тайм-менеджментом Архангельского.
Собственно, эту троицу я рекомендую как базовую для максимально продуктивной жизни.


У меня было чертовски мало ресурсов и офигеть как много планов и задач.
Меня бесило, что я ничего не успеваю по своим личным проектам.

Я решил основательно разобраться в ситуации и вот какую методику использовал.

1. Поставил вопросы:
а) какого чёрта?
б) можно ли втиснуть больше дел в свой график?

2. Выбрал метод сбора данных:
Дневник самонаблюдения.
Длительность наблюдения: 4-6 недель
Частота фиксации наблюдений: ежедневно
Собираемые данные: а вот тут остановимся подробней.

Я разбил дни на слоты, в которые у меня есть время на свои дела.

По будням:
1) утро по дороге на работу (это было в доковидные времена) - предположительно 0.6 часа чистыми
2) обед - 0.5 часа чистыми, т.е., после вычитания времени на жор
3) дорога домой - 0.6 ч.
4) вечер дома - 1.5 ч.

По выходным слоты составляют 2-3 часа:
1) утро до завтрака
2) день до обеда (этот слот я позже разделил на два)
3) от обеда до ужина (и этот)
4) вечер

Измеряем две метрики:
Уровень физической энергии (Ф), то есть физических, телесных сил на данный момент
Уровень умственной энергии (У), то есть способность работать головой: связно продуктивно мыслить, решать интеллектуальные задачи, анализировать, планировать, креативить и т.д.

Шкала измерений очень простая - целые числа от 1 до 3
То есть, прислушиваемся к себе и проставляем оценку, например: У2Ф2, что означает примерно "Умственная энергия средняя, Физическая - тоже средняя".

3. Собственно собрал данные.
Рисуем табличку на неделю, где в столбцах будет:
* Умственная энергия
* Физическая энергия
* время в часах,
а в строках - временные слоты.
На пересечении фиксируем соответствующие значения. Получается что-то такое.

Пока достаточно, а в другой раз расскажу, чем еще обогатить самоисследование и как использовать результаты для повышения своей продуктивности.
🔥101
Приветствую, любители аналитики!

Продолжим разговор о жизненном цикле витрин данных и сегодня расскажу, как у нас построен процесс релиза витрин, их выкатывания.

Напомню, что у нас
Витрина данных = представление (view) + кэш-таблица (table), записанная с него.

Кэш-таблицы может и не быть, если представление отрабатывает мгновенно или очень быстро.

Релиз происходит, конечно, уже после проверки витрины, то есть ревьюер и заказчик - удовлетворены результатом.

Вот шаги процесса релиза:

1. Занести метаданные витрины. То есть, описание самой таблицы и вьи, а также описание каждого поля. Мы заносим метаданные в электронную табличку, из которой специальный даг Airflow регулярно пишет их в Clickhouse, где и живут витрины.

2. Мержнуть код представления и DDL-запрос создания кэш-таблицы. Мы используем репозиторий gitLab для хранения всех наших вьей и следим, чтобы в продовском хранилище всегда была последняя версия мастер-ветки. Мы даже запилили механизм CI/CD, который при мерже автоматически пишет вью в Кликхаус (об этом, авось, как-нибудь отдельно).

3. Поставить витрину на обновление. Как и метаданные, витрины, подлежащие обновлению, перечислены в особой электронной таблице, по которой проходится даг обновления.

4. Поставить на мониторинг качества данных. При необходимости, можно указать дагу проверки качества данных, что для этой витрины требуется проверять выполнение таких-то условий (консистентность и/или количество строк).

5. Сообщить коллегам о готовности. Да, по-хорошему, о появлении новой витрины стоит написать хотя бы в канал команды в корпоративном мессенджере, чтобы все порадовались.

Вот теперь витриной можно пользоваться.
👍6🐳2
Дайджест №4

Приветствую любителей аналитики!

Давненько мы не обозревали, что вышло интересного в Тимлидском за последнее время.
Кстати, каналу исполнилось уже 3 месяца, хлоп-хлоп-хлоп!

Прошлые вспоминалки
Дайджест №1
Дайджест №2
Дайджест №3

Аналитика для бизнеса
* Витрина для анализа эффективности рекламных кампаний
* Как можно тестировать витрину данных
* Эксклюзивное интервью с BI-аналитиком Яндекс.eLama
* Процесс релиза витрин данных

Аналитика для жизни
* Тайм-драйв Глеба Архангельского. Мотивация: как справляться с неприятными задачами.
* Зацикленность на результате?
* Энергетический дневник для анализа своих сил
🔥10
Коллеги, завтра буду рассказывать о чертовски важной штуке - о Качестве данных.
Приходите на вебинар, регайтесь!
И готовьте вопросы, вдруг смогу ответить!
24 июня в 18.30
👍8
Энергетический дневник 2

Приветствую любителей аналитики!

Недавно я описывал чертовски полезный способ самоанализа - энергетический дневник.
Мы договорились фиксировать время, а также уровень физической и умственной энергии.

Эти метрики можно дополнить флагами, показывающими наличие у вас в данном временном слоте:
* Интернета (И)
* Стола (П)
* Непрерывности времени, когда точно никто не отвлечёт (Т)
* Компьютера (К)
* любых других инструментов и условий, необходимых вам для работы по своим делам (например - Вдохновение. Почему бы нет?).

Обогащенный дневник может выглядеть как-то так.

Эти данные пригодятся вам при анализе своих возможностей.
Ведь для разных видов работ нужны соответствующие условия, а не только лишь время (которое, худо-бедно, имеют ввиду все) или энергия (о которой большинство слышали, хотя в расчет мало кто принимает).

Например, если вы бодры и свежи, у вас час времени, но отсутствует интернет, вам не удастся собрать из него какие-то сведения для проекта.

Или, если у вас с собой ноут, вы едете из Рыбацкого на Беговую в метро, где есть и вай-фай и сиденье, да еще и не дозвонится до вас никто, то у вас есть почти час для полноценной работы. Кайф! (Лично я обожаю работать в метро, я даже написал так книгу)

Наконец, можно добавить опциональный столбец с комментарием, где словесно кратко описывать свое состояние, поясняющее значения метрик.
Например:
У:2 Ф:3 Комментарий: выспался
У:1 Ф:1 Комментарий: болел после вчерашней пьянки...

Такие комменты помогут разобраться, что именно повышает, а что снижает вашу энергию и попытаться эти факторы усилить или избегать соответственно.
👍11👏2🔥1
Проверка нужности витрины данных

Приветствую, любители аналитики!

Сегодня повествую о последнем шаге Жизненного цикла витрин данных, который часто незаслуженно забывается.

Витрины рождаются, приносят пользу, а затем перестают приносить пользу, после чего должны быть похоронены выведены из эксплуатации.

Почему? Так ведь поддержка витрины требует времени и нервов дата-специалистов.
Вам интересно заниматься делами, которые никому не нужны? А компании интересно за это вам платить?

Поэтому все витрины следует постоянно проверять на предмет их полезности для общества. Их смотрят? Их данные приносят пользу, отражают актуальные аспекты ситуации или процессов? Они ещё нужны?

Вручную такой мониторинг весьма заморочно осуществлять. Опросы конечных пользователей отвлекают их от работы, занимают время аналитика и, к тому же, дают не очень-то надежную информацию. Пользователи не фиксируют, когда в последний раз глядели конкретный отчет, а некоторые отчеты, которые им вообще не нужны, они хотят оставить "на всякий случай" (который, скорее всего, и не наступит).

В общем, лучше процесс автоматизировать. Лично я - вообще приверженец "агрессивной" автоматизации, ибо мы создали машины, чтобы они работали на нас, а не наоборот.

Для этого в большинстве СУБД есть лог запросов. Проверяем его и видим, к каким витринам когда в последний раз обращались.

Читайте мою статейку, где я описываю, как это сделано у нас. Там и код запроса есть.
🔥7🤨1
Коллеги, заглядывайте. Кое-что расскажу о нашей дата-аналитической работе
👍4