data будни
Разделить команду на инфраструктуру и продукт Команда инфраструктуры: ⁃ Разработчики с широким кругозором ⁃ Найм небольшой Люди, которые не приносят пользу (и выручку!) бизнесу напрямую — по сути, это такой «налог на инфраструктуру». Команда развития…
[ЧЕРЕЗ ПОЛГОДА] Команда инфраструктуры приносит работающий продукт:
⁃ Понятно, какие СУБД нужны
⁃ Какие бывают «стрелочки» между ними
⁃ Как раскладывать данные на слои
<<< здесь пригождается план перехода с текущей архитектуры на целевую (только что ↑ придуманную)
Как отрефакторить большой DWH? Разделить на небольшие кусочки!
Как монолит делят на микросервисы, так и хранилище данных можно разделить на свои етл-сервисы. Каждый по отдельности проще отрефакторить, чем всё и сразу (и потом ещё удобно стыдить другие сервисы за их отсталость!).
Ещё в каждом етл-сервисе свои релизы — можно тестить новые фичи независимо от других сервисов.
[ЕЩЁ ЧЕРЕЗ ГОД] Изменения в команде
Команда инфраструктуры:
⁃ Целевая картина появилась и работает
⁃ Разработчики узко специализированы
Команда продукта:
⁃ Выросла в 2 раза
⁃ Переписали самое болезненное легаси
⁃ Собрали «низкие фрукты»
⁃ Наладился контакт с бизнес-заказчиками
Следующие цели:
⁃ Ускорять работу продукта
⁃ Переходим на работу по эпикам
⁃ В каждый эпик подмешиваем рафакторинг
Видео с доклада на Youtube | Презентация на сайте конференции
⁃ Понятно, какие СУБД нужны
⁃ Какие бывают «стрелочки» между ними
⁃ Как раскладывать данные на слои
<<< здесь пригождается план перехода с текущей архитектуры на целевую (только что ↑ придуманную)
Как отрефакторить большой DWH? Разделить на небольшие кусочки!
Как монолит делят на микросервисы, так и хранилище данных можно разделить на свои етл-сервисы. Каждый по отдельности проще отрефакторить, чем всё и сразу (и потом ещё удобно стыдить другие сервисы за их отсталость!).
Ещё в каждом етл-сервисе свои релизы — можно тестить новые фичи независимо от других сервисов.
[ЕЩЁ ЧЕРЕЗ ГОД] Изменения в команде
Команда инфраструктуры:
⁃ Целевая картина появилась и работает
⁃ Разработчики узко специализированы
Команда продукта:
⁃ Выросла в 2 раза
⁃ Переписали самое болезненное легаси
⁃ Собрали «низкие фрукты»
⁃ Наладился контакт с бизнес-заказчиками
Следующие цели:
⁃ Ускорять работу продукта
⁃ Переходим на работу по эпикам
⁃ В каждый эпик подмешиваем рафакторинг
Видео с доклада на Youtube | Презентация на сайте конференции
YouTube
Длительный рефакторинг в большом проекте / Федор Лаврентьев (Яндекс.Go)
Приглашаем на конференцию Saint HighLoad++ 2025, которая пройдет 23 и 24 июня в Санкт-Петербурге!
Программа, подробности и билеты по ссылке: https://highload.ru/spb/2025
________
HighLoad++ Весна 2021
Крупнейшая профессиональная конференция для разработчиков…
Программа, подробности и билеты по ссылке: https://highload.ru/spb/2025
________
HighLoad++ Весна 2021
Крупнейшая профессиональная конференция для разработчиков…
data будни
Иду на Матемаркетинг 18-19 ноября Конференция пройдёт в Москве со всеми анти-ковидными мерами. В этот раз будет отдельный трек по Analytics Engineering, в основном иду послушать доклады оттуда. Вот какие темы мне интересны: селф-сервис данных всё больше…
прямо сейчас идёт конференция Матемаркетинг — на сайте есть трансляция одного трека (из трёх доступных).
Уже был мега-полезный доклад от Влада Флакса про общие концепции как сделать данные на бещбордах актуальными
И новый бомбический доклад Ромы Бунина (лучше, чем новый фильм Марвел!) — ещё один взгляд под капот архитектуры дашбордов на примере Яндекс GO.
https://youtu.be/BowbeThqKmU
(идёт трансляция, поэтому не даёт дать ссылку на конкретный таймкоды — Флакс был в начале, Бунин примерно на 1:15 от начала)
П.С.: я сейчас здесь, на выставке — если что, давайте встречаться :-)
Уже был мега-полезный доклад от Влада Флакса про общие концепции как сделать данные на бещбордах актуальными
И новый бомбический доклад Ромы Бунина (лучше, чем новый фильм Марвел!) — ещё один взгляд под капот архитектуры дашбордов на примере Яндекс GO.
https://youtu.be/BowbeThqKmU
(идёт трансляция, поэтому не даёт дать ссылку на конкретный таймкоды — Флакс был в начале, Бунин примерно на 1:15 от начала)
П.С.: я сейчас здесь, на выставке — если что, давайте встречаться :-)
Что болит
Общее впечатление что все хотят в data driven. Уже никого не надо убеждать в ценности данных — этот этап пройден.
Теперь следующая проблема — данные собрали, пайплайны настроили, первые дашборды нарисовали. Постепенно данных становится всё больше: добавляются новые, старые — меняются. И в какой-то момент наступает ДАТА-ХАОС!
И вот сейчас основные боли — это документация и описанные модели данных.
⁃ Таблицы на десятки и сотни колонок без описания и странными названиями
⁃ Таблиц по заказам — пять разных вариантов (плюс ещё сколько-то вьюх по ним)
⁃ Эвенты, названные абы как
⁃ Метрики, которые каждый рассчитывает по-своему и в конце ни у кого ничего не сходится ¯\_(ツ)_/¯
Короче, тренд сезона — дата-инфраструктура.
Общее впечатление что все хотят в data driven. Уже никого не надо убеждать в ценности данных — этот этап пройден.
Теперь следующая проблема — данные собрали, пайплайны настроили, первые дашборды нарисовали. Постепенно данных становится всё больше: добавляются новые, старые — меняются. И в какой-то момент наступает ДАТА-ХАОС!
И вот сейчас основные боли — это документация и описанные модели данных.
⁃ Таблицы на десятки и сотни колонок без описания и странными названиями
⁃ Таблиц по заказам — пять разных вариантов (плюс ещё сколько-то вьюх по ним)
⁃ Эвенты, названные абы как
⁃ Метрики, которые каждый рассчитывает по-своему и в конце ни у кого ничего не сходится ¯\_(ツ)_/¯
Короче, тренд сезона — дата-инфраструктура.
Документация на данные
Принцип «всё как код» — и таблицы тоже.
Частая проблема в документации — её просто нет ¯\_(ツ)_/¯ а если есть, то она устаревшая.
Так бывает, когда документация не зависит от текущей реальности: красивые описания живут в модном Ноушене, но DDL в Postgres ничего про это не знает))
Что делать? Переселить документацию ближе к реальности. В Яндекс.Такси решили, что все сущности в ДВХ будут описываться в коде — названия, колонки, их тип и комментарии (!). Нельзя просто так поменять атрибут без изменения документации — всё связано.
А раз описания уже в коде, это всё версионируется через гит с указанием ответственных. К тому же всё можно обвешать автотестами (всё как у настоящих разработчиков!): назвал колонку не по канону — не сможешь замержить свой пулл-реквест, пока не исправишь.
А ещё пулл-реквесты удобно ревьюить. Скинул ссылку старшему коллеге и он в одном месте видит все изменения, аккуратно подсвеченные. Если что не так — комментит нужную строку.
Принцип «всё как код» — и таблицы тоже.
Частая проблема в документации — её просто нет ¯\_(ツ)_/¯ а если есть, то она устаревшая.
Так бывает, когда документация не зависит от текущей реальности: красивые описания живут в модном Ноушене, но DDL в Postgres ничего про это не знает))
Что делать? Переселить документацию ближе к реальности. В Яндекс.Такси решили, что все сущности в ДВХ будут описываться в коде — названия, колонки, их тип и комментарии (!). Нельзя просто так поменять атрибут без изменения документации — всё связано.
А раз описания уже в коде, это всё версионируется через гит с указанием ответственных. К тому же всё можно обвешать автотестами (всё как у настоящих разработчиков!): назвал колонку не по канону — не сможешь замержить свой пулл-реквест, пока не исправишь.
А ещё пулл-реквесты удобно ревьюить. Скинул ссылку старшему коллеге и он в одном месте видит все изменения, аккуратно подсвеченные. Если что не так — комментит нужную строку.
ламповые объявления о работе с Матемаркетинга
кажется, это не попало в официальные трансляции) выложу сюда часть, чтобы добро не продпало
кажется, это не попало в официальные трансляции) выложу сюда часть, чтобы добро не продпало
data будни
Что болит Общее впечатление что все хотят в data driven. Уже никого не надо убеждать в ценности данных — этот этап пройден. Теперь следующая проблема — данные собрали, пайплайны настроили, первые дашборды нарисовали. Постепенно данных становится всё больше:…
Стас добавил ещё два пункта по текущие проблемы. Про селф-сервис полностью согласен — в идеале данные должны быть легко доступны (а значит, правильно подготовлены и полно описаны!).
Про запрет трекинга много пишут, но сам я близко никогда не сталкивался с последствиями. подозреваю, что какими-то дата инженерам приходится больше и хитрее джойнить айдишники юзеров из разных источников (кажется, виртуальный паспорт по цифровым следам это оттуда)
Про запрет трекинга много пишут, но сам я близко никогда не сталкивался с последствиями. подозреваю, что какими-то дата инженерам приходится больше и хитрее джойнить айдишники юзеров из разных источников (кажется, виртуальный паспорт по цифровым следам это оттуда)
Forwarded from Я у мамы аналитик (Stas Valuev)
Мне близок Сашин взгляд на то, что болит у аналитиков - обобщил бы это как "борьба за качество данных".
Я тоже походил по Матемаркетингу, пообщался с людьми, доклады послушал.
К перечисленному в посте могу добавить 2 больших блока болей:
🔸Демократизация данных и self-service BI. Аналитики все чаще становятся бутылочным горлышком в процессе принятия решений и больше времени тратят в роли интерфейса к базе данных для своих коллег. Решают ее все по-разному, в основном с помощью новых процессов, open-source инструментов или самостоятельной разработки.
🔸Работа аналитиков в маркетинге сильно меняется из-за новых privacy-политик от Apple и Google и возможности запрета трекинга. Способы дальше работать есть, но со стороны выглядят как костыли. Я в этом, честно говоря, не разбираюсь и был сильно удивлен масштабом бедствия.
P.S. был безумно рад всех увидеть в оффлайне и познакомитсья с кучей клевых ребят!
#конференции
Я тоже походил по Матемаркетингу, пообщался с людьми, доклады послушал.
К перечисленному в посте могу добавить 2 больших блока болей:
🔸Демократизация данных и self-service BI. Аналитики все чаще становятся бутылочным горлышком в процессе принятия решений и больше времени тратят в роли интерфейса к базе данных для своих коллег. Решают ее все по-разному, в основном с помощью новых процессов, open-source инструментов или самостоятельной разработки.
🔸Работа аналитиков в маркетинге сильно меняется из-за новых privacy-политик от Apple и Google и возможности запрета трекинга. Способы дальше работать есть, но со стороны выглядят как костыли. Я в этом, честно говоря, не разбираюсь и был сильно удивлен масштабом бедствия.
P.S. был безумно рад всех увидеть в оффлайне и познакомитсья с кучей клевых ребят!
#конференции
Telegram
data будни
работаю инженером данных и пишу в основном про это.
Профильные ссылки с коротким резюме (статьи, доклады, подкасты), иногда «софтовое» — например, про поиск работы.
Профильные ссылки с коротким резюме (статьи, доклады, подкасты), иногда «софтовое» — например, про поиск работы.
Forwarded from 🔋 Труба данных
Как в Википедии, ты тыкаешь на одну ссылку почитать, и все, через 3 часа ты читаешь про то, как разводить кабачки в условиях болтной местности.
Так и я продолжил читать статьи Maxime Beauchemin и наткнулся на свежую How the Modern Data Stack is Reshaping Data Engineering
Вообще, выражение Modern Data Stack это уже баззворд, пихают его везде. Чаще этой фразы я слышу только “Hadoop умер” (нормально он себе живет относительно нишево, ничего он не умер, как и Ruby, не слушайте шарлатанов).
Так вот, основные моменты из статьи
Data infrastructure as a service
Нам пора думать о платформах, потому что без развития платформы, невозможно расти дальше определенного этапа, слишком больно.
Data integration services
Готовые решения по интеграции данных будут заменять постепенно скриптики, которые мы написали для REST API
Mountains of Templated SQL and YAML
Были полотна YAML шаблонов, теперь и полотна SQL. Программисты не любят SQL, говорят про инъекции, грязный код и вот это все, но количество аналитиков всех мастей растет, а для них SQL основной инструмент
ELT > ETL и Reverse ETL
Данные в хранилище мы научились поставлять. А теперь бы нормально научиться отдавать в наши системы.
The rise of the analytics engineer
Ага, DataOps это вот сюда тоже.
Ну и еще несколько пунктов. Сходите почитать, полезное чтиво.
P.S. на картинках можно заметить, что почти во всех пайплайнах есть DBT. 😄
P.S.S. Если лень читать, можно послушать на английском языке его доклад на эту тему https://www.youtube.com/watch?v=EKhYGYrq0eI
Так и я продолжил читать статьи Maxime Beauchemin и наткнулся на свежую How the Modern Data Stack is Reshaping Data Engineering
Вообще, выражение Modern Data Stack это уже баззворд, пихают его везде. Чаще этой фразы я слышу только “Hadoop умер” (нормально он себе живет относительно нишево, ничего он не умер, как и Ruby, не слушайте шарлатанов).
Так вот, основные моменты из статьи
Data infrastructure as a service
Нам пора думать о платформах, потому что без развития платформы, невозможно расти дальше определенного этапа, слишком больно.
Data integration services
Готовые решения по интеграции данных будут заменять постепенно скриптики, которые мы написали для REST API
Mountains of Templated SQL and YAML
Были полотна YAML шаблонов, теперь и полотна SQL. Программисты не любят SQL, говорят про инъекции, грязный код и вот это все, но количество аналитиков всех мастей растет, а для них SQL основной инструмент
ELT > ETL и Reverse ETL
Данные в хранилище мы научились поставлять. А теперь бы нормально научиться отдавать в наши системы.
The rise of the analytics engineer
Ага, DataOps это вот сюда тоже.
Ну и еще несколько пунктов. Сходите почитать, полезное чтиво.
P.S. на картинках можно заметить, что почти во всех пайплайнах есть DBT. 😄
P.S.S. Если лень читать, можно послушать на английском языке его доклад на эту тему https://www.youtube.com/watch?v=EKhYGYrq0eI
Конференции — это про людей
Записавшись на Матемаркетинг, я всё переживал, что это не тру-дата-инженерская конфа. Доклады и темы тут ближе к бизнесу, чем к хардкор-инжинирингу. Но после немного расслабился — всё-таки дело не только в докладах.
Доклады всегда можно будет посмотреть в записи. А раз уж собрались такие релевантные и небезразличные люди в одном месте, то надо успеть познакомиться и обсудить у кого что наболело.
В общем, пришёл к выводу, что идеальная конфа — это когда ты всё время на ногах и с кем-то общаешься (привет, Маш! Научи меня так :-)
Рад был всех увидеть, познакомиться и поболтать! Паша, Лёша, Дима, Маша, Стас, Юля, Наташа, Рома и Маша 👋
Было интересно узнать у Николая Валиотти, как они успевают делать столько крутых проектов и при этом ещё и работать! (Кажется, мы сходимся в отношении относительно таких конференций https://news.1rj.ru/str/leftjoin/476)
А с Николаем Головым удалось поговорить про то как они в Manychat управляются с множеством сущностей в анкор модели.
П.С.: В следующем сезоне постараюсь попасть на что-нибудь из тру-де списка Семёна Осипова:
https://news.1rj.ru/str/ohmydataengineer/158
Записавшись на Матемаркетинг, я всё переживал, что это не тру-дата-инженерская конфа. Доклады и темы тут ближе к бизнесу, чем к хардкор-инжинирингу. Но после немного расслабился — всё-таки дело не только в докладах.
Доклады всегда можно будет посмотреть в записи. А раз уж собрались такие релевантные и небезразличные люди в одном месте, то надо успеть познакомиться и обсудить у кого что наболело.
В общем, пришёл к выводу, что идеальная конфа — это когда ты всё время на ногах и с кем-то общаешься (привет, Маш! Научи меня так :-)
Рад был всех увидеть, познакомиться и поболтать! Паша, Лёша, Дима, Маша, Стас, Юля, Наташа, Рома и Маша 👋
Было интересно узнать у Николая Валиотти, как они успевают делать столько крутых проектов и при этом ещё и работать! (Кажется, мы сходимся в отношении относительно таких конференций https://news.1rj.ru/str/leftjoin/476)
А с Николаем Головым удалось поговорить про то как они в Manychat управляются с множеством сущностей в анкор модели.
П.С.: В следующем сезоне постараюсь попасть на что-нибудь из тру-де списка Семёна Осипова:
https://news.1rj.ru/str/ohmydataengineer/158
Telegram
LEFT JOIN
Про Матемаркетинг
После посещения Матемаркетинга я, конечно же, хотел поделиться своими впечатлениями с вами. Во-первых, ММ – это очень масштабно. Когда огромная толпа экспертов и профессионалов собираются на пару дней вместе, это вдохновляет и придает сил…
После посещения Матемаркетинга я, конечно же, хотел поделиться своими впечатлениями с вами. Во-первых, ММ – это очень масштабно. Когда огромная толпа экспертов и профессионалов собираются на пару дней вместе, это вдохновляет и придает сил…
Weekend Offer — …
Anonymous Poll
4%
знаю, проходил такое
0%
знаю, делали такое
65%
слышал, но не более
31%
не слышал ¯\_(ツ)_/¯
Weekend Offer?
Вижу стало много появляться таких движух от разных компаний: Яндекс, Авито, Х5. Раз их становится всё больше, кажется, это работает (если только не все не карго-култ-повторюши). Хочу понять, насколько это хорошо работает.
Типа сразу за выходные проходишь 2-4 собеса с разными чуваками из компании? И профит в том, процедура не растягивается на недели? (Плюс и выходной ещё — не надо отпрашиваться с текущей работы, хе-хе)
Если вы участвовали в подобном, напишите как прошло?
Для компании вроде тоже неплохо: сразу собрал всех собеседующих в одном месте и устроил им конвейер собеседований. Загрузил всех однотипной работой — норм батчинг.
Вдруг вы проводили такое, расскажите тоже)
(А если вы знаете кого-то, кто проходил или проводил — присылайте их в комментарии ↓)
Вижу стало много появляться таких движух от разных компаний: Яндекс, Авито, Х5. Раз их становится всё больше, кажется, это работает (если только не все не карго-култ-повторюши). Хочу понять, насколько это хорошо работает.
Типа сразу за выходные проходишь 2-4 собеса с разными чуваками из компании? И профит в том, процедура не растягивается на недели? (Плюс и выходной ещё — не надо отпрашиваться с текущей работы, хе-хе)
Если вы участвовали в подобном, напишите как прошло?
Для компании вроде тоже неплохо: сразу собрал всех собеседующих в одном месте и устроил им конвейер собеседований. Загрузил всех однотипной работой — норм батчинг.
Вдруг вы проводили такое, расскажите тоже)
(А если вы знаете кого-то, кто проходил или проводил — присылайте их в комментарии ↓)
Интернет — полезная штука, там можно найти всё что угодно.
Проблема в том, что это всё похоже на быстро движущийся конвейер: не успеваешь прочитать одну статью, как прилетают ещё три новых. Любой контент утопает в потоке нового.
Хочу подсветить пару годных штук на этом бесконечном конвейере (на конфе как раз спрашивали):
Как стать Data Engineer от Адиля Хаштамова
https://khashtamov.com/ru/data-engineer/
Годная заметка с обзором набора технологий и навыков для инженера данных:
⁃ SQL
⁃ Python
⁃ Основы BI
⁃ Облака
⁃ Алгоритмы и структуры данных
⁃ Распределённые системы
Если достаточно погрузиться в каждую из этих областей, то там уже бац! — и миддл.
Видео от проекта DataLearn Дмитрия Аношина и его команды
https://www.youtube.com/channel/UCWki7GBUE5lDMJCbn4e1XMg/playlists
Дмитрий потихоньку записывает свой «видео-учебник» DE-101 по дата инжинирингу: постепенно разбирает тему за темой. Удобно, что есть общая линия, то есть все нужные темы разберут.
Ещё манера повествования привлекает своей ориентацией на практику: у Дмитрия большой опыт в разных места и он рассказывает то, чем на самом деле занимаются инженеры данных (а не то, что написано в умных книгах).
Плюс про реальные кейсы часто приходят рассказать крутаны с рынка: Роман Бунин, Николай Голов, Роман Зыкина, Евгений Кудашёв и другие. Получается отдельный трек с прокладными вебинарами (типа лекции и семинары)).
Если есть что-нибудь, что вам сильно помогло на пути дата инженерии или аналитики, поделитесь, пожалуйста :-) можно @sashamikhailov или в комменты ↓
Проблема в том, что это всё похоже на быстро движущийся конвейер: не успеваешь прочитать одну статью, как прилетают ещё три новых. Любой контент утопает в потоке нового.
Хочу подсветить пару годных штук на этом бесконечном конвейере (на конфе как раз спрашивали):
Как стать Data Engineer от Адиля Хаштамова
https://khashtamov.com/ru/data-engineer/
Годная заметка с обзором набора технологий и навыков для инженера данных:
⁃ SQL
⁃ Python
⁃ Основы BI
⁃ Облака
⁃ Алгоритмы и структуры данных
⁃ Распределённые системы
Если достаточно погрузиться в каждую из этих областей, то там уже бац! — и миддл.
Видео от проекта DataLearn Дмитрия Аношина и его команды
https://www.youtube.com/channel/UCWki7GBUE5lDMJCbn4e1XMg/playlists
Дмитрий потихоньку записывает свой «видео-учебник» DE-101 по дата инжинирингу: постепенно разбирает тему за темой. Удобно, что есть общая линия, то есть все нужные темы разберут.
Ещё манера повествования привлекает своей ориентацией на практику: у Дмитрия большой опыт в разных места и он рассказывает то, чем на самом деле занимаются инженеры данных (а не то, что написано в умных книгах).
Плюс про реальные кейсы часто приходят рассказать крутаны с рынка: Роман Бунин, Николай Голов, Роман Зыкина, Евгений Кудашёв и другие. Получается отдельный трек с прокладными вебинарами (типа лекции и семинары)).
Если есть что-нибудь, что вам сильно помогло на пути дата инженерии или аналитики, поделитесь, пожалуйста :-) можно @sashamikhailov или в комменты ↓
Khashtamov
Как стать Data Engineer
Сейчас специализация в области data engineering активно набирает обороты. Судя по отчёту компании hired.com, спрос на data engineer специалистов вырос на 38%, и рост продолжится. Средняя зарплата у D…