Дата-инженерские заметки – Telegram
Дата-инженерские заметки
1.47K subscribers
70 photos
18 videos
7 files
55 links
Пытаюсь выжить в корпоративных реалиях, делюсь вопросами с дата-инженерских собеседований и ссылочками для подготовки к ним

Написать мне: @aylin_gee
Download Telegram
причиной эмоционального дна оказался низкий ферритин и нехватка тусовок

лечилась в Москве и Нижнем Новгороде

завтра снова рабство по расписанию
2676🏆4
This media is not supported in your browser
VIEW IN TELEGRAM
как меняется зп Безоса и обычного работяги в реальном времени

за этот разговор Безос заработал месячную зп сеньора де из России
93😁1
SQL собес в Яндекс (была еще одна задачка - не сохранилась)

-- Дана таблица tbl со следующими данными

-- id
-- ----
-- 1
-- 2
-- 3
-- 4
-- 5
-- NULL
-- NULL

-- Что выведет каждый из запросов:

-- select ... from tbl

-- 1. count(*) =
-- 2. count(1) =
-- 3. count(id) =
-- 4. count(null) =
-- 5. min(id) =
-- 6. max(id) =
-- 7. sum(id) =
-- 8. avg(id) =


-- Есть две таблицы:
-- * groups (group_id, action_type) - группы
-- * communications (user_id, group_id, status) - отправки коммуникаций

-- При этом:
-- * action_type может быть "push" и "banner"
-- * status может быть "success" и "error"

-- Вопросы:
-- 1. Сколько групп с отправкой типа push?
-- 2. Сколько пользователей и в каких группах не получили коммуникации из-за ошибки?
-- 3. Вывести на экран тип отправок (push или banner), по которому было больше всего успешных отправок и число успешных отправок


-- Таблица issues - обращения в поддержку
-- * issue_id - идентификатор обращения
-- * created_dt - дата создания обращения
-- * tariff_name - тариф поддержки (free/paid)
-- * service_name - тема обращения (console/datalens/billing/etc.)
-- * first_response_sec - время от создания обращения до первого ответа в секундах
-- * last_response_sec - время от создания обращения до последнего ответа в секундах

-- Таблица responses - ответы на обращения в поддержку
-- * response_id - идентификатор ответа
-- * created_at - дата и время создания ответа
-- * author_id - идентификатор автора ответа
-- * issue_id - идентификатор обращения

-- 1. Какая доля тикетов была отвечена быстрее, чем за час, по дням?
-- 2. Вывести топ-10 обращений в платном тарифе, которые решались дольше всего
-- 3. Посчитать количество ответов для каждого обращения в поддержку, сколько человек из поддержки подключалось к обращению
-- 4. Посчитать отношение кол-ва обращений больше чем с одним ответом от числа всех обращений за день
-- 5. Для каждого обращения к поддержке вывести автора первого ответа на обращение
-- 6. Какие инсайты можно еще вытащить из этих данных, какие метрики можно посчитать?


Дата-инженерские заметки
#de_тестовое_livecoding

ставим сердечки, кидаем бусты🫶
4116
Все вокруг хотят, чтобы вы выиграли.

HR хочет, чтобы вы успешно прошли собес, так как ей выгодно закрыть позицию, как можно быстрее.

Собеседующий хочет, чтобы вы решили все задачи и ответили на все вопросы, так как ему не хочется проводить бесконечные технические интервью.

Человек, который с вами знакомится, хочет стать вашим другом, поэтому ему выгодно, чтоб встреча с вами прошла хорошо.

Список можно продолжать бесконечно, принцип применим ко всему в вашей жизни.
52
Сегодня мой день рождения!
И вот, что я поняла за этот год:

- жить весело и очень интересно

- в этом канале самые приятные и умные люди

- мой мир крутится вокруг меня, а ваш должен крутится вокруг вас - и это лучшее, что вы сделаете для себя, и ,на удивление, для своих близких
511512
Подружка поделилась списком контактов ребят, которые могут зарефералить вас в свою компанию (в основном в лондонские офисы)

Сделаем такое для нас?) Вы укажете свой контакт в аналогичном файле для рекомендашек?
Anonymous Poll
51%
да, добавил(а) бы свой контакт
36%
нет, но пользовался/лась бы
13%
не вижу потребности в списке
она 10/10, но это ее компания мечты
21😁126🏆3
Сегодня подписала заявление на увольнение😱

Решение далось легко; принимаю ваши поздравления💳

P.S Альфа банк - лучший банк
Please open Telegram to view this post
VIEW IN TELEGRAM
🏆36🔥1381
Вот, что я сделаю иначе на новом месте работы, чтобы снова не словить вайб на картинке:

🤍 Если телеграм активно используется для рабочей коммуникации, создам отдельный аккаунт для работы.

Во-первых, это избавляет от информационного шума, когда нужно сконцентрироваться исключительно на работе.
Во-вторых, это позволит мне делиться в профиле всем, не задумываясь о мнении коллег (смогу, например, указать этот канал)

🤍 Начну запрашивать фидбэк сильно раньше и чаще.

В моей команде мой перворманс вообще ни на что не влиял. Работаешь - хорошо, не работаешь - ок. Сначала это тревожит, затем демотивирует и слишком расслабляет.

🤍 Постараюсь почаще приезжать в офис, если часть команды будет сконцентрирована в одном городе. Работать с людьми, зная их лично, намного проще.
Please open Telegram to view this post
VIEW IN TELEGRAM
24
писала ранее о списке рефералов и вот наконец создала свой.

Список сейчас открыт для редактирования. После редактирование закрою - нужно будет написать мне и я добавлю ваш контакт.
Если ваша компания уже есть в списке, добавьте свой контакт рядом с уже существующим рефералом.

📌В альфе рефералками заработала больше 100к, так что указывайте свои контакты.

💬Дата-инженерские заметки
ставим сердечки, кидаем бусты🫶
Please open Telegram to view this post
VIEW IN TELEGRAM
1211🔥81
Дата-инженерские заметки pinned «писала ранее о списке рефералов и вот наконец создала свой. Список сейчас открыт для редактирования. После редактирование закрою - нужно будет написать мне и я добавлю ваш контакт. Если ваша компания уже есть в списке, добавьте свой контакт рядом с уже существующим…»
Если вы задумывались над тем, чем же все-таки занимаются аналитики, рекомендую подписаться на канал Data Brew!

Канал ведет тот самый аналитик, который смог построить карьеру после курсов и сейчас продолжает расти профессионально.

Автор
🤗 помогает в поиске работы
😊пишет о полезных для аналитиков хардах
🎁делится реальными историями с собеседований
🤬 рассказывает о боли аналитиков
😇 скидывает аналитические мемы

Подписывайся на @data_brew
Please open Telegram to view this post
VIEW IN TELEGRAM
🏆22
This media is not supported in your browser
VIEW IN TELEGRAM
я 3 года назад
всё оказалось сильно проще, чем думала
115
Почему я не рассказываю о своей зарплате?

Вообще вот эта капиталистическая культура не говорить о заработке на самом деле не играет нам на пользу: намного легче не доплатить сотруднику, если он не знает, сколько на самом деле зарабатывают другие.

Но с другой стороны, если поставить личную выгоду над коллективной, плюсов от такой откровенности я не вижу.

Во-первых, мне не хочется, чтобы на мнение человека влиял мой заработок, даже если это мнение может улучшиться. Зарабатываешь по их мерках мало - недостаточно амбициозный или умный, много - осудят за потребительские привычки.

Во-вторых, у людей до сих пор есть вера в справедливый мир. Вас обязательно оценят по критериям, не имеющим ничего общего с реальным положением дел, и закинут в категорию ‘достойных’ или ‘недостойных’. Вторая всегда сопровождается завистью и поверьте вам в такой ситуации оказаться не захочется.

Свою зп я рассказываю друзьям и небольшому количеству приятных мне знакомых с зарплатной вилкой близкой к моей.
Мне просто хочется делиться с друзьями радостными и грустными моментами. К тому же, это взаимовыгодно. Для них полезно понимать ситуацию на рынке труда, мне же полезно понимать в рынке ли моя зарплата.
30148😁1
Продолжаю брать интервью у дата-инженеров, сегодня у нас мой первый руководитель - дата-архитектор из Procter&Gamble.

⭐️ Расскажи о себе: чем занимаешься сейчас, за что отвечаешь и где лежит основная зона влияния в компании.

Я работаю старшим дата архитектором в компании Procter & Gamble. Сейчас у меня три основных направления деятельности: поддержка и развитие нашей инфраструктуры для платформы данных (включая DevOps часть); ревью всех новых решений в области данных на предмет следования лучшим практикам, политикам компании т.д.; вовлечение в бизнес-проекты в роли старшего дата инженера, когда появляется такая необходимость.

⭐️ Немного бэкграунда: образование, первые шаги в ИТ и что подтолкнуло именно к данным и дата‑инжинирингу

Образование у меня совсем не айтишное: 4 года бакалавриата в СПбГЭУ на менеджменте и ещё 2 — магистратуры в ВШМ СПбГУ. Пока я учился 6 лет на менеджера, мне стали невыносимы многие аспекты менеджмента. Единственное, что меня заинтересовало — это маркетинг, но и то не весь, а связанный с аналитикой и статистикой. Так я потихоньку начал смотреть курсы на Stepik, где узнал о существовании языка R. Некоторое время все проекты в универе я делал с ним (никто не понимал что я делаю), а потом решил поучить ещё и Python. Когда подошло время искать работу, я подался на конкурс IT Business Challenge от Procter & Gamble, так и попал в компанию.

⭐️ Кто такой архитектор данных в твоём понимании?

В «академическом» понимании (вспоминаю свою сертификацию DAMA), архитекторы данных придумывают и описывают то, как данные должны быть организованы. В их арсенале имеются концептуальные, логические и физические модели, каталоги данных. Именно к архитектуру данных должен приходить бизнес и дата инженеры, чтобы получить от него знание о том, как правильно встроить новые данные в текущую архитектуру (или создать её с нуля). На деле я вижу (не только на своём примере), что Data architect может в себе содержать и Solution architect — выбирать какие технологии и как должны использоваться, строить платформу данных и даже самостоятельно инженерить.

⭐️ Ты — редкий пример роста от стажировки до архитектора внутри одной компании. Как это получилось: какие шаги, решения и люди сыграли ключевую роль? Что бы ты посоветовал тем, кто тоже хочет расти внутри одной организации

Мне кажется, что одним из очень важных факторов моего роста было то, что когда я пришёл в P&G, развитие дата инженеров только начиналось. Никто не знал, как работать с тем, что сейчас называют modern data stack, а я не знал и подавно, со своим менеджерским образованием. Поэтому я окунулся в этот океан с головой и вынужден был выплывать с минимально доступной помощью. К счастью руководство адекватно реагировало на неудачи — все понимали, что путь непростой.
Когда ты растёшь внутри одной организации, главное — это чтобы побольше людей о тебе узнало, в идеале через сотрудничество и помощь. Потом это поможет не только продвигаться по карьере, но и даст возможность «горизонтального» перемещения — смены ролей, проектов, области работы. Все будут хотеть заполучить тебя в свою команду.

⭐️ Из чего состоит твой рабочий день: типичные встречи, задачи и т.д?

Как правило есть минимум несколько встреч, где нужна моя экспертиза/совет: как что должно работать и как сделать правильно. Довольно часто приходится иметь дело с «операционными» вещами: например, майкрософт выкатил какое-то обновление и теперь нужно срочно искать новые решения, чтобы в восточной европе не упали все пайпланы данных, дата инженеры могли делать свою работу, а бизнес ничего не заметил. Несколько раз в неделю — ревью новых инструментов/пайплайнов. Ну и последнее время я снова вернулся к типичному дата инжинирингу, сижу пишу код на пайспарке.

❤️Дата-инженерские заметки
ставим сердечки, кидаем бусты
Please open Telegram to view this post
VIEW IN TELEGRAM
31🏆1410😭1
Как дата-инженеру проектировать хорошие ETL/ELT-процессы

ETL/ELT-процессы (они же пайплайны) — основа любой дата-инженерной системы. Именно пайплайны собирают и превращают сырые данные в структурированную информацию, на которую опираются аналитики и бизнес. Но как спроектировать процесс правильно, чтобы данные поставлялись стабильно, а пайплайны не ломались при каждом изменении на стороне источника?

На вебинаре c Георгием Семеновым разберём ключевые подходы к построению пайплайнов — разберем батч и стриминг, сравним ETL и ELT, а также посмотрим, как работают инструменты оркестрации, вроде Airflow и Dagster. Поговорим о важных инженерных деталях — партицировании, бэкфиллах, контрактах и тестах — и покажем, из чего складываются надёжные дата-процессы в крупных компаниях.

На вебинаре расскажем:
🟠Как устроен путь данных — от источников до аналитических витрин;
🟠Чем отличаются стриминг и батч, ETL и ELT, и когда какой применять;
🟠Какие инструменты помогают строить пайплайны — разберём Airflow и Dagster;
🟠Какие нюансы важно учитывать: партицирование, бэкфиллы, контракты, тесты;
🟠Как спроектировать надёжный и легко поддерживаемый пайплайн.

🕗 Встречаемся 22 октября в 19:00 МСК

💬 Подключайтесь к эфиру, чтобы задать Георгию вопросы про архитектуру данных, ETL/ELT и тонкости построения стабильных пайплайнов.

😶Зарегистрироваться на бесплатный вебинар
Please open Telegram to view this post
VIEW IN TELEGRAM
43😁2
hr коробки навыков: да стандартные у нас запросы

также hr коробки навыков: а как вы без юридического образования планируете витринки строить?
😁3213🏆2
🔥 Хочешь прокачаться в Apache Spark и стать сильнее как дата-инженер?

28 октября стартует Spark Scala DE – интенсивная онлайн-программа от New Professions Lab, где ты научишься решать реальные задачи с Apache Spark v 3.4.3


🧠 Для кого
Дата-инженеры, дата-сайентисты, backend-разработчики и все, кто хочет использовать Spark на уровне middle+ для продакшн-проектов


Что внутри
- 6 недель (28 окт – 9 дек)
- 12 онлайн-занятий в Zoom с преподавателями и ответы на вопросы
- 6 лабораторных с реальными данными и облачным кластером
- Поддержка координаторов и чат участников


📈 Чему научишься
1️⃣ Работа со Scala API – создание проектов, код на Scala, IntelliJ IDEA
2️⃣ Подготовка витрин данных – Parquet/ORC, ElasticSearch, Cassandra, PostgreSQL, DataFrames, DataSets
3️⃣ Real-time обработка – агрегации, джойны, потоковые данные, watermark, windows, кастомные источники
4️⃣ Единый пайплайн: от Kafka до обновления расширенной матрицы признаков
5️⃣ Работа с топ-инструментами: Apache Spark, Kafka, Elasticsearch, Cassandra, PostgreSQL, HDFS


👨‍🏫 Преподаватели – практики из ведущих компаний, объясняют сложные темы простыми словами и делятся опытом реальных проектов

🎯 Пройди интерактивный тест и получи персональные рекомендации и узнай о пользе программы для твоей роли.
🎁 Внутри промокод на скидку!


👉 Подробности и регистрация

Все вопросы можно писать Алексею @snitsa
5🏆32😁1