NEW BOT Телеграм, страница

Forwarded from IT-минималист | Аналитик данных с нуля (Daniil Kukushkin)

007. Надо брать и делать с Data engineer

Пообщались с Айгуль Сибгатуллиной. Сейчас Айгуль работает в Сбербанке на позиции Data Engineer.

Также ведет свой канал в телеграмм @data_engineerette.

Получился очень любопытный путь — несколько стажировок от фронтенда до бекэнда, опыт в консалтинг, потом аналитиком. И сейчас уже инженер данных.
Как так получилось? Мы обсуждали сегодня в подкасте!

👇 Слушайте, где удобно! 👇
Яндекс.Музыка
Youtube
VK

Приятного прослушивания! ❤️

#podcast

❤28👍116❤‍🔥1⚡1🔥1🆒1

2.81K views06:19

дата инженеретта

💬

Наш командный сленг

Просто захотелось записать крутые словечки, которые мы используем внутри команды) Некоторые могут быть общепринятыми, но мы с коллегами постарались накидать своих особенных:

🔠

aboba - почти дефолтный нейминг всяких тестовых табличек, файликов, переменных

🔠

Багулина - баг
Базёнка - база данных
Биг боссы - руководители

🔠

Грядка - ряд рабочих мест

🔠

Джирафлоу - перемещение задачек по статусам в джире
Дикий интернет - интернет нормального человека
Дип дайв - образовательная техническая встреча, где кто-то из коллег рассказывает про крутые штуки
Дорогие коллеги - устойчивое выражение по отношению к коллегам

🔠

Жира - джира

🔠

ЗНОпс (запрос на обслуживание) - история с заведением заявок, получением согласований

🔠

Каминг-аут - релиз
Кодулина/эскуэлина - кусочек кода
kutuza moment - когда мы переехали с кутузы в другой офис, все казалось непривычным: мыло само не льется, вода сама не включается. это выражение описывает такие моменты, когда ты стоишь ждешь мыла или забыл выключить кран

🔠

Миграция/интеграция с хх - когда коллега собирается уйти

🔠

Ореховая леди - женщина, которая с утра раскладывает орешки
Особый стендап - прощальный стендап

🔠

Падаван - джун
Плов - Airflow
Пользак - пользователь
Проблема будущих нас - как Скарлетт, которая подумает обо всем завтра

🔠

Синк - встреча нескольких команд, чтобы обсудить статусы
Скам мастер - скрам мастер
Смотритель зоопарка, сопровод - сопровождение
С улицы - когда коллега пришел не из Сбера

🔠

Технина - у нас был коллега, который работал в яндексе. там у них проводились техтолики (типо techtalk). и я как-то предложила для Толика придумать даму сердца - Нину. теперь у нас есть технина))
Трубочист - девопсер

🔠

Узя - Oozie
Улучшайзинг - процесс улучшения

🔠

Фактура, собрать фактуру - поресерчить, прийти с конкретными кейсами и вопросами

🔠

Хабуп - Hadoop
Хадуповоды - название нашего чатика, где мы решаем проблемы с кластером
Хомяк - папка /home

🔠

Человек-джоба - когда ручками запускаешь то, что можно автоматизировать

🔠

Ярн киллер, придет ярн киллер - одно из требований безы к витринкам - если они падают, то должен быть процесс, который придет и убьет поток. и наоборот - если поток падает, процесс приходит и убивает расчет витринки

💬

А у вас есть что-то, что понимаете только вы?)

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥17😁12❤2👍2🤡2👻2❤‍🔥1

2.23K views13:04

дата инженеретта

Кидаю ссылочку на буст канала
Пишите свои пожелания по реакциям)

https://news.1rj.ru/str/boost/data_engineerette

дата инженеретта

Проголосуйте за канал, чтобы он получил больше возможностей.

❤3🔥222💯11

1.73K views14:28

дата инженеретта

Какие запросы дадут МАКСИМАЛЬНЫЙ результат?
* email уникален, в email есть null, бэктики поддерживаются

Anonymous Poll

count(distinct email)

count(distinct `email`)

count(distinct 'email')

count(distinct "email")

230 voters1.68K views05:42

дата инженеретта

💡

Ответ

💡

count('email')
count(1)
count(-100)

☕️

Давайте разбираться

Есть табличка emails:

1 hello@gmail.com
2 null
3 null
4 hello@mail.ru

⭐️

Что выведет каждый из запросов?

email == `email` == "email"
Эти три конструкции одинаковы, они обозначают само поле.
Кавычки нужны, когда название поля - это ключевое слово или когда написано на русском.

По условию email - уникальное, поэтому
count(email) == count(distinct email)

📍count не считает нуллы
Поэтому в нашем примере по всем этим 6 запросам будет ответ 2.

Ответ - 2.

🦶

Идем дальше

count('email') - здесь мы подаем на вход строку с названием 'email' (не поле!)
Т.е. на вход каунту будет так:

1 email
2 email
3 email
4 email

Мы по сути считаем количество строк.

Ответ - 4.

Аналогично для этих двух запросов:
count(1)
count(-100)
Вообще неважно, что писать в скобках, хоть '2340sdjf2фыа934!-3/'. Результат всегда - это количество строк.

Ответ - 4.

Ну и в count(distinct 'email') получается, что мы берем уникальные строки 'email'. А они везде одинаковые.

Ответ - 1.

Please open Telegram to view this post

VIEW IN TELEGRAM

👍16💯22❤1

1.83K views05:39

дата инженеретта

👩‍💻

👩‍💻Про leetcode

Неделю назад решила достать свой акк на литкоде и начать решать задачки. Потому что когда-нибудь это может пригодиться на лайв кодинге, а я уже буду без стресса и во всеоружии⭐️

🎙️Иногда бывали такие вопросы, когда накатывала внутренняя улыбка и я думала:

Ага, про это я писала в своем канале)

И хочется достичь такого же уровня:

Ага, я уже решала такую задачу и помню, как она решается

Кстати, в самом начале увидела задачку про палиндром, которую спрашивали у моего коллеги на собесе.

📖 Даже если не понадобится, то все равно это основа для моего дальнейшего развития. Я сверяюсь с залайканными решениями, изучаю возможные оптимизации по памяти/месту, запоминаю технические и логические лайфхаки.

Пока решаю простые задачки и планирую их все добить (бесплатные). Python - чтобы подумать, SQL - чтобы отдохнуть😅

А у вас как дела? Есть тут чемпионы?

Please open Telegram to view this post

VIEW IN TELEGRAM

👍273

1.75K views05:49

дата инженеретта

#️⃣

Вакансия в нашу команду!

🔥

⭐

Что делаем:
В команду маркетинга Сбера ищем разработчика продуктовых витрин.
Мы создаем Martech инструменты для сквозной аналитики, позволяющие отследить весь пользовательский путь от просмотра баннера до первой транзакции.

🌷

Позиция: Junior/Junior+ DE
Формат: Офис (по болезни можно дома)

📆

Чем предстоит заниматься:
• Проектировать и разрабатывать продуктовые витрины данных
• Мониторить и оптимизировать процессы загрузки, преобразования данных и сборки витрин
• Контролить качество данных
• Разрабатывать инструменты для автоматизации рутинных задач, связанных с обработкой данных
• Разрабатывать и поддерживать внутренние сервисы

➡️

Требования:
• SQL на продвинутом уровне
• Cтек технологий Big Data (Hadoop, Spark, Hive/Impala) и любой СУБД
• Знание понятий и концепций DWH
• Python (PySpark, Pandas, REST API)
• Airflow/Dagster/Oozie
• BitBucket/GitHub
• Bash

⭐

Будет плюсом:
• Опыт работы с веб-аналитическими данными, данными мобильных приложений, рекламных кабинетов (YandexMetrica, AppMetrica или др. кликстримы)
• Знание банковского бизнеса
• Опыт работы по Agile

🎈

Условия
• Классная и дружная команда
• Непростые задачи и быстрый рост
• Льготные условия кредитования и ипотеки
• Бесплатная подписка СберПрайм+
• Скидки на продукты компаний-партнеров
• ДМС с первого дня и льготное страхование для близких
• Корпоративное обучение, тренинги, митапы, доступ к библиотеке
• Современный офис в центре Москвы

✉️

Писать мне: @aigul_sea

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥10👍4💯1

4.51K viewsedited 09:05

дата инженеретта

SQL писать умеют все

Не так давно в X5 услышала такое мнение:

SQL писать умеют все.
Даже Junior DA умеет поднять спарк сессию и писать запросы.
DE нужен, чтобы разбираться под капотом - если много данных, сложные расчеты, писать не в лоб, а эффективно, учитывать узкие места, продумывать обновление данных, решать проблемы с замедлением расчетов.

Читая это сейчас, я склонна согласиться. Но когда первые слова на первых минутах - это такое категоричное заявление, то невольно задумываешься, а комфортно ли работается в такой атмосфере.

Что думаете?

8🤔5

1.84K views18:04

дата инженеретта

Как написать джойн без джойна?

📃Пусть у нас есть таблица с клиентами (client_id, name) и заказами (order_id, amount, client_id).
Нужно вывести имя клиента и сумму всех его заказов. Если нет заказов - то 0.

🌷

Подход №1 - join (все очень просто)

SELECT name, SUM(COALESCE(amount, 0)) AS total
FROM clients c
  LEFT JOIN orders o
    ON c.id = o.client_id
GROUP BY name
ORDER BY name

🌷

Подход №2 - union

Когда что-то нужно посчитать

🟢группируем отдельно по датасетам
🟢проставляем null в отсутствующих колонках
🟢юнионим
🟢группируем по ключу, если бы мы джойнили
🟢навешиваем нужные функции сверху

WITH grouped AS (
  SELECT
    client_id AS id,
    null AS name,
    SUM(amount) AS total
  FROM orders
  GROUP BY client_id
),
final AS (
  SELECT id, name, null AS total FROM clients
  UNION
  SELECT id, null AS name, total FROM grouped
)
SELECT
  MAX(name) AS name,
  COALESCE(MAX(total), 0) AS total
FROM final
GROUP BY id
ORDER BY name

На этапе final у нас будет примерно такое:

id name  amount
1  Alice null
2  Bob   null
3  Cathy null
1  null  2000
2  null  5000

✏️ На моем крошечном датасете в плане запросов в постгре косты второго запроса меньше в 2 раза.
В первом почти все ресурсы тратятся на Hash Join.

#sql_tips

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥17👍8💯2❤1

3.07K views14:39

дата инженеретта

repartition vs coalesce

💗 Вопрос у каждого первого.
Нужны для изменения количества партиций в датафрейме. Как итог - файлов на диске.

По умолчанию это 200, можно переопределить при создании спарк сессии конфигом spark.sql.shuffle.partitions

Посмотреть количество партиций можно так:

df.rdd.getNumPartitions()

📚

Пример. У нас есть датафрейм [1, 2, 3, 4, 5, 6, 7, 8, 9, 10] с 4 партициями:

Partition A: 1, 2
Partition B: 3, 4, 5
Partition C: 6, 7
Partition D: 8, 9, 10

Делаем так:

df_nums.repartition(2)

Partition ABC: 1, 3, 5, 6, 8, 10
Partition XYZ: 2, 4, 7, 9

Repartition
🖇делает партиции равномерными
🖇может увеличивать и уменьшать количество партиций
🖇под капотом шафл

В нашем примере циферки из каждой партиции размазались двум финальным партициям - это и есть шафл (перетасовка данных между экзекьюторами).
Именно за счет шафла работает первое и второе.

df_nums.coalesce(2)

Partition A: 1, 2, 3, 4, 5
Partition C: 6, 7, 8, 9, 10

Coalesce
🖇равномерность не гарантирована
🖇может только уменьшать
🖇данные не шафлит, а склеивает

Файлы клеятся друг за другом (без шафла), поэтому умеет только уменьшать (из склеенных файлов обратно расклеить уже нельзя).
В нашем примере B просто приклеилось к A, а D к C

#spark_tips

Please open Telegram to view this post

VIEW IN TELEGRAM

👍135🤔1

1.88K views14:58

дата инженеретта

В первой таблице 7 строк, во второй - 5. Сколько строк выведется по каждому типу джойна минимально?
inner, left, right, full

Anonymous Quiz

10❤2

334 voters1.7K views06:12

дата инженеретта

💡

Ответ

💡

Коллеги в комментах правильно отметили, что при фулле будет 7 строк, поэтому правильно:

✨

0 7 5 7

✨

🌿

Inner Join
Минимально - если ключи в таблицах разные:

t1: 1, 2, 3, 4, 5, 6, 7
t2: 8, 9, 10, 11, 12

🌿

Left Join
По-любому 7 строк точно будет, т.к. left берет все из левой таблицы. Минимально - если строки сметчились 1:1 (каждый id встречается один раз) или не сметчились.

🌿

Right Join
По-любому 5 строк точно будет, логика та же.

🌿

Full Join
Тут формула: max(n, m) = max(7, 5) = 7

В нашем первом примере хоть и будет 12 (нет ни одного одинакового id), но во втором случае будет меньше:

t1: 1, 2, 3, 4, 5, 6, 7
t2: 1, 2, 3, 4, 5

Спасибо за бдительность🫡

Please open Telegram to view this post

VIEW IN TELEGRAM

1.59K views15:26

дата инженеретта

Начинаю серию постов про офисы. Телефон переполняется фоточками, поэтому настала пора рассказать и поудалять)

Сегодня про Авито

🗝

Как попала?
Просто увидела в ит-чатиках приглос и заполнила гугл-формочку.

🐾

Где?
Офис на Белорусской, занимают 5 этажей.

🎤

Что было?
Всего было человек 15, для нас устроили экскурсию по всем этажам. Втихаря со стойки утащила ленточку для пропуска с лого 😅

Каждый этаж имеет свою тематику: шведские острова, деревянный этаж, этаж переработанных штук, деревенский стайл. Переговорки в честь городов и языков программирования.

🧩 Есть IT Bar, куда можно прийти за техникой, спортзал, бильярдный стол, муз. инструменты и комната с настолками. Мерч покупается за всякие активности типо провести экскурсию, сделать что-то крутое.

Фото 4: место, где можно поспать
Фото 5: лампа из ручек
Фото 7: скрытый коридор
Фото 8: купленное на авито

В конце был квиз на скорость, где я выиграла бутылочку и наклейки 🙂

Нашла ещё больше крутых фоток тут

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤19👍8

2.16K views10:39

About

Blog

Apps

Platform