Дата-инженерские заметки – Telegram
Дата-инженерские заметки
1.47K subscribers
70 photos
18 videos
7 files
55 links
Пытаюсь выжить в корпоративных реалиях, делюсь вопросами с дата-инженерских собеседований и ссылочками для подготовки к ним

Написать мне: @aylin_gee
Download Telegram
проснулась с желанием работать

стоит сходить к терапевту?
2112108
Оффер в Сбер Инвестиции на 284 net за 3 часа.

🍋‍🟩Ссылка на вакансию

Подразделение занимается инвестициями для физ. и юр. лиц. В команде 5 человек: DE, devops, аналитики. Ищут дата-инженера, так как предыдущий не прошел испыталку.

Собесит продакт, но это его 50ое собеседование, поэтому в технологиях относительно разбирается.
В технической части спрашивали про MPP, про работу со Spark, спросили о спарк конфигурациях при использовании toPandas. Уточнили был ли опыт с k8s.

Было много софт-вопросов из серии "Если бы вы оказались на необитаемом острове, что бы взяли с собой?", "Опиши себя тремя эпитетами", "Какой твой любимый российский фильм или сериал после 2000 года?", "Какой алкогольный напиток предпочитаешь?"
❗️(если честно кринж, но кто я чтоб судить)

О положительном результате сказали прям на собеседовании, оффер оформили через несколько часов.

В целом прошло хорошо, откликайтесь🩵🌟
Please open Telegram to view this post
VIEW IN TELEGRAM
24962🔥1
почему вы лайкаете кринж и не лайкаете полезное?

объясните, пожалуйста!!
😁261094🏆21
настоящая роскошь сейчас не про тотал miu miu луки, луивитоны, отпуска и дорогую технику.

настоящая роскошь это проводить время с семьей, создавать свою семью до 30, это про спокойную и безопасную жизнь.

реалистично пока целиться в первое, но стремимся ко второму🙏
32118
Сгонять на алгособес в Яндекс ради контента?
Anonymous Poll
76%
Да, плиз
24%
Нет, зачем нам работать в айти концлагере?
22
Тех скрининг в Лигу Цифровой Экономики:

🩵 Для произвольных N и M сформировать целочисленную матрицу A размером N*M и заполнить её числами
# Пример для N = 2, M = 3:
# [[1, 2, 3],
# [4, 5, 6]]

🤍 Описание таблиц
users (user_id, lastname, firstname, birthdate)
sales (sale_id, user_id, num, date_, sum)

🤍Вывести всех пользователей с указанием количества покупок, сделанных в 2025 году

🤍Вывести пользователей, не сделавших ни одной покупки в 2025 году

🤍Вывести всех пользователей с именем Дмитрий

🤍Вывести всех пользователей, которые делают только покупки стоимостью только свыше 1000 денег

🌟напоминаю ставить лайки, кидать бусты и респекты!
Please open Telegram to view this post
VIEW IN TELEGRAM
20134
пока отложила прием, жду триггера от Sensor’a
😁21752🏆1
Тех скрининг на позицию DE в Lamoda Tech💛

🤍 Как вывести содержимое файла logs и затем отфильтровать его содержимое по наличию в строках ключевого слова foo?
cat logs | grep "foo"

🤍 Опиши что происходит в каждой строке:
def foo(): # название функции и нет входых аргументов 
for i in range(1, 10): # цикл, i присваивается значение от 1 до 9
value = str(i) * i # для 1: ['1']*1
value = "".join(value) # '1' # '22' # '333'
yield value
p = set(i for i in foo())
print(p) # {'1', '22', '333', ..., '999999999'}

🤍 Как вывести план запроса в СУБД?

Explain, Explain analyze

🤍 Правильно ли составлен следующий запрос? Если нет, то как исправить?

Хотим выбрать уникальные имена кастомеров из sales1 с total_sum больше 500 и всех из sales2,
отсортировать по customer_name
SELECT total_sum, customer_name  FROM sales1  
HAVING total_sum >= 500
ORDER BY customer_name
Union all
SELECT customer_name FROM sales2
ORDER BY customer_name

ответ:
select customer_name
from sales1
where total_sum >= 500
union
select customer_name
from sales2
order by customer_name


🤍 Дана Таблица_А, содержащая 10 записей и Таблица_Б, содержащая 100 записей.
Какое минимальное и максимальное количество записей может получиться в результате FULL OUTER JOIN этих таблиц?


a = 10 строк
b = 100 строк

min case = 100 str
max case = 110 str
при одинаковых значениях - 1000

🤍 Какие виды физических джойнов есть в Spark?

1. broadcast
2. nested loop
3. sort merge join
4. hash join
5. cartesian product

🤍 Опиши ситуацию при которой возможен перекос данных?

жду ваш ответ в комментах☺️

🤍Количество партиций по умолчанию?

200

🤍 Можно ли увидеть на физическом плане запроса операцию Hash Join на запросе:

SELECT t1. ip
FROM Table1 t1 JOIN Table2 T2
on t1.ip >= t2.ip_from AND t1.ip <= t2.ip_to

🤍Что стоит исправить в коде:

users = spark.table("users")
men = users.filter(col("gender") == "MAN")

men
.filter(…)
.write.mode().parquet(…)

men
.filter(…)
.write(…)
Please open Telegram to view this post
VIEW IN TELEGRAM
281031
3 ий раз пытаемся созвониться

и каждый раз в назначенное время начинает игнорить🤡
Please open Telegram to view this post
VIEW IN TELEGRAM
😭2243
достигла абсолютного эмоционального дна — задачи, которые на самом деле можно закрыть за часа 4, кажутся непосильными, идея сходить на собес кажется сумасшедшей.

сегодня взяла отпуск на две недели. планирую все время бить ракеткой о мяч, кормить уточек, читать сестер бронте.

еще есть идея сходить к корпоративному психологу и весь сеанс затирать ей о капитализме, ИИ и зле корпораций.

после отпуска надеюсь вернуться самым покладистым корпоративным рабом
39😭14🏆7😁3🔥2
У людей есть ложное мнение, что дата-инженер с каналом = крутой дата-инженер.

Учитывая, что вы активно покупаете учебные материалы и менторство, вот на что я лично бы обратила внимание:

🩵 человек открыто говорит о своем карьерном пути

🩵 в резюме компании и/или учебные организации с высоким порогом входа(например указан шад, работа в каком-нибудь констракторе, интересные проекты)

🩵 был или есть карьерный рост внутри одной организации (расти внутри намного сложнее, чем апать грейд сменой работы)

🩵 у вас есть позитивные отзывы от знакомых о продукте/менторстве

🩵 у вас схожий карьерный путь. Например, вы оба сменили работу, вы начинали карьеру в схожих компаниях, вам просто близок человек по вайбу и ценностям(этот пункт относится именно к менторству)

все это, конечно, не гарантирует успех, но как по мне увеличивает его вероятность
Please open Telegram to view this post
VIEW IN TELEGRAM
1412
я junior cdo тогда🤡
Please open Telegram to view this post
VIEW IN TELEGRAM
😁2832
Я: никаких собесов в отпуске
Мои личные сообщения:
1072😁2
Вопросы на позицию инженера данных в Gamedev
(вопросы от подписчика, название компании попросили не называть)

Оффер дали на 200к

🤍 Как бы ты защитился от дублей и ошибок при миграции данных?
🤍 Что выберешь для переноса данных — батчи или стрим? Почему?
🤍 С чего начнёшь разбираться, если при миграции данных возникла ошибка?
🤍 К кому обратишься за помощью, если сам не нашёл причину ошибки при миграции?

🤍 Какие тесты будешь использовать при миграции: синхронные или асинхронные? Почему?
🤍 Как проверишь, что все данные корректно и полностью перенеслись?
🤍 В какой среде запускать такие тесты — тестовой или на проде?

🤍 Какую базу данных выберешь для проекта на старте и почему?
🤍 На что будешь смотреть при выборе между разными СУБД?
🤍 Если пришёл алерт о проблеме с репликацией данных — какие твои первые шаги?
🤍 Что может быть причиной проблем с репликацией?
🤍 Как можно заранее уменьшить риск таких проблем с репликацией?

🤍 Зачем нужна гранулярность в ClickHouse и как она влияет на производительность?
🤍 Что считаешь слабыми местами Greenplum, где у него могут быть узкие места?
🤍 В каких ситуациях Greenplum масштабируется плохо?

#de_собеседование
Please open Telegram to view this post
VIEW IN TELEGRAM
178
Задача с этого собеседования
Дана таблица:

Products table:
+------------+-----------+-------------+
| product_id | new_price | change_date |
+------------+-----------+-------------+
| 1 | 20 | 2019-08-14 |
| 2 | 50 | 2019-08-14 |
| 1 | 30 | 2019-08-15 |
| 1 | 35 | 2019-08-16 |
| 2 | 65 | 2019-08-17 |
| 3 | 20 | 2019-08-18 |
+------------+-----------+-------------+


Изначальная цена всех товаров — 10.
Необходимо написать SQL-запрос, который определяет цену каждого товара на дату 2019-08-16.

📌напоминаю ставить админке сердечки!!! 😶
#de_тестовое_livecoding
Please open Telegram to view this post
VIEW IN TELEGRAM
427
УРА нас уже тысяча! 😳

Привет, друзья! Не думал, что канал будет расти так быстро.

Спасибо вам за внимание и проявленный интерес❤️

В последнее время реже делаю посты. Дел становится больше, а часов в сутках нет 😞 Теперь все-таки понимаю, что вести блог это тоже очень трудозатратно. Буду повышать активность🤝

Сделал подборку интересных постов:

Теория и задачи для (jun/mid/sen)
Отличие Where и Having
Вопросы про джоины
Популярные вопросы с собесов (lvl junior)
Задачка на джоины
Стандартизация SQL
Задача на схлопывание строк и решение
Задача из банка и решение
Как удалить дубли из таблицы?
Задачка про оценки
Задачи с собесов
Задача Альфа-банка и решение
Статья по индексам и партициям
Оптимизация SQL запросов
Транзакции и ACID

Обзоры собеседования:
Собеседование на senior DWH разработчик
Собеседование в Газпромбанк
Долгожданные загадки с собеса на 325к

Различные обучающие материалы:
Презентации по BigData
Ссылки с бесплатным материалом
Темки с бесплатным обучением 😁

Истории:
• Забавные - первая задача в компании
• Грустные - буллинг от руководителя

Разное:
Обо мне
Думай и богатей
За платное обучение или против
Поймал дизмораль
Интересная табличка
Если во всех профессиях платили бы одинаково
МыслиВслух
Испытательный срок пройден
Английский язык

Можете написать какие темы для вас более интересные (задачки, собесы, теория и тд). И если у вас есть какие-то пожелания или идеи для постов - тоже пишите ⬇️

Также можете забустить канал 😎

Всем еще раз спасибо 😊❤️

it пингвин | data engineer 🐧
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥1032😁1
готовиться к собесу:

смотреть таро прогноз от подруги на итог тех собеса:
17146🔥2