Дата-инженерские заметки – Telegram
Дата-инженерские заметки
1.47K subscribers
70 photos
18 videos
7 files
55 links
Пытаюсь выжить в корпоративных реалиях, делюсь вопросами с дата-инженерских собеседований и ссылочками для подготовки к ним

Написать мне: @aylin_gee
Download Telegram
Сгонять на алгособес в Яндекс ради контента?
Anonymous Poll
76%
Да, плиз
24%
Нет, зачем нам работать в айти концлагере?
22
Тех скрининг в Лигу Цифровой Экономики:

🩵 Для произвольных N и M сформировать целочисленную матрицу A размером N*M и заполнить её числами
# Пример для N = 2, M = 3:
# [[1, 2, 3],
# [4, 5, 6]]

🤍 Описание таблиц
users (user_id, lastname, firstname, birthdate)
sales (sale_id, user_id, num, date_, sum)

🤍Вывести всех пользователей с указанием количества покупок, сделанных в 2025 году

🤍Вывести пользователей, не сделавших ни одной покупки в 2025 году

🤍Вывести всех пользователей с именем Дмитрий

🤍Вывести всех пользователей, которые делают только покупки стоимостью только свыше 1000 денег

🌟напоминаю ставить лайки, кидать бусты и респекты!
Please open Telegram to view this post
VIEW IN TELEGRAM
20134
пока отложила прием, жду триггера от Sensor’a
😁21752🏆1
Тех скрининг на позицию DE в Lamoda Tech💛

🤍 Как вывести содержимое файла logs и затем отфильтровать его содержимое по наличию в строках ключевого слова foo?
cat logs | grep "foo"

🤍 Опиши что происходит в каждой строке:
def foo(): # название функции и нет входых аргументов 
for i in range(1, 10): # цикл, i присваивается значение от 1 до 9
value = str(i) * i # для 1: ['1']*1
value = "".join(value) # '1' # '22' # '333'
yield value
p = set(i for i in foo())
print(p) # {'1', '22', '333', ..., '999999999'}

🤍 Как вывести план запроса в СУБД?

Explain, Explain analyze

🤍 Правильно ли составлен следующий запрос? Если нет, то как исправить?

Хотим выбрать уникальные имена кастомеров из sales1 с total_sum больше 500 и всех из sales2,
отсортировать по customer_name
SELECT total_sum, customer_name  FROM sales1  
HAVING total_sum >= 500
ORDER BY customer_name
Union all
SELECT customer_name FROM sales2
ORDER BY customer_name

ответ:
select customer_name
from sales1
where total_sum >= 500
union
select customer_name
from sales2
order by customer_name


🤍 Дана Таблица_А, содержащая 10 записей и Таблица_Б, содержащая 100 записей.
Какое минимальное и максимальное количество записей может получиться в результате FULL OUTER JOIN этих таблиц?


a = 10 строк
b = 100 строк

min case = 100 str
max case = 110 str
при одинаковых значениях - 1000

🤍 Какие виды физических джойнов есть в Spark?

1. broadcast
2. nested loop
3. sort merge join
4. hash join
5. cartesian product

🤍 Опиши ситуацию при которой возможен перекос данных?

жду ваш ответ в комментах☺️

🤍Количество партиций по умолчанию?

200

🤍 Можно ли увидеть на физическом плане запроса операцию Hash Join на запросе:

SELECT t1. ip
FROM Table1 t1 JOIN Table2 T2
on t1.ip >= t2.ip_from AND t1.ip <= t2.ip_to

🤍Что стоит исправить в коде:

users = spark.table("users")
men = users.filter(col("gender") == "MAN")

men
.filter(…)
.write.mode().parquet(…)

men
.filter(…)
.write(…)
Please open Telegram to view this post
VIEW IN TELEGRAM
281031
3 ий раз пытаемся созвониться

и каждый раз в назначенное время начинает игнорить🤡
Please open Telegram to view this post
VIEW IN TELEGRAM
😭2243
достигла абсолютного эмоционального дна — задачи, которые на самом деле можно закрыть за часа 4, кажутся непосильными, идея сходить на собес кажется сумасшедшей.

сегодня взяла отпуск на две недели. планирую все время бить ракеткой о мяч, кормить уточек, читать сестер бронте.

еще есть идея сходить к корпоративному психологу и весь сеанс затирать ей о капитализме, ИИ и зле корпораций.

после отпуска надеюсь вернуться самым покладистым корпоративным рабом
39😭14🏆7😁3🔥2
У людей есть ложное мнение, что дата-инженер с каналом = крутой дата-инженер.

Учитывая, что вы активно покупаете учебные материалы и менторство, вот на что я лично бы обратила внимание:

🩵 человек открыто говорит о своем карьерном пути

🩵 в резюме компании и/или учебные организации с высоким порогом входа(например указан шад, работа в каком-нибудь констракторе, интересные проекты)

🩵 был или есть карьерный рост внутри одной организации (расти внутри намного сложнее, чем апать грейд сменой работы)

🩵 у вас есть позитивные отзывы от знакомых о продукте/менторстве

🩵 у вас схожий карьерный путь. Например, вы оба сменили работу, вы начинали карьеру в схожих компаниях, вам просто близок человек по вайбу и ценностям(этот пункт относится именно к менторству)

все это, конечно, не гарантирует успех, но как по мне увеличивает его вероятность
Please open Telegram to view this post
VIEW IN TELEGRAM
1412
я junior cdo тогда🤡
Please open Telegram to view this post
VIEW IN TELEGRAM
😁2832
Я: никаких собесов в отпуске
Мои личные сообщения:
1072😁2
Вопросы на позицию инженера данных в Gamedev
(вопросы от подписчика, название компании попросили не называть)

Оффер дали на 200к

🤍 Как бы ты защитился от дублей и ошибок при миграции данных?
🤍 Что выберешь для переноса данных — батчи или стрим? Почему?
🤍 С чего начнёшь разбираться, если при миграции данных возникла ошибка?
🤍 К кому обратишься за помощью, если сам не нашёл причину ошибки при миграции?

🤍 Какие тесты будешь использовать при миграции: синхронные или асинхронные? Почему?
🤍 Как проверишь, что все данные корректно и полностью перенеслись?
🤍 В какой среде запускать такие тесты — тестовой или на проде?

🤍 Какую базу данных выберешь для проекта на старте и почему?
🤍 На что будешь смотреть при выборе между разными СУБД?
🤍 Если пришёл алерт о проблеме с репликацией данных — какие твои первые шаги?
🤍 Что может быть причиной проблем с репликацией?
🤍 Как можно заранее уменьшить риск таких проблем с репликацией?

🤍 Зачем нужна гранулярность в ClickHouse и как она влияет на производительность?
🤍 Что считаешь слабыми местами Greenplum, где у него могут быть узкие места?
🤍 В каких ситуациях Greenplum масштабируется плохо?

#de_собеседование
Please open Telegram to view this post
VIEW IN TELEGRAM
178
Задача с этого собеседования
Дана таблица:

Products table:
+------------+-----------+-------------+
| product_id | new_price | change_date |
+------------+-----------+-------------+
| 1 | 20 | 2019-08-14 |
| 2 | 50 | 2019-08-14 |
| 1 | 30 | 2019-08-15 |
| 1 | 35 | 2019-08-16 |
| 2 | 65 | 2019-08-17 |
| 3 | 20 | 2019-08-18 |
+------------+-----------+-------------+


Изначальная цена всех товаров — 10.
Необходимо написать SQL-запрос, который определяет цену каждого товара на дату 2019-08-16.

📌напоминаю ставить админке сердечки!!! 😶
#de_тестовое_livecoding
Please open Telegram to view this post
VIEW IN TELEGRAM
427
УРА нас уже тысяча! 😳

Привет, друзья! Не думал, что канал будет расти так быстро.

Спасибо вам за внимание и проявленный интерес❤️

В последнее время реже делаю посты. Дел становится больше, а часов в сутках нет 😞 Теперь все-таки понимаю, что вести блог это тоже очень трудозатратно. Буду повышать активность🤝

Сделал подборку интересных постов:

Теория и задачи для (jun/mid/sen)
Отличие Where и Having
Вопросы про джоины
Популярные вопросы с собесов (lvl junior)
Задачка на джоины
Стандартизация SQL
Задача на схлопывание строк и решение
Задача из банка и решение
Как удалить дубли из таблицы?
Задачка про оценки
Задачи с собесов
Задача Альфа-банка и решение
Статья по индексам и партициям
Оптимизация SQL запросов
Транзакции и ACID

Обзоры собеседования:
Собеседование на senior DWH разработчик
Собеседование в Газпромбанк
Долгожданные загадки с собеса на 325к

Различные обучающие материалы:
Презентации по BigData
Ссылки с бесплатным материалом
Темки с бесплатным обучением 😁

Истории:
• Забавные - первая задача в компании
• Грустные - буллинг от руководителя

Разное:
Обо мне
Думай и богатей
За платное обучение или против
Поймал дизмораль
Интересная табличка
Если во всех профессиях платили бы одинаково
МыслиВслух
Испытательный срок пройден
Английский язык

Можете написать какие темы для вас более интересные (задачки, собесы, теория и тд). И если у вас есть какие-то пожелания или идеи для постов - тоже пишите ⬇️

Также можете забустить канал 😎

Всем еще раз спасибо 😊❤️

it пингвин | data engineer 🐧
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥1032😁1
готовиться к собесу:

смотреть таро прогноз от подруги на итог тех собеса:
17146🔥2
Вижу в последнее время много постов про английский и IT.
Вот несколько советов, как выучить язык дешево и быстро от экс училки английского(я репедала с 15 лет):

🍋‍🟩 найдите себе преподавателя на Профи.ру

Люди очень недооценивают этот прекрасный сайт. Однажды я нашла там за 500 рублей/час преподавателя вышмата с Phd в Оксфорде (я проверила - степень реальная) и 5 преподавателей немецкого.
Вашим идеальным преподавателем будет нынешний или вчерашний студент филфака с родным русским из маленького города России. Носителя найти дешево тоже реально, но нужен вам он только при уровне B2+.

С уровня A1.2-A2.1 преподаватель должен говорить с вами на изучаемом языке и только <= 30% процентов урока должно быть посвящено грамматике.

🤍потреблять контент теперь стоит только на английском

Начните смотреть подростковые сериалы на английском с английскими субтитрами.Главное правило при выборе - чем тупее сериал, тем лучше(например, Сплетница или Элита).
Всю проф информацию тоже ищем на английском - что бы не пришло вам в голову, это уже разобрали на ютюбе индусы индийцы.

🤍Найдите разговорный клуб(бесплатных тьма)

🤍 найдите англоговорящего парня/девушку

Тут думаю комментарии излишни, это самый действенный совет из перечисленных👍
Please open Telegram to view this post
VIEW IN TELEGRAM
16😁12
приехала вот из Москвы, успела даже встретиться с дата каналами.

Вот вы знали, что бизнес не максимальная категория такси? И что есть люди, которые исключительно ездят на премиум?
😁652
Я искренне считаю, что большинство ментальных проблем у людей связано с нехваткой денег.

В капитализме всё, что приносит нам дофамин, в той или иной мере платно.
Но, что ещё важнее, деньги это некий гарант безопасности.

Если у вас нет собственного жилья и накоплений, способных покрыть год жизни без работы, то каждое неправильно принятое решение будет обходиться вам дорого.

Вы буквально выживаете, и следовательно все решения принимаете из соображения безопасности, а не развития и долгосрочной выгоды.

О каком спокойствии и отсутствии тревоги вообще может идти речь?

Вся идея про то, что деньги не покупают вам счастье смешна. И человек, утверждающий это либо желает вам зла, либо затерялся в собственных иллюзиях.
29206