it пингвин | data engineer – Telegram
it пингвин | data engineer
1.71K subscribers
48 photos
5 videos
1 file
60 links
Канал главного разработчика Data Lake крупного банка.
База знаний для джунов, разбор собесов, задачи (jun/mid/sen) с решениями, полезные материалы, обзоры технологий и архитектур.

По вопросам и менторству писать @it_pengwin
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
Работа в хранилище банка🥲:
Please open Telegram to view this post
VIEW IN TELEGRAM
🤣22😁10👍52🔥2💅2😭1
Поздравляю с окончанием рабочей недели!

Хорошенько потрудились, а теперь можно и нужно хорошенько отдохнуть!🥳
Или нужно выполнить все дела, которые не успеваешь в будние дни..? 😔

Рассказывайте как вы проводите выходные ⬇️

🍾- полный чилл
😭 - выполнение кучи домашних дел..
Please open Telegram to view this post
VIEW IN TELEGRAM
40🍾248😭2💅2
Долговечность

Закрываем цикл постов про A C I D

🔤Durability (Долговечность) гарантирует, что после завершения транзакции внесенные изменения сохранятся даже в случае сбоев электропитания, сбоев или других катастрофических событий.

Другими словами, как только транзакция завершается, данные фиксируются навсегда и не могут просто исчезнуть.

Как базы данных обеспечивают долговечность:

1.Журналы транзакций (журналы предварительной записи - Write-Ahead Logs, он же WAL)
Большинство реляционных баз данных используют журнал предварительной записи (WAL) для сохранения изменений до их записи в основные файлы данных:

Запись изменений в WAL: предполагаемые операции (обновления, вставки, удаления) записываются в WAL на долговременном носителе (диске).

Зафиксировать транзакцию: как только запись WAL будет безопасно сохранена, база данных может отметить транзакцию как зафиксированную.

Применение изменений к основным файлам данных: обновленные данные в конечном итоге записываются в основные файлы — возможно, сначала в память, а затем сбрасываются на диск.

В случае сбоя базы данных при восстановлении она использует WAL :

Повторить: любые зафиксированные транзакции, еще не отраженные в основных файлах, применяются повторно.

Отмена: все незавершенные (незафиксированные) транзакции откатываются для сохранения целостности базы данных.

2. Репликация/Избыточность
Помимо WAL, многие системы используют репликацию, чтобы гарантировать сохранность данных даже в случае выхода из строя оборудования или всего центра обработки данных.

• Синхронная репликация: записи немедленно копируются на несколько узлов или центров обработки данных. Транзакция считается завершённой только в том случае, если первичный узел и хотя бы одна реплика подтверждают её безопасное сохранение.

Асинхронная репликация: изменения в конечном итоге синхронизируются с другими узлами, но существует (небольшое) окно, в котором может произойти потеря данных, если основной узел выйдет из строя до обновления реплики.

3. Резервные копии
Регулярное резервное копирование обеспечивает дополнительную защиту, выходящую за рамки журналов и репликации. В случае серьёзного повреждения данных, человеческой ошибки или катастрофического сбоя:

Полные резервные копии: сохранение всей базы данных на определенный момент времени.

• Инкрементное/дифференциальное резервное копирование: сохранение изменений с момента последнего резервного копирования для более быстрого и частого резервного копирования.

• Внешнее хранение: обеспечивает сохранность резервных копий в случае локальных сбоев, позволяя восстанавливать данные даже в случае повреждения оборудования.

it пингвин | data engineer 🐧

#Вопросы_с_собесов #acid
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍135🔥422😭1
Можно ли сказать, что я переработал, если в рандомный момент переписки с другом я ответил дбт командой - dbt run -s .. 🤔?
Please open Telegram to view this post
VIEW IN TELEGRAM
🤣21😁5💯3😭21🫡1💅1
Обзор на курс DE

Итак, прошло почти 2 недели после начала потока DE от New Professions Lab.

Расчехляю свои заметки 📖

В потоке ~40 человек. Всех поделили на группы по человек 5. Пока что особо не понял для чего, но в конце вроде бы будет какая-то командная работа, типо диплома. Пока что в командах мы никак не взаимодействует, все общение в общем чате в ТГ.

В чем суть курса - вам дают лекции (иногда записи, иногда стрим) по темам ДЕ и лабы как домашнее задание. Что оч удобно, все лекции записаны и можно смотреть когда удобно. Я был только на welcome встрече, остальное смотрю в записи.

Лекции
Что по лекциям сказать - очень хорошо. Материал интересный, подача мне нравится, как-то лампово все.
Какие лекции уже были - Kafka, Ansible, Airflow, Введение в базы данных, Docker, Основы DWH. MPP DB.
Я прям с кайфом смотрю. Например, я вообще не знал что такое Ansible. Первый раз услышал о нем, а оказывается это оч удобная и популярная штука. Наверное, им больше пользуются админы и девопсы.

Ansible — это инструмент автоматизации с открытым исходным кодом для управления конфигурациями, массовного развертывания и оркестрации инфраструктуры, работающий без установки агентов и в основном через SSH или WinRM на целевых узлах. Его ключевая идея — описывать желаемое состояние систем декларативно в YAML-файлах (playbooks), после чего Ansible приводит узлы к этому состоянию идемпотентно и повторяемо.

Короче - в удобном формате написал инструкции для рабочих машин и с одной тачки эти команды можно выполнить на всех перечисленных тачках (к которым есть доступ), развернуть базы данных, etl инструменты и тд

Лабы
Самое главное. Нужно делать лабы, получать баллы и идти дальше по курсу. По каждой лабе есть дедлайн - все серьезно 😁
В конце если наберешь необходимое кол-во баллов - получаешь сертификат. Если я не ошибаюсь, курс проходят до конца и получают сертификаты около половины обучающихся. Есть студенты, которые уже 3-ий раз пытаются пройти курс 😱

Лабы не такие уж и тривиальные. 0 лаба - знакомство с чеккером, который поднимается в докер контейнере и через него надо будет проверять свои разработки и сдавать лабы. 1 лаба супер топ - поднимаем свои тачки в ВК облаке. То есть у каждого студента своя машинка (ОС поставили ubuntu) 🔥 Также настраиваем сеть и firewall.
Работаем с тачкой пока что через свой локальный пк. Подключаемся через терминал по SSH. Также в 1 лабе с помощью вышеупомянутого ansible со своего пк поднимаем на удаленной машине Grafana, чтоб следить за состоянием своей машины.
С помощью чеккера в докере проверяем, что наша машина правильно настроена
Доп задача в 1 лабе - установить кафку на серваке. Скачали необходимые файлы, установили (исправили 20 ошибок 🤯). Все настроили. Открыли два терминала - в одном пишем в кафку,с другого читаем. Все работает🤝

Возможно, вам кажется, что это легко. Но нет. Там куча подводных камней. Лабы нарочно не идеально описаны. Вас за ручку не проведут. Надо немного потыкаться. Я сам сидел пару дней до 3 часов ночи. Но когда сдаешь лабу - кажется она такая простая была))
Чатик наш кипит сообщениями. Радуемся за каждого коллегу, который сдал лабу😅

Первое впечатление - пока что мне реально все нравится. Этот пост я не с кем согласовывал!)
Мне нравится как этот продукт упакован - есть машины в облаке, чеккеры для автоматизации проверок, тг бот, записанные лекции оч крутыми спецами. Таблица с баллами мотивирует от других студентов не отставать. Поддержка в чате тоже топ. Есть пару ребят и из поддерджки, которые отвечают на все вопросы. А также мы, студенты, помогаем друг другу (за помощь тоже баллы дают 😁)

НО!
• Новичкам очень тяжело. Нужна уже какая-то база.
• Для себя понял, что гораздо легче проходить курс с макбука) Как раз мне его недавно на работе выдали😌
• Нужно ответственно проходить и рассчитывать время.

Продолжение следует..

—————————————————-
Как-то так 😊 Как вам обзорчик?
Есть мысль, про инструменты из курса делать короткие обзорные посты. Что думаете?🤔⬇️

it пингвин | data engineer 🐧
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥21👍762🤔2💅2💯1
Объясняю машине, что она была не права 😎
Когда будет восстание машин, надеюсь мне это не припомнят..
Please open Telegram to view this post
VIEW IN TELEGRAM
🤣228😁3😱2😭1
Пару месяцев назад проходил интересный собес на Кремлевский проект с хорошей оплатой.
Вот откуда пришел тот самый рекрутер 😆

Накидайте реакций если интересно⬇️ Завтра сделаю пост

*И кому не сложно бустаните канал плз, а то реакций совсем мало стало 🥲
boost
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍40💅17🔥1064🤔3🤷‍♂1😭1
This media is not supported in your browser
VIEW IN TELEGRAM
Собес на Кремлевский проект

Должность: Data Engineer
Компания: темка
Тип собеса: просто поболтали
Грейд: #senior #middle #jun наверное и без опыта могли взять
Вилка: 1млн чистыми на руки за 2 месяца

Итак, рассказываю ✍️

В июле я оценивал рынок в перспективе найти вторую работу.
На тот момент я работал в банке по 2 часа в день и мог совмещать две работы (эх, надо было это ценить 😢)

Ко мне пришел рекрутер,как он сказал, с HR стартапа при Сколково. Общение сразу было легкое и я понял, что ему можно спокойно сказать, что мне нужна вторая работа. Он сказал все норм, проблем нет - можно совмещать. У них так много инженеров работает. И можно работать по ИП, СЗ, ГПХ.
В их конторе работает около 50 человек и в основном это госпроекты. Они молодые ребята, недавно организовали компанию и у них есть налоговые льготы.
Им нужен был data engineer на Кремлевский проект на 2 месяца и с возможным продлением. Сроки горят

Работать надо с NiFi. Я на тот момент с NiFi вообще не работал. Рекрутер сказал:
- не проблема, есть пару дней до собеса))))))🙂

Ну ок. Скинули мне 2 ТЗ. Одно ТЗ - на один месяц работы. Кстати, там был оочень подробно описано что нужно делать - что за потоки, куда подключаться, как парсить, куда заливать данные.
Я пару дней подготовился. Изучил ТЗ. Кинул клич в чатик с NiFi со спецами - помогите разобраться с NiFi за пару дней. Откликнулся добрый мужик, скинул мне полезную инфу - статейки и пару видосов.
Я нормально подготовился - понял суть NiFi, как делать потоки. запомнил основные процессоры. Все что мог разобрать за два дня - я сделал. С чистой совестью пошел на собес.

Собес
Собеседование длилось ровно 15 минут)) На нем присутствовали - я, рекрутер, менеджер проекта и тех лид.
Разговор по тех части с лидом длился 5 минут.

Вопросы:
• Работал в КХД?
• Работал с NiFi?
• Оптимизировал потоки в NiFi?
• Проектировал витрины?
• Работал с SQL?))
• Работал с Data Vault?
• Как разложил бы данные (привел пример данных) по таблицам в дата волте. Что будет хабом, сателитом, линком?

На половину я отвечал просто - да/нет. Где-то пару предложения. Лид в глубь не копал, ему вообще как будто было лень спрашивать)
Я спросил - почему такой быстрый собес и вы ж вообще особо ничего и не проверили. Мне сказали, что вас же уже хорошо отскринили и пособесили в консалтинге (это вообще не так).

Далее мне сказали что нужно будет делать на проекте и наконец- то узнал название компании.

Проект - Корпорация малого и среднего предпринимательства (МСП) Я о таком раньше не слышал. Но вроде это большая компания.
Стек: NiFi, GP, Hadoop.
Основная работа с NiFi. Необходимо доработать 2 etl процесса и создать 4 новых. Читать данные с серверов ФНС.
Вся инфра у них в облаке ArenaData.

Оплата - почасовая. 3000 руб/час.
Считают зп чистыми на руки, на налог отдельно дают бабки.

И позже рекрутер прям со мной посчитал зп:
август 22 раб дня * 24к = 528к
сентябрь 22 раб дня * 24к = 528к

В общем, вариант был очень заманчивый. Но как и ожидалось - как они появились внезапно, так и быстро пропали.
Через несколько дней пришел ответ - позиция на фризе.


Как вам такой собесик?)) Расскажите были ли у вас подобные странные предложения?⬇️

it пингвин | data engineer 🐧
Please open Telegram to view this post
VIEW IN TELEGRAM
29🔥135😁2👍1😱1😭1💅11
This media is not supported in your browser
VIEW IN TELEGRAM
Кто постоянно отвлекается - пробуйте 😅
Особенно актуально в понедельник
Please open Telegram to view this post
VIEW IN TELEGRAM
1🤣24👍4😁431😭1🙈1
Когда начинаете искать работу, сначала сходите на собеседования в компании, в которые точно не собираетесь устраиваться🤝

#МыслиВслух
12111👍9🔥4🤔4😭1🤝1
30 минут не понимал почему у меня дичь с данными, везде дубли, пока не увидел это:

select hub_event_order_pk, a.hub_order_pk
from all_ a
join dbt_dds.link_event_order_x_order l on a.hub_order_pk=a.hub_order_pk
where l.tech_date>='2025-10-16'


У кого было, признавайтесь?))
😁2716🤣5😭2💅2
Кто не знает на jetbrains теперь можно бесплатно качать (c vpn) PyCharm и DataGrip для для некоммерческого использования🫡 Начал с датагрип работать - пока что оч нравится визуально

Пользуетесь ли этими IDE-шками? Какие ваши любимые?⬇️🤔
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥16👍221😭1💅1
Год с duolingo 🤠

Как вам приложуха? Делитесь своими рекордами ⬇️
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥169💅3😱2👍1😭111
ГПТха сгенерила хэллоунские постеры💀
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🎃1613😁83🔥1🤔1😭1
Обзор на курс DE

Итак, прошла половина курса DE от New Professions Lab

Какие лабы еще были сделаны:
Лаба 2 — batch обработка данных e-commerce портала с кликом, аирфлоу и кафкой
Лаба 3 — realtime обработка данных e-commerce портала с кафкой и спарком
Лаба 4 — дата-сервис с фласком, кликом, кафкой (суперачивка - построить дашборд).

Какие еще были лекции:
• Clickhouse
• Hadoop
• Форматы хранения данных
• Введение в Apache Spark
• Apache Spark: оптимизация работы с данными
• Apache Spark Streaming
• Docker. Ansible. Kubernetes
• несколько консультаций

Лекции нравятся. По клику прям очень зашла. Я не знал, что Clickhouse настолько крутая СУБД и так активно везде внедряется. В том же OpenAI анализиуют петабайты данных по логам ежедневно на клике. Капитализация клика оценивается в $6 млрд.

Плотность лекций и лаб достаточно большая, я еще не посмотрел 3 лекции. В целом, лабы выполняю нормально, все что обязательно сделать - сделал, осталось пару суперачивок (необзятальные лабы). Примерно у 70% обучающихся проблем нет, лабы выполняются. Но многим оч тяжело.
Также я активно пользуюсь нейронками, чтобы быстрее выполнить лабы. Но преподы рекомендуют все делать самому без нейронок.

И еще раз хочу подчеркнуть - очень нравится, что есть удаленные машины, на которых выполняем все лабы. Скилл работы с терминалом и настройки окружения прокачивается.

Мне конечно было бы комфортнее, чтоб такой курс длился не 2 месяца, а 3 - 4. Так сейчас у меня очень много дел - напомню, у меня последний месяц испыталки в новой компании (и здесь уже много задач), менторство, тг канал и вот еще такой активный курс. Ну ничего, справимся

Таком промежуточный итог, посмотрим что будет дальше.

it пингвин | data engineer 🐧
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥177👍422
Будни дата инженера

Много людей подписано на канал, кто даже не работает в it, кто только думает вкатываться. Много аналитиков, биайщиков, бэкендеров и инженеров из других it-направлений

Не все понимают чем занимается дата инженер. Сфера задач у DE обширная. В работе DE используется множество технологий: SQL, Python, Scala, PostgreSQL, Oracle, Greenplum, Airflow, Dagster, Hadoop, Spark, Trino, dbt, Informatica, NiFi, Kafka, Flink, Docker, Kubernetes, Linux и т. д. Кто-то много кодит и собирает реально сложные пайплайны, кто-то пишет несложные SQL-скрипты и автоматизирует готовый код от аналитиков. Кто-то плотно работает с инфраструктурой, настраивает кучу контейнеров в Docker и Kubernetes. Кто-то плотно работает с DWH, пишет большие процедуры, занимается сложным моделированием таблиц и оптимизацией.

На канале будет новая рубрика — «Будни дата-инженера».

В ней я буду конкретно рассказывать о своих текущих задачах: что нужно сделать, какими инструментами и как именно я это сделал. Сейчас я работаю на всех слоях хранилища данных и с большим количеством технологий - задачки разнообразные. Также буду писать о своём прошлом опыте: какие были задачки и какие инструменты использовал. Думаю, многим это будет интересно и полезно.

И напоминаю: предложка всегда открыта. Буду ждать истории от подписчиков DE. Рассказывайте о своих типичных и нетипичных задачах. Давайте развивать комьюнити.

На неделе расскажу о своей недавно выполненной задачке✍️ Если интересна новая рубрика, накидайте реакций. ⬇️

it пингвин | data engineer 🐧
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍71🔥31115💅2🥰1😭1
тяжелая неделька 😱
Please open Telegram to view this post
VIEW IN TELEGRAM
😁39😱117🤣6🥰3💅2😭1