Data Engineer Lab – Telegram
Data Engineer Lab
1.19K subscribers
25 photos
31 links
Канал про обзор инструментов и методов Data Engineering и Data Science.
По вопросам, предложениям, менторству писать http://t.me/ampodvalniy
https://dataengineers.pro/mentors/artyompodvalny
Download Telegram
Channel created
Channel photo updated
Всем привет! Меня зовут Артем Подвальный, я Data Engineer в Ozon Tech. Моя основная специализация – инженерия данных, в том числе подготовка датасетов для обучения моделей поиска.

До этого я работал Data Engineer'ом в SMlab, где занимался инженерными задачами в команде персональных рекомендаций. Кроме того, меня увлекает Data Science в области геномных данных: обучаю крупные языковые модели для предсказания вторичных структур ДНК и разрабатываю пайплайны для обработки геномных данных. Я окончил МФТИ, что дало мне прочную техническую базу.

На этом канале я буду делиться своим опытом и рассказывать об инструментах и базах данных, которые актуальны для дата-инженеров в различных сферах. Также вы найдёте здесь полезные гайды и курсы, которые помогут развиваться как специалисту. Подключайтесь и будем вместе расти в профессии!
8🔥6👍1🤮1💩1🤡1
Что такое дата-инженерия и кто такие дата-инженеры?

Дата-инженеры — это специалисты, которые создают инфраструктуру для работы с данными: от сбора до хранения и передачи в аналитические системы.

Что входит в их задачи:
📥 Сбор данных из разных источников
🛠 Построение дата-пайплайнов (ETL/ELT)
🗄 Настройка хранилищ и баз данных
🧪 Обеспечение качества и доступности данных
🧰 Работа с инструментами вроде Airflow, Spark, Kafka
👨‍💻 Программирование на Python, Java или Scala

Именно благодаря дата-инженерам данные становятся структурированными, чистыми и готовыми к дальнейшему использованию.
Они тесно взаимодействуют с аналитиками, дата-сайентистами и BI-разработчиками, чтобы данные приносили ценность бизнесу.

📊 Аналитика, ML и визуализация — это витрина. А дата-инженеры — те, кто прокладывает к ней надёжную дорожку.
Каждая роль важна и усиливает другую 💡

Кстати, вот хорошая статья с примерами и иллюстрациями про отличие дата-инженеров от BI-разработчиков и почему их стоит объединять в одну команду:

#DataEngineering #ИнженерияДанных #BigData #ETL #DataPipeline #DataEngineer
8🔥7👍3
💾 Oracle — СУБД с историей и статусом

Знаете, какая СУБД( система управления базами данных) была основана ещё в 1977 году и до сих пор остаётся одной из самых популярных в мире? 👀
Речь, конечно же, про Oracle. Её создатель — легендарный Ларри Эллисон и его команда. С тех пор прошло почти 50 лет, и компания выросла в одного из гигантов IT-индустрии — сейчас Oracle входит в топ-20 самых дорогих компаний мира 🌍💰

🔍 В чём её фишка?
Oracle построена на реляционной и объектно-ориентированной модели данных, что делает её мощной, гибкой и подходящей для сложных корпоративных задач. Подробнее об этом — в этой статье.

💸 Да, лицензия у Oracle стоит недёшево. Но несмотря на это, многие компании по-прежнему выбирают её вместо бесплатных альтернатив, таких как PostgreSQL 🆓🐘 Почему? Всё просто — здесь хорошо объяснили 🔗

📌 Oracle — это не просто база данных. Это целая инженерная экосистема, проверенная временем, на которую до сих пор опирается бизнес по всему миру.

#Oracle #СУБД #БазыДанных #IT #PostgreSQL #Enterprise
7🔥7👍3
📂 Hadoop Distributed File System (HDFS) — это один из фундаментальных компонентов в экосистеме обработки больших данных. Он стал краеугольным камнем для дата-инженеров по всему миру и используется в самых разных системах: от банков и телекома до стриминговых платформ и дата-центров.

🌍 Изначально разработан инженерами Yahoo! как открытый аналог Google File System (GFS). Благодаря своей надёжности, масштабируемости и ориентации на работу с гигантскими объёмами информации, HDFS очень быстро приобрёл популярность и стал индустриальным стандартом.

Почему HDFS стал таким важным:

📦 Распределённое хранение данных: большие файлы разбиваются на блоки и автоматически распределяются по множеству узлов.

💪 Отказоустойчивость: благодаря репликации блоков (по умолчанию 3 копии), данные не теряются при сбоях узлов.

⚙️ Масштабируемость: можно начинать с нескольких серверов и масштабироваться до тысяч машин без изменения архитектуры.

📊 Параллельная обработка: HDFS идеально сочетается с фреймворками типа MapReduce, позволяя выполнять анализ "на месте", рядом с данными.

💾 Ориентирован на потоковую запись: файлы в HDFS пишутся один раз и читаются много раз — это идеально для аналитических систем.

🕰 Хочешь понять, откуда пошли Big Data и зачем они вообще появились?
📚 Вот отличная вводная:
👉 Краткая история развития Big Data

🧠 Архитектура Hadoop и HDFS:
NameNode — главный узел, управляющий метаданными и структурой файловой системы.

DataNode — узлы хранения, где физически лежат блоки данных.

HDFS — распределённая файловая система, где данные распределяются по узлам.

YARN (Yet Another Resource Negotiator) — компонент, управляющий ресурсами и задачами в кластере.


🧪 Хотите поэкспериментировать с Hadoop и HDFS у себя локально?
👨‍💻 Ловите гайд, как быстро развернуть окружение:
🔗 Запуск Hadoop на своём компьютере
🔥86👍4
Data Engineer Lab pinned «Всем привет! Меня зовут Артем Подвальный, я Data Engineer в Ozon Tech. Моя основная специализация – инженерия данных, в том числе подготовка датасетов для обучения моделей поиска. До этого я работал Data Engineer'ом в SMlab, где занимался инженерными задачами…»
🔍 Что такое ETL и ELT? Простыми словами

В современном мире данных — данные = золото 🪙 Но чтобы это золото приносило ценность, его нужно обработать. Здесь на сцену выходят два главных героя:

🧱 ETL и ELT — процессы работы с данными, которые позволяют:
✔️ забирать данные из разных источников
✔️ очищать, преобразовывать
✔️ загружать в хранилища или базы для анализа

⚙️ ETL (Extract → Transform → Load)

Extract (Извлечение) — данные забираются из источника (БД, API, файлов)
Transform (Преобразование) — очищаются, объединяются, агрегируются
Load (Загрузка) — уже обработанные данные отправляются в хранилище

📦 Подходит, когда:
данные нужно «почистить» заранее
трансформации жёстко заданы
хранилище не супер-мощное

⚡️ ELT (Extract → Load → Transform)
Extract — извлекаем данные
Load — сразу загружаем всё как есть
Transform — преобразуем уже внутри хранилища (на лету)

☁️ Подходит, если:
используешь мощные облачные хранилища
нужно работать с сырыми данными
аналитики делают свои запросы на месте

💬 Итог: Оба процесса — про движение и обработку данных. Разница в порядке действий и где именно крутится логика. Выбирай подход под свои задачи и возможности 💡

Для более глубокого понимания рекомендую ознакомиться со следующими статьями:
ETL и ELT: ключевые различия, о которых должен знать каждый
ETL vs ELT: архитектура конвейеров обработки данных

#data #etl #elt #datapipeline #инфраструктура #аналитика
6🔥6👍4🤮1
🛠 Как я стал дата-инженером? Как вкатиться?

Хочу поделиться своей историей перехода в мир дата-инженерии — возможно, кого-то это вдохновит и поможет сделать первые шаги 🤝

💡 Изначально меня привлекал Data Science с точки зрения ML - обучение моделей, участие в хакатонах по компьютерному зрению, ранжированию и NLP 🤖. Я активно изучал ML, экспериментировал и набирался опыта.

Но всё изменилось, когда я устроился в геномный центр 🧬. Именно там я впервые столкнулся с инженерной стороной данных. Вокруг были свои форматы, специфичные инструменты и оркестраторы, разработанные специально для работы с геномными данными. Объёмы данных были по-настоящему впечатляющими: более 10 000 человеческих геномов (каждый весом около 100 ГБ), хранившихся на ленточных хранилищах 📼.

🧩 Там я начал писать свои первые пайплайны — настраивал сбор и обработку данных. Постепенно понял, что такая разработка мне реально нравится. Даже больше, чем обучение моделей. Было интересно копаться в инструментах, разбираться, как всё устроено, и делать так, чтобы система работала чётко и надёжно. Именно тогда я и решил двигаться в сторону дата-инженерии.

📚 Чтобы вкатиться по-настоящему, мне пришлось подтянуть базовые навыки:

SQL — базовый навык, который спрашивают на каждом собеседовании. Отличный интерактивный курс на Stepik помог разобраться с этим языком запросов.
Python — умение писать простенькие алгоритмы, знать основы структур данных и объектно-ориентированного программирования. Здесь очень помогли открытые курсы от МФТИ по алгоритмам и структурам данных и ООП(с 5ого по 9ый модули) , хорошо бы освоить хотя бы на теории.
Решение задач уровня medium на Leetcode — отличный способ подготовиться к собеседованиям и улучшить алгоритмическое мышление.
Чтение статей про HDFS, Airflow, СУБД, Spark — чтобы понять, с какими инструментами приходится работать в реальной инженерной практике. О них всех и о том какие этапы я проходил расскажу в следующих постах.

Об этих всех инструментах и о том, какие собеседования я проходил я расскажу в следующих постах.
Если вам интересно узнать — ставьте 🔥, и я с радостью поделюсь подробностями!
Хочешь стать дата-инженером и нужна помощь? Переходи на https://dataengineers.pro/mentors/artyompodvalny
🔥228😁6🤮1
Data Engineer Lab pinned «🛠 Как я стал дата-инженером? Как вкатиться? Хочу поделиться своей историей перехода в мир дата-инженерии — возможно, кого-то это вдохновит и поможет сделать первые шаги 🤝 💡 Изначально меня привлекал Data Science с точки зрения ML - обучение моделей, участие…»
Data Engineer Lab pinned «Всем привет! Меня зовут Артем Подвальный, я Data Engineer в Ozon Tech. Моя основная специализация – инженерия данных, в том числе подготовка датасетов для обучения моделей поиска. До этого я работал Data Engineer'ом в SMlab, где занимался инженерными задачами…»
🚀 Как я получил оффер на джуна в ML ?

Возвращаясь к предыдущему посту — я упоминал, что изначально меня привлекал Data Science с уклоном в ML. Поэтому не могу сказать, что сразу отказался от этого направления.

У меня был выбор между ML и Data Engineering, и я проходил собесы на джуна по обоим направлениям.

Однажды наткнулся на вакансию по Computer Vision в Telegram-канале. Составил резюме, написал в личку HR — и меня пригласили на техэтап. Я приятно пообщался с тимлидом около часа, решил задачки, ответил на все его вопросы — и вскоре после собеса я получил оффер 🎉

Теперь — что мне реально помогло, и что стоит знать, чтобы пройти собесы по ML.
Давайте по порядку 👇

🐍 1. Python и алгоритмы
Нужны везде. Это база.
📌 Я выше уже делился хорошими курсами постом выше — обязательно посмотрите, если ещё нет.

📈 2. Статистика и теория вероятностей
Если собеседование связано с классическим ML, то темы статистики и теории вероятностей почти всегда поднимаются.
Примеры типичных вопросов по статистике и теории вероятностей.
Они помогут вам не только подготовиться, но и выявить пробелы. Просто прочитайте и попробуйте решить — станет понятно, на чём стоит сосредоточиться

📘 3. Теория ML
Очень рекомендую учебник Яндекса по ML. Всё супер понятно.
‼️ Обращайте внимание на метрики! Их спрашивают на всех уровнях(от стажера до сеньора) — просто с разной глубиной.

🎯 4. Углубление в направление
После того, как вы освоите базу, имеет смысл выбрать конкретное направление, в котором хотите развиваться.
Наиболее популярны — Computer Vision (CV) и Natural Language Processing (NLP). Именно по ним проще найти курсы, соревнования и вакансии для джунов.
Однако, это далеко не всё. Есть и другие не менее интересные области — например, рекомендательные системы, временные ряды, обработка табличных данных, временные ряды, и т.д. Выбор зависит от ваших интересов и целей.
По NLP могу посоветовать отличный курс и репозитории — сам им пользовался, также у этих авторов были записи на ютубе( надеюсь остались).

🧑‍🏫 5. Про CV отдельно
Отдельно выделю курс от ШАДа, он очень понятный.
Я не решал ноутбуки, просто смотрел лекции — но и этого оказалось достаточно.
😲 Интересно, что многие вопросы на собесе были точь-в-точь как кейсы, которые рассматривал лектор, так что — must-watch!

🏆 6. Хакатоны и Kaggle
Очень рекомендую участвовать в хакатонах и соревнованиях на Kaggle.
На момент собесов у меня было уже 3–4 участия, две из которых — студенческие хакатоны от этого сообщества

Они регулярно анонсируют интересные мероприятия — советую следить.
📌 Такие соревнования реально считаются за полноценный проект, и работодатели обращают на это внимание. Даже просто участие — отличная строчка в резюме.

Если вы только начинаете путь в ML не бойтесь, всё реально. Главное системность и интерес к теме. Ставьте 🔥 если пост был для вас полезным.
Пишите вопросы в комментариях💬
🔥17👍6😁4💩21🤮1🤡1