NEW BOT Телеграм, страница

Channel created

12:31

Channel photo updated

12:34

Всем привет! Меня зовут Артем Подвальный, я Data Engineer в Ozon Tech. Моя основная специализация – инженерия данных, в том числе подготовка датасетов для обучения моделей поиска.

До этого я работал Data Engineer'ом в SMlab, где занимался инженерными задачами в команде персональных рекомендаций. Кроме того, меня увлекает Data Science в области геномных данных: обучаю крупные языковые модели для предсказания вторичных структур ДНК и разрабатываю пайплайны для обработки геномных данных. Я окончил МФТИ, что дало мне прочную техническую базу.

На этом канале я буду делиться своим опытом и рассказывать об инструментах и базах данных, которые актуальны для дата-инженеров в различных сферах. Также вы найдёте здесь полезные гайды и курсы, которые помогут развиваться как специалисту. Подключайтесь и будем вместе расти в профессии!

Аrtoym Podvalny

Data engineer https://dataengineers.pro/mentors/artyompodvalny

❤8🔥6👍1🤮1💩1🤡1

747 viewsedited 11:53

Data Engineer Lab

Что такое дата-инженерия и кто такие дата-инженеры?

Дата-инженеры — это специалисты, которые создают инфраструктуру для работы с данными: от сбора до хранения и передачи в аналитические системы.

Что входит в их задачи:
• 📥 Сбор данных из разных источников
• 🛠 Построение дата-пайплайнов (ETL/ELT)
• 🗄 Настройка хранилищ и баз данных
• 🧪 Обеспечение качества и доступности данных
• 🧰 Работа с инструментами вроде Airflow, Spark, Kafka
• 👨‍💻 Программирование на Python, Java или Scala

Именно благодаря дата-инженерам данные становятся структурированными, чистыми и готовыми к дальнейшему использованию.
Они тесно взаимодействуют с аналитиками, дата-сайентистами и BI-разработчиками, чтобы данные приносили ценность бизнесу.

📊 Аналитика, ML и визуализация — это витрина. А дата-инженеры — те, кто прокладывает к ней надёжную дорожку.
Каждая роль важна и усиливает другую 💡

Кстати, вот хорошая статья с примерами и иллюстрациями про отличие дата-инженеров от BI-разработчиков и почему их стоит объединять в одну команду:

#DataEngineering #ИнженерияДанных #BigData #ETL #DataPipeline #DataEngineer

❤8🔥7👍3

691 viewsedited 16:48

Data Engineer Lab

💾 Oracle — СУБД с историей и статусом

Знаете, какая СУБД( система управления базами данных) была основана ещё в 1977 году и до сих пор остаётся одной из самых популярных в мире? 👀
Речь, конечно же, про Oracle. Её создатель — легендарный Ларри Эллисон и его команда. С тех пор прошло почти 50 лет, и компания выросла в одного из гигантов IT-индустрии — сейчас Oracle входит в топ-20 самых дорогих компаний мира 🌍💰

🔍 В чём её фишка?
Oracle построена на реляционной и объектно-ориентированной модели данных, что делает её мощной, гибкой и подходящей для сложных корпоративных задач. Подробнее об этом — в этой статье.

💸 Да, лицензия у Oracle стоит недёшево. Но несмотря на это, многие компании по-прежнему выбирают её вместо бесплатных альтернатив, таких как PostgreSQL 🆓🐘 Почему? Всё просто — здесь хорошо объяснили 🔗

📌 Oracle — это не просто база данных. Это целая инженерная экосистема, проверенная временем, на которую до сих пор опирается бизнес по всему миру.

#Oracle #СУБД #БазыДанных #IT #PostgreSQL #Enterprise

❤7🔥7👍3

754 viewsedited 11:44

Data Engineer Lab

📂 Hadoop Distributed File System (HDFS) — это один из фундаментальных компонентов в экосистеме обработки больших данных. Он стал краеугольным камнем для дата-инженеров по всему миру и используется в самых разных системах: от банков и телекома до стриминговых платформ и дата-центров.

🌍 Изначально разработан инженерами Yahoo! как открытый аналог Google File System (GFS). Благодаря своей надёжности, масштабируемости и ориентации на работу с гигантскими объёмами информации, HDFS очень быстро приобрёл популярность и стал индустриальным стандартом.

✅ Почему HDFS стал таким важным:

📦 Распределённое хранение данных: большие файлы разбиваются на блоки и автоматически распределяются по множеству узлов.

💪 Отказоустойчивость: благодаря репликации блоков (по умолчанию 3 копии), данные не теряются при сбоях узлов.

⚙️ Масштабируемость: можно начинать с нескольких серверов и масштабироваться до тысяч машин без изменения архитектуры.

📊 Параллельная обработка: HDFS идеально сочетается с фреймворками типа MapReduce, позволяя выполнять анализ "на месте", рядом с данными.

💾 Ориентирован на потоковую запись: файлы в HDFS пишутся один раз и читаются много раз — это идеально для аналитических систем.

🕰 Хочешь понять, откуда пошли Big Data и зачем они вообще появились?
📚 Вот отличная вводная:
👉 Краткая история развития Big Data

🧠 Архитектура Hadoop и HDFS:
NameNode — главный узел, управляющий метаданными и структурой файловой системы.

DataNode — узлы хранения, где физически лежат блоки данных.

HDFS — распределённая файловая система, где данные распределяются по узлам.

YARN (Yet Another Resource Negotiator) — компонент, управляющий ресурсами и задачами в кластере.

🧪 Хотите поэкспериментировать с Hadoop и HDFS у себя локально?
👨‍💻 Ловите гайд, как быстро развернуть окружение:
🔗 Запуск Hadoop на своём компьютере

🔥8❤6👍4

1.02K viewsedited 15:37

Data Engineer Lab

Data Engineer Lab pinned «Всем привет! Меня зовут Артем Подвальный, я Data Engineer в Ozon Tech. Моя основная специализация – инженерия данных, в том числе подготовка датасетов для обучения моделей поиска. До этого я работал Data Engineer'ом в SMlab, где занимался инженерными задачами…»

07:52

Data Engineer Lab

🔍 Что такое ETL и ELT? Простыми словами

В современном мире данных — данные = золото 🪙 Но чтобы это золото приносило ценность, его нужно обработать. Здесь на сцену выходят два главных героя:

🧱 ETL и ELT — процессы работы с данными, которые позволяют:
✔️ забирать данные из разных источников
✔️ очищать, преобразовывать
✔️ загружать в хранилища или базы для анализа

⚙️ ETL (Extract → Transform → Load)

Extract (Извлечение) — данные забираются из источника (БД, API, файлов)
Transform (Преобразование) — очищаются, объединяются, агрегируются
Load (Загрузка) — уже обработанные данные отправляются в хранилище

📦 Подходит, когда:
данные нужно «почистить» заранее
трансформации жёстко заданы
хранилище не супер-мощное

⚡️ ELT (Extract → Load → Transform)
Extract — извлекаем данные
Load — сразу загружаем всё как есть
Transform — преобразуем уже внутри хранилища (на лету)

☁️ Подходит, если:
используешь мощные облачные хранилища
нужно работать с сырыми данными
аналитики делают свои запросы на месте

💬 Итог: Оба процесса — про движение и обработку данных. Разница в порядке действий и где именно крутится логика. Выбирай подход под свои задачи и возможности 💡

Для более глубокого понимания рекомендую ознакомиться со следующими статьями:
ETL и ELT: ключевые различия, о которых должен знать каждый
ETL vs ELT: архитектура конвейеров обработки данных

#data #etl #elt #datapipeline #инфраструктура #аналитика

❤6🔥6👍4🤮1

1.08K viewsedited 10:42

Data Engineer Lab

🛠 Как я стал дата-инженером? Как вкатиться?

Хочу поделиться своей историей перехода в мир дата-инженерии — возможно, кого-то это вдохновит и поможет сделать первые шаги 🤝

💡 Изначально меня привлекал Data Science с точки зрения ML - обучение моделей, участие в хакатонах по компьютерному зрению, ранжированию и NLP 🤖. Я активно изучал ML, экспериментировал и набирался опыта.

Но всё изменилось, когда я устроился в геномный центр 🧬. Именно там я впервые столкнулся с инженерной стороной данных. Вокруг были свои форматы, специфичные инструменты и оркестраторы, разработанные специально для работы с геномными данными. Объёмы данных были по-настоящему впечатляющими: более 10 000 человеческих геномов (каждый весом около 100 ГБ), хранившихся на ленточных хранилищах 📼.

🧩 Там я начал писать свои первые пайплайны — настраивал сбор и обработку данных. Постепенно понял, что такая разработка мне реально нравится. Даже больше, чем обучение моделей. Было интересно копаться в инструментах, разбираться, как всё устроено, и делать так, чтобы система работала чётко и надёжно. Именно тогда я и решил двигаться в сторону дата-инженерии.

📚 Чтобы вкатиться по-настоящему, мне пришлось подтянуть базовые навыки:

✅ SQL — базовый навык, который спрашивают на каждом собеседовании. Отличный интерактивный курс на Stepik помог разобраться с этим языком запросов.
✅ Python — умение писать простенькие алгоритмы, знать основы структур данных и объектно-ориентированного программирования. Здесь очень помогли открытые курсы от МФТИ по алгоритмам и структурам данных и ООП(с 5ого по 9ый модули) , хорошо бы освоить хотя бы на теории.
✅ Решение задач уровня medium на Leetcode — отличный способ подготовиться к собеседованиям и улучшить алгоритмическое мышление.
✅ Чтение статей про HDFS, Airflow, СУБД, Spark — чтобы понять, с какими инструментами приходится работать в реальной инженерной практике. О них всех и о том какие этапы я проходил расскажу в следующих постах.

Об этих всех инструментах и о том, какие собеседования я проходил я расскажу в следующих постах.
Если вам интересно узнать — ставьте 🔥, и я с радостью поделюсь подробностями!
Хочешь стать дата-инженером и нужна помощь? Переходи на https://dataengineers.pro/mentors/artyompodvalny

Stepik: online education

Интерактивный тренажер по SQL

В курсе большинство шагов — это практические задания на создание SQL-запросов. Каждый шаг включает минимальные теоретические аспекты по базам данных или языку SQL, примеры похожих запросов и пояснение к реализации.

🔥22❤8😁6🤮1

1.63K viewsedited 19:44

Data Engineer Lab

Data Engineer Lab pinned «🛠 Как я стал дата-инженером? Как вкатиться? Хочу поделиться своей историей перехода в мир дата-инженерии — возможно, кого-то это вдохновит и поможет сделать первые шаги 🤝 💡 Изначально меня привлекал Data Science с точки зрения ML - обучение моделей, участие…»

19:44

Data Engineer Lab

20:30

Data Engineer Lab

🚀 Как я получил оффер на джуна в ML ?

Возвращаясь к предыдущему посту — я упоминал, что изначально меня привлекал Data Science с уклоном в ML. Поэтому не могу сказать, что сразу отказался от этого направления.

У меня был выбор между ML и Data Engineering, и я проходил собесы на джуна по обоим направлениям.

Однажды наткнулся на вакансию по Computer Vision в Telegram-канале. Составил резюме, написал в личку HR — и меня пригласили на техэтап. Я приятно пообщался с тимлидом около часа, решил задачки, ответил на все его вопросы — и вскоре после собеса я получил оффер 🎉

Теперь — что мне реально помогло, и что стоит знать, чтобы пройти собесы по ML.
Давайте по порядку 👇

🐍 1. Python и алгоритмы
Нужны везде. Это база.
📌 Я выше уже делился хорошими курсами постом выше — обязательно посмотрите, если ещё нет.

📈 2. Статистика и теория вероятностей
Если собеседование связано с классическим ML, то темы статистики и теории вероятностей почти всегда поднимаются.
Примеры типичных вопросов по статистике и теории вероятностей.
Они помогут вам не только подготовиться, но и выявить пробелы. Просто прочитайте и попробуйте решить — станет понятно, на чём стоит сосредоточиться

📘 3. Теория ML
Очень рекомендую учебник Яндекса по ML. Всё супер понятно.
‼️ Обращайте внимание на метрики! Их спрашивают на всех уровнях(от стажера до сеньора) — просто с разной глубиной.

🎯 4. Углубление в направление
После того, как вы освоите базу, имеет смысл выбрать конкретное направление, в котором хотите развиваться.
Наиболее популярны — Computer Vision (CV) и Natural Language Processing (NLP). Именно по ним проще найти курсы, соревнования и вакансии для джунов.
Однако, это далеко не всё. Есть и другие не менее интересные области — например, рекомендательные системы, временные ряды, обработка табличных данных, временные ряды, и т.д. Выбор зависит от ваших интересов и целей.
По NLP могу посоветовать отличный курс и репозитории — сам им пользовался, также у этих авторов были записи на ютубе( надеюсь остались).

🧑‍🏫 5. Про CV отдельно
Отдельно выделю курс от ШАДа, он очень понятный.
Я не решал ноутбуки, просто смотрел лекции — но и этого оказалось достаточно.
😲 Интересно, что многие вопросы на собесе были точь-в-точь как кейсы, которые рассматривал лектор, так что — must-watch!

🏆 6. Хакатоны и Kaggle
Очень рекомендую участвовать в хакатонах и соревнованиях на Kaggle.
На момент собесов у меня было уже 3–4 участия, две из которых — студенческие хакатоны от этого сообщества

Они регулярно анонсируют интересные мероприятия — советую следить.
📌 Такие соревнования реально считаются за полноценный проект, и работодатели обращают на это внимание. Даже просто участие — отличная строчка в резюме.

Если вы только начинаете путь в ML не бойтесь, всё реально. Главное системность и интерес к теме. Ставьте 🔥 если пост был для вас полезным.
Пишите вопросы в комментариях💬

Phystech.Career

Career chanel

🔥17👍6😁4💩2❤1🤮1🤡1

1.38K viewsedited 17:28

Data Engineer Lab

🎛 Что такое оркестратор данных и зачем он вообще нужен?

Оркестратор — это как дирижёр в мире сервисов и задач. Он управляет их запуском, следит, чтобы всё шло по плану, масштабирует, перезапускает упавшее и показывает красивую визуализацию 💡
Без него автоматизация, стабильность и масштаб — просто невозможны.

🔧 Что умеет оркестратор:

⚙️ Автоматизирует рутину — ETL, моделирование, деплой
📦 Управляет контейнерами (Docker, Kubernetes)
🔍 Следит за задачами — мониторинг, логирование, алерты
🔐 Обеспечивает безопасность — доступы, роли, шифрование
🧩 Интегрируется с чем угодно — CI/CD, базы, системы аналитики

📌 Где применяют:

🔬 Биоинформатика
Первый оркестратор с которым я познакомился — WDL от Broad Institute. Вся логика пайплайна задаётся текстом, визуализации почти нет, но зато удобно для сложных задач вроде GATK или RNA-seq. Работает через Cromwell — и локально, и в облаке ☁️

💼 В индустрии
В SMlab (Спортмастер) я впервые попробовал Airflow — и это было откровение.
Визуальный интерфейс, удобные DAG'и, отслеживание ошибок, ручной перезапуск — работать с пайплайнами стало гораздо легче.
Использовал его для автоматизации SQL-расчётов, ETL и запуска приложений, которые отслеживают поведение пользователей в рекомендательных системах.

🎯 Рекомендательные системы
Оркестратор управляет сбором фичей, переобучением моделей, логированием, A/B-тестами и выкладкой в прод.
Сейчас через Airflow собираю пользовательские данные ежедневно — чтобы датасеты всегда были свежими.

☁️ DevOps и облако
Всё, что связано с микросервисами, CI/CD, безостановочными обновлениями — это тоже зона ответственности оркестратора.
Инструменты: AWS ECS/EKS,и др.

🚀 Популярные оркестраторы:

• Apache Airflow — лидер в Data/ML/ETL
• Prefect — современный, python-friendly, вот его сравнение с Airflow
• WDL + Cromwell — стандарт в геномике
• KubeFlow — для Kubernetes-сред
• Luigi — проверенный временем

💬 Почему важно разбираться:

Оркестратор — это основа современной data-инфраструктуры.
Хочешь автоматизировать процессы, не бояться падений, легко масштабироваться и не держать всё в голове — без оркестратора не обойтись.

В следующих постах расскажу про Airflow подробнее.Понравился пост? Ставьте реакции🔥, пишите комментарии)

#оркестратор #dataengineering #airflow #etl #автоматизация #bigdata

🔥20👍8👏6

1.77K viewsedited 12:19

Data Engineer Lab

OLTP и OLAP: две стороны дата-инженерии, о которых стоит знать👨‍💻

В последние годы бизнес стал чётко понимать, насколько важны данные. Причём не только «что происходит прямо сейчас», но и вся история: как вёл себя пользователь месяц назад, когда упал спрос, какие товары чаще всего покупают в пятницу вечером.
Те компании, которые научились собирать и использовать такие данные, вырываются вперёд. Остальные — гадают на кофейной гуще.
Вот тут и появляются два типа баз, с которыми мы, как дата-инженеры, работаем каждый день: OLTP и OLAP.

🌐Представь, что ты заказываешь еду в приложении. Ты жмёшь кнопку — и заказ уходит в базу. Вводишь номер карты — сохраняется платёж. Все эти действия происходят в реальном времени — и проходят через OLTP.
OLTP (Online Transaction Processing) — это базы, которые: быстро записывают и обновляют информацию,справляются с тысячами одновременных действий, строго следят за целостностью данных/
Примеры: PostgreSQL, Oracle, MySQL
Они хорошо подходят для продуктовых систем, но не предназначены для анализа больших массивов данных.

💻

OLAP — это уже про аналитику
Теперь представь, что маркетологу нужно понять: как часто люди заказывают роллы по пятницам, сколько заказов в среднем в декабре и как это отличается от января.
Вот такие запросы уже не про одно событие, а про тенденции. Для них нужны другие базы — это OLAP.
OLAP (Online Analytical Processing) — это базы, которые: хранят исторические данные, быстро считают метрики и строят агрегаты,отлично подходят для аналитических дашбордов, BI-систем и витрин
Примеры: ClickHouse, Vertica, Redshift
Эти базы заточены под чтение по столбцам — поэтому отлично справляются с запросами вроде: “покажи средний чек за последние полгода по категориям”.

👨‍💻И вот что важно: на первый взгляд синтаксис в OLTP и OLAP может быть похож — SQL есть SQL, но «под капотом» они работают абсолютно по-разному.
Запрос, который в Oracle выполнится за 50 мс, может в ClickHouse грузиться минуту. И наоборот.
Поэтому одна из ключевых задач дата-инженера — писать оптимальные запросы под конкретную архитектуру. Тут важны не только JOIN’ы и WHERE’ы, но и как ты хранишь данные, как распределяешь, по каким полям сортируешь и партиционируешь.

А какими СУБД вы пользовались и какие возникали проблемы?
#sql #olap #oltp #clickhouse #postgresql #bigdata #analytics

Please open Telegram to view this post

VIEW IN TELEGRAM

⚡11🏆8❤7🔥2💯1

1.26K views13:08

About

Blog

Apps

Platform