Rumyantsev Feed – Telegram
Rumyantsev Feed
89 subscribers
45 photos
7 files
96 links
Пишу обо всём, что связано с данными. Иногда отклоняюсь от темы.

Связь: @jayrumi
LinkedIn: https://www.linkedin.com/in/evgeny-rumyantsev
Download Telegram
📚 Никогда не слышал об этом, но оказывается, у довольно известного издательства Manning есть своя платформа обучения, которая называется liveProjects.

Каждый "курс" в liveProjects сфокусирован над решением задачи, приближенной к проблеме реального мира. Обучение происходит следующим образом (выдержка из FAQ на сайте):

"Just the right amount so that you’re challenged but never stuck. You’ll receive step-by-step instructions, access to book and video resources selected for your project, opportunities to collaborate with other participants or an expert mentor, and access to three increasing levels of help within the workflow."

Сегодня на сайте издательства акция - каждый проект можно купить за 20$.

Выделил наиболее интересные проекты на мой взгляд:

Event-Driven Data Pipeline with Python and Kafka

End-to-End Batch Data Pipeline with Spark

Algorithms and Data Structures in Python

Build a Small Dockerized Data Mesh

Real-World Deep Learning Recommender System

ML for Knowledge Graphs with Neo4j

Building an ML Pipeline with Kubeflow

Create a Data Platform for Real-time Anomaly Detection

Time Series Forecasting in Python

Перед покупкой курса настоятельно рекомендую ознакомится с условиями (сроки и расписание прохождения, доступность ресурсов и т.п.)

P.S. Если кто-то решится приобрести что-то из предложенного, и завершит своё обучение - отпишитесь, пожалуйста, в лс и поделитесь впечатлениями. Manning довольно часто проводит различные распродажи - надо будет только дождаться очередной по liveProjects и приобрести себе курс.

Всем добра!
👍2🤔1
ETL vs. ELT

Интересный момент касательно ETL/ELT процесса, который с одной стороны очевиден, а с другой стороны - не задумываешься о разнице до поры до времени. Так вот, чем отличается ETL от ELT? Самый очевидный ответ - порядком выполнения степов Extract, Transform, Load. Да, но когда применять ETL, а когда - ELT?

Исторически ETL использовался в концепциях обработки данных для DWH. Была и до сих пор остаётся куча тулов, таких, как Informatica, Talend, Pentaho и т.д., которые являются ETL инструментами: загружаем данные из сорсов на машину/сервер с тулом, применяем трансформации, выгружаем в наше хранилище данных. Да, такой подход работает, когда мы говорим об обработке небольшого объёма данных. А что, если данных десятки и сотни гигабайт? А если они ещё и полу-структурированные? Какой бы мощный сервер с ETL тулом не был, в какой-то момент и он перестанет справляться с такими объёмами данных или будет делать это медленнее, тем самым задерживая доставку необходимых данных конечным пользователям.

И вот тут появляется Data Lake с возможностью хранить терабайты разных данных (structured, semi-structured, unstructured). Да ещё и с оптимизированными на чтение схемами. И что же имеем сейчас: забрали данные из сорсов, сложили в DL, сделали трансформации с помощью BigData тулов.

Да, здесь много частных случаем и можно долго спорить. Но если абстрагироваться от частного и посмотреть на общее - получаем, что ETL - это про DWH, а ELT - про Data Lake.

Неплохой повод включить в качестве вопроса со ⭐️кой для собеседований кандидатов.
🤔3👍2
⚡️Внезапная новость!

Теперь Airflow доступен и в Azure! Если у конкурентов данный тул предоставляется as a Service (Cloud Composer у GCP и Amazon MWAA у AWS), то Майкрософ пошёл дальше. Компания встроила Airflow в Azure Data Factory. Тут всё: и автоматическое разворачивание, и автоскейлинг, и аутентификация через Active Directory, и прочие плюшки.

Несмотря на мою любовь к GCP, считаю, что такой "выходкой" Microsoft поставил шах и мат конкурентам.

Браво! 👏

P.S. Буквально в ноябре 2022 рассказывал другу о том, как круто использовать managed Airflow - нет никакого головняка с настройкой и поддержкой инфры. Друг как раз работает с Azure. Я ещё удивлялся, как это до сих пор нет SaaS Airflow у Azure. Но у компании, как видим, были свои планы на этот счёт 🌚
👍4🔥4
image_2023-02-03_12-47-30.png
105.3 KB
Немного пятничного юмора.

Всем желаю спокойного завершения рабочей недели и хорошо отдохнуть на выходных.

P.S. И не забывайте читать книги с птицами 😉
😁3👍2🤔1
Воскресный опрос.
Я понимаю, что аудитория небольшая, но очень интересно узнать, какой клауд вы используете для своей Data Platform (аналитика, процессинг, трансформации и т.п. )
Final Results
24%
GCP
24%
AWS
16%
Azure
4%
Another vendor (Alibaba, Oracle, Yandex, etc.)
0%
Multicloud (GCP + Azure)
0%
Multicloud (AWS + Azure)
4%
Multicloud (GCP + AWS)
0%
Another multicloud
28%
On-premise
0%
None of the above
А вот и THE 2023 MAD (MACHINE LEARNING, ARTIFICIAL INTELLIGENCE & DATA) LANDSCAPE.

Смотрим на тренды 2023 в data engineering, аналитике, ai/ml и не только.

Осторожно, не залипайте, впереди рабочий день 😉
👍2❤‍🔥1
Могу сказать, что уже неоднократно всплывали топики о том, что у Python, как у ЯП для дата инженеров, появился конкурент в лице Rust. Сегодня в linkedin попался пост от Karim Jedda, где он анонсирует запуск сайта знакомства (не того, о котором можно подумать 😉) с языком Rust в разрезе работы в Data Engineering.

Ссылка на сайт: https://datawithrust.com/
👍2
Ну что я могу сказать?

Мы действительно входим в новую эру с точки зрения того, на что способен GPT-4. Но я сторонник того, что такие технологии точно не заменят Data Engineers/Architects. GPT-X & Co нужно воспринимать как помощником или совсех зелёных джунов. Они избавляют от рутины, позволяя посветить время более важным делам.

Зачем тратить несколько часов на то, чтобы представить сложный JSON в виде модели Data Vault 2.0 в BigQuery, например, если можно скормить его ChatGPT с просьбой сгенерить эту модель и преобразовать в DDL? А тебе останется проревьювать результат и внести необходимые правки. А потом ещё и автоматизировать schema changes handling.

Снимаю шляпу. 👑

https://medium.com/@nschairer/gpt-4-data-pipelines-transform-json-to-sql-schema-instantly-dfd62f6d1024
👍2❤‍🔥1
Всем доброе утро!

Очередной новый подход в организации работы с данными. На этот раз объединили dimensional modeling с feature engineering.
Основной посыл: давайте выделим сущности и будем работать вокруг них, обогащая данными и фичами (по сути, рассчитанными метриками). В любом случае, рекомендую почитать статью. Радует, что текст пестрит ссылками на дополнительные материалы, которые скорее всего помогут глубже понять approach.

P.S. От себя добавлю, что я бы заменил dimensional modeling на data vault 2.0 или вообще anchor modeling. Они точно прибавят гибкости. Если быть современными, то уже во всём 😉

https://preset.io/blog/introducing-entity-centric-data-modeling-for-analytics/
👍3🔥1
Mesh'ей много не бывает!

Если есть Data Mesh, то почему бы не придумать и концепцию SQLMesh? Так и поступили создатели компании Tobiko, о чём можно и почитать в статье.

Но если Data Mesh больше об архитектуре и организации работы с данными в компании, то SQLMesh - это про DataOps. Направление, которое в том числе продолжает набирать популярность.

Какие же бенефиты от использования этого меша обещают? Вот некоторые из них:

- автоматическое определение зависимостей между объектами;
- исходя из пункта выше: предоставление информации о том, какие объекты будут зааффекчены при изменении;
- code version control;
- unit тесты для пайплайнов, которые можно описать в YAML файле;
- интеграция с Airflow и dbt (пока в preview).

Я пока не совсем понял, как именно Virtual Data Warehouse связан с Efficient dev / staging environments. Видимо, для этого нужно поглубже погрузиться в тему.

P.S. Спасибо моему новому коллеге data engineer за то, что поделился ссылкой на статью.

#dataops #sqlmesh
🤔1👀1🆒1
Лёгкое чтиво в конце рабочего выходного дня: https://www.levels.fyi/blog/scaling-to-millions-with-google-sheets.html

Оказывается, Google Sheets могут быть полезным инструментом не только для менеджеров и бизнес-пользователей, но и стать альтернативой бд на бекенде! Девиз ребят из levels.fyi был прост: "start simple and iterate". И при запуске своего ресурса они отталкивались от позиции, что хотят сфокусироваться на разработке продукта, а не выборе технологий и настройке инфраструктуры, да и к тому же по возможности сэкономить. Конечно, со временем пришлось сделать изменения "под капотом", но об этом непосредственно в самой статье.

#googlesheets #backend
👍1
Немного мудрости.
Для моей команды В данный момент одна из самых актуальных тем.
🔥5🆒1
А вот внезапная находка, которая немного удивила

Оказывается, есть ML расширение для PostgreSQL, которое называется просто и лаконично: PostgresML, и которое позволяет прямо из квери запускать модельки. На гитхабе написано о том, что расширение

- умеет в Natural Language Processing (NLP);
- имеет доступ к более 1000 разным другим предобученным моделям, доступным на Hugging Face hub (также что-то новенькое для меня);
- имеет оттюненые Large Language Models (LLMs);
- обладает силой превращение "слоника" в векторную бд.

Распространяется под лицензией MIT. Есть сайт, на котором можно выбрать подходящий для вас план за денюжку, и где обещают, что всё будет работать в 8x-40x Faster than Python и с <1 ms Prediction Latency.

Вся эта история напоминает мне уже реализованный ML-функционал в Google BigQuery. Хотя в целом, если задуматься, индустрия движется в сторону выстраивания полнофункциональный эко-системы вокруг какого-то аналитического движка: будь то вышеупомянутый BigQuery, будь то Snowflake или любое другое решение от гигантов индустрии. С одной стороны, вендор подсаживает тебя на свою иглу, но с другой стороны, тебе не нужно ресёрчить какой-то дополнительный тул и думать об интеграции с твоим решением.

Опять же, для меня остаются вопросы к PostgresML касательно перформанса и потенциальной стоимости использования этого тула. На сайте были упоминания и про CPU, и про GPU, но не попробовав - не понять. С другой стороны, здесь речь скорее всего о каких-то ad-hoc запросах, проверке простых гипотез, или несложных ML-пайплайнах на стороне продуктовой базы.

#PostgresML #PostgresML #ML
❤‍🔥1🔥1
Думаю, каждый наслышан о dbt (data build tool). А теперь встречайте dlt (data load tool)!

Как не трудно догадаться, тул предназначен для EL (Extract, Load) операций, или проще говоря: для трансфера данных из источника (source) в приёмник (destination). Сам по себе dlt - это опенсорсная питонячая библиотека. По заверениям создателей данный инструмент упрощает работу со схемой данных (автоматический мэйнтейнинг изменений), позволяет создавать "шедевральные" и надёжные пайплайны в разы быстрее относительно написания кастомного кода, может ранаться где угодно и дружит с Modern Data Stack. Ну просто находка!

Если кто-то уже работал с этим зверем, буду признателен за фидбек в личку (@jayrumi).

#dlt #el #datatransfer #mds
👍2🤔2
А вот и StackOverflow анонсировал запуск своего "ChatGPT" с блэк-джеком и прочим приятным сопровождением в лице Overflow AI.
Если не хочется читать, то можно глянуть небольшой ролик.

#ai #stackoverflow
👍4
Если не знаете, какие сервисы GCP выбрать в качестве определённых элементов вашей аналитической data платформы - вот вам наглядное decision tree от Google. А здесь можно вкратце почитать про каждый из сервисов: https://cloud.google.com/blog/products/data-analytics/decision-tree-for-data-analytics-workloads-on-google-cloud.

#gcp
👍3
🐍 Python врывается в Excel!

Пока только в превью и только для участников программы Microsoft 365 Insiders.

Нововведение позиционируется, как дверь в мир "cleaning data, machine learning, predictive analytics, and more" с возможностью визуализации при помощи библиотек Matplotlib и seaborn. Под капотом Anaconda Distribution for Python, которая крутится в ажуре.

Не знаю, как на это реагировать и как воспринимать: как баг или как фичу 🤷 Но новость доставила 😁

Больше деталей в посте блога: https://techcommunity.microsoft.com/t5/excel-blog/announcing-python-in-excel-combining-the-power-of-python-and-the/ba-p/3893439

#python #excel
🔥2😁1🌚1
Google анонсировал выход BigQuery Studio (пока в превью)

Но подойдём к этой новости с другой стороны. Оттолкнёмся от фразы из поста на замечательном канале Инжиниринг Данных: "Во-первых очевидно, что Snowflake и Databricks лидеры..."

И в самом деле, в последние пару-тройку лет очень много хайпа и движухи вокруг Snowflake и Databricks. Где-то хорошо работает маркетинг, а где-то действительно появляются интересные функционал и концепты. Но основная цель для обоих вендоров - вырастить экосистему вокруг их продуктов для создания end-to-end data solutions с аналитикой и AI на борту. Осталось только свою облачную инфраструктуру поднять, чтобы не зависеть от других cloud провайдеров. Но это не суть на данный момент.

Ещё в прошлом году на онлайн-конфе гугла я отметил для себя, что компания так же движется в сторону предоставления end-to-end решения для работы с данными. В этом посте делился краткой выжимкой одного из выступлений. И вот в канун начала нового учебного года Google в своём блоге рассказал о том, что выпустил BigQuery Studio, но пока не всем доступную. Если задуматься, оно к тому и шло: сперва появлялись отдельные сервисы (например, Dataplex), потом что-то из этих сервисов переезжало непосредственно на UI BigQuery (напримерб Lineage), затем появлялся новый функционал (например, Chart). А теперь (пока только для избранных) на едином интерфейсе будут доступны следующие фишки:

- Use SQL, Python, Spark or natural language directly within BigQuery and leverage those code assets easily across Vertex AI and other products for specialized workflows

- Extend software development best practices such as CI/CD, version history and source control to data assets, enabling better collaboration

- Uniformly enforce security policies and gain governance insights through data lineage, profiling and quality, right inside BigQuery

В статье можно более подробно почитать обо всём выше и посмотреть на гифки с примерами.

Я повторюсь снова о том, что GCP сильно недооценён с точки зрения работы с данными. И мне кажется, что он один из достойнейших конкурентов снежинки и кирпичиков, которого пока в должной мере нет в Data повестке.

Всем добра и спокойной ночи!

P.S. В силу жизненных обстоятельств крайне не хватает времени на то, чтобы писать здесь. Но делиться мыслями и новостями очень хочется, поэтому время от времени буду стараться радовать вас интересным контентом.

P.P.S. Огромное вам спасибо за то, что остаётесь рядом со мной 💕
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5👍1🤝1
Здесь я в основном пишу (редко, но пишу!) о работе с данными. Но вот уже почти год, как, кроме прямых обязанностей Data Engineer'a, я выполняю роль проектного и ресурсного менеджера. Нет, я не стану писать о каких-то best practices и т.д., так как мне учиться и учиться в этом направлении прежде, чем смогу раздавать советы. Но, тем не менее, я хотел бы поделиться интересной находкой: принципы лидерства от Amazon. (И да, у Амазона есть AWS, а там целая экосистема для работы с данными, поэтому ооооооочень отдалённо, но темы дата инжиниринга этот пост всё же касается 😅)

Мне понравилась подача: краткие формулировки, за которыми скрываются очень важные и серьёзные фундаментальные вещи. Многое откликнулось, т.к. я стараюсь придерживаться тех же принципов. А есть моменты, над которыми мне стоит поработать.

Я считаю тему лидерства очень важной, поэтому стараюсь к ней относиться серьёзно. Лидер - это не про роль/позицию в компании, лидер - это больше про твоё отношение к тому, что ты делаешь, как ты делаешь, и с кем. И касается оно не только рабочих моментов, но и всей жизни в целом.

#leadership
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔3👍1🔥1🆒1