NEW BOT Телеграм, страница

Rumyantsev Feed

📚 Никогда не слышал об этом, но оказывается, у довольно известного издательства Manning есть своя платформа обучения, которая называется liveProjects.

Каждый "курс" в liveProjects сфокусирован над решением задачи, приближенной к проблеме реального мира. Обучение происходит следующим образом (выдержка из FAQ на сайте):

"Just the right amount so that you’re challenged but never stuck. You’ll receive step-by-step instructions, access to book and video resources selected for your project, opportunities to collaborate with other participants or an expert mentor, and access to three increasing levels of help within the workflow."

Сегодня на сайте издательства акция - каждый проект можно купить за 20$.

Выделил наиболее интересные проекты на мой взгляд:

Event-Driven Data Pipeline with Python and Kafka

End-to-End Batch Data Pipeline with Spark

Algorithms and Data Structures in Python

Build a Small Dockerized Data Mesh

Real-World Deep Learning Recommender System

ML for Knowledge Graphs with Neo4j

Building an ML Pipeline with Kubeflow

Create a Data Platform for Real-time Anomaly Detection

Time Series Forecasting in Python

Перед покупкой курса настоятельно рекомендую ознакомится с условиями (сроки и расписание прохождения, доступность ресурсов и т.п.)

P.S. Если кто-то решится приобрести что-то из предложенного, и завершит своё обучение - отпишитесь, пожалуйста, в лс и поделитесь впечатлениями. Manning довольно часто проводит различные распродажи - надо будет только дождаться очередной по liveProjects и приобрести себе курс.

Всем добра!

👍2🤔1

232 views05:04

Rumyantsev Feed

ETL vs. ELT

Интересный момент касательно ETL/ELT процесса, который с одной стороны очевиден, а с другой стороны - не задумываешься о разнице до поры до времени. Так вот, чем отличается ETL от ELT? Самый очевидный ответ - порядком выполнения степов Extract, Transform, Load. Да, но когда применять ETL, а когда - ELT?

Исторически ETL использовался в концепциях обработки данных для DWH. Была и до сих пор остаётся куча тулов, таких, как Informatica, Talend, Pentaho и т.д., которые являются ETL инструментами: загружаем данные из сорсов на машину/сервер с тулом, применяем трансформации, выгружаем в наше хранилище данных. Да, такой подход работает, когда мы говорим об обработке небольшого объёма данных. А что, если данных десятки и сотни гигабайт? А если они ещё и полу-структурированные? Какой бы мощный сервер с ETL тулом не был, в какой-то момент и он перестанет справляться с такими объёмами данных или будет делать это медленнее, тем самым задерживая доставку необходимых данных конечным пользователям.

И вот тут появляется Data Lake с возможностью хранить терабайты разных данных (structured, semi-structured, unstructured). Да ещё и с оптимизированными на чтение схемами. И что же имеем сейчас: забрали данные из сорсов, сложили в DL, сделали трансформации с помощью BigData тулов.

Да, здесь много частных случаем и можно долго спорить. Но если абстрагироваться от частного и посмотреть на общее - получаем, что ETL - это про DWH, а ELT - про Data Lake.

Неплохой повод включить в качестве вопроса со ⭐️кой для собеседований кандидатов.

🤔3👍2

8.39K views19:28

Rumyantsev Feed

⚡️Внезапная новость!

Теперь Airflow доступен и в Azure! Если у конкурентов данный тул предоставляется as a Service (Cloud Composer у GCP и Amazon MWAA у AWS), то Майкрософ пошёл дальше. Компания встроила Airflow в Azure Data Factory. Тут всё: и автоматическое разворачивание, и автоскейлинг, и аутентификация через Active Directory, и прочие плюшки.

Несмотря на мою любовь к GCP, считаю, что такой "выходкой" Microsoft поставил шах и мат конкурентам.

Браво! 👏

P.S. Буквально в ноябре 2022 рассказывал другу о том, как круто использовать managed Airflow - нет никакого головняка с настройкой и поддержкой инфры. Друг как раз работает с Azure. Я ещё удивлялся, как это до сих пор нет SaaS Airflow у Azure. Но у компании, как видим, были свои планы на этот счёт 🌚

TECHCOMMUNITY.MICROSOFT.COM

Introducing 'Managed Airflow' in Azure Data Factory

Today, we are excited to announce the capability to run Apache Airflow DAGs (Directed Acyclic Graph) within Azure Data Factory, adding a key Open-Source..

👍4🔥4

228 views05:31

Rumyantsev Feed

image_2023-02-03_12-47-30.png

105.3 KB

Немного пятничного юмора.

Всем желаю спокойного завершения рабочей недели и хорошо отдохнуть на выходных.

P.S. И не забывайте читать книги с птицами 😉

😁3👍2🤔1

210 views09:36

Rumyantsev Feed

Воскресный опрос.
Я понимаю, что аудитория небольшая, но очень интересно узнать, какой клауд вы используете для своей Data Platform (аналитика, процессинг, трансформации и т.п. )

Final Results

Another vendor (Alibaba, Oracle, Yandex, etc.)

Multicloud (GCP + Azure)

Multicloud (AWS + Azure)

Multicloud (GCP + AWS)

25 voters221 views08:49

Rumyantsev Feed

А вот и THE 2023 MAD (MACHINE LEARNING, ARTIFICIAL INTELLIGENCE & DATA) LANDSCAPE.

Смотрим на тренды 2023 в data engineering, аналитике, ai/ml и не только.

Осторожно, не залипайте, впереди рабочий день 😉

👍2❤‍🔥1

187 views05:52

Rumyantsev Feed

Могу сказать, что уже неоднократно всплывали топики о том, что у Python, как у ЯП для дата инженеров, появился конкурент в лице Rust. Сегодня в linkedin попался пост от Karim Jedda, где он анонсирует запуск сайта знакомства (не того, о котором можно подумать 😉) с языком Rust в разрезе работы в Data Engineering.

Ссылка на сайт: https://datawithrust.com/

Karim Jedda on LinkedIn: Data With Rust | 52 comments

A few months ago I wrote an article on my blog about my experience using Rust as a Python developer. Even though that article was very high level it garnered a… | 52 comments on LinkedIn

👍2

197 views09:52

Rumyantsev Feed

Ну что я могу сказать?

Мы действительно входим в новую эру с точки зрения того, на что способен GPT-4. Но я сторонник того, что такие технологии точно не заменят Data Engineers/Architects. GPT-X & Co нужно воспринимать как помощником или совсех зелёных джунов. Они избавляют от рутины, позволяя посветить время более важным делам.

Зачем тратить несколько часов на то, чтобы представить сложный JSON в виде модели Data Vault 2.0 в BigQuery, например, если можно скормить его ChatGPT с просьбой сгенерить эту модель и преобразовать в DDL? А тебе останется проревьювать результат и внести необходимые правки. А потом ещё и автоматизировать schema changes handling.

Снимаю шляпу. 👑

https://medium.com/@nschairer/gpt-4-data-pipelines-transform-json-to-sql-schema-instantly-dfd62f6d1024

Medium

GPT-4 Data Pipelines: Transform JSON to SQL Schema Instantly

TL;DR — Turn complex JSON blobs into SQL schema or SQL schema updates effortlessly with GPT-4.

👍2❤‍🔥1

203 views19:53

Rumyantsev Feed

Всем доброе утро!

Очередной новый подход в организации работы с данными. На этот раз объединили dimensional modeling с feature engineering.
Основной посыл: давайте выделим сущности и будем работать вокруг них, обогащая данными и фичами (по сути, рассчитанными метриками). В любом случае, рекомендую почитать статью. Радует, что текст пестрит ссылками на дополнительные материалы, которые скорее всего помогут глубже понять approach.

P.S. От себя добавлю, что я бы заменил dimensional modeling на data vault 2.0 или вообще anchor modeling. Они точно прибавят гибкости. Если быть современными, то уже во всём 😉

https://preset.io/blog/introducing-entity-centric-data-modeling-for-analytics/

preset.io

Introducing Entity-Centric Data Modeling for Analytics

Entity-centric modeling is a data modeling approach focusing on enriching tabular datasets with useful "features" to enable segmentation, cohort creation, and complex classification analyses easier.

👍3🔥1

145 views05:23

Rumyantsev Feed

Mesh'ей много не бывает!

Если есть Data Mesh, то почему бы не придумать и концепцию SQLMesh? Так и поступили создатели компании Tobiko, о чём можно и почитать в статье.

Но если Data Mesh больше об архитектуре и организации работы с данными в компании, то SQLMesh - это про DataOps. Направление, которое в том числе продолжает набирать популярность.

Какие же бенефиты от использования этого меша обещают? Вот некоторые из них:

- автоматическое определение зависимостей между объектами;
- исходя из пункта выше: предоставление информации о том, какие объекты будут зааффекчены при изменении;
- code version control;
- unit тесты для пайплайнов, которые можно описать в YAML файле;
- интеграция с Airflow и dbt (пока в preview).

Я пока не совсем понял, как именно Virtual Data Warehouse связан с Efficient dev / staging environments. Видимо, для этого нужно поглубже погрузиться в тему.

P.S. Спасибо моему новому коллеге data engineer за то, что поделился ссылкой на статью.

#dataops #sqlmesh

🤔1👀1🆒1

168 views06:22

Rumyantsev Feed

Лёгкое чтиво в конце ~~рабочего~~ выходного дня: https://www.levels.fyi/blog/scaling-to-millions-with-google-sheets.html

Оказывается, Google Sheets могут быть полезным инструментом не только для менеджеров и бизнес-пользователей, но и стать альтернативой бд на бекенде! Девиз ребят из levels.fyi был прост: "start simple and iterate". И при запуске своего ресурса они отталкивались от позиции, что хотят сфокусироваться на разработке продукта, а не выборе технологий и настройке инфраструктуры, да и к тому же по возможности сэкономить. Конечно, со временем пришлось сделать изменения "под капотом", но об этом непосредственно в самой статье.

#googlesheets #backend

Levels.fyi Blog

How Levels.fyi scaled to millions of users with Google Sheets as a backend

Our philosophy to scaling is simple, avoid premature optimization

👍1

238 views19:18

Rumyantsev Feed

Немного мудрости.
Для моей команды В данный момент одна из самых актуальных тем.

🔥5🆒1

163 views06:24

Rumyantsev Feed

А вот внезапная находка, которая немного удивила

Оказывается, есть ML расширение для PostgreSQL, которое называется просто и лаконично: PostgresML, и которое позволяет прямо из квери запускать модельки. На гитхабе написано о том, что расширение

- умеет в Natural Language Processing (NLP);
- имеет доступ к более 1000 разным другим предобученным моделям, доступным на Hugging Face hub (также что-то новенькое для меня);
- имеет оттюненые Large Language Models (LLMs);
- обладает силой превращение "слоника" в векторную бд.

Распространяется под лицензией MIT. Есть сайт, на котором можно выбрать подходящий для вас план за денюжку, и где обещают, что всё будет работать в 8x-40x Faster than Python и с <1 ms Prediction Latency.

Вся эта история напоминает мне уже реализованный ML-функционал в Google BigQuery. Хотя в целом, если задуматься, индустрия движется в сторону выстраивания полнофункциональный эко-системы вокруг какого-то аналитического движка: будь то вышеупомянутый BigQuery, будь то Snowflake или любое другое решение от гигантов индустрии. С одной стороны, вендор подсаживает тебя на свою иглу, но с другой стороны, тебе не нужно ресёрчить какой-то дополнительный тул и думать об интеграции с твоим решением.

Опять же, для меня остаются вопросы к PostgresML касательно перформанса и потенциальной стоимости использования этого тула. На сайте были упоминания и про CPU, и про GPU, но не попробовав - не понять. С другой стороны, здесь речь скорее всего о каких-то ad-hoc запросах, проверке простых гипотез, или несложных ML-пайплайнах на стороне продуктовой базы.

#PostgresML #PostgresML #ML

GitHub

GitHub - postgresml/postgresml: Postgres with GPUs for ML/AI apps.

Postgres with GPUs for ML/AI apps. Contribute to postgresml/postgresml development by creating an account on GitHub.

❤‍🔥1🔥1

153 views07:58

Rumyantsev Feed

Думаю, каждый наслышан о dbt (data build tool). А теперь встречайте dlt (data load tool)!

Как не трудно догадаться, тул предназначен для EL (Extract, Load) операций, или проще говоря: для трансфера данных из источника (source) в приёмник (destination). Сам по себе dlt - это опенсорсная питонячая библиотека. По заверениям создателей данный инструмент упрощает работу со схемой данных (автоматический мэйнтейнинг изменений), позволяет создавать "шедевральные" и надёжные пайплайны в разы быстрее относительно написания кастомного кода, может ранаться где угодно и дружит с Modern Data Stack. Ну просто находка!

Если кто-то уже работал с этим зверем, буду признателен за фидбек в личку (@jayrumi).

#dlt #el #datatransfer #mds

Dlthub

dltHub: ELT as Python Code

Write any custom data source, achieve data democracy, modernise legacy systems and reduce cloud costs.

👍2🤔2

617 views21:14

Rumyantsev Feed

А вот и StackOverflow анонсировал запуск своего "ChatGPT" с блэк-джеком и прочим приятным сопровождением в лице Overflow AI.
Если не хочется читать, то можно глянуть небольшой ролик.

#ai #stackoverflow

Stack Overflow Blog

Announcing OverflowAI

Let’s highlight the new features and products we announced today from the stage of WeAreDevelopers.

👍4

199 views20:45

Rumyantsev Feed

Если не знаете, какие сервисы GCP выбрать в качестве определённых элементов вашей аналитической data платформы - вот вам наглядное decision tree от Google. А здесь можно вкратце почитать про каждый из сервисов: https://cloud.google.com/blog/products/data-analytics/decision-tree-for-data-analytics-workloads-on-google-cloud.

#gcp

Google Cloud Blog

Decision tree for data analytics workloads on Google Cloud | Google Cloud Blog

Introducing a decision tree for data analytics that helps you select the best services in Google Cloud to match your unique workload needs.

👍3

210 viewsedited 20:48

Rumyantsev Feed

#friday

🐳4

208 views14:52

Rumyantsev Feed

🐍 Python врывается в Excel!

Пока только в превью и только для участников программы Microsoft 365 Insiders.

Нововведение позиционируется, как дверь в мир "cleaning data, machine learning, predictive analytics, and more" с возможностью визуализации при помощи библиотек Matplotlib и seaborn. Под капотом Anaconda Distribution for Python, которая крутится в ажуре.

Не знаю, как на это реагировать и как воспринимать: как баг или как фичу 🤷 Но новость доставила 😁

Больше деталей в посте блога: https://techcommunity.microsoft.com/t5/excel-blog/announcing-python-in-excel-combining-the-power-of-python-and-the/ba-p/3893439

#python #excel

TECHCOMMUNITY.MICROSOFT.COM

Announcing Python in Excel

Announcing Python in Excel: Combining the power of Python and the flexibility of Excel.

🔥2😁1🌚1

160 views21:17

Rumyantsev Feed

Google анонсировал выход BigQuery Studio (пока в превью)

Но подойдём к этой новости с другой стороны. Оттолкнёмся от фразы из поста на замечательном канале Инжиниринг Данных: "Во-первых очевидно, что Snowflake и Databricks лидеры..."

И в самом деле, в последние пару-тройку лет очень много хайпа и движухи вокруг Snowflake и Databricks. Где-то хорошо работает маркетинг, а где-то действительно появляются интересные функционал и концепты. Но основная цель для обоих вендоров - вырастить экосистему вокруг их продуктов для создания end-to-end data solutions с аналитикой и AI на борту. Осталось только свою облачную инфраструктуру поднять, чтобы не зависеть от других cloud провайдеров. Но это не суть на данный момент.

Ещё в прошлом году на онлайн-конфе гугла я отметил для себя, что компания так же движется в сторону предоставления end-to-end решения для работы с данными. В этом посте делился краткой выжимкой одного из выступлений. И вот в канун начала нового учебного года Google в своём блоге рассказал о том, что выпустил BigQuery Studio, но пока не всем доступную. Если задуматься, оно к тому и шло: сперва появлялись отдельные сервисы (например, Dataplex), потом что-то из этих сервисов переезжало непосредственно на UI BigQuery (напримерб Lineage), затем появлялся новый функционал (например, Chart). А теперь (пока только для избранных) на едином интерфейсе будут доступны следующие фишки:

- Use SQL, Python, Spark or natural language directly within BigQuery and leverage those code assets easily across Vertex AI and other products for specialized workflows

- Extend software development best practices such as CI/CD, version history and source control to data assets, enabling better collaboration

- Uniformly enforce security policies and gain governance insights through data lineage, profiling and quality, right inside BigQuery

В статье можно более подробно почитать обо всём выше и посмотреть на гифки с примерами.

Я повторюсь снова о том, что GCP сильно недооценён с точки зрения работы с данными. И мне кажется, что он один из достойнейших конкурентов снежинки и кирпичиков, которого пока в должной мере нет в Data повестке.

Всем добра и спокойной ночи!

P.S. В силу жизненных обстоятельств крайне не хватает времени на то, чтобы писать здесь. Но делиться мыслями и новостями очень хочется, поэтому время от времени буду стараться радовать вас интересным контентом.

P.P.S. Огромное вам спасибо за то, что остаётесь рядом со мной 💕

Please open Telegram to view this post

VIEW IN TELEGRAM

Google Cloud Blog

Announcing BigQuery Studio | Google Cloud Blog

BigQuery Studio lets analytics practitioners use SQL, Python, Spark or natural language directly within BigQuery, to streamline analytics workflows.

🔥5👍1🤝1

203 views21:56

Rumyantsev Feed

Хэндбук от Зака Уилсона о том, как стать крутым дата инженером!

Возможно кому-то окажется полезным.

#dataengineering #learning

GitHub

GitHub - DataExpert-io/data-engineer-handbook: This is a repo with links to everything you'd ever want to learn about data engineering

This is a repo with links to everything you'd ever want to learn about data engineering - DataExpert-io/data-engineer-handbook

🔥6❤‍🔥1

172 views11:10

Rumyantsev Feed

Здесь я в основном пишу (редко, но пишу!) о работе с данными. Но вот уже почти год, как, кроме прямых обязанностей Data Engineer'a, я выполняю роль проектного и ресурсного менеджера. Нет, я не стану писать о каких-то best practices и т.д., так как мне учиться и учиться в этом направлении прежде, чем смогу раздавать советы. Но, тем не менее, я хотел бы поделиться интересной находкой: принципы лидерства от Amazon. (И да, у Амазона есть AWS, а там целая экосистема для работы с данными, поэтому ооооооочень отдалённо, но темы дата инжиниринга этот пост всё же касается 😅)

Мне понравилась подача: краткие формулировки, за которыми скрываются очень важные и серьёзные фундаментальные вещи. Многое откликнулось, т.к. я стараюсь придерживаться тех же принципов. А есть моменты, над которыми мне стоит поработать.

Я считаю тему лидерства очень важной, поэтому стараюсь к ней относиться серьёзно. Лидер - это не про роль/позицию в компании, лидер - это больше про твоё отношение к тому, что ты делаешь, как ты делаешь, и с кем. И касается оно не только рабочих моментов, но и всей жизни в целом.

#leadership

Please open Telegram to view this post

VIEW IN TELEGRAM

amazon.jobs

Leadership Principles

We use our Leadership Principles every day, whether we’re discussing ideas for new projects or deciding on the best way to solve a problem. It’s just one of the things that makes Amazon peculiar.

🤔3👍1🔥1🆒1

153 views18:17

About

Blog

Apps

Platform