NEW BOT Телеграм, страница

Rumyantsev Feed

Ну что я могу сказать?

Мы действительно входим в новую эру с точки зрения того, на что способен GPT-4. Но я сторонник того, что такие технологии точно не заменят Data Engineers/Architects. GPT-X & Co нужно воспринимать как помощником или совсех зелёных джунов. Они избавляют от рутины, позволяя посветить время более важным делам.

Зачем тратить несколько часов на то, чтобы представить сложный JSON в виде модели Data Vault 2.0 в BigQuery, например, если можно скормить его ChatGPT с просьбой сгенерить эту модель и преобразовать в DDL? А тебе останется проревьювать результат и внести необходимые правки. А потом ещё и автоматизировать schema changes handling.

Снимаю шляпу. 👑

https://medium.com/@nschairer/gpt-4-data-pipelines-transform-json-to-sql-schema-instantly-dfd62f6d1024

Medium

GPT-4 Data Pipelines: Transform JSON to SQL Schema Instantly

TL;DR — Turn complex JSON blobs into SQL schema or SQL schema updates effortlessly with GPT-4.

👍2❤‍🔥1

203 views19:53

Rumyantsev Feed

Всем доброе утро!

Очередной новый подход в организации работы с данными. На этот раз объединили dimensional modeling с feature engineering.
Основной посыл: давайте выделим сущности и будем работать вокруг них, обогащая данными и фичами (по сути, рассчитанными метриками). В любом случае, рекомендую почитать статью. Радует, что текст пестрит ссылками на дополнительные материалы, которые скорее всего помогут глубже понять approach.

P.S. От себя добавлю, что я бы заменил dimensional modeling на data vault 2.0 или вообще anchor modeling. Они точно прибавят гибкости. Если быть современными, то уже во всём 😉

https://preset.io/blog/introducing-entity-centric-data-modeling-for-analytics/

preset.io

Introducing Entity-Centric Data Modeling for Analytics

Entity-centric data modeling: enrich datasets with features to enable segmentation, cohort creation, and classification.

👍3🔥1

145 views05:23

Rumyantsev Feed

Mesh'ей много не бывает!

Если есть Data Mesh, то почему бы не придумать и концепцию SQLMesh? Так и поступили создатели компании Tobiko, о чём можно и почитать в статье.

Но если Data Mesh больше об архитектуре и организации работы с данными в компании, то SQLMesh - это про DataOps. Направление, которое в том числе продолжает набирать популярность.

Какие же бенефиты от использования этого меша обещают? Вот некоторые из них:

- автоматическое определение зависимостей между объектами;
- исходя из пункта выше: предоставление информации о том, какие объекты будут зааффекчены при изменении;
- code version control;
- unit тесты для пайплайнов, которые можно описать в YAML файле;
- интеграция с Airflow и dbt (пока в preview).

Я пока не совсем понял, как именно Virtual Data Warehouse связан с Efficient dev / staging environments. Видимо, для этого нужно поглубже погрузиться в тему.

P.S. Спасибо моему новому коллеге data engineer за то, что поделился ссылкой на статью.

#dataops #sqlmesh

🤔1👀1🆒1

168 views06:22

Rumyantsev Feed

Лёгкое чтиво в конце ~~рабочего~~ выходного дня: https://www.levels.fyi/blog/scaling-to-millions-with-google-sheets.html

Оказывается, Google Sheets могут быть полезным инструментом не только для менеджеров и бизнес-пользователей, но и стать альтернативой бд на бекенде! Девиз ребят из levels.fyi был прост: "start simple and iterate". И при запуске своего ресурса они отталкивались от позиции, что хотят сфокусироваться на разработке продукта, а не выборе технологий и настройке инфраструктуры, да и к тому же по возможности сэкономить. Конечно, со временем пришлось сделать изменения "под капотом", но об этом непосредственно в самой статье.

#googlesheets #backend

Levels.fyi Blog

How Levels.fyi scaled to millions of users with Google Sheets as a backend

Our philosophy to scaling is simple, avoid premature optimization

👍1

238 views19:18

Rumyantsev Feed

Немного мудрости.
Для моей команды В данный момент одна из самых актуальных тем.

🔥5🆒1

163 views06:24

Rumyantsev Feed

А вот внезапная находка, которая немного удивила

Оказывается, есть ML расширение для PostgreSQL, которое называется просто и лаконично: PostgresML, и которое позволяет прямо из квери запускать модельки. На гитхабе написано о том, что расширение

- умеет в Natural Language Processing (NLP);
- имеет доступ к более 1000 разным другим предобученным моделям, доступным на Hugging Face hub (также что-то новенькое для меня);
- имеет оттюненые Large Language Models (LLMs);
- обладает силой превращение "слоника" в векторную бд.

Распространяется под лицензией MIT. Есть сайт, на котором можно выбрать подходящий для вас план за денюжку, и где обещают, что всё будет работать в 8x-40x Faster than Python и с <1 ms Prediction Latency.

Вся эта история напоминает мне уже реализованный ML-функционал в Google BigQuery. Хотя в целом, если задуматься, индустрия движется в сторону выстраивания полнофункциональный эко-системы вокруг какого-то аналитического движка: будь то вышеупомянутый BigQuery, будь то Snowflake или любое другое решение от гигантов индустрии. С одной стороны, вендор подсаживает тебя на свою иглу, но с другой стороны, тебе не нужно ресёрчить какой-то дополнительный тул и думать об интеграции с твоим решением.

Опять же, для меня остаются вопросы к PostgresML касательно перформанса и потенциальной стоимости использования этого тула. На сайте были упоминания и про CPU, и про GPU, но не попробовав - не понять. С другой стороны, здесь речь скорее всего о каких-то ad-hoc запросах, проверке простых гипотез, или несложных ML-пайплайнах на стороне продуктовой базы.

#PostgresML #PostgresML #ML

GitHub

GitHub - postgresml/postgresml: Postgres with GPUs for ML/AI apps.

Postgres with GPUs for ML/AI apps. Contribute to postgresml/postgresml development by creating an account on GitHub.

❤‍🔥1🔥1

153 views07:58

Rumyantsev Feed

Думаю, каждый наслышан о dbt (data build tool). А теперь встречайте dlt (data load tool)!

Как не трудно догадаться, тул предназначен для EL (Extract, Load) операций, или проще говоря: для трансфера данных из источника (source) в приёмник (destination). Сам по себе dlt - это опенсорсная питонячая библиотека. По заверениям создателей данный инструмент упрощает работу со схемой данных (автоматический мэйнтейнинг изменений), позволяет создавать "шедевральные" и надёжные пайплайны в разы быстрее относительно написания кастомного кода, может ранаться где угодно и дружит с Modern Data Stack. Ну просто находка!

Если кто-то уже работал с этим зверем, буду признателен за фидбек в личку (@jayrumi).

#dlt #el #datatransfer #mds

Dlthub

dltHub: ELT as Python Code

Write any custom data source, achieve data democracy, modernise legacy systems and reduce cloud costs.

👍2🤔2

617 views21:14

Rumyantsev Feed

А вот и StackOverflow анонсировал запуск своего "ChatGPT" с блэк-джеком и прочим приятным сопровождением в лице Overflow AI.
Если не хочется читать, то можно глянуть небольшой ролик.

#ai #stackoverflow

Stack Overflow Blog

Announcing OverflowAI

Let’s highlight the new features and products we announced today from the stage of WeAreDevelopers.

👍4

199 views20:45

Rumyantsev Feed

Если не знаете, какие сервисы GCP выбрать в качестве определённых элементов вашей аналитической data платформы - вот вам наглядное decision tree от Google. А здесь можно вкратце почитать про каждый из сервисов: https://cloud.google.com/blog/products/data-analytics/decision-tree-for-data-analytics-workloads-on-google-cloud.

#gcp

Google Cloud Blog

Decision tree for data analytics workloads on Google Cloud | Google Cloud Blog

Introducing a decision tree for data analytics that helps you select the best services in Google Cloud to match your unique workload needs.

👍3

210 viewsedited 20:48

Rumyantsev Feed

#friday

🐳4

208 views14:52

Rumyantsev Feed

🐍 Python врывается в Excel!

Пока только в превью и только для участников программы Microsoft 365 Insiders.

Нововведение позиционируется, как дверь в мир "cleaning data, machine learning, predictive analytics, and more" с возможностью визуализации при помощи библиотек Matplotlib и seaborn. Под капотом Anaconda Distribution for Python, которая крутится в ажуре.

Не знаю, как на это реагировать и как воспринимать: как баг или как фичу 🤷 Но новость доставила 😁

Больше деталей в посте блога: https://techcommunity.microsoft.com/t5/excel-blog/announcing-python-in-excel-combining-the-power-of-python-and-the/ba-p/3893439

#python #excel

TECHCOMMUNITY.MICROSOFT.COM

Announcing Python in Excel

Announcing Python in Excel: Combining the power of Python and the flexibility of Excel.

🔥2😁1🌚1

160 views21:17

Rumyantsev Feed

Google анонсировал выход BigQuery Studio (пока в превью)

Но подойдём к этой новости с другой стороны. Оттолкнёмся от фразы из поста на замечательном канале Инжиниринг Данных: "Во-первых очевидно, что Snowflake и Databricks лидеры..."

И в самом деле, в последние пару-тройку лет очень много хайпа и движухи вокруг Snowflake и Databricks. Где-то хорошо работает маркетинг, а где-то действительно появляются интересные функционал и концепты. Но основная цель для обоих вендоров - вырастить экосистему вокруг их продуктов для создания end-to-end data solutions с аналитикой и AI на борту. Осталось только свою облачную инфраструктуру поднять, чтобы не зависеть от других cloud провайдеров. Но это не суть на данный момент.

Ещё в прошлом году на онлайн-конфе гугла я отметил для себя, что компания так же движется в сторону предоставления end-to-end решения для работы с данными. В этом посте делился краткой выжимкой одного из выступлений. И вот в канун начала нового учебного года Google в своём блоге рассказал о том, что выпустил BigQuery Studio, но пока не всем доступную. Если задуматься, оно к тому и шло: сперва появлялись отдельные сервисы (например, Dataplex), потом что-то из этих сервисов переезжало непосредственно на UI BigQuery (напримерб Lineage), затем появлялся новый функционал (например, Chart). А теперь (пока только для избранных) на едином интерфейсе будут доступны следующие фишки:

- Use SQL, Python, Spark or natural language directly within BigQuery and leverage those code assets easily across Vertex AI and other products for specialized workflows

- Extend software development best practices such as CI/CD, version history and source control to data assets, enabling better collaboration

- Uniformly enforce security policies and gain governance insights through data lineage, profiling and quality, right inside BigQuery

В статье можно более подробно почитать обо всём выше и посмотреть на гифки с примерами.

Я повторюсь снова о том, что GCP сильно недооценён с точки зрения работы с данными. И мне кажется, что он один из достойнейших конкурентов снежинки и кирпичиков, которого пока в должной мере нет в Data повестке.

Всем добра и спокойной ночи!

P.S. В силу жизненных обстоятельств крайне не хватает времени на то, чтобы писать здесь. Но делиться мыслями и новостями очень хочется, поэтому время от времени буду стараться радовать вас интересным контентом.

P.P.S. Огромное вам спасибо за то, что остаётесь рядом со мной 💕

Please open Telegram to view this post

VIEW IN TELEGRAM

Google Cloud Blog

Announcing BigQuery Studio | Google Cloud Blog

BigQuery Studio lets analytics practitioners use SQL, Python, Spark or natural language directly within BigQuery, to streamline analytics workflows.

🔥5👍1🤝1

203 views21:56

Rumyantsev Feed

Хэндбук от Зака Уилсона о том, как стать крутым дата инженером!

Возможно кому-то окажется полезным.

#dataengineering #learning

GitHub

GitHub - DataExpert-io/data-engineer-handbook: This is a repo with links to everything you'd ever want to learn about data engineering

This is a repo with links to everything you'd ever want to learn about data engineering - DataExpert-io/data-engineer-handbook

🔥6❤‍🔥1

172 views11:10

Rumyantsev Feed

Здесь я в основном пишу (редко, но пишу!) о работе с данными. Но вот уже почти год, как, кроме прямых обязанностей Data Engineer'a, я выполняю роль проектного и ресурсного менеджера. Нет, я не стану писать о каких-то best practices и т.д., так как мне учиться и учиться в этом направлении прежде, чем смогу раздавать советы. Но, тем не менее, я хотел бы поделиться интересной находкой: принципы лидерства от Amazon. (И да, у Амазона есть AWS, а там целая экосистема для работы с данными, поэтому ооооооочень отдалённо, но темы дата инжиниринга этот пост всё же касается 😅)

Мне понравилась подача: краткие формулировки, за которыми скрываются очень важные и серьёзные фундаментальные вещи. Многое откликнулось, т.к. я стараюсь придерживаться тех же принципов. А есть моменты, над которыми мне стоит поработать.

Я считаю тему лидерства очень важной, поэтому стараюсь к ней относиться серьёзно. Лидер - это не про роль/позицию в компании, лидер - это больше про твоё отношение к тому, что ты делаешь, как ты делаешь, и с кем. И касается оно не только рабочих моментов, но и всей жизни в целом.

#leadership

Please open Telegram to view this post

VIEW IN TELEGRAM

amazon.jobs

Leadership Principles

We use our Leadership Principles every day, whether we’re discussing ideas for new projects or deciding on the best way to solve a problem. It’s just one of the things that makes Amazon peculiar.

🤔3👍1🔥1🆒1

153 views18:17

Rumyantsev Feed

Каждый инженер в душе немного художник.

Но чтобы не тратить время на вырисовывание идеальных стрелок, квадратиков и прямоуголиников, можно взять такую замечательную питонячую библиотеку. А в довесок к педантически выверенным элементам мы получаем version control. Осталось дождаться эмбединга в Wiki/Notion/etc.

Diagram as a Code в действии!

#python #diagrams #design

Mingrammer

Examples · Diagrams

Here are some more examples.

❤‍🔥3👍2🆒1

135 views11:44

Rumyantsev Feed

А сегодня пост-новость-скриншот.

Не смог пройти мимо. В нынешних реалиях спарком пользоваться не приходится, но как я понимаю, что такое дефолтные значения!

Поздравляю всех Spark-юзеров с такой обновочкой!

#spark

❤‍🔥3🔥2👍1

107 views15:03

Rumyantsev Feed

Оставлю это здесь. Думаю, пригодится, как мне, так и вам!

94 views11:02

Rumyantsev Feed

Forwarded from Dzik Pic. Откровенно о польском ИТ

📚 Что почитать сеньору для расширения кругозора

Список от Павла Вейника, архитектора-фаундера в Hard&Soft Skills:

▪️проникнуться, какие базы вообще есть.

▪️сайт Мартина Фаулера, в последнее время он много пишет про организацию разработки, а не только про архитектуру.

▪️сайт Мартина Клеппмана, он глубоко лезет в детали алгоритмов, иногда слишком академичен, хотя продакшн-опыт у него тоже есть. Если вы используете RedLock, то почитайте это. Кстати, RedisRaft ещё не production.

▪️если вы уверены, что ваша БД работает как надо, то попробуйте найти её анализ вот тут: возможно, окажется, что база наводит баги.

▪️есть ресурс, посвященный дизайну и истории различных систем, например этот. Осторожно, они недавно сменили дизайн, и сейчас там может быть криво.

▪️вот тут можно найти, какие стеки используются на проектах, а также отзывы о технологиях и инструментах.

👉 Текст целиком

🐽 Пишите в комментариях ресурсы, которые помогают проектировать системы вам!

✍3❤1👍1

118 views11:02

Rumyantsev Feed

📱 Не пятница, но пост и не по теме.

Скрин о том, как оставаться политкорректным в эру огромного разнообразия гендерных полов и избежать судебных разбирательств по этому поводу. Не знаю, как в других соц. сетях, но у Linkedin'а так. Не her/his, a their. Уверен, что определить биологический пол - это как 2 байта передать, а вот дальше - уже сложнее, особенно, если человек себя никак нигде не обозначает.

Новый челендж для AI - автоматическое определение гендерного пола.

#offtop

Please open Telegram to view this post

VIEW IN TELEGRAM

😁2👍1🔥1

134 views05:41

Rumyantsev Feed

Забавно видеть совет/предложение от Google воспользоваться контейнерами Cloud Run для загрузки данных в BigQuery, учитывая, что большинство интеграций у нас так и работают уже более полугода 🤭

Please open Telegram to view this post

VIEW IN TELEGRAM

😁2🤨1🤓1

106 views09:24

Rumyantsev Feed

Знакомо, да? 😎

Please open Telegram to view this post

VIEW IN TELEGRAM

😁4👍1🤔1🌚1😨1

93 views15:44

About

Blog

Apps

Platform