Rumyantsev Feed – Telegram
Rumyantsev Feed
89 subscribers
45 photos
7 files
96 links
Пишу обо всём, что связано с данными. Иногда отклоняюсь от темы.

Связь: @jayrumi
LinkedIn: https://www.linkedin.com/in/evgeny-rumyantsev
Download Telegram
Ну что я могу сказать?

Мы действительно входим в новую эру с точки зрения того, на что способен GPT-4. Но я сторонник того, что такие технологии точно не заменят Data Engineers/Architects. GPT-X & Co нужно воспринимать как помощником или совсех зелёных джунов. Они избавляют от рутины, позволяя посветить время более важным делам.

Зачем тратить несколько часов на то, чтобы представить сложный JSON в виде модели Data Vault 2.0 в BigQuery, например, если можно скормить его ChatGPT с просьбой сгенерить эту модель и преобразовать в DDL? А тебе останется проревьювать результат и внести необходимые правки. А потом ещё и автоматизировать schema changes handling.

Снимаю шляпу. 👑

https://medium.com/@nschairer/gpt-4-data-pipelines-transform-json-to-sql-schema-instantly-dfd62f6d1024
👍2❤‍🔥1
Всем доброе утро!

Очередной новый подход в организации работы с данными. На этот раз объединили dimensional modeling с feature engineering.
Основной посыл: давайте выделим сущности и будем работать вокруг них, обогащая данными и фичами (по сути, рассчитанными метриками). В любом случае, рекомендую почитать статью. Радует, что текст пестрит ссылками на дополнительные материалы, которые скорее всего помогут глубже понять approach.

P.S. От себя добавлю, что я бы заменил dimensional modeling на data vault 2.0 или вообще anchor modeling. Они точно прибавят гибкости. Если быть современными, то уже во всём 😉

https://preset.io/blog/introducing-entity-centric-data-modeling-for-analytics/
👍3🔥1
Mesh'ей много не бывает!

Если есть Data Mesh, то почему бы не придумать и концепцию SQLMesh? Так и поступили создатели компании Tobiko, о чём можно и почитать в статье.

Но если Data Mesh больше об архитектуре и организации работы с данными в компании, то SQLMesh - это про DataOps. Направление, которое в том числе продолжает набирать популярность.

Какие же бенефиты от использования этого меша обещают? Вот некоторые из них:

- автоматическое определение зависимостей между объектами;
- исходя из пункта выше: предоставление информации о том, какие объекты будут зааффекчены при изменении;
- code version control;
- unit тесты для пайплайнов, которые можно описать в YAML файле;
- интеграция с Airflow и dbt (пока в preview).

Я пока не совсем понял, как именно Virtual Data Warehouse связан с Efficient dev / staging environments. Видимо, для этого нужно поглубже погрузиться в тему.

P.S. Спасибо моему новому коллеге data engineer за то, что поделился ссылкой на статью.

#dataops #sqlmesh
🤔1👀1🆒1
Лёгкое чтиво в конце рабочего выходного дня: https://www.levels.fyi/blog/scaling-to-millions-with-google-sheets.html

Оказывается, Google Sheets могут быть полезным инструментом не только для менеджеров и бизнес-пользователей, но и стать альтернативой бд на бекенде! Девиз ребят из levels.fyi был прост: "start simple and iterate". И при запуске своего ресурса они отталкивались от позиции, что хотят сфокусироваться на разработке продукта, а не выборе технологий и настройке инфраструктуры, да и к тому же по возможности сэкономить. Конечно, со временем пришлось сделать изменения "под капотом", но об этом непосредственно в самой статье.

#googlesheets #backend
👍1
Немного мудрости.
Для моей команды В данный момент одна из самых актуальных тем.
🔥5🆒1
А вот внезапная находка, которая немного удивила

Оказывается, есть ML расширение для PostgreSQL, которое называется просто и лаконично: PostgresML, и которое позволяет прямо из квери запускать модельки. На гитхабе написано о том, что расширение

- умеет в Natural Language Processing (NLP);
- имеет доступ к более 1000 разным другим предобученным моделям, доступным на Hugging Face hub (также что-то новенькое для меня);
- имеет оттюненые Large Language Models (LLMs);
- обладает силой превращение "слоника" в векторную бд.

Распространяется под лицензией MIT. Есть сайт, на котором можно выбрать подходящий для вас план за денюжку, и где обещают, что всё будет работать в 8x-40x Faster than Python и с <1 ms Prediction Latency.

Вся эта история напоминает мне уже реализованный ML-функционал в Google BigQuery. Хотя в целом, если задуматься, индустрия движется в сторону выстраивания полнофункциональный эко-системы вокруг какого-то аналитического движка: будь то вышеупомянутый BigQuery, будь то Snowflake или любое другое решение от гигантов индустрии. С одной стороны, вендор подсаживает тебя на свою иглу, но с другой стороны, тебе не нужно ресёрчить какой-то дополнительный тул и думать об интеграции с твоим решением.

Опять же, для меня остаются вопросы к PostgresML касательно перформанса и потенциальной стоимости использования этого тула. На сайте были упоминания и про CPU, и про GPU, но не попробовав - не понять. С другой стороны, здесь речь скорее всего о каких-то ad-hoc запросах, проверке простых гипотез, или несложных ML-пайплайнах на стороне продуктовой базы.

#PostgresML #PostgresML #ML
❤‍🔥1🔥1
Думаю, каждый наслышан о dbt (data build tool). А теперь встречайте dlt (data load tool)!

Как не трудно догадаться, тул предназначен для EL (Extract, Load) операций, или проще говоря: для трансфера данных из источника (source) в приёмник (destination). Сам по себе dlt - это опенсорсная питонячая библиотека. По заверениям создателей данный инструмент упрощает работу со схемой данных (автоматический мэйнтейнинг изменений), позволяет создавать "шедевральные" и надёжные пайплайны в разы быстрее относительно написания кастомного кода, может ранаться где угодно и дружит с Modern Data Stack. Ну просто находка!

Если кто-то уже работал с этим зверем, буду признателен за фидбек в личку (@jayrumi).

#dlt #el #datatransfer #mds
👍2🤔2
А вот и StackOverflow анонсировал запуск своего "ChatGPT" с блэк-джеком и прочим приятным сопровождением в лице Overflow AI.
Если не хочется читать, то можно глянуть небольшой ролик.

#ai #stackoverflow
👍4
Если не знаете, какие сервисы GCP выбрать в качестве определённых элементов вашей аналитической data платформы - вот вам наглядное decision tree от Google. А здесь можно вкратце почитать про каждый из сервисов: https://cloud.google.com/blog/products/data-analytics/decision-tree-for-data-analytics-workloads-on-google-cloud.

#gcp
👍3
🐍 Python врывается в Excel!

Пока только в превью и только для участников программы Microsoft 365 Insiders.

Нововведение позиционируется, как дверь в мир "cleaning data, machine learning, predictive analytics, and more" с возможностью визуализации при помощи библиотек Matplotlib и seaborn. Под капотом Anaconda Distribution for Python, которая крутится в ажуре.

Не знаю, как на это реагировать и как воспринимать: как баг или как фичу 🤷 Но новость доставила 😁

Больше деталей в посте блога: https://techcommunity.microsoft.com/t5/excel-blog/announcing-python-in-excel-combining-the-power-of-python-and-the/ba-p/3893439

#python #excel
🔥2😁1🌚1
Google анонсировал выход BigQuery Studio (пока в превью)

Но подойдём к этой новости с другой стороны. Оттолкнёмся от фразы из поста на замечательном канале Инжиниринг Данных: "Во-первых очевидно, что Snowflake и Databricks лидеры..."

И в самом деле, в последние пару-тройку лет очень много хайпа и движухи вокруг Snowflake и Databricks. Где-то хорошо работает маркетинг, а где-то действительно появляются интересные функционал и концепты. Но основная цель для обоих вендоров - вырастить экосистему вокруг их продуктов для создания end-to-end data solutions с аналитикой и AI на борту. Осталось только свою облачную инфраструктуру поднять, чтобы не зависеть от других cloud провайдеров. Но это не суть на данный момент.

Ещё в прошлом году на онлайн-конфе гугла я отметил для себя, что компания так же движется в сторону предоставления end-to-end решения для работы с данными. В этом посте делился краткой выжимкой одного из выступлений. И вот в канун начала нового учебного года Google в своём блоге рассказал о том, что выпустил BigQuery Studio, но пока не всем доступную. Если задуматься, оно к тому и шло: сперва появлялись отдельные сервисы (например, Dataplex), потом что-то из этих сервисов переезжало непосредственно на UI BigQuery (напримерб Lineage), затем появлялся новый функционал (например, Chart). А теперь (пока только для избранных) на едином интерфейсе будут доступны следующие фишки:

- Use SQL, Python, Spark or natural language directly within BigQuery and leverage those code assets easily across Vertex AI and other products for specialized workflows

- Extend software development best practices such as CI/CD, version history and source control to data assets, enabling better collaboration

- Uniformly enforce security policies and gain governance insights through data lineage, profiling and quality, right inside BigQuery

В статье можно более подробно почитать обо всём выше и посмотреть на гифки с примерами.

Я повторюсь снова о том, что GCP сильно недооценён с точки зрения работы с данными. И мне кажется, что он один из достойнейших конкурентов снежинки и кирпичиков, которого пока в должной мере нет в Data повестке.

Всем добра и спокойной ночи!

P.S. В силу жизненных обстоятельств крайне не хватает времени на то, чтобы писать здесь. Но делиться мыслями и новостями очень хочется, поэтому время от времени буду стараться радовать вас интересным контентом.

P.P.S. Огромное вам спасибо за то, что остаётесь рядом со мной 💕
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5👍1🤝1
Здесь я в основном пишу (редко, но пишу!) о работе с данными. Но вот уже почти год, как, кроме прямых обязанностей Data Engineer'a, я выполняю роль проектного и ресурсного менеджера. Нет, я не стану писать о каких-то best practices и т.д., так как мне учиться и учиться в этом направлении прежде, чем смогу раздавать советы. Но, тем не менее, я хотел бы поделиться интересной находкой: принципы лидерства от Amazon. (И да, у Амазона есть AWS, а там целая экосистема для работы с данными, поэтому ооооооочень отдалённо, но темы дата инжиниринга этот пост всё же касается 😅)

Мне понравилась подача: краткие формулировки, за которыми скрываются очень важные и серьёзные фундаментальные вещи. Многое откликнулось, т.к. я стараюсь придерживаться тех же принципов. А есть моменты, над которыми мне стоит поработать.

Я считаю тему лидерства очень важной, поэтому стараюсь к ней относиться серьёзно. Лидер - это не про роль/позицию в компании, лидер - это больше про твоё отношение к тому, что ты делаешь, как ты делаешь, и с кем. И касается оно не только рабочих моментов, но и всей жизни в целом.

#leadership
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔3👍1🔥1🆒1
Каждый инженер в душе немного художник.

Но чтобы не тратить время на вырисовывание идеальных стрелок, квадратиков и прямоуголиников, можно взять такую замечательную питонячую библиотеку. А в довесок к педантически выверенным элементам мы получаем version control. Осталось дождаться эмбединга в Wiki/Notion/etc.

Diagram as a Code в действии!

#python #diagrams #design
❤‍🔥3👍2🆒1
А сегодня пост-новость-скриншот.

Не смог пройти мимо. В нынешних реалиях спарком пользоваться не приходится, но как я понимаю, что такое дефолтные значения!

Поздравляю всех Spark-юзеров с такой обновочкой!

#spark
❤‍🔥3🔥2👍1
Оставлю это здесь. Думаю, пригодится, как мне, так и вам!
📚 Что почитать сеньору для расширения кругозора

Список от Павла Вейника, архитектора-фаундера в Hard&Soft Skills:

▪️проникнуться, какие базы вообще есть.

▪️сайт Мартина Фаулера, в последнее время он много пишет про организацию разработки, а не только про архитектуру.

▪️сайт Мартина Клеппмана, он глубоко лезет в детали алгоритмов, иногда слишком академичен, хотя продакшн-опыт у него тоже есть. Если вы используете RedLock, то почитайте это. Кстати, RedisRaft ещё не production.

▪️если вы уверены, что ваша БД работает как надо, то попробуйте найти её анализ вот тут: возможно, окажется, что база наводит баги.

▪️есть ресурс, посвященный дизайну и истории различных систем, например этот. Осторожно, они недавно сменили дизайн, и сейчас там может быть криво.

▪️вот тут можно найти, какие стеки используются на проектах, а также отзывы о технологиях и инструментах.

👉 Текст целиком

🐽 Пишите в комментариях ресурсы, которые помогают проектировать системы вам!
31👍1
📱 Не пятница, но пост и не по теме.

Скрин о том, как оставаться политкорректным в эру огромного разнообразия гендерных полов и избежать судебных разбирательств по этому поводу. Не знаю, как в других соц. сетях, но у Linkedin'а так. Не her/his, a their. Уверен, что определить биологический пол - это как 2 байта передать, а вот дальше - уже сложнее, особенно, если человек себя никак нигде не обозначает.

Новый челендж для AI - автоматическое определение гендерного пола.

#offtop
Please open Telegram to view this post
VIEW IN TELEGRAM
😁2👍1🔥1
Забавно видеть совет/предложение от Google воспользоваться контейнерами Cloud Run для загрузки данных в BigQuery, учитывая, что большинство интеграций у нас так и работают уже более полугода 🤭
Please open Telegram to view this post
VIEW IN TELEGRAM
😁2🤨1🤓1
Знакомо, да? 😎
Please open Telegram to view this post
VIEW IN TELEGRAM
😁4👍1🤔1🌚1😨1