Ну что я могу сказать?
Мы действительно входим в новую эру с точки зрения того, на что способен GPT-4. Но я сторонник того, что такие технологии точно не заменят Data Engineers/Architects. GPT-X & Co нужно воспринимать как помощником или совсех зелёных джунов. Они избавляют от рутины, позволяя посветить время более важным делам.
Зачем тратить несколько часов на то, чтобы представить сложный JSON в виде модели Data Vault 2.0 в BigQuery, например, если можно скормить его ChatGPT с просьбой сгенерить эту модель и преобразовать в DDL? А тебе останется проревьювать результат и внести необходимые правки. А потом ещё и автоматизировать schema changes handling.
Снимаю шляпу. 👑
https://medium.com/@nschairer/gpt-4-data-pipelines-transform-json-to-sql-schema-instantly-dfd62f6d1024
Мы действительно входим в новую эру с точки зрения того, на что способен GPT-4. Но я сторонник того, что такие технологии точно не заменят Data Engineers/Architects. GPT-X & Co нужно воспринимать как помощником или совсех зелёных джунов. Они избавляют от рутины, позволяя посветить время более важным делам.
Зачем тратить несколько часов на то, чтобы представить сложный JSON в виде модели Data Vault 2.0 в BigQuery, например, если можно скормить его ChatGPT с просьбой сгенерить эту модель и преобразовать в DDL? А тебе останется проревьювать результат и внести необходимые правки. А потом ещё и автоматизировать schema changes handling.
Снимаю шляпу. 👑
https://medium.com/@nschairer/gpt-4-data-pipelines-transform-json-to-sql-schema-instantly-dfd62f6d1024
Medium
GPT-4 Data Pipelines: Transform JSON to SQL Schema Instantly
TL;DR — Turn complex JSON blobs into SQL schema or SQL schema updates effortlessly with GPT-4.
👍2❤🔥1
Всем доброе утро!
Очередной новый подход в организации работы с данными. На этот раз объединили dimensional modeling с feature engineering.
Основной посыл: давайте выделим сущности и будем работать вокруг них, обогащая данными и фичами (по сути, рассчитанными метриками). В любом случае, рекомендую почитать статью. Радует, что текст пестрит ссылками на дополнительные материалы, которые скорее всего помогут глубже понять approach.
P.S. От себя добавлю, что я бы заменил dimensional modeling на data vault 2.0 или вообще anchor modeling. Они точно прибавят гибкости. Если быть современными, то уже во всём 😉
https://preset.io/blog/introducing-entity-centric-data-modeling-for-analytics/
Очередной новый подход в организации работы с данными. На этот раз объединили dimensional modeling с feature engineering.
Основной посыл: давайте выделим сущности и будем работать вокруг них, обогащая данными и фичами (по сути, рассчитанными метриками). В любом случае, рекомендую почитать статью. Радует, что текст пестрит ссылками на дополнительные материалы, которые скорее всего помогут глубже понять approach.
P.S. От себя добавлю, что я бы заменил dimensional modeling на data vault 2.0 или вообще anchor modeling. Они точно прибавят гибкости. Если быть современными, то уже во всём 😉
https://preset.io/blog/introducing-entity-centric-data-modeling-for-analytics/
preset.io
Introducing Entity-Centric Data Modeling for Analytics
Entity-centric data modeling: enrich datasets with features to enable segmentation, cohort creation, and classification.
👍3🔥1
Mesh'ей много не бывает!
Если есть Data Mesh, то почему бы не придумать и концепцию SQLMesh? Так и поступили создатели компании Tobiko, о чём можно и почитать в статье.
Но если Data Mesh больше об архитектуре и организации работы с данными в компании, то SQLMesh - это про DataOps. Направление, которое в том числе продолжает набирать популярность.
Какие же бенефиты от использования этого меша обещают? Вот некоторые из них:
- автоматическое определение зависимостей между объектами;
- исходя из пункта выше: предоставление информации о том, какие объекты будут зааффекчены при изменении;
- code version control;
- unit тесты для пайплайнов, которые можно описать в YAML файле;
- интеграция с Airflow и dbt (пока в preview).
Я пока не совсем понял, как именно
P.S. Спасибо моему новому коллеге data engineer за то, что поделился ссылкой на статью.
#dataops #sqlmesh
Если есть Data Mesh, то почему бы не придумать и концепцию SQLMesh? Так и поступили создатели компании Tobiko, о чём можно и почитать в статье.
Но если Data Mesh больше об архитектуре и организации работы с данными в компании, то SQLMesh - это про DataOps. Направление, которое в том числе продолжает набирать популярность.
Какие же бенефиты от использования этого меша обещают? Вот некоторые из них:
- автоматическое определение зависимостей между объектами;
- исходя из пункта выше: предоставление информации о том, какие объекты будут зааффекчены при изменении;
- code version control;
- unit тесты для пайплайнов, которые можно описать в YAML файле;
- интеграция с Airflow и dbt (пока в preview).
Я пока не совсем понял, как именно
Virtual Data Warehouse связан с Efficient dev / staging environments. Видимо, для этого нужно поглубже погрузиться в тему.P.S. Спасибо моему новому коллеге data engineer за то, что поделился ссылкой на статью.
#dataops #sqlmesh
🤔1👀1🆒1
Лёгкое чтиво в конце рабочего выходного дня: https://www.levels.fyi/blog/scaling-to-millions-with-google-sheets.html
Оказывается, Google Sheets могут быть полезным инструментом не только для менеджеров и бизнес-пользователей, но и стать альтернативой бд на бекенде! Девиз ребят из levels.fyi был прост: "start simple and iterate". И при запуске своего ресурса они отталкивались от позиции, что хотят сфокусироваться на разработке продукта, а не выборе технологий и настройке инфраструктуры, да и к тому же по возможности сэкономить. Конечно, со временем пришлось сделать изменения "под капотом", но об этом непосредственно в самой статье.
#googlesheets #backend
Оказывается, Google Sheets могут быть полезным инструментом не только для менеджеров и бизнес-пользователей, но и стать альтернативой бд на бекенде! Девиз ребят из levels.fyi был прост: "start simple and iterate". И при запуске своего ресурса они отталкивались от позиции, что хотят сфокусироваться на разработке продукта, а не выборе технологий и настройке инфраструктуры, да и к тому же по возможности сэкономить. Конечно, со временем пришлось сделать изменения "под капотом", но об этом непосредственно в самой статье.
#googlesheets #backend
Levels.fyi Blog
How Levels.fyi scaled to millions of users with Google Sheets as a backend
Our philosophy to scaling is simple, avoid premature optimization
👍1
А вот внезапная находка, которая немного удивила
Оказывается, есть ML расширение для PostgreSQL, которое называется просто и лаконично: PostgresML, и которое позволяет прямо из квери запускать модельки. На гитхабе написано о том, что расширение
- умеет в Natural Language Processing (NLP);
- имеет доступ к более 1000 разным другим предобученным моделям, доступным на Hugging Face hub (также что-то новенькое для меня);
- имеет оттюненые Large Language Models (LLMs);
- обладает силой превращение "слоника" в векторную бд.
Распространяется под лицензией MIT. Есть сайт, на котором можно выбрать подходящий для вас план за денюжку, и где обещают, что всё будет работать в
Вся эта история напоминает мне уже реализованный ML-функционал в Google BigQuery. Хотя в целом, если задуматься, индустрия движется в сторону выстраивания полнофункциональный эко-системы вокруг какого-то аналитического движка: будь то вышеупомянутый BigQuery, будь то Snowflake или любое другое решение от гигантов индустрии. С одной стороны, вендор подсаживает тебя на свою иглу, но с другой стороны, тебе не нужно ресёрчить какой-то дополнительный тул и думать об интеграции с твоим решением.
Опять же, для меня остаются вопросы к PostgresML касательно перформанса и потенциальной стоимости использования этого тула. На сайте были упоминания и про CPU, и про GPU, но не попробовав - не понять. С другой стороны, здесь речь скорее всего о каких-то ad-hoc запросах, проверке простых гипотез, или несложных ML-пайплайнах на стороне продуктовой базы.
#PostgresML #PostgresML #ML
Оказывается, есть ML расширение для PostgreSQL, которое называется просто и лаконично: PostgresML, и которое позволяет прямо из квери запускать модельки. На гитхабе написано о том, что расширение
- умеет в Natural Language Processing (NLP);
- имеет доступ к более 1000 разным другим предобученным моделям, доступным на Hugging Face hub (также что-то новенькое для меня);
- имеет оттюненые Large Language Models (LLMs);
- обладает силой превращение "слоника" в векторную бд.
Распространяется под лицензией MIT. Есть сайт, на котором можно выбрать подходящий для вас план за денюжку, и где обещают, что всё будет работать в
8x-40x Faster than Python и с <1 ms Prediction Latency.Вся эта история напоминает мне уже реализованный ML-функционал в Google BigQuery. Хотя в целом, если задуматься, индустрия движется в сторону выстраивания полнофункциональный эко-системы вокруг какого-то аналитического движка: будь то вышеупомянутый BigQuery, будь то Snowflake или любое другое решение от гигантов индустрии. С одной стороны, вендор подсаживает тебя на свою иглу, но с другой стороны, тебе не нужно ресёрчить какой-то дополнительный тул и думать об интеграции с твоим решением.
Опять же, для меня остаются вопросы к PostgresML касательно перформанса и потенциальной стоимости использования этого тула. На сайте были упоминания и про CPU, и про GPU, но не попробовав - не понять. С другой стороны, здесь речь скорее всего о каких-то ad-hoc запросах, проверке простых гипотез, или несложных ML-пайплайнах на стороне продуктовой базы.
#PostgresML #PostgresML #ML
GitHub
GitHub - postgresml/postgresml: Postgres with GPUs for ML/AI apps.
Postgres with GPUs for ML/AI apps. Contribute to postgresml/postgresml development by creating an account on GitHub.
❤🔥1🔥1
Думаю, каждый наслышан о dbt (data build tool). А теперь встречайте dlt (data load tool)!
Как не трудно догадаться, тул предназначен для EL (Extract, Load) операций, или проще говоря: для трансфера данных из источника (source) в приёмник (destination). Сам по себе dlt - это опенсорсная питонячая библиотека. По заверениям создателей данный инструмент упрощает работу со схемой данных (автоматический мэйнтейнинг изменений), позволяет создавать "шедевральные" и надёжные пайплайны в разы быстрее относительно написания кастомного кода, может ранаться где угодно и дружит с Modern Data Stack. Ну просто находка!
Если кто-то уже работал с этим зверем, буду признателен за фидбек в личку (@jayrumi).
#dlt #el #datatransfer #mds
Как не трудно догадаться, тул предназначен для EL (Extract, Load) операций, или проще говоря: для трансфера данных из источника (source) в приёмник (destination). Сам по себе dlt - это опенсорсная питонячая библиотека. По заверениям создателей данный инструмент упрощает работу со схемой данных (автоматический мэйнтейнинг изменений), позволяет создавать "шедевральные" и надёжные пайплайны в разы быстрее относительно написания кастомного кода, может ранаться где угодно и дружит с Modern Data Stack. Ну просто находка!
Если кто-то уже работал с этим зверем, буду признателен за фидбек в личку (@jayrumi).
#dlt #el #datatransfer #mds
Dlthub
dltHub: ELT as Python Code
Write any custom data source, achieve data democracy, modernise legacy systems and reduce cloud costs.
👍2🤔2
А вот и StackOverflow анонсировал запуск своего "ChatGPT" с блэк-джеком и прочим приятным сопровождением в лице Overflow AI.
Если не хочется читать, то можно глянуть небольшой ролик.
#ai #stackoverflow
Если не хочется читать, то можно глянуть небольшой ролик.
#ai #stackoverflow
Stack Overflow Blog
Announcing OverflowAI
Let’s highlight the new features and products we announced today from the stage of WeAreDevelopers.
👍4
Если не знаете, какие сервисы GCP выбрать в качестве определённых элементов вашей аналитической data платформы - вот вам наглядное decision tree от Google. А здесь можно вкратце почитать про каждый из сервисов: https://cloud.google.com/blog/products/data-analytics/decision-tree-for-data-analytics-workloads-on-google-cloud.
#gcp
#gcp
Google Cloud Blog
Decision tree for data analytics workloads on Google Cloud | Google Cloud Blog
Introducing a decision tree for data analytics that helps you select the best services in Google Cloud to match your unique workload needs.
👍3
🐍 Python врывается в Excel!
Пока только в превью и только для участников программы
Нововведение позиционируется, как дверь в мир
Не знаю, как на это реагировать и как воспринимать: как баг или как фичу 🤷 Но новость доставила 😁
Больше деталей в посте блога: https://techcommunity.microsoft.com/t5/excel-blog/announcing-python-in-excel-combining-the-power-of-python-and-the/ba-p/3893439
#python #excel
Пока только в превью и только для участников программы
Microsoft 365 Insiders. Нововведение позиционируется, как дверь в мир
"cleaning data, machine learning, predictive analytics, and more" с возможностью визуализации при помощи библиотек Matplotlib и seaborn. Под капотом Anaconda Distribution for Python, которая крутится в ажуре.Не знаю, как на это реагировать и как воспринимать: как баг или как фичу 🤷 Но новость доставила 😁
Больше деталей в посте блога: https://techcommunity.microsoft.com/t5/excel-blog/announcing-python-in-excel-combining-the-power-of-python-and-the/ba-p/3893439
#python #excel
TECHCOMMUNITY.MICROSOFT.COM
Announcing Python in Excel
Announcing Python in Excel: Combining the power of Python and the flexibility of Excel.
🔥2😁1🌚1
Google анонсировал выход BigQuery Studio (пока в превью)
Но подойдём к этой новости с другой стороны. Оттолкнёмся от фразы из поста на замечательном канале Инжиниринг Данных: "Во-первых очевидно, что Snowflake и Databricks лидеры..."
И в самом деле, в последние пару-тройку лет очень много хайпа и движухи вокруг
Ещё в прошлом году на онлайн-конфе гугла я отметил для себя, что компания так же движется в сторону предоставления end-to-end решения для работы с данными. В этом посте делился краткой выжимкой одного из выступлений. И вот в канун начала нового учебного года Google в своём блоге рассказал о том, что выпустил
- Use SQL, Python, Spark or natural language directly within BigQuery and leverage those code assets easily across Vertex AI and other products for specialized workflows
- Extend software development best practices such as CI/CD, version history and source control to data assets, enabling better collaboration
- Uniformly enforce security policies and gain governance insights through data lineage, profiling and quality, right inside BigQuery
В статье можно более подробно почитать обо всём выше и посмотреть на гифки с примерами.
Я повторюсь снова о том, что GCP сильно недооценён с точки зрения работы с данными. И мне кажется, что он один из достойнейших конкурентов снежинки и кирпичиков, которого пока в должной мере нет в Data повестке.
Всем добра и спокойной ночи!
P.S. В силу жизненных обстоятельств крайне не хватает времени на то, чтобы писать здесь. Но делиться мыслями и новостями очень хочется, поэтому время от времени буду стараться радовать вас интересным контентом.
P.P.S. Огромное вам спасибо за то, что остаётесь рядом со мной💕
Но подойдём к этой новости с другой стороны. Оттолкнёмся от фразы из поста на замечательном канале Инжиниринг Данных: "Во-первых очевидно, что Snowflake и Databricks лидеры..."
И в самом деле, в последние пару-тройку лет очень много хайпа и движухи вокруг
Snowflake и Databricks. Где-то хорошо работает маркетинг, а где-то действительно появляются интересные функционал и концепты. Но основная цель для обоих вендоров - вырастить экосистему вокруг их продуктов для создания end-to-end data solutions с аналитикой и AI на борту. Осталось только свою облачную инфраструктуру поднять, чтобы не зависеть от других cloud провайдеров. Но это не суть на данный момент.Ещё в прошлом году на онлайн-конфе гугла я отметил для себя, что компания так же движется в сторону предоставления end-to-end решения для работы с данными. В этом посте делился краткой выжимкой одного из выступлений. И вот в канун начала нового учебного года Google в своём блоге рассказал о том, что выпустил
BigQuery Studio, но пока не всем доступную. Если задуматься, оно к тому и шло: сперва появлялись отдельные сервисы (например, Dataplex), потом что-то из этих сервисов переезжало непосредственно на UI BigQuery (напримерб Lineage), затем появлялся новый функционал (например, Chart). А теперь (пока только для избранных) на едином интерфейсе будут доступны следующие фишки:- Use SQL, Python, Spark or natural language directly within BigQuery and leverage those code assets easily across Vertex AI and other products for specialized workflows
- Extend software development best practices such as CI/CD, version history and source control to data assets, enabling better collaboration
- Uniformly enforce security policies and gain governance insights through data lineage, profiling and quality, right inside BigQuery
В статье можно более подробно почитать обо всём выше и посмотреть на гифки с примерами.
Я повторюсь снова о том, что GCP сильно недооценён с точки зрения работы с данными. И мне кажется, что он один из достойнейших конкурентов снежинки и кирпичиков, которого пока в должной мере нет в Data повестке.
Всем добра и спокойной ночи!
P.S. В силу жизненных обстоятельств крайне не хватает времени на то, чтобы писать здесь. Но делиться мыслями и новостями очень хочется, поэтому время от времени буду стараться радовать вас интересным контентом.
P.P.S. Огромное вам спасибо за то, что остаётесь рядом со мной
Please open Telegram to view this post
VIEW IN TELEGRAM
Google Cloud Blog
Announcing BigQuery Studio | Google Cloud Blog
BigQuery Studio lets analytics practitioners use SQL, Python, Spark or natural language directly within BigQuery, to streamline analytics workflows.
🔥5👍1🤝1
Хэндбук от Зака Уилсона о том, как стать крутым дата инженером!
Возможно кому-то окажется полезным.
#dataengineering #learning
Возможно кому-то окажется полезным.
#dataengineering #learning
GitHub
GitHub - DataExpert-io/data-engineer-handbook: This is a repo with links to everything you'd ever want to learn about data engineering
This is a repo with links to everything you'd ever want to learn about data engineering - DataExpert-io/data-engineer-handbook
🔥6❤🔥1
Здесь я в основном пишу (редко, но пишу!) о работе с данными. Но вот уже почти год, как, кроме прямых обязанностей Data Engineer'a, я выполняю роль проектного и ресурсного менеджера. Нет, я не стану писать о каких-то best practices и т.д., так как мне учиться и учиться в этом направлении прежде, чем смогу раздавать советы. Но, тем не менее, я хотел бы поделиться интересной находкой: принципы лидерства от Amazon. (И да, у Амазона есть AWS, а там целая экосистема для работы с данными, поэтому ооооооочень отдалённо, но темы дата инжиниринга этот пост всё же касается 😅 )
Мне понравилась подача: краткие формулировки, за которыми скрываются очень важные и серьёзные фундаментальные вещи. Многое откликнулось, т.к. я стараюсь придерживаться тех же принципов. А есть моменты, над которыми мне стоит поработать.
Я считаю тему лидерства очень важной, поэтому стараюсь к ней относиться серьёзно. Лидер - это не про роль/позицию в компании, лидер - это больше про твоё отношение к тому, что ты делаешь, как ты делаешь, и с кем. И касается оно не только рабочих моментов, но и всей жизни в целом.
#leadership
Мне понравилась подача: краткие формулировки, за которыми скрываются очень важные и серьёзные фундаментальные вещи. Многое откликнулось, т.к. я стараюсь придерживаться тех же принципов. А есть моменты, над которыми мне стоит поработать.
Я считаю тему лидерства очень важной, поэтому стараюсь к ней относиться серьёзно. Лидер - это не про роль/позицию в компании, лидер - это больше про твоё отношение к тому, что ты делаешь, как ты делаешь, и с кем. И касается оно не только рабочих моментов, но и всей жизни в целом.
#leadership
Please open Telegram to view this post
VIEW IN TELEGRAM
amazon.jobs
Leadership Principles
We use our Leadership Principles every day, whether we’re discussing ideas for new projects or deciding on the best way to solve a problem. It’s just one of the things that makes Amazon peculiar.
🤔3👍1🔥1🆒1
Каждый инженер в душе немного художник.
Но чтобы не тратить время на вырисовывание идеальных стрелок, квадратиков и прямоуголиников, можно взять такую замечательную питонячую библиотеку. А в довесок к педантически выверенным элементам мы получаем version control. Осталось дождаться эмбединга в Wiki/Notion/etc.
Diagram as a Code в действии!
#python #diagrams #design
Но чтобы не тратить время на вырисовывание идеальных стрелок, квадратиков и прямоуголиников, можно взять такую замечательную питонячую библиотеку. А в довесок к педантически выверенным элементам мы получаем version control. Осталось дождаться эмбединга в Wiki/Notion/etc.
Diagram as a Code в действии!
#python #diagrams #design
Mingrammer
Examples · Diagrams
Here are some more examples.
❤🔥3👍2🆒1
А сегодня пост-новость-скриншот.
Не смог пройти мимо. В нынешних реалиях спарком пользоваться не приходится, но как я понимаю, что такое дефолтные значения!
Поздравляю всех Spark-юзеров с такой обновочкой!
#spark
Не смог пройти мимо. В нынешних реалиях спарком пользоваться не приходится, но как я понимаю, что такое дефолтные значения!
Поздравляю всех Spark-юзеров с такой обновочкой!
#spark
❤🔥3🔥2👍1
Forwarded from Dzik Pic. Откровенно о польском ИТ
📚 Что почитать сеньору для расширения кругозора
Список от Павла Вейника, архитектора-фаундера в Hard&Soft Skills:
▪️проникнуться, какие базы вообще есть.
▪️сайт Мартина Фаулера, в последнее время он много пишет про организацию разработки, а не только про архитектуру.
▪️сайт Мартина Клеппмана, он глубоко лезет в детали алгоритмов, иногда слишком академичен, хотя продакшн-опыт у него тоже есть. Если вы используете RedLock, то почитайте это. Кстати, RedisRaft ещё не production.
▪️если вы уверены, что ваша БД работает как надо, то попробуйте найти её анализ вот тут: возможно, окажется, что база наводит баги.
▪️есть ресурс, посвященный дизайну и истории различных систем, например этот. Осторожно, они недавно сменили дизайн, и сейчас там может быть криво.
▪️вот тут можно найти, какие стеки используются на проектах, а также отзывы о технологиях и инструментах.
👉 Текст целиком
🐽 Пишите в комментариях ресурсы, которые помогают проектировать системы вам!
Список от Павла Вейника, архитектора-фаундера в Hard&Soft Skills:
▪️проникнуться, какие базы вообще есть.
▪️сайт Мартина Фаулера, в последнее время он много пишет про организацию разработки, а не только про архитектуру.
▪️сайт Мартина Клеппмана, он глубоко лезет в детали алгоритмов, иногда слишком академичен, хотя продакшн-опыт у него тоже есть. Если вы используете RedLock, то почитайте это. Кстати, RedisRaft ещё не production.
▪️если вы уверены, что ваша БД работает как надо, то попробуйте найти её анализ вот тут: возможно, окажется, что база наводит баги.
▪️есть ресурс, посвященный дизайну и истории различных систем, например этот. Осторожно, они недавно сменили дизайн, и сейчас там может быть криво.
▪️вот тут можно найти, какие стеки используются на проектах, а также отзывы о технологиях и инструментах.
👉 Текст целиком
🐽 Пишите в комментариях ресурсы, которые помогают проектировать системы вам!
✍3❤1👍1
Скрин о том, как оставаться политкорректным в эру огромного разнообразия гендерных полов и избежать судебных разбирательств по этому поводу. Не знаю, как в других соц. сетях, но у Linkedin'а так. Не her/his, a their. Уверен, что определить биологический пол - это как 2 байта передать, а вот дальше - уже сложнее, особенно, если человек себя никак нигде не обозначает.
Новый челендж для AI - автоматическое определение гендерного пола.
#offtop
Please open Telegram to view this post
VIEW IN TELEGRAM
😁2👍1🔥1
Забавно видеть совет/предложение от Google воспользоваться контейнерами Cloud Run для загрузки данных в BigQuery, учитывая, что большинство интеграций у нас так и работают уже более полугода 🤭
Please open Telegram to view this post
VIEW IN TELEGRAM
😁2🤨1🤓1
Please open Telegram to view this post
VIEW IN TELEGRAM
😁4👍1🤔1🌚1😨1