Если вы работаете с AWS, то обычно все данные хранятся в S3 (cloud storage). Часто для локальной разработки или процесса CI/CD нам нужно проверять наш код, например Spark Jobs Unit Tests. Возможно без доступа к облаку, так как для доступа вам нужно использовать credentials.
Попалось очень хорошее решение для такой задачи - How to mock AWS services in local development?
То есть запускается сервис, который имитирует
Попалось очень хорошее решение для такой задачи - How to mock AWS services in local development?
То есть запускается сервис, который имитирует
s3://Medium
How to mock AWS services in local development?
AWS provides many products that are very much an integral part in our application development. It provides many products like analytics…
👍22
Кто-то собрал список data influencers в Linkedin https://docs.google.com/spreadsheets/d/1OALYhi-7wlGxX4MYr_GACunVqhqDejN3OokTN7ITshY/edit#gid=0
Google Docs
Data Content Creators On LinkedIn [External]
👍26🔥8
Новый игрок в BI был замечен на рынке после недавних инвестиций в 12млн от знающих толк в data людей
Most BI tools are thin applications with no г engine of their own, and only as fast as the database they sit atop. Rill, on the other hand, is a thick application that comes with its own embedded in-memory OLAP engine (DuckDB in Rill Developer, and Apache Druid in Rill Cloud). This is the not-so-secret reason why our dashboards offer incredibly high performance,” the company wrote in a blog post announcing the funding.
https://techcrunch-com.cdn.ampproject.org/c/s/techcrunch.com/2022/08/04/rill-wants-to-rethink-bi-dashboards-with-embedded-database-and-instant-ux/amp/
Посмотрим как пойдёт у них
Most BI tools are thin applications with no г engine of their own, and only as fast as the database they sit atop. Rill, on the other hand, is a thick application that comes with its own embedded in-memory OLAP engine (DuckDB in Rill Developer, and Apache Druid in Rill Cloud). This is the not-so-secret reason why our dashboards offer incredibly high performance,” the company wrote in a blog post announcing the funding.
https://techcrunch-com.cdn.ampproject.org/c/s/techcrunch.com/2022/08/04/rill-wants-to-rethink-bi-dashboards-with-embedded-database-and-instant-ux/amp/
Посмотрим как пойдёт у них
DuckDB
An in-process SQL OLAP database management system
DuckDB is an in-process SQL OLAP database management system. Simple, feature-rich, fast & open source.
👍9🔥2
Databricks VSCode Extension https://blog.gbrueckl.at/2022/08/databricks-vscode-extension-release-v1-0/
👍5❤1
FAANG компании отслеживают интересные метрики - Revenue per employee и Free cash flow per employee.
Согласно статье Why Mark Zuckerberg and Sundar Pichai Are Worried About Productivity эффективность труда падает, и как говорит Цукенберг Realistically, there are probably a bunch of people at the company who shouldn’t be here.
Как вам такой подход? Я знаю, что такой подход хорошо работает на уровень зарплаты (total compensation), и поэтому там такие высокие зарплаты, а вот наоборот, искать взаимосвязь между производительностью конкретного инженера и доходом компании это может обернуться "охотой на ведьм". Возможно причины в неудачных long term решениях.
А так то, кому сейчас легко?😆
Согласно статье Why Mark Zuckerberg and Sundar Pichai Are Worried About Productivity эффективность труда падает, и как говорит Цукенберг Realistically, there are probably a bunch of people at the company who shouldn’t be here.
Как вам такой подход? Я знаю, что такой подход хорошо работает на уровень зарплаты (total compensation), и поэтому там такие высокие зарплаты, а вот наоборот, искать взаимосвязь между производительностью конкретного инженера и доходом компании это может обернуться "охотой на ведьм". Возможно причины в неудачных long term решениях.
А так то, кому сейчас легко?😆
🔥23👍8🤔4😁1
Пока вы учите Python, SQL, Airflow и другие полезные ништячки на работе, я прохожу sexual harassment тренинг с элементами сериала 90х.
Вот один из вопросов:
(google сделал перевод для вас)
Несколько сотрудниц офиса являются друзьями на Facebook. Однажды ночью дома одна из женщин публикует рейтинг «Лучших мужских задниц в моем офисе», зная, что она дружит на Facebook только с сотрудницами, которые не обидятся. Когда это видит друг друга друга, он чувствует себя униженным, потому что он занял последнее место. Он сообщает об этом как о сексуальных домогательствах.
Это сексуальные домогательства?
Вопрос конечно серьезный и даже очень полезный для некоторых, но в Канаде тут с этим не шутят, за неудачный комплимент могут вызвать полицию или уволить с работы одним днем. Поэтому тут лучше молчать и глаза не поднимать. 🙈
У меня был еще другой тренинг, но он мне оказался не по силам, я запутался в терминологии и цветах радуги.
Вот один из вопросов:
(google сделал перевод для вас)
Несколько сотрудниц офиса являются друзьями на Facebook. Однажды ночью дома одна из женщин публикует рейтинг «Лучших мужских задниц в моем офисе», зная, что она дружит на Facebook только с сотрудницами, которые не обидятся. Когда это видит друг друга друга, он чувствует себя униженным, потому что он занял последнее место. Он сообщает об этом как о сексуальных домогательствах.
Это сексуальные домогательства?
Вопрос конечно серьезный и даже очень полезный для некоторых, но в Канаде тут с этим не шутят, за неудачный комплимент могут вызвать полицию или уволить с работы одним днем. Поэтому тут лучше молчать и глаза не поднимать. 🙈
У меня был еще другой тренинг, но он мне оказался не по силам, я запутался в терминологии и цветах радуги.
😁85🤔24🤬14👍13😢3🔥1
Очень классная статья - Cloud-native Computing, Workloads, and Elasticity - про экономию в облаках.
Казалось бы, если у нас есть кластер для ETL и он будет тратить X денег за 7 часов, то если мы удвоим кластер, то будем платить 2X за 7 часов.
Но в облаке будет работать по другому. При удвоении мощности, наш ETL процесс закончится как минимум в 2 раза быстрей, то есть мы заплатим 2X/2=X. Та же цена, но в 2 раза быстрей. И там можно дальше. Все благодаря преимуществам облака и тарификации за работающие ресурсы.
Я конечно утрирую немного, но в статье смысл про это, от ветерана MPP платформ Rob Klopp (Greenplum, Hana)
Казалось бы, если у нас есть кластер для ETL и он будет тратить X денег за 7 часов, то если мы удвоим кластер, то будем платить 2X за 7 часов.
Но в облаке будет работать по другому. При удвоении мощности, наш ETL процесс закончится как минимум в 2 раза быстрей, то есть мы заплатим 2X/2=X. Та же цена, но в 2 раза быстрей. И там можно дальше. Все благодаря преимуществам облака и тарификации за работающие ресурсы.
Я конечно утрирую немного, но в статье смысл про это, от ветерана MPP платформ Rob Klopp (Greenplum, Hana)
Database Fog Blog
Cloud-native Computing, Workloads, and Elasticity
Over the next several weeks, I’ll share my perspective of current best practices for big data, which is the term I’ll use to blend thinking about analytic data systems: data lakes, data…
👍22👨💻1
Интересный путь у товарища
Хабр
В IT в 30. Как я стал solo Kaggle Grandmaster, устроился на работу, но так и не стал программистом
Всем привет, меня зовут Крамаренко Владислав. В этом году мне исполнилось 30 лет, а также случилось много событий, в том числе и позитивных. Во первых, я устроился на вторую в жизни работу(и первую в...
👍19🔥13🤔4
Отличная картинка. Только вместо ERP и CSV можно использовать хранилище данных. Пользователи мега креативны и найдут способ создать одинаковый показатель с разной логикой и результатом, даже если уже такой есть.
И это будет не их вина. Это проблема отсутствия правильной документации, инструмента для отображения документации и on-boarding тренингов.
Хотя нет, даже при наличии всего этого, все равно придумают чего-нить (и никому не скажут)
И это будет не их вина. Это проблема отсутствия правильной документации, инструмента для отображения документации и on-boarding тренингов.
Хотя нет, даже при наличии всего этого, все равно придумают чего-нить (и никому не скажут)
🔥31😁13👍7❤2
Forwarded from 🔋 Труба данных
Какое-то время назад я писал анонс про книгу “Fundamentals of Data Engineering”.
Книжку я в итоге купил, прочитал и я очень остался доволен. Впервые за долгое время было очень приятно читать книгу, в которой на базовом уровне описываются хорошие практики, про то, как все устроено и с какими проблемами сталкиваются DE и команды.
А еще взгляды автора совпадали на некоторые аспекты и процессы совпадали с моими, приятно осозновать, что я практики, до которых я дошел самостоятельно или научился у других, оказываются, и правда хорошие. Спасибо моим учителям =)
А теперь из прикольного: у ребят в datatalks.club в слаке есть канал book-of-the-week, где эту неделю автор книги отвечает на все вопросы. Советую заглянуть и почитать треды.
@ohmydataengineer
Книжку я в итоге купил, прочитал и я очень остался доволен. Впервые за долгое время было очень приятно читать книгу, в которой на базовом уровне описываются хорошие практики, про то, как все устроено и с какими проблемами сталкиваются DE и команды.
А еще взгляды автора совпадали на некоторые аспекты и процессы совпадали с моими, приятно осозновать, что я практики, до которых я дошел самостоятельно или научился у других, оказываются, и правда хорошие. Спасибо моим учителям =)
А теперь из прикольного: у ребят в datatalks.club в слаке есть канал book-of-the-week, где эту неделю автор книги отвечает на все вопросы. Советую заглянуть и почитать треды.
@ohmydataengineer
Telegram
Труба данных
https://www.amazon.com/Fundamentals-Data-Engineering-Robust-Systems/dp/1098108302/
Вот такая вот книженция от O’Reilly доступна для предзаказа на Amazon.
Будет выпущена в июле/августе.
Автор: https://www.linkedin.com/in/josephreis/
Вот такая вот книженция от O’Reilly доступна для предзаказа на Amazon.
Будет выпущена в июле/августе.
Автор: https://www.linkedin.com/in/josephreis/
👍27🔥3❤2
В Google podcast есть подкасты, больше про карьеру, чем про данные. https://podcasts.google.com/feed/aHR0cHM6Ly9hbmNob3IuZm0vcy84MGIwMzJkOC9wb2RjYXN0L3Jzcw
👍22
Новости из мира аналитики:
Building Modern Data Teams - собрали много материала по этой теме в одном месте.
Airflow's Problem - популярный пост про судьбу Airflow и его туманное будущее
Databricks usage and cost analysis - пример анализа стоимости Databricks
The Evolution of Transformation Layer Architecture in 99 Group (DBT, Airflow and Kubernetes) - обзор аналитического решения в компании 99 Group
4 Must-Have Tests for Your Apache Kafka CI/CD with GitHub Actions - будет полезно, если вы используете Kafka
A Framework to Understand How Low-Quality Data Hurts Business Performance -
Reporting Data at Criteo: How to Measure at Scale - архитектура аналитического решения в Criteo
Harvard Data Science CS109A materials.
Spark Data Lineage - задачи lineage до сих пор актуальны, а если у вас Spark, то там все еще сложней.
Snowflake query optimiser: unoptimised - хороший пример про использования dbt и их подхода CTE, который в итоге оборачивается в огромной стоимости решения.
The next generation of Data Platforms is the Data Mesh - а может быть очередной buzz word.
Building Modern Data Teams - собрали много материала по этой теме в одном месте.
Airflow's Problem - популярный пост про судьбу Airflow и его туманное будущее
Databricks usage and cost analysis - пример анализа стоимости Databricks
The Evolution of Transformation Layer Architecture in 99 Group (DBT, Airflow and Kubernetes) - обзор аналитического решения в компании 99 Group
4 Must-Have Tests for Your Apache Kafka CI/CD with GitHub Actions - будет полезно, если вы используете Kafka
A Framework to Understand How Low-Quality Data Hurts Business Performance -
Reporting Data at Criteo: How to Measure at Scale - архитектура аналитического решения в Criteo
Harvard Data Science CS109A materials.
Spark Data Lineage - задачи lineage до сих пор актуальны, а если у вас Spark, то там все еще сложней.
Snowflake query optimiser: unoptimised - хороший пример про использования dbt и их подхода CTE, который в итоге оборачивается в огромной стоимости решения.
The next generation of Data Platforms is the Data Mesh - а может быть очередной buzz word.
👍15🔥3❤1
Lakehouse: A New Generation of Open Platforms that UnifyData Warehousing and Advanced Analytics - paper 2021 года про архитектуру Lakehouse
Пост про обзор Lakehouse paper.
The paper tries to motivate introduction of Lakehouse by high engineering efforts required to maintain “Data Lake” + EDW tandem (that is caused by data lake misuse for cost cutting EDW license), EDW data staleness (which was solved by CDC long ago), EDW lack of advanced analytics support (every EDW vendor provides them), unstructured data processing needs (you don’t want unstructured data inside your EDW). But the actual motivation is the willingness of Databricks to position their solution as a competitor in the cloud EDW market and describe its key features, further generalising their approach to look more comprehensive than their competitors. Unfortunately, I don’t see unique challenges it solves, so for now I will treat Lakehouse as another marketing buzzword.
Пост про обзор Lakehouse paper.
The paper tries to motivate introduction of Lakehouse by high engineering efforts required to maintain “Data Lake” + EDW tandem (that is caused by data lake misuse for cost cutting EDW license), EDW data staleness (which was solved by CDC long ago), EDW lack of advanced analytics support (every EDW vendor provides them), unstructured data processing needs (you don’t want unstructured data inside your EDW). But the actual motivation is the willingness of Databricks to position their solution as a competitor in the cloud EDW market and describe its key features, further generalising their approach to look more comprehensive than their competitors. Unfortunately, I don’t see unique challenges it solves, so for now I will treat Lakehouse as another marketing buzzword.
👍9
Media is too big
VIEW IN TELEGRAM
Приглашаем на вебинар «Отток клиентов. Тихая смерть омниканальной стратегии. Обратная сторона LTV».
📆 25 августа (четверг) в 17:00 МСК.
На вебинаре узнаете, как снизить отток и вообще работать с базой, сокращая затраты и увеличивая прибыль, а также соберёте инсайты из разных сфер.
У микрофонов:
⚡️ Максим Мозговой, директор и управляющий партнер компании SegmentValue.
Ex-директор по CRM и аналитике Wargaming, GameHouse, Сбербанк, МТС, Промсвязьбанк, Wildberries, Lamoda, IVI.
⚡️ Стас Розен, основатель агентства Dau Relationship Marketing
Ex-Head of Digital&CRM в Pernod Ricard Rouss. Развивал программы лояльности в Philips, работал с ключевыми клиентами в агентствах Actis Wunderman и Progression (GE Money Bank, Microsoft, PepsiCo).
⚡️ Давид Вачадзе, директор агентства интерактивного маркетинга BrandMobile.
Ex-руководитель компаний ThinkWave, BIX (e-business интегратор, CRM решения), более 20 лет опыта создания и развития высокотехнологичных бизнесов.
📌Участие бесплатное, регистрация уже идет в чат-боте.
📆 25 августа (четверг) в 17:00 МСК.
На вебинаре узнаете, как снизить отток и вообще работать с базой, сокращая затраты и увеличивая прибыль, а также соберёте инсайты из разных сфер.
У микрофонов:
⚡️ Максим Мозговой, директор и управляющий партнер компании SegmentValue.
Ex-директор по CRM и аналитике Wargaming, GameHouse, Сбербанк, МТС, Промсвязьбанк, Wildberries, Lamoda, IVI.
⚡️ Стас Розен, основатель агентства Dau Relationship Marketing
Ex-Head of Digital&CRM в Pernod Ricard Rouss. Развивал программы лояльности в Philips, работал с ключевыми клиентами в агентствах Actis Wunderman и Progression (GE Money Bank, Microsoft, PepsiCo).
⚡️ Давид Вачадзе, директор агентства интерактивного маркетинга BrandMobile.
Ex-руководитель компаний ThinkWave, BIX (e-business интегратор, CRM решения), более 20 лет опыта создания и развития высокотехнологичных бизнесов.
📌Участие бесплатное, регистрация уже идет в чат-боте.
👍6🤬2🔥1
7 причин не становиться тимлидом
Мне понравился комментарий - "Плюньте в тех, кто проповедует идею, что тимлид — это следующая ступень для роста разработчика, это не так. Это совершенно другая роль, она не лучше и не хуже — просто она другая." - два чая этому господину.
Мне понравился комментарий - "Плюньте в тех, кто проповедует идею, что тимлид — это следующая ступень для роста разработчика, это не так. Это совершенно другая роль, она не лучше и не хуже — просто она другая." - два чая этому господину.
Хабр
7 причин не становиться тимлидом
Как становятся тимлидами? Типичный путь в этот омут — “эволюционный”. Ты успешно выполнил кучу экспидайт-эпик-мамонтов, принёс в своё разработческое племя благодатный огонь метрик и мониторинга,...
👍47😁3🤔2❤1🔥1👏1
Подкаст про данные - Data Radicals. У них был интересный спикер - founder of BusinessObjects, еще до SAP:)
Подкаст называется The Beginning of Business Intelligence, где Bernard Liautaud по-простому нам расскажет, что же такое BI.
Подкаст называется The Beginning of Business Intelligence, где Bernard Liautaud по-простому нам расскажет, что же такое BI.
👍9