Товарищ собрал лучшие книги для Product Management https://centroly.com/anthonytd/top-product-management-books-and-guidebooks-3p2l5zle01
Интересный ресурс, позволяет делать такие вот mindmap из ссылки, можно datalearn так сделать или просто книги и курсы по рекомендациям.
Интересный ресурс, позволяет делать такие вот mindmap из ссылки, можно datalearn так сделать или просто книги и курсы по рекомендациям.
Сегодня меня попросили посмотреть, почему отчет Power BI не подключается к Spark. Когда я его открыл, OH MY GOSH (как говорят канадцы), на меня смотрел пончик график (донат), в котором было больше 30 разноцветных кусочков, и как у ежика торчат сноски во все сторны с обрубленным текстом. И это график занимает 30 процентов дашборда. Сразу вспомнилась эта картинка
Apache Airflow является абсолютным лидером open source ETL, вот несколько свежих статей:
Blue-Green ETLs with Airflow Task Groups
Storyblocks writes about adopting the Blue-Green ETL model with Airflow on its Redshift data warehouse. The load and swap in the mutable pipeline is always a challenge, and it's great to see the Blue-Green deployment pattern adoption.
The Airflow Smart Sensor Service
Airflow poking sensor implementation is a resource-intensive operator that will keep running until the specified condition is satisfied. Airbnb writes about the impact of smart sensors on its Airflow infrastructure. With deduplication, it reduces 40% of the load from the Hive meta store.
How to Run Apache Airflow on Kubernetes at Scale
DoorDash writes an exciting blog narrating its migration of Airflow from a single instance infrastructure to KubernetesPodOperators. The blog states the higher memory availability of the Airflow scheduler after offloading the operator workloads to Kubernetes.
Blue-Green ETLs with Airflow Task Groups
Storyblocks writes about adopting the Blue-Green ETL model with Airflow on its Redshift data warehouse. The load and swap in the mutable pipeline is always a challenge, and it's great to see the Blue-Green deployment pattern adoption.
The Airflow Smart Sensor Service
Airflow poking sensor implementation is a resource-intensive operator that will keep running until the specified condition is satisfied. Airbnb writes about the impact of smart sensors on its Airflow infrastructure. With deduplication, it reduces 40% of the load from the Hive meta store.
How to Run Apache Airflow on Kubernetes at Scale
DoorDash writes an exciting blog narrating its migration of Airflow from a single instance infrastructure to KubernetesPodOperators. The blog states the higher memory availability of the Airflow scheduler after offloading the operator workloads to Kubernetes.
А если вы работаете с Google Bigquery, то вам может быть интересно посмотреть эти 2 статьи.
Give meaning to 100 billion analytics events a day
In this article, we describe how we orchestrate Kafka, Dataflow and BigQuery together to ingest and transform a large stream of events. When adding scale and latency constraints, reconciling and reordering them becomes a challenge, here is how we tackle it.
Managing a BigQuery data warehouse at scale
In this article, we’ll give more details on how we manage our BigQuery data warehouse and especially how we monitor and manage three important topics:
->Slow queries
->Slots usage
->Table and field sizes
Give meaning to 100 billion analytics events a day
In this article, we describe how we orchestrate Kafka, Dataflow and BigQuery together to ingest and transform a large stream of events. When adding scale and latency constraints, reconciling and reordering them becomes a challenge, here is how we tackle it.
Managing a BigQuery data warehouse at scale
In this article, we’ll give more details on how we manage our BigQuery data warehouse and especially how we monitor and manage three important topics:
->Slow queries
->Slots usage
->Table and field sizes
Первый перевод для нашего аналитического сообщества готов! Очень интересная статья, а главное полезная и актуальная - Хранилища признаков: Сторона данных в конвеерах машинного, которая расскажет нам про Feature Store и Featurization по русски.
Про Автора: Эмиль Богомолов, инженер-исследователь в научной группе ADASE в Сколтехе, энтузиаст в сфере анализа данных и компьютерных наук, преподаватель курсов по машинному обучению и автор статей на международных конференциях и на просторах интернета.
Эмиль проделал большую работу для вас, оставьте ему + на хабре!!🙏 Мы же сообщество и должны помогать друг другу быть успешней и умней!
Про Автора: Эмиль Богомолов, инженер-исследователь в научной группе ADASE в Сколтехе, энтузиаст в сфере анализа данных и компьютерных наук, преподаватель курсов по машинному обучению и автор статей на международных конференциях и на просторах интернета.
Эмиль проделал большую работу для вас, оставьте ему + на хабре!!🙏 Мы же сообщество и должны помогать друг другу быть успешней и умней!
Хабр
Хранилища признаков: Сторона данных в конвейерах машинного обучения
В этом посте представлен перевод статьи на Medium от Sarah Wooders , Peter Schafhalter , and Joey Gonzalez . Перевод подготовлен при поддержке сообщества аналитического курса DataLearn и...
Не давно я рассказывал, что мне нужно было проверить программу applied data science и big data, 8 месяцев, 5 дней в неделю, за 15000 баксов. А сегодня я посетил класс. Я просто поделюсь фотографиями😬 я бы там не стал бы 8 месяцев учиться, если бы мне заплатили 15штук. Интересно, а какие помещения у ваших онлайн курсов?
ETL Pipelines with Airflow: the Good, the Bad and the Ugly
In this article, we review how to use Airflow ETL operators to transfer data from Postgres to BigQuery with the ETL and ELT paradigms. Then, we share some challenges you may encounter when attempting to load data incrementally with Airflow DAGs. Finally, we argue why Airflow ETL operators won’t be able to cover the long tail of integrations for your business data.
In this article, we review how to use Airflow ETL operators to transfer data from Postgres to BigQuery with the ETL and ELT paradigms. Then, we share some challenges you may encounter when attempting to load data incrementally with Airflow DAGs. Finally, we argue why Airflow ETL operators won’t be able to cover the long tail of integrations for your business data.
Очень классный пост про было-стало. В данном случае оптимизация костов Snowflake в облаке. Очевидный факт, Snowflake - Data Warehouse as Services (SaaS - Software as a service is a software distribution model in which a cloud provider hosts applications and makes them available to end users over the internet.), облака у нас эластичные (The purpose of Elasticity is to match the resources allocated with actual amount of resources needed at any given point in time.)
Все работает как часы - больше данных, больше мощности, как результат мы получаем отчеты вовремя.
Если раньше при проблемах с производительностью нельзя было просто отмахнуться, так как, чтобы купить железку это надо пол года ждать, то теперь можно даже не париться, есть же - автоматическое масштабирование (Scalability handles the changing needs of an application.)
Но все это не бесплатно🤑 Поэтому инженерам важно отслеживать стоимость и стараться ее оптимизировать.
Все работает как часы - больше данных, больше мощности, как результат мы получаем отчеты вовремя.
Если раньше при проблемах с производительностью нельзя было просто отмахнуться, так как, чтобы купить железку это надо пол года ждать, то теперь можно даже не париться, есть же - автоматическое масштабирование (Scalability handles the changing needs of an application.)
Но все это не бесплатно🤑 Поэтому инженерам важно отслеживать стоимость и стараться ее оптимизировать.
Посмотрел видео про Airbyte, где берут интервью у фаундеров в марте 2021. Они как раз получили инвестиции - 26 млн$. Airbyte - это сейчас open source набор коннекторов для вашего ETL/ELT инструмента. Они сказали несколько интересных вещей:
- они пилят community edition до 2022 года и планирует уже до конца 2021 поддержать 300 коннекторов
- на инвестиционные деньги они развивают community, и оно растет. Например 20% всех коннекторов создано в сообществе
Они рассказали про идею создать унифицированный список коннекторов и озвучили проблемы индустрии, где каждая компания должна самостоятельно создавать коннектор для Google, Facebook, SalesForce и тп, если они не используют коммерческие решения. Их open source и продукт просто замечательны.
Но мне стало любопытно про их стратегию. Ведь бесплатно деньги никто не дает на благотворительность в мире аналитики. Скорей всего они (инвесторы) преследуют уже известный опыт других open source продуктов:
- Spark -> Databricks
- Airflow -> Astronomer
- SuperSet -> Preset
- dbt -> dbt cloud
И таких примеров должно быть много. Но в случае с Airbyte все развивается очень быстро, вот вам деньги, создайте community, потом давайте сделаем коммерческий продукт и заработаем много денег. Как вы думаете, как будет развиваться продукт, и что его ждет в будущем?
- они пилят community edition до 2022 года и планирует уже до конца 2021 поддержать 300 коннекторов
- на инвестиционные деньги они развивают community, и оно растет. Например 20% всех коннекторов создано в сообществе
Они рассказали про идею создать унифицированный список коннекторов и озвучили проблемы индустрии, где каждая компания должна самостоятельно создавать коннектор для Google, Facebook, SalesForce и тп, если они не используют коммерческие решения. Их open source и продукт просто замечательны.
Но мне стало любопытно про их стратегию. Ведь бесплатно деньги никто не дает на благотворительность в мире аналитики. Скорей всего они (инвесторы) преследуют уже известный опыт других open source продуктов:
- Spark -> Databricks
- Airflow -> Astronomer
- SuperSet -> Preset
- dbt -> dbt cloud
И таких примеров должно быть много. Но в случае с Airbyte все развивается очень быстро, вот вам деньги, создайте community, потом давайте сделаем коммерческий продукт и заработаем много денег. Как вы думаете, как будет развиваться продукт, и что его ждет в будущем?
YouTube
Open Source Airbyte Can Disrupt Fivetran & Stitch Data
Airbyte (https://airbyte.io/) is a promising, cloud based open-source data integration alternative to sync data from any applications, APIs, and databases to data warehouses, data lakes, and other destinations. Airbyte was co-founded by Michel Tricot (former…
Умение анализировать данные полезно всем
Мы каждый день сталкиваемся с большим количеством данных и важно уметь делать правильные выводы на их основе. Для этого не обязательно разбираться с языками программирования. Для задач, не посильных Excel существуют специализированные решения — платформы продвинутой аналитики.
Loginom — low-code платформа позволяющая решать задачи интеграции, очистки, подготовки данных, моделирования, визуализации без программирования. Loginom позволяет бизнес-пользователям самостоятельно решать большинство востребованных задач: автоматизация принятия решений, кредитный скоринг, противодействие мошенничеству, прогнозирование спроса, прогнозирование оттока клиентов, очистка и дедупликация данных, кросс-продажи, сегментация клиентов...
Практические кейсы применения аналитики данных в бизнесе можно будет увидеть на ежегодной конференции по продвинутой аналитике Loginom Days, которая пройдет с 19 по 21 октября в онлайн-формате.
Представители бизнеса поделятся реальными кейсами трансформации бизнеса:
* Process Mining — глубинный анализ и оптимизация бизнес-процессов
* Системы поддержки принятия решений в процессы кредитования
* Снижение оттока клиентов и увеличение LTV с помощью Machine Learning
* Цифровой советчик дуговой плавильной печи — предсказание поломок и выдача рекомендаций
Участие бесплатное, регистрация по ссылке https://day.loginom.ru/
PS Пост поддержал приют для собак Зоорассвет в Москве.
Мы каждый день сталкиваемся с большим количеством данных и важно уметь делать правильные выводы на их основе. Для этого не обязательно разбираться с языками программирования. Для задач, не посильных Excel существуют специализированные решения — платформы продвинутой аналитики.
Loginom — low-code платформа позволяющая решать задачи интеграции, очистки, подготовки данных, моделирования, визуализации без программирования. Loginom позволяет бизнес-пользователям самостоятельно решать большинство востребованных задач: автоматизация принятия решений, кредитный скоринг, противодействие мошенничеству, прогнозирование спроса, прогнозирование оттока клиентов, очистка и дедупликация данных, кросс-продажи, сегментация клиентов...
Практические кейсы применения аналитики данных в бизнесе можно будет увидеть на ежегодной конференции по продвинутой аналитике Loginom Days, которая пройдет с 19 по 21 октября в онлайн-формате.
Представители бизнеса поделятся реальными кейсами трансформации бизнеса:
* Process Mining — глубинный анализ и оптимизация бизнес-процессов
* Системы поддержки принятия решений в процессы кредитования
* Снижение оттока клиентов и увеличение LTV с помощью Machine Learning
* Цифровой советчик дуговой плавильной печи — предсказание поломок и выдача рекомендаций
Участие бесплатное, регистрация по ссылке https://day.loginom.ru/
PS Пост поддержал приют для собак Зоорассвет в Москве.
day.loginom.ru
Loginom Day 2025
Специалисты крупных российских компаний расскажут о реальном опыте использования продвинутой аналитики в своих проектах и продемонстрируют актуальные бизнес-кейсы
У нас ещё один замечательный и полезный перевод статьи - Будущее BI за открытым ПО, та самая которую написал создатель Airflow и Superset.
Про автора: Влад Кощеев работает в Газпром BI-разработчиком, полгода назад окончил бизнес-информатику в СПбГУ и поступил в магистратуру ИТМО на мобильные и облачные технологии.
Поддержите лайком статью!
Про автора: Влад Кощеев работает в Газпром BI-разработчиком, полгода назад окончил бизнес-информатику в СПбГУ и поступил в магистратуру ИТМО на мобильные и облачные технологии.
Поддержите лайком статью!
Хабр
Будущее BI за открытым ПО
В этом посте представлен перевод статьи на Medium от Maxime Beauchemin . Перевод подготовлен при поддержке сообщества аналитического курса DataLearn и телеграм-канала ...
Прикольный пост про карьеру Бизнес Аналитика. Обычно все про технические роли и прикладные задачки, а тут вот про то как стать БА - So You Want To Be A… Business Analyst https://medium.com/ft-product-technology/so-you-want-to-be-a-business-analyst-fc28596411f5
Я недавно шарил пост про канал - Кибер Самурай или, что-то типа того, мы договорились сделать посты по обмену. Это оказался какой-то скам🙅♂️, по ощущуниям как гопники развели на телефон у метро🤣
Новости из мира Spark:
1) Databricks в Spark 3.2 анонсировал Pandas API. Раньше для этого мы использовали Koalas, а теперь можно from pyspark.pandas import read_csv
2) PayPal рассказал о новой библиотеке - Dione - an indexing Library for data on HDFS and Spark.
1) Databricks в Spark 3.2 анонсировал Pandas API. Раньше для этого мы использовали Koalas, а теперь можно from pyspark.pandas import read_csv
2) PayPal рассказал о новой библиотеке - Dione - an indexing Library for data on HDFS and Spark.
Если вы используете Juputer Notebooks, то вам будет интересно почитать про движки рендеринга для ваших ноутбуков - nbconvert и Voilà
https://blog.jupyter.org/looking-at-notebooks-from-a-new-perspective-bfd06797f188
https://blog.jupyter.org/looking-at-notebooks-from-a-new-perspective-bfd06797f188