Data Engineering / Инженерия данных / Data Engineer / DWH – Telegram
Data Engineering / Инженерия данных / Data Engineer / DWH
2.29K subscribers
50 photos
7 videos
53 files
356 links
Data Engineering: ETL / DWH / Data Pipelines based on Open-Source software. Инженерия данных.

DWH / SQL
Python / ETL / ELT / dbt / Spark
Apache Airflow

Рекламу не размещаю
Вопросы: @iv_shamaev | datatalks.ru
Download Telegram
​​Типичная задача аналитика — посчитать и выгрузить что-то на pySpark. Способов несколько — от маленьких табличек в Excel до объемных датасетов.

Делать все быстро и правильно поможет этот гайд от Александра Ледовского — тимлида команды аналитики и DS, который строит рекламные аукционы в Авито. Он рассказывает, как работать в Apache Spark, в том числе:

как использовать функцию toPandas вместе с библиотекой pyArrow;
как обходить ограничения Arrow;
когда toPandas не стоит использовать и какие еще есть варианты.

Справиться с проблемами гораздо легче, перенимая опыт лучших. Так что переходите по ссылке и пользуйтесь — там все доступно, понятно и четко.
YOUTUBE PLAYLIST:
Clickhouse analytics system from Yandex

Большая подборка ClickHouse

https://www.youtube.com/playlist?list=PLAZrYP5W_atYAh7BRYv4I3cNZmMVEfF1w
Kubeflow vs MLFlow

Kubeflow is an end-to-end MLOps platform for AI at scale. Canonical has its own distribution, Charmed Kubeflow, which addresses the entire machine-learning lifecycle. Charmed Kubeflow is a suite of tools, such as Notebooks for training, Pipeline for automation, Katib for hyperparameter tuning or KServe for model serving and more. Charmed Kubeflow benefits from a wide range of integrations with other tools such as MLFlow, Spark, Grafana or Prometheus.

MLFLow on the other hand celebrated 10 million downloads last year. It’s a very popular solution when it comes to machine learning. Although it started initially with a core function, the tool has nowadays four conceptions that include model registry or experiment tracking.

https://www.youtube.com/watch?v=Eve6WVXURoQ
👍1
В Airflow 2.7.1 DAG стал выглядеть более юзер френдли 👍
👍7
Is ClickHouse Moving Away from Open Source? – Altinity

Интересно про развитие опен соурс решений. Вообще стратегия развития опенсоурс поверх ядра логичная и на мой взгляд очень правильная. Главное, чтоб не в ущерб ядру и не продались бы кому-то, кто все разрушит.

Preset.io также суперсет развивает. Это большие инвестиции в продукт. А так каждый второй сможет свой saas сервис поднять нахаляву)

https://altinity.com/blog/is-clickhouse-moving-away-from-open-source
А вообще это больше похоже на крик: мы построили часть своего бизнеса на вашем опенсорсе, а теперь вы рушите нам все🫣

Справедливости ради, громадная часть коммитов продукта от ClickHouse команды. Поэтому все справедливо. Делают продукт, делают монетизацию.
Приветствую тебя в рядах OpenSource, о великий Datalens https://datalens.tech/

Кажется, что сегодня у Russian BI разработчиков пригорит 😏

🔹 Хабр: BI-инструмент от Яндекса DataLens — теперь в опенсорсе

~~~
Исходный код DataLens состоит из трех основных частей:
🔹 Пользовательский интерфейс — это SPA-приложение с соответствующей частью Node.js. Он предоставляет пользовательский интерфейс, передает запросы пользователей к серверным службам, а также применяет некоторую легкую постобработку данных для диаграмм.
🔹 Бэкэнд — это набор приложений и библиотек Python. Он отвечает за подключение к источникам данных, формирование запросов к ним и постобработку данных (включая вычисления по формулам). Результатом этой работы является абстрактный набор данных, который можно использовать в пользовательском интерфейсе для запроса данных диаграмм.
🔹 UnitedStorage (US) — это служба Node.js, которая использует PostgreSQL для хранения метаданных и конфигурации всех объектов DataLens.
🔥21