DE – Telegram
520 subscribers
312 photos
81 videos
15 files
405 links
Data Engineering Technologies.
SQL, Python, Kafka, Spark, Pandas, Airflow, Clickhouse, Greenplum, Postgres, dbt, LLM agentic systems, AI, robots, drones etc.

Boost channel - https://news.1rj.ru/str/boost/data_engi
Download Telegram
0⃣-й пост из цикла.

Прелюдия

🔘Ты ежедневно обрабатываешь несколько ГБ данных, но тратишь часы на настройку/отладку масштабных систем обработки данных? Кто бы ни создавал инфраструктуру данных, он скорее всего скопировал её из какого-то блога/выступления крупной технологической компании!

🔘Представь, что внезапно ответственность за управление расходами команд обработки данных легла на твои плечи. Тебе приходится тщательно проверять все расходы на систему, какими бы незначительными они ни были, чтобы сэкономить немного денег для компании.

🔘Может быть неприятно, когда поставщики данных взимают с компании кучу денег и с радостью возьмут ещё больше, если ты не будешь осторожен с использованием доставшегося тебе легаси.

🔘Представь себе, если бы затраты на обработку данных были очень дешёвыми! Представь себе, что ты можешь быстро воспроизводить и отлаживать проблемы на своем ноутбуке!

🔘В цикле постов расскажу, как использовать последние достижения в области систем обработки данных и дешёвое оборудование для обеспечения дешёвой обработки данных. Буду использовать DuckDB и Python, чтобы показать, как быстро и дёшево обрабатывать данные, одновременно улучшая эргономику разработчиков.

#duckdb #python #etl #de #elt
Please open Telegram to view this post
VIEW IN TELEGRAM
55
😁71
1️⃣-й пост из цикла

Начало

Если ты активно работаешь с данными, ты, вероятно, сталкивался с такими системами, как Snowflake, Databricks, Kafka и т.д., о которых было написано много статей о том, как они произвели революцию в обработке данных.

Однако, несмотря на всю эту шумиху, многие компании поняли, что всё это быстро становится дорогостоящим. Мониторинг и отработка отказов обходятся дорого, особенно в таких системах, как Kafka, Apache Spark и Snowflake, в которых много узлов.

Если тебе интересно:

🔜 Как будущее уходит от распределенных вычислений?

🔜 Почему компании тратят умопомрачительные суммы денег на эти бесполезные ресурсы?

🔜 Почему небольшие компании имитируют то, что делают крупные компании, не будучи при этом крупными компаниями?

🔜 Зачем нужно просматривать данные в инфракрасном диапазоне с помощью микроскопа, да ещё и переплачивать за все эти популярные инструменты?

🔜 Как избежать выплаты 1000 долларов за случайное сканирование данных.

🔜 Как избегать поставщиков данных, которые почти всегда возлагают ответственность за то, чтобы пользователи использовали их инструменты “правильным образом”?

Если да, то этот цикл постов для тебя. Представь, если бы твои затраты на обработку данных были настолько низкими, что тебе даже не пришлось бы их отслеживать!

Обсудим подход, который использует последние достижения в области обработки данных в оперативной памяти в сочетании с дешёвым и мощным железом для значительного снижения затрат на обработку данных!


#duckdb #python #etl #de #elt #kafka #spark #databricks #snowflake
Please open Telegram to view this post
VIEW IN TELEGRAM
12
😁8
😁12
#код
Довольно известный ресурс про эффективное программирование на питоне (по памяти и по скорости) - но в этом канале я ещё на него ни разу не ссылался. Есть отдельная подборка статей по DS: numpy, pandas, polars и т.п.

https://pythonspeed.com/
6
😁8
🔥 Для чтения платных статей на medium.com без подписки можно использовать freedium.cfd
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥13👏4
Не могу не поделиться один классным фреймворком - FastStream. Он существенно упрощает реализацию консьюмеров и продюсеров для RabbitMQ, Kafka и т.п. И за счёт этого позволяет сконцентрироваться на бизнес-логике. В комплекте идёт удобный DI (dishka), валидация через pydantic, генерация AsyncAPI, подключение по OpenTelemetry, метрики, мидлвари и куча клиентов. Настоятельно рекомендую!

И нет, FastStream решает более общую задачу, нежели Celery; так что сравнивать их некорректно.

https://habr.com/ru/articles/822505/ #python
❤‍🔥3👏3😁1
😁932
😁11
📌Познавательная статья про фича-флаги.

Оказывается есть стандарт OpenFeature с которым фича-флаги выглядят ещё более удобными и привлекательными при разработке.

openfeature.dev
OpenFeature GitHub
Please open Telegram to view this post
VIEW IN TELEGRAM
👏5
DE
📌Познавательная статья про фича-флаги. Оказывается есть стандарт OpenFeature с которым фича-флаги выглядят ещё более удобными и привлекательными при разработке. openfeature.dev OpenFeature GitHub
Feature flags (или флаги функций) важный инструмент в современном программировании. Они позволяют тебе включать и выключать определённые функции в коде без необходимости вносить изменения в основной код базы. Это особенно полезно при разработке и тестировании новых функций.

✔️ Преимущества использования feature flags

1️⃣ Контроль над функциями:
Можно безопасно тестировать новые функции на ограниченной группе пользователей.

2️⃣ Ускорение разработки:
Новые функции могут быть внедрены быстрее, так как их можно включать или выключать без релиза новой версии приложения.

3️⃣ Уменьшение риска:
Если новая функция вызывает проблемы, её можно быстро отключить, минимизируя влияние на пользователей.

4️⃣ Персонализация:
Различные пользователи могут видеть разные наборы функций в зависимости от своих предпочтений, групп или политик безопасности.

Влияние feature flags на кодовые базы

1️⃣ Усложнение кода:
При неправильном использовании количество условий в коде (многообразие if-elif, которые ты так любишь 🙃) может увеличиться, что сделает его сложнее для чтения и сопровождения.

2️⃣ Тестирование:
Необходимо тестировать каждую комбинацию включённых и выключенных флагов, что может увеличить объём работы тестировщиков.

3️⃣ Технический долг:
Если feature flags не удаляются после стабилизации функции, они могут накопить технический долг, усложняя кодовую базу.

📎 Заключение

Feature flags являются мощным инструментом при правильном использовании, помогая управлять развитием продукта и уменьшать риски. Однако важно следить за их количеством и своевременно удалять неиспользуемые флаги, чтобы поддерживать кодовую базу в чистоте.

#dev #featureflags #if
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥7
😁8
Python Web app framework from the creators of FastAI
Looks dope

https://fastht.ml/
7😁1
Gleam. Убийца Rust/Elixir? Опять?

В узких кругах любителей функционального программирования этот язык обсуждали уже давно и далеко не один раз. Но вот несколько месяцев назад случился релиз 1.0.0 версии и покатилась маленькая, но гордая волна хайпа. С момента релиза уже успела выйти версия 1.3.0 и некоторое количество видосов о языке (раз, два) 😎

Вы спросите: ну и че это за очередной бесполезный язык?
Отвечаю: по сути на erlang решили натянуть статическую типизацию и сверху посыпать сахаром из Rust, Elm, OCaml. И оно вроде как даже получилось. И похоже даже работает😑

Из интересного:
🔣 Компилятор написан на Rust
🔣Язык поддерживает два рантайма: erlang vm и javanoscript (NodeJS, Deno, Bun)
🔣 Код на gleam можно встроить в код на elixir и получить бенефиты от обоих миров. Уже есть обвязки для этого (тык)
🔣 Из коробки есть набор джентельмена: компилятор, пакетный менеджер, форматер, LSP
🔣 В документации есть подсказки-сравнения с другими языками, чтобы было проще вкатиться (например для python, elixir, rust)
🔣 Программистов на gleam называют Gleamlins (глимлины?)
🔣 Есть hot reload от erlang, но с оговорками
🔣 В языке нет неявных исключений и нет типа Infinity, поэтому деление на ноль вернет ноль
🔣 Авторы говорят, что можно тащить в прод

Что думаете? Очередной убийца c++/rust/elixir/whatevername, про которого все забудут? Или все же он найдет свою смузи нишу?🤓
Please open Telegram to view this post
VIEW IN TELEGRAM
😁5