DataEng – Telegram
DataEng
4.35K subscribers
40 photos
9 files
537 links
Канал про Data Engineering & Distributed Systems.

Всё, что вы хотели знать про построение инфраструктуры для хранения, обработки и эффективного анализа гигантского объёма данных.

Автор @adilkhash
Download Telegram
Ребята из PostHog (сервис продуктовой аналитики) выложили в Open Source интересную балалайку HouseWatch.

Это веб-сервис, разработанный на Django и React для управления и мониторинга ClickHouse-кластером. PostHog активный пользователь ClickHouse, у них в блоге есть даже занятный пост про сравнение Apache Druid и ClickHouse. Если вы активно используете ClickHouse в продакшене, то рекомендую присмотреться и попробовать в деле.
👍9👎2
Видите ли вы целостно все составные части системы, которую разрабатываете?

Если нет — научиться этому поможет курс System Design
от Валерия Бабушкина, Vice President, Data Science в Blockchainꓸcom.

За 4 недели вы поймёте, как дизайнить сервис такси, приложение для знакомств и разные другие виды высоконагруженных систем.

Научитесь собирать требования, оценивать нагрузку, выбирать подходящие СУБД, масштабировать системы и повышать их надёжность и отзывчивость, а также выделять и последовательно проектировать подсистемы для хранения данных, поиска и аналитики как своими силами, так и с помощью готовых продуктов.

А также поймёте, как устроены собеседования в Big Tech, и получите детальный план ответа на собеседовании.

Новый поток стартует уже 17 июля! Ждем вас!
[Зарегистрироваться]
👍1
Podlodka #329 – Data-engineering

Чтобы принимать разумные решения, нужны данные. А чтобы данные были качественные и своевременные – нужны дата-инженеры! Кто они, чем занимаются и при чем тут биг дата – выясняем с Глебом Кантеровым.

🎧 Слушать выпуск
👍7🔥1
В AWS Big Data блоге вышла статья про Dimension Modeling по Кимбалу в Amazon Redshift: https://aws.amazon.com/ru/blogs/big-data/dimensional-modeling-in-amazon-redshift/.
Мне б эту статью в 2019 году, когда я мучился со снежинкой на Redshift, а в итоге забил и денормализовал всё.
👍12
В блоге у Werner Vogels (тех. дир Amazon), я наткнулся на гостевой пост (автор Andrew Warfield) про историю популярного распределенного хранилища Amazon S3: Building and operating a pretty big storage system called S3
👍7
Airflow 2.7.0

Вчера состоялся большой релиз новой версии самого популярного Workflow менеджера в Python: Apache Airflow 2.7.0

Из новых фишечек:

Setup and Teardown tasks
Cluster Activity UI
OpenLineage built-in integration

Улучшения:
— Убрали поддержку Python 3.7
В рамках улучшения безопасности Airflow запретили функцию проверки Connections в UI
— Новый Graph View теперь используется по умолчанию, старую версию удалили
— При обновлении версии рекомендуется накатывать миграции через команду airflow db migrate

Полный список можно посмотреть тут.
👍18
Яндекс выложил в опенсорс свой BI тул DataLens: https://github.com/datalens-tech
👍20🔥3👎1
На Ютубе появились доклады с прошедшей конференции Airflow Summit 2023 в Канаде: https://bit.ly/3LGdPkQ
🔥10👍4💯1
PyCon PT 2023

День богат на новые доклады. Сейчас появились видео с прошедшей конфы PyCon Portugal 2023: https://bit.ly/3PYOHY7
👍1🔥1
Релиз Python 3.12

Релиз преимущественно связан с повышением производительности, в среднем улучшения около 5%. Из значительных фич это появление отдельного GIL на т.н. субинтерпретаторы. Эта фича пока доступна только в С API, а с версии Python 3.13 будет доступна и в Python API.

Подробнее о релизе: https://pythoninsider.blogspot.com/2023/10/python-3120-final-now-available.html
👍4🔥3
Курс по соревновательному Data Science👨‍💻

🏆 Хочешь покорить Kaggle и научиться выигрывать соревнования по анализу данных? Тогда курс "Введение в соревновательный Data Science" - это именно то, что тебе нужно!

🎯 В отличие от большинства курсов по машинному обучению, этот сконцентрирован на практике. Поэтому на нем будет более 200 практических заданий, интервью с Kaggle Grand Masters и, конечно же, внутренние соревнования для отработки техник.

⚡️В программе курса тебя ждет:
* Продвинутая работа с pandas и numpy
* Генерация, визуализация и фильтрация признаков
* Модуль про SOTA градиентные бустинги и то как их тюнить
и еще 6 других блоков.

🚀 Также, ребята проводят еженедельные открытые вебинары, на которых разбирают решения победителей с чемпионатов и делают обзоры предстоящих соревнование.

🔗 Подписывайся на их телеграмм канал, там они делятся полезным контентом, рассказывают про курс и анонсят новые стримы.
👍5
Человек на 60% состоит из воды, а Тинькофф на 100% из масштабных ИТ-задач и ежедневных вызовов

Если ты опытный ИТ-спец, этот вызов для тебя. А решение бытовых забот берем на себя: от ультра расширенной медстраховки и юридической поддержки до компенсации питания, спорта и дополнительного обучения.

Выбрать вакансию и стать частью ИТ-команды можно тут:
https://u.tinkoff.ru/itcareer

АО «Тинькофф Банк», ИНН 7710140679
👍1
Run periodic jobs in PostgreSQL

Недавно открыл для себя интересное расширение для БД PostgreSQL: pg_cron. Балалайка позволяет запускать периодические задачи внутри базы данных: SQL запросы, процедуры и т.д. Удобно, вдруг кому пригодится 💡
👍11
На Хабре вышла статья про Airflow в Kubernetes. Статья мне понравилась, целевая аудитория это новички в кубах, которые хотят развернуть Airflow. Сам я такой деплой не использую, но мне было полезно знать как оно там работает. Напомню, что у Airflow есть официальный helm chart: https://airflow.apache.org/docs/helm-chart/stable/index.html, если вдруг вы решите копнуть эту тему чуть глубже.
👍21
Машинное обучение для начинающих

Классный бесплатный курс о машинном обучении от Microsoft: https://bit.ly/3MQmyl1
👍2🔥2💯1