DataEng – Telegram
DataEng
4.35K subscribers
40 photos
9 files
537 links
Канал про Data Engineering & Distributed Systems.

Всё, что вы хотели знать про построение инфраструктуры для хранения, обработки и эффективного анализа гигантского объёма данных.

Автор @adilkhash
Download Telegram
Podlodka #329 – Data-engineering

Чтобы принимать разумные решения, нужны данные. А чтобы данные были качественные и своевременные – нужны дата-инженеры! Кто они, чем занимаются и при чем тут биг дата – выясняем с Глебом Кантеровым.

🎧 Слушать выпуск
👍7🔥1
В AWS Big Data блоге вышла статья про Dimension Modeling по Кимбалу в Amazon Redshift: https://aws.amazon.com/ru/blogs/big-data/dimensional-modeling-in-amazon-redshift/.
Мне б эту статью в 2019 году, когда я мучился со снежинкой на Redshift, а в итоге забил и денормализовал всё.
👍12
В блоге у Werner Vogels (тех. дир Amazon), я наткнулся на гостевой пост (автор Andrew Warfield) про историю популярного распределенного хранилища Amazon S3: Building and operating a pretty big storage system called S3
👍7
Airflow 2.7.0

Вчера состоялся большой релиз новой версии самого популярного Workflow менеджера в Python: Apache Airflow 2.7.0

Из новых фишечек:

Setup and Teardown tasks
Cluster Activity UI
OpenLineage built-in integration

Улучшения:
— Убрали поддержку Python 3.7
В рамках улучшения безопасности Airflow запретили функцию проверки Connections в UI
— Новый Graph View теперь используется по умолчанию, старую версию удалили
— При обновлении версии рекомендуется накатывать миграции через команду airflow db migrate

Полный список можно посмотреть тут.
👍18
Яндекс выложил в опенсорс свой BI тул DataLens: https://github.com/datalens-tech
👍20🔥3👎1
На Ютубе появились доклады с прошедшей конференции Airflow Summit 2023 в Канаде: https://bit.ly/3LGdPkQ
🔥10👍4💯1
PyCon PT 2023

День богат на новые доклады. Сейчас появились видео с прошедшей конфы PyCon Portugal 2023: https://bit.ly/3PYOHY7
👍1🔥1
Релиз Python 3.12

Релиз преимущественно связан с повышением производительности, в среднем улучшения около 5%. Из значительных фич это появление отдельного GIL на т.н. субинтерпретаторы. Эта фича пока доступна только в С API, а с версии Python 3.13 будет доступна и в Python API.

Подробнее о релизе: https://pythoninsider.blogspot.com/2023/10/python-3120-final-now-available.html
👍4🔥3
Курс по соревновательному Data Science👨‍💻

🏆 Хочешь покорить Kaggle и научиться выигрывать соревнования по анализу данных? Тогда курс "Введение в соревновательный Data Science" - это именно то, что тебе нужно!

🎯 В отличие от большинства курсов по машинному обучению, этот сконцентрирован на практике. Поэтому на нем будет более 200 практических заданий, интервью с Kaggle Grand Masters и, конечно же, внутренние соревнования для отработки техник.

⚡️В программе курса тебя ждет:
* Продвинутая работа с pandas и numpy
* Генерация, визуализация и фильтрация признаков
* Модуль про SOTA градиентные бустинги и то как их тюнить
и еще 6 других блоков.

🚀 Также, ребята проводят еженедельные открытые вебинары, на которых разбирают решения победителей с чемпионатов и делают обзоры предстоящих соревнование.

🔗 Подписывайся на их телеграмм канал, там они делятся полезным контентом, рассказывают про курс и анонсят новые стримы.
👍5
Человек на 60% состоит из воды, а Тинькофф на 100% из масштабных ИТ-задач и ежедневных вызовов

Если ты опытный ИТ-спец, этот вызов для тебя. А решение бытовых забот берем на себя: от ультра расширенной медстраховки и юридической поддержки до компенсации питания, спорта и дополнительного обучения.

Выбрать вакансию и стать частью ИТ-команды можно тут:
https://u.tinkoff.ru/itcareer

АО «Тинькофф Банк», ИНН 7710140679
👍1
Run periodic jobs in PostgreSQL

Недавно открыл для себя интересное расширение для БД PostgreSQL: pg_cron. Балалайка позволяет запускать периодические задачи внутри базы данных: SQL запросы, процедуры и т.д. Удобно, вдруг кому пригодится 💡
👍11
На Хабре вышла статья про Airflow в Kubernetes. Статья мне понравилась, целевая аудитория это новички в кубах, которые хотят развернуть Airflow. Сам я такой деплой не использую, но мне было полезно знать как оно там работает. Напомню, что у Airflow есть официальный helm chart: https://airflow.apache.org/docs/helm-chart/stable/index.html, если вдруг вы решите копнуть эту тему чуть глубже.
👍21
Машинное обучение для начинающих

Классный бесплатный курс о машинном обучении от Microsoft: https://bit.ly/3MQmyl1
👍2🔥2💯1
Аналитик инструментов сборки и репозитория
Yandex Cloud

Москва, Санкт-Петербург, Новосибирск

Наша команда занимается развитием экосистемы инструментов монорепозитория Яндекса. Каждую неделю 8 тысяч разработчиков делают более 100 тысяч коммитов в наш монорепозиторий, пользуются нашей системой сборки более 5 млн раз, используют плагины для среды разработки и многое другое.
Наша служба постоянно работает над тем, чтобы делать системы удобнее, надёжнее, быстрее и понятнее. Мы ищем опытного аналитика, который поможет разработать систему метрик для наших продуктов для разработчиков и внедрить A/B-эксперименты, найдёт пути улучшения систем.

Какие задачи вас ждут
- Разрабатывать систему метрик качества и скорости для инструментов сборки, тестирования и репозитория
- Проводить сквозную аналитику наших инструментов
- Анализировать и улучшать продуктовые метрики наших систем
- Разрабатывать метрики разладки — уметь отслеживать, что именно с релизом пошло не так
- Внедрять A/B-тестирование в наши продукты
- Помогать строить хранилища данных репозитория и смежных систем для разработки метрик личной и командной активности и производительности

Мы ждём, что вы

- Работали продуктовым аналитиком не менее трёх лет
- Хорошо знаете Python и SQL
- Работали с BI-системами (DataLens, Tableau или PowerBI), умеете визуализировать данные
- Знаете математическую статистику и теорию вероятностей
- Готовы погружаться в специфику инструментов разработки и тесно общаться с разработчиками
- Умеете извлекать инсайты из данных и предлагать гипотезы по улучшению продукта
- Проводили A/B-эксперименты и анализировали их результаты
- Самостоятельны и не боитесь нестандартных задач

Откликнуться
Контакт в тг @oksidgi
👍2