DataEng – Telegram
DataEng
4.35K subscribers
40 photos
9 files
537 links
Канал про Data Engineering & Distributed Systems.

Всё, что вы хотели знать про построение инфраструктуры для хранения, обработки и эффективного анализа гигантского объёма данных.

Автор @adilkhash
Download Telegram
Forwarded from How to DWH with Python
Подготовил конспект статьи от Shopify о сетапе Airflow на 10 тысяч DAG'ов со 150 тысячами запусков в день. Сэкономит вам время на прочтении и поможет освежить в памяти в будущем.

#briefly #airflow Airflow: scaling out recommendations by Shopify
https://telegra.ph/Airflow-scaling-out-recommendations-by-Shopify-06-03

What's inside:
— Cloud Storage vs Network File System.
— Metadata retention policy.
— Manifest file.
— Consistent distribution of load.
— Concurrency management.
— Using different execution environments.

Origin: Lessons Learned From Running Apache Airflow at Scale
🔥10👍4
Доклады с Airflow Summit 2022 подъехали: https://bit.ly/3mzyl9T
👍7🔥2🎉1
Хех, тут новый релиз Luigi нарисовался — https://github.com/spotify/luigi/releases/tag/3.1.0
В интернетах народ уже давно похоронил этот замечательный фреймворк, апеллирует народ в основном к тому, что, мол, давно не было обновлений. А обновлять то там особо нечего, он простой и работает без сбоев. У меня, например, Luigi вот уже много лет бэкапит все сайты и складывает на S3.
🔥6
Про таймауты и внешние API

Хорошей практикой при работе с внешними сервисами я считаю явное указание таймаутов ожидания соединения и ответа от хоста. Такой подход поможет избежать проблем с "зависанием" соединения и, как следствие, блокировкой процесса (для блокирующих соединений). На моей памяти было 2 неприятных кейса. В далёком 2015 я использовал requests для работы с сервисом поиска и бронирования ЖД билетов в Казахстане, по-умолчанию в requests нет таймаута и ожидание может превратиться в бесконечность. Всё было хорошо до тех пор пока у внешнего сервиса не начались проблемы, и он перестал отвечать на запросы. Все worker-процессы ушли в бесконечное ожидание, и мой сервис перестал принимать новые соединения, сайт попросту сломался. Тогда мне потребовалось некоторое время, чтобы понять в чем проблема.

Со второй проблемой я столкнулся неделю назад. Сейчас я разрабатываю веб-сервисы для автоматизации рекламных сетей, активно пользуюсь Facebook Ads. Для работы с маркетинговым сервисом Фейсбука существует библиотека facebook-python-business-sdk. Внимание! Под капотом она использует requests 😉 И у неё нет таймаута по умолчанию. Я наткнулся на те же грабли, когда ФБ стал подтормаживать.

К слову, если вы как и я пользуетесь facebook-python-business-sdk, то таймаут можно установить через инициализацию API-класса:

FacebookAdsApi.init(access_token=access_token, api_version='v13.0', timeout=settings.FACEBOOK_ADS_API_TIMEOUT)

Не наступайте на грабли, ставьте таймауты 😉

Также по теме в ленте увидел пост про патчинг requests: https://adamj.eu/tech/2022/06/23/how-to-patch-requests-to-have-a-default-timeout/
👍21
Forwarded from DevBrain
Прошлый пост касался архитектуры Redis, а сейчас предлагаю вам познакомиться с кишками memcached: https://bit.ly/3czb6eQ

Лет 5-6 назад я был активным пользователем memcached, использовал его во всех проектах как основной кэш-бэкенд, но с бурным развитием Redis я переключился на него. Тем не менее, memcached поддерживается (последняя версия вышла 26 августа 2022 года), видео считаю очень полезным (как и канал автора в целом).
👍4👎2
Forwarded from How to DWH with Python
#article #ethereum Exporting the full history of Ethereum into S3
https://medium.com/@tony.bryzgaloff/how-to-dump-full-ethereum-history-to-s3-296fb3ad175 (author: @bryzgaloff)

What's inside:
— BigQuery public datasets with Ethereum data: how to transfer to S3 quickly.
— Alternative approach: exporting data from a public Ethereum node. No need to run your own node!
— Processing uint256 with AWS Athena.
— Processing realtime updates from Ethereum.
Best Data Engineering practices to process Ethereum data.

A short summary inside 👇
👍3
Вышел релиз Airflow 2.4: https://bit.ly/3eUmC57
Много всяких плюшек о которых подготовлю отдельный пост и обновлю контент курса 🎉
👍19🔥8🐳1🍾1
Вы слышали про новый тренд по Data Contracts?
Anonymous Poll
9%
Да
91%
Нет
Forwarded from DevBrain
Релиз Python 3.11

Вчера вышел долгожданный (как минимум мною) релиз Python 3.11
Новая версия быстрее предыдущей на 10-60%, а в среднем на 22%, но помимо буста в производительности релиз содержит ряд крутых фич:

— TaskGroup, можно забыть про asyncio.gather
— ExceptionGroups
— Читабельные traceback с подчеркиваниями

Мне особенно зашла фича с группами исключений, даже накидал небольшой демо-пример.

Когда стоит переводить проект на Python 3.11?
Торопиться не стоит, т.к. далеко не все пакеты в вашем проекте могут иметь работающие колёса (wheel). Прямо сейчас, например, нет колёс для библиотеки psycopg2 для python3.11 под Windows. Я бы рекомендовал подождать пару минорных версий с исправлениями и уже после готовиться к миграции.

Все хорошего кодинга! 🐍
👍8🍾5🕊31👏1🤬1
Data Engineer (senior/lead)

🏢 в классном офисе в Москве;
💳 от 300К руб., белая ЗП или ИП;
🗂 большой датасет, интересные задачи, возможность влиять на продукт.

Ищем Data Engineer в команду PREDICTO. Будем разрабатывать CDP (costumer data platform), для сегментации пользователей на аудитории и многих других интересных задач.
Нет долгих согласований, стремимся к быстрому внедрению в production и итеративной работой над улучшениями.

Что нужно делать:

• Проектировать, разрабатывать и поддерживать пайплайны для сбора и обработки данных;
• Обеспечивать SLA и качество данных;
• Готовить данные для моделей машинного обучения и участвовать в их продукционализации совместно с data science командой.

Что ждем от кандидата:

• Хорошее знание технологий из стека: Python, SQL, Spark, Airflow;
• Опыт работы на проектах с большими данными, понимание принципов распределенной обработки данных;
• Опыт продуктовой разработки в технологических компаниях.

Будет плюсом:

• Опыт работы с облаками, особенно, с Яндекс.Облаком;
• Опыт разработки высоконагруженных бэкенд сервисов на Java, Scala или Python;
• Опыт работы с моделями машинного обучения в продакшене;
• Опыт работы с базами данных для аналитики, особенно, с ClickHouse.

Если Вас заинтересовала вакансия, пожалуйста, дайте обратную связь и резюме в Telegram: @fedosovaAS
🤮5👍4🖕1
Ко мне обратилась IT-компания с просьбой провести анонимный опрос среди подписчиков моего канала. Если у вас есть пара минут, порефлексируйте, пожалуйста, с нами о новой реальности в небольшом опросе. Ваши ответы помогут крупной IT-компании понять, где теперь лучше организовывать профессиональные мероприятия и оказывать помощь и поддержку комьюнити.

Пройти опрос.

Опрос актуален для граждан РФ
🤮14👍4😢2
На ютуб-канале SmartData начали появляться доклады с одноимённой конференции, которая проходила в конце октября: https://bit.ly/3zOHh2h
🔥8👍1
Как использовать легковесные кластеры Apache Spark для гибкого управления ресурсами?

1 декабря мы расскажем о возможностях сервиса Yandex Data Proc, где вы можете развернуть кластеры Apache Spark. Узнайте, как одновременно достичь высокой производительности в пиковые периоды и экономить затраты во время простоя.

Также мы покажем, как организовать хранение данных в S3 и преобразовывать их с помощью SQL-запросов. Поделимся планами и направлениями развития сервиса.

Участие бесплатное.
➡️ Регистрируйтесь на вебинар
👍6👎3
Релиз Apache Airflow 2.5.0 🎉

Вчера вечером вышла новая версия Apache Airflow - 2.5. В последнее время меня удивляет с какой скоростью выходят обновления у этого инструмента.

Полный список новых фич смотрите тут.

Из примечательного на мой взгляд:

— Возможность очистить через UI всю таск группу (TaskGroup) для перезапуска всех операторов внутри.

Декоратор-сенсор (task.sensor). Теперь легко можно превратить функцию в сенсор.

— Поиск по датасетам

Автообновление логов в UI. Отныне можно забыть про F5 в разделе логов 😎
👍13
На главной странице HackerNews нашел ссылку на бесплатный курс по основам Natural Language Processing (NLP) - Natural Language Processing
Demystified
. Эта тема меня давно интересует, но я никак не могу выделить время, чтобы основательно погрузиться туда. Курс состоит из серии видео роликов на YouTube.

Ссылка на тред с обсуждение на HN.
👍4
У ребят из Airbyte вышла интересная подборка самых популярных рассылок по теме данных: http://bit.ly/3FncX1L

Я же подписан на Seattle Data Guy, Benn Stancil и Data Engineering Weekly. От себя добавлю, что вашего внимания также заслуживает SF Data Weekly: http://weekly.sfdata.io/
👍5
На Хабре вышла статья о разных способах развёртывания Apache Superset (Docker, ВМ, Kubernetes). Автор рассказал обо всех плюсах и минусах и поделился подробной инструкцией на примере облака VK Cloud.

Это очень актуально, учитывая вставшую перед компаниями задачу по полному перестраиванию системы бизнес-аналитики. В современных реалиях развитие BI-решений российских вендоров осуществляются максимально быстро и качественно. У них есть лицензионная поддержка, регулярные обновления и возможность влиять на roadmap.

Читать
👍6