Хех, тут новый релиз Luigi нарисовался — https://github.com/spotify/luigi/releases/tag/3.1.0
В интернетах народ уже давно похоронил этот замечательный фреймворк, апеллирует народ в основном к тому, что, мол, давно не было обновлений. А обновлять то там особо нечего, он простой и работает без сбоев. У меня, например, Luigi вот уже много лет бэкапит все сайты и складывает на S3.
В интернетах народ уже давно похоронил этот замечательный фреймворк, апеллирует народ в основном к тому, что, мол, давно не было обновлений. А обновлять то там особо нечего, он простой и работает без сбоев. У меня, например, Luigi вот уже много лет бэкапит все сайты и складывает на S3.
GitHub
Release 3.1.0 · spotify/luigi
3.1.0
Added
luigi
Documentation guidance around release version increments #3074
Add support for naming tasks in @requires #3077
Add traceback_max_length parameter for error email notifications #3...
Added
luigi
Documentation guidance around release version increments #3074
Add support for naming tasks in @requires #3077
Add traceback_max_length parameter for error email notifications #3...
🔥6
Про таймауты и внешние API
Хорошей практикой при работе с внешними сервисами я считаю явное указание таймаутов ожидания соединения и ответа от хоста. Такой подход поможет избежать проблем с "зависанием" соединения и, как следствие, блокировкой процесса (для блокирующих соединений). На моей памяти было 2 неприятных кейса. В далёком 2015 я использовал requests для работы с сервисом поиска и бронирования ЖД билетов в Казахстане, по-умолчанию в requests нет таймаута и ожидание может превратиться в бесконечность. Всё было хорошо до тех пор пока у внешнего сервиса не начались проблемы, и он перестал отвечать на запросы. Все worker-процессы ушли в бесконечное ожидание, и мой сервис перестал принимать новые соединения, сайт попросту сломался. Тогда мне потребовалось некоторое время, чтобы понять в чем проблема.
Со второй проблемой я столкнулся неделю назад. Сейчас я разрабатываю веб-сервисы для автоматизации рекламных сетей, активно пользуюсь Facebook Ads. Для работы с маркетинговым сервисом Фейсбука существует библиотека facebook-python-business-sdk. Внимание! Под капотом она использует requests 😉 И у неё нет таймаута по умолчанию. Я наткнулся на те же грабли, когда ФБ стал подтормаживать.
К слову, если вы как и я пользуетесь facebook-python-business-sdk, то таймаут можно установить через инициализацию API-класса:
FacebookAdsApi.init(access_token=access_token, api_version='v13.0', timeout=settings.FACEBOOK_ADS_API_TIMEOUT)
Не наступайте на грабли, ставьте таймауты 😉
Также по теме в ленте увидел пост про патчинг requests: https://adamj.eu/tech/2022/06/23/how-to-patch-requests-to-have-a-default-timeout/
Хорошей практикой при работе с внешними сервисами я считаю явное указание таймаутов ожидания соединения и ответа от хоста. Такой подход поможет избежать проблем с "зависанием" соединения и, как следствие, блокировкой процесса (для блокирующих соединений). На моей памяти было 2 неприятных кейса. В далёком 2015 я использовал requests для работы с сервисом поиска и бронирования ЖД билетов в Казахстане, по-умолчанию в requests нет таймаута и ожидание может превратиться в бесконечность. Всё было хорошо до тех пор пока у внешнего сервиса не начались проблемы, и он перестал отвечать на запросы. Все worker-процессы ушли в бесконечное ожидание, и мой сервис перестал принимать новые соединения, сайт попросту сломался. Тогда мне потребовалось некоторое время, чтобы понять в чем проблема.
Со второй проблемой я столкнулся неделю назад. Сейчас я разрабатываю веб-сервисы для автоматизации рекламных сетей, активно пользуюсь Facebook Ads. Для работы с маркетинговым сервисом Фейсбука существует библиотека facebook-python-business-sdk. Внимание! Под капотом она использует requests 😉 И у неё нет таймаута по умолчанию. Я наткнулся на те же грабли, когда ФБ стал подтормаживать.
К слову, если вы как и я пользуетесь facebook-python-business-sdk, то таймаут можно установить через инициализацию API-класса:
FacebookAdsApi.init(access_token=access_token, api_version='v13.0', timeout=settings.FACEBOOK_ADS_API_TIMEOUT)
Не наступайте на грабли, ставьте таймауты 😉
Также по теме в ленте увидел пост про патчинг requests: https://adamj.eu/tech/2022/06/23/how-to-patch-requests-to-have-a-default-timeout/
GitHub
GitHub - facebook/facebook-python-business-sdk: Python SDK for Meta Marketing APIs
Python SDK for Meta Marketing APIs. Contribute to facebook/facebook-python-business-sdk development by creating an account on GitHub.
👍21
На канале IT's Tinkoff появились видео с их конференции:
— Как мы строим Metadata Management
— Под капотом каталога данных
— Как с помощью Data Mesh разломать ваше DWH
— Data-docs — как найти данные о данных
Enjoy! ☀️
— Как мы строим Metadata Management
— Под капотом каталога данных
— Как с помощью Data Mesh разломать ваше DWH
— Data-docs — как найти данные о данных
Enjoy! ☀️
YouTube
Как мы строим Metadata Managemen — Юлия Кошелева и Энрика Матвейчук, Тинькофф
Пользователи хранилища регулярно сталкиваются с проблемами поиска нужных данных, внутренней несогласованностью и сложностью восприятия.
Юлия и Энрика рассмотрели подходы к улучшению качества метаданных и поделимся способами повышения уровня их полноты и…
Юлия и Энрика рассмотрели подходы к улучшению качества метаданных и поделимся способами повышения уровня их полноты и…
🔥6💩4
Forwarded from DevBrain
Как работает Redis? Узнать можно тут: https://bit.ly/3pIbA5b
architecturenotes.co
Redis Explained
A deep technical dive into all things Redis. Covering various Redis topologies, data persistence and process forking.
👍13
Forwarded from DevBrain
Прошлый пост касался архитектуры Redis, а сейчас предлагаю вам познакомиться с кишками memcached: https://bit.ly/3czb6eQ
Лет 5-6 назад я был активным пользователем memcached, использовал его во всех проектах как основной кэш-бэкенд, но с бурным развитием Redis я переключился на него. Тем не менее, memcached поддерживается (последняя версия вышла 26 августа 2022 года), видео считаю очень полезным (как и канал автора в целом).
Лет 5-6 назад я был активным пользователем memcached, использовал его во всех проектах как основной кэш-бэкенд, но с бурным развитием Redis я переключился на него. Тем не менее, memcached поддерживается (последняя версия вышла 26 августа 2022 года), видео считаю очень полезным (как и канал автора в целом).
YouTube
Memcached Architecture - Crash Course with Docker, Telnet, NodeJS
Memcached is an in memory cache with one major feature be a transient cache. Memcached has a very simple design. It was originally designed to help with database load by storing the query result in memory to avoid further querying the database. By default…
👍4👎2
Forwarded from How to DWH with Python
#article #ethereum Exporting the full history of Ethereum into S3
https://medium.com/@tony.bryzgaloff/how-to-dump-full-ethereum-history-to-s3-296fb3ad175 (author: @bryzgaloff)
What's inside:
— BigQuery public datasets with Ethereum data: how to transfer to S3 quickly.
— Alternative approach: exporting data from a public Ethereum node. No need to run your own node!
— Processing
— Processing realtime updates from Ethereum.
— Best Data Engineering practices to process Ethereum data.
A short summary inside 👇
https://medium.com/@tony.bryzgaloff/how-to-dump-full-ethereum-history-to-s3-296fb3ad175 (author: @bryzgaloff)
What's inside:
— BigQuery public datasets with Ethereum data: how to transfer to S3 quickly.
— Alternative approach: exporting data from a public Ethereum node. No need to run your own node!
— Processing
uint256 with AWS Athena.— Processing realtime updates from Ethereum.
— Best Data Engineering practices to process Ethereum data.
A short summary inside 👇
Medium
How to dump a full history of Ethereum blockchain to S3
An efficient way to export blockchain data to a cloud storage, by Anton Bryzgalov
👍3
Вышел релиз Airflow 2.4: https://bit.ly/3eUmC57
Много всяких плюшек о которых подготовлю отдельный пост и обновлю контент курса 🎉
Много всяких плюшек о которых подготовлю отдельный пост и обновлю контент курса 🎉
Apache Airflow
Apache Airflow 2.4.0: That Data Aware Release
We're proud to announce that Apache Airflow 2.4.0 has been released with many exciting improvements.
👍19🔥8🐳1🍾1
Forwarded from DevBrain
Релиз Python 3.11
Вчера вышел долгожданный (как минимум мною) релиз Python 3.11
Новая версия быстрее предыдущей на 10-60%, а в среднем на 22%, но помимо буста в производительности релиз содержит ряд крутых фич:
— TaskGroup, можно забыть про asyncio.gather
— ExceptionGroups
— Читабельные traceback с подчеркиваниями
Мне особенно зашла фича с группами исключений, даже накидал небольшой демо-пример.
Когда стоит переводить проект на Python 3.11?
Торопиться не стоит, т.к. далеко не все пакеты в вашем проекте могут иметь работающие колёса (wheel). Прямо сейчас, например, нет колёс для библиотеки psycopg2 для python3.11 под Windows. Я бы рекомендовал подождать пару минорных версий с исправлениями и уже после готовиться к миграции.
Все хорошего кодинга! 🐍
Вчера вышел долгожданный (как минимум мною) релиз Python 3.11
Новая версия быстрее предыдущей на 10-60%, а в среднем на 22%, но помимо буста в производительности релиз содержит ряд крутых фич:
— TaskGroup, можно забыть про asyncio.gather
— ExceptionGroups
— Читабельные traceback с подчеркиваниями
Мне особенно зашла фича с группами исключений, даже накидал небольшой демо-пример.
Когда стоит переводить проект на Python 3.11?
Торопиться не стоит, т.к. далеко не все пакеты в вашем проекте могут иметь работающие колёса (wheel). Прямо сейчас, например, нет колёс для библиотеки psycopg2 для python3.11 под Windows. Я бы рекомендовал подождать пару минорных версий с исправлениями и уже после готовиться к миграции.
Все хорошего кодинга! 🐍
Python.org
Python Release Python 3.11.0
The official home of the Python Programming Language
👍8🍾5🕊3❤1👏1🤬1
Data Engineer (senior/lead)
🏢 в классном офисе в Москве;
💳 от 300К руб., белая ЗП или ИП;
🗂 большой датасет, интересные задачи, возможность влиять на продукт.
Ищем Data Engineer в команду PREDICTO. Будем разрабатывать CDP (costumer data platform), для сегментации пользователей на аудитории и многих других интересных задач.
Нет долгих согласований, стремимся к быстрому внедрению в production и итеративной работой над улучшениями.
Что нужно делать:
• Проектировать, разрабатывать и поддерживать пайплайны для сбора и обработки данных;
• Обеспечивать SLA и качество данных;
• Готовить данные для моделей машинного обучения и участвовать в их продукционализации совместно с data science командой.
Что ждем от кандидата:
• Хорошее знание технологий из стека: Python, SQL, Spark, Airflow;
• Опыт работы на проектах с большими данными, понимание принципов распределенной обработки данных;
• Опыт продуктовой разработки в технологических компаниях.
Будет плюсом:
• Опыт работы с облаками, особенно, с Яндекс.Облаком;
• Опыт разработки высоконагруженных бэкенд сервисов на Java, Scala или Python;
• Опыт работы с моделями машинного обучения в продакшене;
• Опыт работы с базами данных для аналитики, особенно, с ClickHouse.
Если Вас заинтересовала вакансия, пожалуйста, дайте обратную связь и резюме в Telegram: @fedosovaAS
🏢 в классном офисе в Москве;
💳 от 300К руб., белая ЗП или ИП;
🗂 большой датасет, интересные задачи, возможность влиять на продукт.
Ищем Data Engineer в команду PREDICTO. Будем разрабатывать CDP (costumer data platform), для сегментации пользователей на аудитории и многих других интересных задач.
Нет долгих согласований, стремимся к быстрому внедрению в production и итеративной работой над улучшениями.
Что нужно делать:
• Проектировать, разрабатывать и поддерживать пайплайны для сбора и обработки данных;
• Обеспечивать SLA и качество данных;
• Готовить данные для моделей машинного обучения и участвовать в их продукционализации совместно с data science командой.
Что ждем от кандидата:
• Хорошее знание технологий из стека: Python, SQL, Spark, Airflow;
• Опыт работы на проектах с большими данными, понимание принципов распределенной обработки данных;
• Опыт продуктовой разработки в технологических компаниях.
Будет плюсом:
• Опыт работы с облаками, особенно, с Яндекс.Облаком;
• Опыт разработки высоконагруженных бэкенд сервисов на Java, Scala или Python;
• Опыт работы с моделями машинного обучения в продакшене;
• Опыт работы с базами данных для аналитики, особенно, с ClickHouse.
Если Вас заинтересовала вакансия, пожалуйста, дайте обратную связь и резюме в Telegram: @fedosovaAS
🤮5👍4🖕1
Ко мне обратилась IT-компания с просьбой провести анонимный опрос среди подписчиков моего канала. Если у вас есть пара минут, порефлексируйте, пожалуйста, с нами о новой реальности в небольшом опросе. Ваши ответы помогут крупной IT-компании понять, где теперь лучше организовывать профессиональные мероприятия и оказывать помощь и поддержку комьюнити.
Пройти опрос.
Опрос актуален для граждан РФ
Пройти опрос.
Опрос актуален для граждан РФ
🤮14👍4😢2
На ютуб-канале SmartData начали появляться доклады с одноимённой конференции, которая проходила в конце октября: https://bit.ly/3zOHh2h
🔥8👍1
Как использовать легковесные кластеры Apache Spark для гибкого управления ресурсами?
1 декабря мы расскажем о возможностях сервиса Yandex Data Proc, где вы можете развернуть кластеры Apache Spark. Узнайте, как одновременно достичь высокой производительности в пиковые периоды и экономить затраты во время простоя.
Также мы покажем, как организовать хранение данных в S3 и преобразовывать их с помощью SQL-запросов. Поделимся планами и направлениями развития сервиса.
Участие бесплатное.
➡️ Регистрируйтесь на вебинар
1 декабря мы расскажем о возможностях сервиса Yandex Data Proc, где вы можете развернуть кластеры Apache Spark. Узнайте, как одновременно достичь высокой производительности в пиковые периоды и экономить затраты во время простоя.
Также мы покажем, как организовать хранение данных в S3 и преобразовывать их с помощью SQL-запросов. Поделимся планами и направлениями развития сервиса.
Участие бесплатное.
➡️ Регистрируйтесь на вебинар
👍6👎3
В шведском городе Мальмё недавно прошла интересная IT-конференция Øredev 2022. В плейлисте нашел доклады про data engineering:
- The 7 habits of data effective companies
- Five Sins of Data Observability
- Data Mesh: Data Analytics for Engineer
- Democratize your data with Analytics Engineering
- Data engineering in 10 years
Полный список можно глянуть по ссылке.
- The 7 habits of data effective companies
- Five Sins of Data Observability
- Data Mesh: Data Analytics for Engineer
- Democratize your data with Analytics Engineering
- Data engineering in 10 years
Полный список можно глянуть по ссылке.
YouTube
Lars Albertsson – The 7 habits of data effective companies | Øredev 2022
Session denoscription: Are there 10x engineers? Unclear. But there are 1000x companies for sure. If we look at value delivery metrics, we can find spans of 1000x between leaders and companies lagging behind. The DORA research effort showed a 1000x span in availability…
👍9
Релиз Apache Airflow 2.5.0 🎉
Вчера вечером вышла новая версия Apache Airflow - 2.5. В последнее время меня удивляет с какой скоростью выходят обновления у этого инструмента.
Полный список новых фич смотрите тут.
Из примечательного на мой взгляд:
— Возможность очистить через UI всю таск группу (TaskGroup) для перезапуска всех операторов внутри.
— Декоратор-сенсор (task.sensor). Теперь легко можно превратить функцию в сенсор.
— Поиск по датасетам
— Автообновление логов в UI. Отныне можно забыть про F5 в разделе логов 😎
Вчера вечером вышла новая версия Apache Airflow - 2.5. В последнее время меня удивляет с какой скоростью выходят обновления у этого инструмента.
Полный список новых фич смотрите тут.
Из примечательного на мой взгляд:
— Возможность очистить через UI всю таск группу (TaskGroup) для перезапуска всех операторов внутри.
— Декоратор-сенсор (task.sensor). Теперь легко можно превратить функцию в сенсор.
— Поиск по датасетам
— Автообновление логов в UI. Отныне можно забыть про F5 в разделе логов 😎
GitHub
Clear TaskGroup by pierrejeambrun · Pull Request #26658 · apache/airflow
solves: #14529
If you check at the issue thread, you will notice that there is quite a few concerns/inherent complexity to properly achieve TaskGroup clearing. (especially @potiuk who raised fair c...
If you check at the issue thread, you will notice that there is quite a few concerns/inherent complexity to properly achieve TaskGroup clearing. (especially @potiuk who raised fair c...
👍13
На главной странице HackerNews нашел ссылку на бесплатный курс по основам Natural Language Processing (NLP) - Natural Language Processing
Demystified. Эта тема меня давно интересует, но я никак не могу выделить время, чтобы основательно погрузиться туда. Курс состоит из серии видео роликов на YouTube.
Ссылка на тред с обсуждение на HN.
Demystified. Эта тема меня давно интересует, но я никак не могу выделить время, чтобы основательно погрузиться туда. Курс состоит из серии видео роликов на YouTube.
Ссылка на тред с обсуждение на HN.
www.nlpdemystified.org
Natural Language Processing Demystified
A free, accessible course on Natural Language Processing with 15 modules and 9 notebooks of theory and practice, clearly explained.
👍4
У ребят из Airbyte вышла интересная подборка самых популярных рассылок по теме данных: http://bit.ly/3FncX1L
Я же подписан на Seattle Data Guy, Benn Stancil и Data Engineering Weekly. От себя добавлю, что вашего внимания также заслуживает SF Data Weekly: http://weekly.sfdata.io/
Я же подписан на Seattle Data Guy, Benn Stancil и Data Engineering Weekly. От себя добавлю, что вашего внимания также заслуживает SF Data Weekly: http://weekly.sfdata.io/
Airbyte
Best Data Newsletters in 2022: Insights from Survey | Airbyte
Best Data Newsletter of 2022 - Insights from the State of Data Engineering Survey results.
👍5
На Хабре вышла статья о разных способах развёртывания Apache Superset (Docker, ВМ, Kubernetes). Автор рассказал обо всех плюсах и минусах и поделился подробной инструкцией на примере облака VK Cloud.
Это очень актуально, учитывая вставшую перед компаниями задачу по полному перестраиванию системы бизнес-аналитики. В современных реалиях развитие BI-решений российских вендоров осуществляются максимально быстро и качественно. У них есть лицензионная поддержка, регулярные обновления и возможность влиять на roadmap.
Читать
Это очень актуально, учитывая вставшую перед компаниями задачу по полному перестраиванию системы бизнес-аналитики. В современных реалиях развитие BI-решений российских вендоров осуществляются максимально быстро и качественно. У них есть лицензионная поддержка, регулярные обновления и возможность влиять на roadmap.
Читать
👍6
Отличная новость для тех, кто использует Managed Airflow в Amazon Web Services: https://aws.amazon.com/ru/about-aws/whats-new/2023/01/amazon-mwaa-supports-apache-airflow-version-2-4-python-3-10/
Amazon
Amazon MWAA now supports Apache Airflow version 2.4 with Python 3.10 - AWS
Discover more about what's new at AWS with Amazon MWAA now supports Apache Airflow version 2.4 with Python 3.10
👍10
Вышло новое издание знаменитой книги про распределенные системы: Distributed Systems 4th Edition
Электронную версию книги можно бесплатно скачать на сайте по ссылке выше.
3-е бумажное издание этой книги лежит у меня на полке, но, к сожалению, я постоянно откладываю её прочтение (читал отрывками). Надеюсь в 2023 году доберусь до неё 🤞
Электронную версию книги можно бесплатно скачать на сайте по ссылке выше.
3-е бумажное издание этой книги лежит у меня на полке, но, к сожалению, я постоянно откладываю её прочтение (читал отрывками). Надеюсь в 2023 году доберусь до неё 🤞
DISTRIBUTED-SYSTEMS.NET
Distributed Systems 4th edition - DISTRIBUTED-SYSTEMS.NET
You can get a digital (personalized) copy of this book for free. A complete set of slides in PDF and PPTX is also available. This page refers to the 4th Continue Reading →
👍14
Чтобы поиграть с БД ClickHouse отныне её не нужно устанавливать себе, появился официальный ClickHouse Fiddle
Дока про сам проект: https://clickhouse.com/blog/clickhouse-fiddle-sql-playground
Дока про сам проект: https://clickhouse.com/blog/clickhouse-fiddle-sql-playground
ClickHouse
ClickHouse Fiddle — A SQL Playground for ClickHouse
Read about how our community created a new SQL playground for ClickHouse, allowing you to run and test queries on any version!
👍20