Туда же, но только про Generative AI: https://microsoft.github.io/generative-ai-for-beginners/#/
microsoft.github.io
Generative AI for Beginners
Denoscription
На AWS появилась новая сертификация AWS Certified Data Engineer – Associate: https://aws.amazon.com/ru/certification/certified-data-engineer-associate/
Amazon
certified-data-engineer-associate
Category, Associate. Exam duration, 130 minutes. Exam format, 65 questions; either multiple choice or multiple response. Cost, 150 USD.
👍12🔥5💯2
Вторая часть статьи про развёртку Apache Airflow в Kubernetes: https://habr.com/ru/articles/774924/
Хабр
Airflow в Kubernetes. Часть 2
Приветствую! В прошлой части мы развернули основные сервисы Airflow. Однако у нас остались незакрытые моменты. Такие как: Синхронизация списка DAG с удаленным репозиторием Сохранение логов Worker...
🔥13
Tech predictions for 2024 and beyond | All Things Distributed
https://www.allthingsdistributed.com/2023/11/tech-predictions-for-2024-and-beyond.html
https://www.allthingsdistributed.com/2023/11/tech-predictions-for-2024-and-beyond.html
All Things Distributed
Tech predictions for 2024 and beyond
The coming years will be filled with innovation in areas designed to democratize access to technology and help us keep up with the increasing pace of every-day life -- and it starts with Generative AI.
🔥1
Случайно наткнулся на предстоящий вебинар от Яндекс.Облака про их сервис Managed Apache Airflow: https://www.youtube.com/watch?v=gf-c4WkRJ7Q
Возможно вам будет интересно.
Возможно вам будет интересно.
YouTube
Автоматизируем процессы обработки данных с Managed Service for Apache Airflow™
7 декабря в 12:00 на вебинаре поговорили о ключевых возможностях Managed Service for Apache Airflow™, сервиса для управления оркестратором потоков операций по обработке данных.
Архитектор Yandex Cloud Иван Веткасов рассказал, как создать кластер Airflow…
Архитектор Yandex Cloud Иван Веткасов рассказал, как создать кластер Airflow…
👍5
Аналитик инструментов сборки и репозитория
Yandex Cloud
Москва, Санкт-Петербург, Новосибирск
Наша команда занимается развитием экосистемы инструментов монорепозитория Яндекса. Каждую неделю 8 тысяч разработчиков делают более 100 тысяч коммитов в наш монорепозиторий, пользуются нашей системой сборки более 5 млн раз, используют плагины для среды разработки и многое другое.
Наша служба постоянно работает над тем, чтобы делать системы удобнее, надёжнее, быстрее и понятнее. Мы ищем опытного аналитика, который поможет разработать систему метрик для наших продуктов для разработчиков и внедрить A/B-эксперименты, найдёт пути улучшения систем.
Какие задачи вас ждут
- Разрабатывать систему метрик качества и скорости для инструментов сборки, тестирования и репозитория
- Проводить сквозную аналитику наших инструментов
- Анализировать и улучшать продуктовые метрики наших систем
- Разрабатывать метрики разладки — уметь отслеживать, что именно с релизом пошло не так
- Внедрять A/B-тестирование в наши продукты
- Помогать строить хранилища данных репозитория и смежных систем для разработки метрик личной и командной активности и производительности
Мы ждём, что вы
- Работали продуктовым аналитиком не менее трёх лет
- Хорошо знаете Python и SQL
- Работали с BI-системами (DataLens, Tableau или PowerBI), умеете визуализировать данные
- Знаете математическую статистику и теорию вероятностей
- Готовы погружаться в специфику инструментов разработки и тесно общаться с разработчиками
- Умеете извлекать инсайты из данных и предлагать гипотезы по улучшению продукта
- Проводили A/B-эксперименты и анализировали их результаты
- Самостоятельны и не боитесь нестандартных задач
Откликнуться
Контакт в тг @oksidgi
Yandex Cloud
Москва, Санкт-Петербург, Новосибирск
Наша команда занимается развитием экосистемы инструментов монорепозитория Яндекса. Каждую неделю 8 тысяч разработчиков делают более 100 тысяч коммитов в наш монорепозиторий, пользуются нашей системой сборки более 5 млн раз, используют плагины для среды разработки и многое другое.
Наша служба постоянно работает над тем, чтобы делать системы удобнее, надёжнее, быстрее и понятнее. Мы ищем опытного аналитика, который поможет разработать систему метрик для наших продуктов для разработчиков и внедрить A/B-эксперименты, найдёт пути улучшения систем.
Какие задачи вас ждут
- Разрабатывать систему метрик качества и скорости для инструментов сборки, тестирования и репозитория
- Проводить сквозную аналитику наших инструментов
- Анализировать и улучшать продуктовые метрики наших систем
- Разрабатывать метрики разладки — уметь отслеживать, что именно с релизом пошло не так
- Внедрять A/B-тестирование в наши продукты
- Помогать строить хранилища данных репозитория и смежных систем для разработки метрик личной и командной активности и производительности
Мы ждём, что вы
- Работали продуктовым аналитиком не менее трёх лет
- Хорошо знаете Python и SQL
- Работали с BI-системами (DataLens, Tableau или PowerBI), умеете визуализировать данные
- Знаете математическую статистику и теорию вероятностей
- Готовы погружаться в специфику инструментов разработки и тесно общаться с разработчиками
- Умеете извлекать инсайты из данных и предлагать гипотезы по улучшению продукта
- Проводили A/B-эксперименты и анализировали их результаты
- Самостоятельны и не боитесь нестандартных задач
Откликнуться
Контакт в тг @oksidgi
yandex.ru
Вакансия «Аналитик инструментов сборки и репозитория» в Яндексе — работа в компании Яндекс для IT-специалистов
Работа в компании Яндекс для специалиста «Аналитик инструментов сборки и репозитория» с уровнем квалификации от «Специалист» до «Старший» — Высокая заработная плата и социальные гарантии в IT-компании России
👍2
Netflix опубликовал доклады с очередного митапа про дата инжиниринг:
— Media Data for ML Studio Creative Production
— Start Stop Continue for optimizing complex ETL jobs
— Psyberg, An Incremental ETL Framework Using Iceberg
— Knowledge Management - Leveraging Institutional Data
— Building Reliable Data Pipelines
— Streaming SQL on Data Mesh
— Data Processing Patterns
— The Netflix Data Engineering Stack
— Media Data for ML Studio Creative Production
— Start Stop Continue for optimizing complex ETL jobs
— Psyberg, An Incremental ETL Framework Using Iceberg
— Knowledge Management - Leveraging Institutional Data
— Building Reliable Data Pipelines
— Streaming SQL on Data Mesh
— Data Processing Patterns
— The Netflix Data Engineering Stack
YouTube
Netflix Data Engineering Tech Talks - Media Data for ML Studio Creative Production
In the last 2 decades, Netflix has revolutionized the way video content is consumed, however, there is significant work to be done in revolutionizing how movies and tv shows are made. In this video, Sr. Data Engineers Amanual Kahsay and Dao Mi showcase how…
🔥4👍2
Airflow 2.8
Вышла новая версия Apache Airflow — 2.8. В ней, как ни странно, очень много новых плюшек, включая ObjectStore API, улучшенный UI и многое другое. Более подробно можно почитать здесь: https://bit.ly/41uLBQP
Вышла новая версия Apache Airflow — 2.8. В ней, как ни странно, очень много новых плюшек, включая ObjectStore API, улучшенный UI и многое другое. Более подробно можно почитать здесь: https://bit.ly/41uLBQP
www.astronomer.io
Introducing Airflow 2.8
The latest minor Airflow release includes new features and improvements such as the Airflow ObjectStore, Listener hook for Datasets, enhanced logging capabilities, and more.
👍16
Отличная статья про уровни изоляций транзакций на примере популярной базы данных PostgreSQL: https://www.thenile.dev/blog/transaction-isolation-postgres
www.thenile.dev
Transaction Isolation in Postgres, explained
Ever dealt with glitches in a SaaS platform where your actions don't seem to sync up? That's often a transaction isolation issue in databases. Lets talk about transaction isolation and how they work in Postgres, so you can write reliable and performant code…
🔥9👍3
Apache Airflow в Adyen
Люблю статьи про реальные кейсы использования технологий. Давеча встретил статью Apache Airflow at Adyen: Our journey and challenges to achieve reliability at scale. Adyen это известная в узких кругах платёжная система (кажется даже публичная компания). Статья про использование Airflow в высоконагруженной системе, где жизненно необходимо чтобы система была отказоустойчивой, масштабируемой и при это не сильно сложной. Рекомендую для ознакомления.
Люблю статьи про реальные кейсы использования технологий. Давеча встретил статью Apache Airflow at Adyen: Our journey and challenges to achieve reliability at scale. Adyen это известная в узких кругах платёжная система (кажется даже публичная компания). Статья про использование Airflow в высоконагруженной системе, где жизненно необходимо чтобы система была отказоустойчивой, масштабируемой и при это не сильно сложной. Рекомендую для ознакомления.
Medium
Apache Airflow at Adyen: Our journey and challenges to achieve reliability at scale
A blog post by Jorrick Sleijster and Natasha Shroff
👍7🔥3
Неплохой обзор работы структуры данных B-Tree: https://blog.allegro.tech/2023/11/how-does-btree-make-your-queries-fast.html
blog.allegro.tech
How does B-tree make your queries fast?
B-tree is a structure that helps to search through great amounts of data. It was invented over 40 years ago, yet it is still employed by the majority of modern databases. Although there are newer index structures, like LSM trees, B-tree is unbeaten when handling…
Apache Kafka For Python Developers
Бесплатный курс по работе с Apache Kafka через Python: https://developer.confluent.io/courses/kafka-python/intro/
Бесплатный курс по работе с Apache Kafka через Python: https://developer.confluent.io/courses/kafka-python/intro/
Confluent
Introduction to Python for Kafka
In this lecture, you will learn why Python has become such a popular language for developing real time event streaming applications that take advantage of the Apache Kafka platform.
🔥19👍2
Если вы активно пользуетесь (или пользовались) Kinesis Data Firehose, то Amazon объявил, что теперь этот сервис поддерживает zero buffering. Что означает, что им можно пользоваться для загрузки данных почти в режиме real-time streaming (с незначительной задержкой до нескольких секунд на обработку).
Мой опыт работы с Firehose строился с учётом буферизации данных (минимальная задержка 1 минута), что порой было неудобно. С другой же стороны, возможно Firehose не самый подходящий инструмент для построения real-time stream ingestion. Но всё равно полезно, что такая опция появилась.
А как вы строите доставку данных внутри AWS?
Мой опыт работы с Firehose строился с учётом буферизации данных (минимальная задержка 1 минута), что порой было неудобно. С другой же стороны, возможно Firehose не самый подходящий инструмент для построения real-time stream ingestion. Но всё равно полезно, что такая опция появилась.
А как вы строите доставку данных внутри AWS?
Amazon
Amazon Kinesis Data Firehose now supports zero buffering
👍6🔥3
У Haki Benita вышла полезная статья про эффективное чтение Excel файлов в Python 😉 Как ни крути, а дата инженерам часто приходится копаться в csv/excel файлах, поэтому наверняка его заметка может вам пригодиться, если вы оперируете действительно огромными excel файлами.
FYI: Pandas оказался худшим решением.
FYI: Pandas оказался худшим решением.
Hakibenita
Fastest Way to Read Excel in Python
Reading 500K rows in less than 4 seconds
🔥20
Обзор разных подходов для построения распределенного хранилища на базе PostgreSQL: https://www.crunchydata.com/blog/an-overview-of-distributed-postgresql-architectures
Лично у меня был опыт скейлинга PostgreSQL через Read-реплику и шардирование. Но как это обычно бывает, у каждого подхода есть свои плюсы и минусы, а универсального решения не существует.
Лично у меня был опыт скейлинга PostgreSQL через Read-реплику и шардирование. Но как это обычно бывает, у каждого подхода есть свои плюсы и минусы, а универсального решения не существует.
Crunchy Data
An Overview of Distributed PostgreSQL Architectures | Crunchy Data Blog
Marco just joined Crunchy Data and he reflects on his career in distributed systems in this post. He provides an overview of several options for approaching distributed Postgres workloads and the pros and cons of each approach.
🔥6
Релиз Luigi 3.5.0
Вышел новый релиз workflow-менеджера Luigi от Spotify: https://github.com/spotify/luigi/releases/tag/3.5.0
Ничего значительного не появилось (кроме поддержки python3.11). Но радует сам факт, что инструментом пользуются и он не забывается. К слову, я и сам использую его в своих side-проектах.
Вышел новый релиз workflow-менеджера Luigi от Spotify: https://github.com/spotify/luigi/releases/tag/3.5.0
Ничего значительного не появилось (кроме поддержки python3.11). Но радует сам факт, что инструментом пользуются и он не забывается. К слову, я и сам использую его в своих side-проектах.
GitHub
Release 3.5.0 · spotify/luigi
What's Changed
worker: Log which outputs are missing when task is unexpectedly incomplete by @progval in #3258
Update dropbox.py for compatibility with Dropbox SDK v11.X.X by @smrohrer in #325...
worker: Log which outputs are missing when task is unexpectedly incomplete by @progval in #3258
Update dropbox.py for compatibility with Dropbox SDK v11.X.X by @smrohrer in #325...
👍7🔥3
Data Engineering for Beginners
На ютуб-канале freeCodeCamp вышел курс Data Engineering Course for Beginners. Продолжительность курса 3 часа, в нём автор разбирает докер, базу данных PostgreSQL и работу с Airflow для написания несложного ETL-процесса. Для новичков в теме в самый раз! 🚀
На ютуб-канале freeCodeCamp вышел курс Data Engineering Course for Beginners. Продолжительность курса 3 часа, в нём автор разбирает докер, базу данных PostgreSQL и работу с Airflow для написания несложного ETL-процесса. Для новичков в теме в самый раз! 🚀
YouTube
Data Engineering Course for Beginners
Learn the essentials of data engineering in this course for beginners. You'll learn about Databases, Docker, and analytical engineering. You'll explore advanced topics like data pipeline building with Airflow, and engage in batch processing with Spark and…
🔥17👍5
Tim Berglund своего рода легенда в мире распределенных систем, популяризатор этой темы. Я познакомился с его творчеством через классный доклад про распределённые системы на Ютубе около 6 или 7 лет назад: Distributed Systems in One Lesson. Он какое-то время работал в компании Confluent (авторы Apache Kafka), где активно продвигал Кафку в массы. Сейчас же он работает в StarTree, cloud-решение на базе Apache Pinot. Его новый доклад как раз посвящен Apache Pinot, распределенному OLAP хранилищу.
Собственно сам доклад в рамках GOTO Conference: Introduction to Real-Time Analytics with Apache Pinot
И краткое и понятное видео что из себя представляет Apache Pinot от него же: What is Apache Pinot? (and User-Facing Analytics)
Собственно сам доклад в рамках GOTO Conference: Introduction to Real-Time Analytics with Apache Pinot
И краткое и понятное видео что из себя представляет Apache Pinot от него же: What is Apache Pinot? (and User-Facing Analytics)
X (formerly Twitter)
Tim Berglund (@tlberglund) on X
VP DevRel at @Confluent. Father of three, grandfather of four. Believer in Christ. Opinions should be your own.
🔥10👍3
📣One Day Offer для Data Engineer📣
10 февраля 🕤 Sportmaster Lab проводит One Day Offer для Data Engineer.
One Day Offer от SM Lab — это отличная возможность пройти все этапы отбора и получить приглашение на работу всего за один день. SM Lab - аккредитованная ИТ-компания в составе группы компаний «Спортмастер».
Мы находимся в поисках Middle Data Engineer, c хорошим знанием Python и SQL, с опытом работы от 2-х лет. Для нас важно наличие опыта использования экосистемы Hadoop
(HDFS, Hive, Spark) и Apache AirFlow.
📍Немного про задачи:
- Реализация ETL в Hadoop (с помощью Airflow).
- Работа с различными источниками данных: Oracle, MS SQL, API личных кабинетов, микросервисы.
- Батч и стримы с помощью PySpark и Kafka.
- Подготовка витрин для анализа (Hive + Spark + SQL).
🔹 Наш стек: Python, Pyspark, Hive/hdfs, Airflow, ClickHouse, Kafka, Tableau.
🔥Успейте отправить форму до 6 февраля!
Мы свяжемся с вами в течение трех дней и проведем предварительный этап.
10 февраля 🕤 Sportmaster Lab проводит One Day Offer для Data Engineer.
One Day Offer от SM Lab — это отличная возможность пройти все этапы отбора и получить приглашение на работу всего за один день. SM Lab - аккредитованная ИТ-компания в составе группы компаний «Спортмастер».
Мы находимся в поисках Middle Data Engineer, c хорошим знанием Python и SQL, с опытом работы от 2-х лет. Для нас важно наличие опыта использования экосистемы Hadoop
(HDFS, Hive, Spark) и Apache AirFlow.
📍Немного про задачи:
- Реализация ETL в Hadoop (с помощью Airflow).
- Работа с различными источниками данных: Oracle, MS SQL, API личных кабинетов, микросервисы.
- Батч и стримы с помощью PySpark и Kafka.
- Подготовка витрин для анализа (Hive + Spark + SQL).
🔹 Наш стек: Python, Pyspark, Hive/hdfs, Airflow, ClickHouse, Kafka, Tableau.
🔥Успейте отправить форму до 6 февраля!
Мы свяжемся с вами в течение трех дней и проведем предварительный этап.
👍6
Airflow Evolution at Snap
На платформе Medium появилась статья про эволюцию Apache Airflow в компании Snap: Airflow Evolution at Snap
Преимущественно в статье речь идёт о работе с RBAC и масштабированием Airflow.
Также помимо статьи, вы можете посмотреть на Ютубе доклад с прошедшего в 2023 году Airflow Summit: Airflow at Snap: Managing permissions, migrations and internal tools
На платформе Medium появилась статья про эволюцию Apache Airflow в компании Snap: Airflow Evolution at Snap
Преимущественно в статье речь идёт о работе с RBAC и масштабированием Airflow.
Также помимо статьи, вы можете посмотреть на Ютубе доклад с прошедшего в 2023 году Airflow Summit: Airflow at Snap: Managing permissions, migrations and internal tools
Medium
Airflow Evolution at Snap
Yuri Desyatnik, Zhengyi Liu, Han Gan, Nanxi Chen, Jun Gao
👍11
Экскурс в устройство современных OLAP баз данных в рамках ежегодного курса от Carnegie Mellon University — Advanced Database Systems: Modern OLAP Database Systems
YouTube
S2024 #01 - Modern OLAP Database Systems (CMU Advanced Database Systems)
Andy Pavlo (https://www.cs.cmu.edu/~pavlo/)
Slides: https://15721.courses.cs.cmu.edu/spring2024/slides/01-modernolap.pdf
Notes: https://15721.courses.cs.cmu.edu/spring2024/notes/01-modernolap.pdf
15-721 Advanced Database Systems (Spring 2024)
Carnegie Mellon…
Slides: https://15721.courses.cs.cmu.edu/spring2024/slides/01-modernolap.pdf
Notes: https://15721.courses.cs.cmu.edu/spring2024/notes/01-modernolap.pdf
15-721 Advanced Database Systems (Spring 2024)
Carnegie Mellon…
👍10🔥6