Forwarded from Podlodka Podcast – анонсы и новости подкаста про IT (Katerina Sbityakova)
Podlodka #329 – Data-engineering
Чтобы принимать разумные решения, нужны данные. А чтобы данные были качественные и своевременные – нужны дата-инженеры! Кто они, чем занимаются и при чем тут биг дата – выясняем с Глебом Кантеровым.
🎧 Слушать выпуск
Чтобы принимать разумные решения, нужны данные. А чтобы данные были качественные и своевременные – нужны дата-инженеры! Кто они, чем занимаются и при чем тут биг дата – выясняем с Глебом Кантеровым.
🎧 Слушать выпуск
👍7🔥1
В AWS Big Data блоге вышла статья про Dimension Modeling по Кимбалу в Amazon Redshift: https://aws.amazon.com/ru/blogs/big-data/dimensional-modeling-in-amazon-redshift/.
Мне б эту статью в 2019 году, когда я мучился со снежинкой на Redshift, а в итоге забил и денормализовал всё.
Мне б эту статью в 2019 году, когда я мучился со снежинкой на Redshift, а в итоге забил и денормализовал всё.
Amazon
Dimensional modeling in Amazon Redshift | Amazon Web Services
Amazon Redshift is a fully managed and petabyte-scale cloud data warehouse that is used by tens of thousands of customers to process exabytes of data every day to power their analytics workload. You can structure your data, measure business processes, and…
👍12
В блоге у Werner Vogels (тех. дир Amazon), я наткнулся на гостевой пост (автор Andrew Warfield) про историю популярного распределенного хранилища Amazon S3: Building and operating a pretty big storage system called S3
All Things Distributed
Werner Vogels on building scalable and robust distributed systems
👍7
Airflow 2.7.0
Вчера состоялся большой релиз новой версии самого популярного Workflow менеджера в Python: Apache Airflow 2.7.0
Из новых фишечек:
— Setup and Teardown tasks
— Cluster Activity UI
— OpenLineage built-in integration
Улучшения:
— Убрали поддержку Python 3.7
— В рамках улучшения безопасности Airflow запретили функцию проверки Connections в UI
— Новый Graph View теперь используется по умолчанию, старую версию удалили
— При обновлении версии рекомендуется накатывать миграции через команду
Полный список можно посмотреть тут.
Вчера состоялся большой релиз новой версии самого популярного Workflow менеджера в Python: Apache Airflow 2.7.0
Из новых фишечек:
— Setup and Teardown tasks
— Cluster Activity UI
— OpenLineage built-in integration
Улучшения:
— Убрали поддержку Python 3.7
— В рамках улучшения безопасности Airflow запретили функцию проверки Connections в UI
— Новый Graph View теперь используется по умолчанию, старую версию удалили
— При обновлении версии рекомендуется накатывать миграции через команду
airflow db migrateПолный список можно посмотреть тут.
Apache Airflow
Apache Airflow 2.7.0 is here
Apache Airflow 2.7.0 has been released!
👍18
Обзор новых фич в новой версии PostgreSQL 16: https://www.youtube.com/watch?v=M7m3A68CTJg
YouTube
PostgreSQL 16: обзор релиза с Павлом Лузановым (Postgres Professional)
В данном выпуске Павел Лузанов, руководитель отдела образовательных программ Postgres Professional, рассказывает о наиболее значимых улучшениях, которые стали доступны в PostgreSQL 16. Таймкоды видео:
02:34 Новая система сборки MESON
03:51 Документация …
02:34 Новая система сборки MESON
03:51 Документация …
👍7
Яндекс выложил в опенсорс свой BI тул DataLens: https://github.com/datalens-tech
GitHub
datalens-tech
datalens-tech has 20 repositories available. Follow their code on GitHub.
👍20🔥3👎1
На Ютубе появились доклады с прошедшей конференции Airflow Summit 2023 в Канаде: https://bit.ly/3LGdPkQ
🔥10👍4💯1
PyCon PT 2023
День богат на новые доклады. Сейчас появились видео с прошедшей конфы PyCon Portugal 2023: https://bit.ly/3PYOHY7
День богат на новые доклады. Сейчас появились видео с прошедшей конфы PyCon Portugal 2023: https://bit.ly/3PYOHY7
👍1🔥1
Релиз Python 3.12
Релиз преимущественно связан с повышением производительности, в среднем улучшения около 5%. Из значительных фич это появление отдельного GIL на т.н. субинтерпретаторы. Эта фича пока доступна только в С API, а с версии Python 3.13 будет доступна и в Python API.
Подробнее о релизе: https://pythoninsider.blogspot.com/2023/10/python-3120-final-now-available.html
Релиз преимущественно связан с повышением производительности, в среднем улучшения около 5%. Из значительных фич это появление отдельного GIL на т.н. субинтерпретаторы. Эта фича пока доступна только в С API, а с версии Python 3.13 будет доступна и в Python API.
Подробнее о релизе: https://pythoninsider.blogspot.com/2023/10/python-3120-final-now-available.html
Blogspot
Python Insider: Python 3.12.0 (final) now available
👍4🔥3
Курс по соревновательному Data Science👨💻
🏆 Хочешь покорить Kaggle и научиться выигрывать соревнования по анализу данных? Тогда курс "Введение в соревновательный Data Science" - это именно то, что тебе нужно!
🎯 В отличие от большинства курсов по машинному обучению, этот сконцентрирован на практике. Поэтому на нем будет более 200 практических заданий, интервью с Kaggle Grand Masters и, конечно же, внутренние соревнования для отработки техник.
⚡️В программе курса тебя ждет:
* Продвинутая работа с pandas и numpy
* Генерация, визуализация и фильтрация признаков
* Модуль про SOTA градиентные бустинги и то как их тюнить
и еще 6 других блоков.
🚀 Также, ребята проводят еженедельные открытые вебинары, на которых разбирают решения победителей с чемпионатов и делают обзоры предстоящих соревнование.
🔗 Подписывайся на их телеграмм канал, там они делятся полезным контентом, рассказывают про курс и анонсят новые стримы.
🏆 Хочешь покорить Kaggle и научиться выигрывать соревнования по анализу данных? Тогда курс "Введение в соревновательный Data Science" - это именно то, что тебе нужно!
🎯 В отличие от большинства курсов по машинному обучению, этот сконцентрирован на практике. Поэтому на нем будет более 200 практических заданий, интервью с Kaggle Grand Masters и, конечно же, внутренние соревнования для отработки техник.
⚡️В программе курса тебя ждет:
* Продвинутая работа с pandas и numpy
* Генерация, визуализация и фильтрация признаков
* Модуль про SOTA градиентные бустинги и то как их тюнить
и еще 6 других блоков.
🚀 Также, ребята проводят еженедельные открытые вебинары, на которых разбирают решения победителей с чемпионатов и делают обзоры предстоящих соревнование.
🔗 Подписывайся на их телеграмм канал, там они делятся полезным контентом, рассказывают про курс и анонсят новые стримы.
👍5
Человек на 60% состоит из воды, а Тинькофф на 100% из масштабных ИТ-задач и ежедневных вызовов
Если ты опытный ИТ-спец, этот вызов для тебя. А решение бытовых забот берем на себя: от ультра расширенной медстраховки и юридической поддержки до компенсации питания, спорта и дополнительного обучения.
Выбрать вакансию и стать частью ИТ-команды можно тут:
https://u.tinkoff.ru/itcareer
АО «Тинькофф Банк», ИНН 7710140679
Если ты опытный ИТ-спец, этот вызов для тебя. А решение бытовых забот берем на себя: от ультра расширенной медстраховки и юридической поддержки до компенсации питания, спорта и дополнительного обучения.
Выбрать вакансию и стать частью ИТ-команды можно тут:
https://u.tinkoff.ru/itcareer
АО «Тинькофф Банк», ИНН 7710140679
👍1
Run periodic jobs in PostgreSQL
Недавно открыл для себя интересное расширение для БД PostgreSQL: pg_cron. Балалайка позволяет запускать периодические задачи внутри базы данных: SQL запросы, процедуры и т.д. Удобно, вдруг кому пригодится 💡
Недавно открыл для себя интересное расширение для БД PostgreSQL: pg_cron. Балалайка позволяет запускать периодические задачи внутри базы данных: SQL запросы, процедуры и т.д. Удобно, вдруг кому пригодится 💡
GitHub
GitHub - citusdata/pg_cron: Run periodic jobs in PostgreSQL
Run periodic jobs in PostgreSQL. Contribute to citusdata/pg_cron development by creating an account on GitHub.
👍11
На Хабре вышла статья про Airflow в Kubernetes. Статья мне понравилась, целевая аудитория это новички в кубах, которые хотят развернуть Airflow. Сам я такой деплой не использую, но мне было полезно знать как оно там работает. Напомню, что у Airflow есть официальный helm chart: https://airflow.apache.org/docs/helm-chart/stable/index.html, если вдруг вы решите копнуть эту тему чуть глубже.
Хабр
Airflow в Kubernetes. Часть 1
Приветствую! На пути инженера данных часто встречаются задачи связанные с DevOps. Одна из таких - развернуть Airflow в Kubernetes кластере. Если до этого похожего опыта работы не было, то эта задача...
👍21
Машинное обучение для начинающих
Классный бесплатный курс о машинном обучении от Microsoft: https://bit.ly/3MQmyl1
Классный бесплатный курс о машинном обучении от Microsoft: https://bit.ly/3MQmyl1
microsoft.github.io
Machine Learning for Beginners
Denoscription
👍2🔥2💯1
Туда же, но только про Generative AI: https://microsoft.github.io/generative-ai-for-beginners/#/
microsoft.github.io
Generative AI for Beginners
Denoscription
На AWS появилась новая сертификация AWS Certified Data Engineer – Associate: https://aws.amazon.com/ru/certification/certified-data-engineer-associate/
Amazon
certified-data-engineer-associate
Category, Associate. Exam duration, 130 minutes. Exam format, 65 questions; either multiple choice or multiple response. Cost, 150 USD.
👍12🔥5💯2
Вторая часть статьи про развёртку Apache Airflow в Kubernetes: https://habr.com/ru/articles/774924/
Хабр
Airflow в Kubernetes. Часть 2
Приветствую! В прошлой части мы развернули основные сервисы Airflow. Однако у нас остались незакрытые моменты. Такие как: Синхронизация списка DAG с удаленным репозиторием Сохранение логов Worker...
🔥13
Tech predictions for 2024 and beyond | All Things Distributed
https://www.allthingsdistributed.com/2023/11/tech-predictions-for-2024-and-beyond.html
https://www.allthingsdistributed.com/2023/11/tech-predictions-for-2024-and-beyond.html
All Things Distributed
Tech predictions for 2024 and beyond
The coming years will be filled with innovation in areas designed to democratize access to technology and help us keep up with the increasing pace of every-day life -- and it starts with Generative AI.
🔥1
Случайно наткнулся на предстоящий вебинар от Яндекс.Облака про их сервис Managed Apache Airflow: https://www.youtube.com/watch?v=gf-c4WkRJ7Q
Возможно вам будет интересно.
Возможно вам будет интересно.
YouTube
Автоматизируем процессы обработки данных с Managed Service for Apache Airflow™
7 декабря в 12:00 на вебинаре поговорили о ключевых возможностях Managed Service for Apache Airflow™, сервиса для управления оркестратором потоков операций по обработке данных.
Архитектор Yandex Cloud Иван Веткасов рассказал, как создать кластер Airflow…
Архитектор Yandex Cloud Иван Веткасов рассказал, как создать кластер Airflow…
👍5
Аналитик инструментов сборки и репозитория
Yandex Cloud
Москва, Санкт-Петербург, Новосибирск
Наша команда занимается развитием экосистемы инструментов монорепозитория Яндекса. Каждую неделю 8 тысяч разработчиков делают более 100 тысяч коммитов в наш монорепозиторий, пользуются нашей системой сборки более 5 млн раз, используют плагины для среды разработки и многое другое.
Наша служба постоянно работает над тем, чтобы делать системы удобнее, надёжнее, быстрее и понятнее. Мы ищем опытного аналитика, который поможет разработать систему метрик для наших продуктов для разработчиков и внедрить A/B-эксперименты, найдёт пути улучшения систем.
Какие задачи вас ждут
- Разрабатывать систему метрик качества и скорости для инструментов сборки, тестирования и репозитория
- Проводить сквозную аналитику наших инструментов
- Анализировать и улучшать продуктовые метрики наших систем
- Разрабатывать метрики разладки — уметь отслеживать, что именно с релизом пошло не так
- Внедрять A/B-тестирование в наши продукты
- Помогать строить хранилища данных репозитория и смежных систем для разработки метрик личной и командной активности и производительности
Мы ждём, что вы
- Работали продуктовым аналитиком не менее трёх лет
- Хорошо знаете Python и SQL
- Работали с BI-системами (DataLens, Tableau или PowerBI), умеете визуализировать данные
- Знаете математическую статистику и теорию вероятностей
- Готовы погружаться в специфику инструментов разработки и тесно общаться с разработчиками
- Умеете извлекать инсайты из данных и предлагать гипотезы по улучшению продукта
- Проводили A/B-эксперименты и анализировали их результаты
- Самостоятельны и не боитесь нестандартных задач
Откликнуться
Контакт в тг @oksidgi
Yandex Cloud
Москва, Санкт-Петербург, Новосибирск
Наша команда занимается развитием экосистемы инструментов монорепозитория Яндекса. Каждую неделю 8 тысяч разработчиков делают более 100 тысяч коммитов в наш монорепозиторий, пользуются нашей системой сборки более 5 млн раз, используют плагины для среды разработки и многое другое.
Наша служба постоянно работает над тем, чтобы делать системы удобнее, надёжнее, быстрее и понятнее. Мы ищем опытного аналитика, который поможет разработать систему метрик для наших продуктов для разработчиков и внедрить A/B-эксперименты, найдёт пути улучшения систем.
Какие задачи вас ждут
- Разрабатывать систему метрик качества и скорости для инструментов сборки, тестирования и репозитория
- Проводить сквозную аналитику наших инструментов
- Анализировать и улучшать продуктовые метрики наших систем
- Разрабатывать метрики разладки — уметь отслеживать, что именно с релизом пошло не так
- Внедрять A/B-тестирование в наши продукты
- Помогать строить хранилища данных репозитория и смежных систем для разработки метрик личной и командной активности и производительности
Мы ждём, что вы
- Работали продуктовым аналитиком не менее трёх лет
- Хорошо знаете Python и SQL
- Работали с BI-системами (DataLens, Tableau или PowerBI), умеете визуализировать данные
- Знаете математическую статистику и теорию вероятностей
- Готовы погружаться в специфику инструментов разработки и тесно общаться с разработчиками
- Умеете извлекать инсайты из данных и предлагать гипотезы по улучшению продукта
- Проводили A/B-эксперименты и анализировали их результаты
- Самостоятельны и не боитесь нестандартных задач
Откликнуться
Контакт в тг @oksidgi
yandex.ru
Вакансия «Аналитик инструментов сборки и репозитория» в Яндексе — работа в компании Яндекс для IT-специалистов
Работа в компании Яндекс для специалиста «Аналитик инструментов сборки и репозитория» с уровнем квалификации от «Специалист» до «Старший» — Высокая заработная плата и социальные гарантии в IT-компании России
👍2
Netflix опубликовал доклады с очередного митапа про дата инжиниринг:
— Media Data for ML Studio Creative Production
— Start Stop Continue for optimizing complex ETL jobs
— Psyberg, An Incremental ETL Framework Using Iceberg
— Knowledge Management - Leveraging Institutional Data
— Building Reliable Data Pipelines
— Streaming SQL on Data Mesh
— Data Processing Patterns
— The Netflix Data Engineering Stack
— Media Data for ML Studio Creative Production
— Start Stop Continue for optimizing complex ETL jobs
— Psyberg, An Incremental ETL Framework Using Iceberg
— Knowledge Management - Leveraging Institutional Data
— Building Reliable Data Pipelines
— Streaming SQL on Data Mesh
— Data Processing Patterns
— The Netflix Data Engineering Stack
YouTube
Netflix Data Engineering Tech Talks - Media Data for ML Studio Creative Production
In the last 2 decades, Netflix has revolutionized the way video content is consumed, however, there is significant work to be done in revolutionizing how movies and tv shows are made. In this video, Sr. Data Engineers Amanual Kahsay and Dao Mi showcase how…
🔥4👍2