Яндекс выложил в опенсорс свой BI тул DataLens: https://github.com/datalens-tech
GitHub
datalens-tech
datalens-tech has 20 repositories available. Follow their code on GitHub.
👍20🔥3👎1
На Ютубе появились доклады с прошедшей конференции Airflow Summit 2023 в Канаде: https://bit.ly/3LGdPkQ
🔥10👍4💯1
PyCon PT 2023
День богат на новые доклады. Сейчас появились видео с прошедшей конфы PyCon Portugal 2023: https://bit.ly/3PYOHY7
День богат на новые доклады. Сейчас появились видео с прошедшей конфы PyCon Portugal 2023: https://bit.ly/3PYOHY7
👍1🔥1
Релиз Python 3.12
Релиз преимущественно связан с повышением производительности, в среднем улучшения около 5%. Из значительных фич это появление отдельного GIL на т.н. субинтерпретаторы. Эта фича пока доступна только в С API, а с версии Python 3.13 будет доступна и в Python API.
Подробнее о релизе: https://pythoninsider.blogspot.com/2023/10/python-3120-final-now-available.html
Релиз преимущественно связан с повышением производительности, в среднем улучшения около 5%. Из значительных фич это появление отдельного GIL на т.н. субинтерпретаторы. Эта фича пока доступна только в С API, а с версии Python 3.13 будет доступна и в Python API.
Подробнее о релизе: https://pythoninsider.blogspot.com/2023/10/python-3120-final-now-available.html
Blogspot
Python Insider: Python 3.12.0 (final) now available
👍4🔥3
Курс по соревновательному Data Science👨💻
🏆 Хочешь покорить Kaggle и научиться выигрывать соревнования по анализу данных? Тогда курс "Введение в соревновательный Data Science" - это именно то, что тебе нужно!
🎯 В отличие от большинства курсов по машинному обучению, этот сконцентрирован на практике. Поэтому на нем будет более 200 практических заданий, интервью с Kaggle Grand Masters и, конечно же, внутренние соревнования для отработки техник.
⚡️В программе курса тебя ждет:
* Продвинутая работа с pandas и numpy
* Генерация, визуализация и фильтрация признаков
* Модуль про SOTA градиентные бустинги и то как их тюнить
и еще 6 других блоков.
🚀 Также, ребята проводят еженедельные открытые вебинары, на которых разбирают решения победителей с чемпионатов и делают обзоры предстоящих соревнование.
🔗 Подписывайся на их телеграмм канал, там они делятся полезным контентом, рассказывают про курс и анонсят новые стримы.
🏆 Хочешь покорить Kaggle и научиться выигрывать соревнования по анализу данных? Тогда курс "Введение в соревновательный Data Science" - это именно то, что тебе нужно!
🎯 В отличие от большинства курсов по машинному обучению, этот сконцентрирован на практике. Поэтому на нем будет более 200 практических заданий, интервью с Kaggle Grand Masters и, конечно же, внутренние соревнования для отработки техник.
⚡️В программе курса тебя ждет:
* Продвинутая работа с pandas и numpy
* Генерация, визуализация и фильтрация признаков
* Модуль про SOTA градиентные бустинги и то как их тюнить
и еще 6 других блоков.
🚀 Также, ребята проводят еженедельные открытые вебинары, на которых разбирают решения победителей с чемпионатов и делают обзоры предстоящих соревнование.
🔗 Подписывайся на их телеграмм канал, там они делятся полезным контентом, рассказывают про курс и анонсят новые стримы.
👍5
Человек на 60% состоит из воды, а Тинькофф на 100% из масштабных ИТ-задач и ежедневных вызовов
Если ты опытный ИТ-спец, этот вызов для тебя. А решение бытовых забот берем на себя: от ультра расширенной медстраховки и юридической поддержки до компенсации питания, спорта и дополнительного обучения.
Выбрать вакансию и стать частью ИТ-команды можно тут:
https://u.tinkoff.ru/itcareer
АО «Тинькофф Банк», ИНН 7710140679
Если ты опытный ИТ-спец, этот вызов для тебя. А решение бытовых забот берем на себя: от ультра расширенной медстраховки и юридической поддержки до компенсации питания, спорта и дополнительного обучения.
Выбрать вакансию и стать частью ИТ-команды можно тут:
https://u.tinkoff.ru/itcareer
АО «Тинькофф Банк», ИНН 7710140679
👍1
Run periodic jobs in PostgreSQL
Недавно открыл для себя интересное расширение для БД PostgreSQL: pg_cron. Балалайка позволяет запускать периодические задачи внутри базы данных: SQL запросы, процедуры и т.д. Удобно, вдруг кому пригодится 💡
Недавно открыл для себя интересное расширение для БД PostgreSQL: pg_cron. Балалайка позволяет запускать периодические задачи внутри базы данных: SQL запросы, процедуры и т.д. Удобно, вдруг кому пригодится 💡
GitHub
GitHub - citusdata/pg_cron: Run periodic jobs in PostgreSQL
Run periodic jobs in PostgreSQL. Contribute to citusdata/pg_cron development by creating an account on GitHub.
👍11
На Хабре вышла статья про Airflow в Kubernetes. Статья мне понравилась, целевая аудитория это новички в кубах, которые хотят развернуть Airflow. Сам я такой деплой не использую, но мне было полезно знать как оно там работает. Напомню, что у Airflow есть официальный helm chart: https://airflow.apache.org/docs/helm-chart/stable/index.html, если вдруг вы решите копнуть эту тему чуть глубже.
Хабр
Airflow в Kubernetes. Часть 1
Приветствую! На пути инженера данных часто встречаются задачи связанные с DevOps. Одна из таких - развернуть Airflow в Kubernetes кластере. Если до этого похожего опыта работы не было, то эта задача...
👍21
Машинное обучение для начинающих
Классный бесплатный курс о машинном обучении от Microsoft: https://bit.ly/3MQmyl1
Классный бесплатный курс о машинном обучении от Microsoft: https://bit.ly/3MQmyl1
microsoft.github.io
Machine Learning for Beginners
Denoscription
👍2🔥2💯1
Туда же, но только про Generative AI: https://microsoft.github.io/generative-ai-for-beginners/#/
microsoft.github.io
Generative AI for Beginners
Denoscription
На AWS появилась новая сертификация AWS Certified Data Engineer – Associate: https://aws.amazon.com/ru/certification/certified-data-engineer-associate/
Amazon
certified-data-engineer-associate
Category, Associate. Exam duration, 130 minutes. Exam format, 65 questions; either multiple choice or multiple response. Cost, 150 USD.
👍12🔥5💯2
Вторая часть статьи про развёртку Apache Airflow в Kubernetes: https://habr.com/ru/articles/774924/
Хабр
Airflow в Kubernetes. Часть 2
Приветствую! В прошлой части мы развернули основные сервисы Airflow. Однако у нас остались незакрытые моменты. Такие как: Синхронизация списка DAG с удаленным репозиторием Сохранение логов Worker...
🔥13
Tech predictions for 2024 and beyond | All Things Distributed
https://www.allthingsdistributed.com/2023/11/tech-predictions-for-2024-and-beyond.html
https://www.allthingsdistributed.com/2023/11/tech-predictions-for-2024-and-beyond.html
All Things Distributed
Tech predictions for 2024 and beyond
The coming years will be filled with innovation in areas designed to democratize access to technology and help us keep up with the increasing pace of every-day life -- and it starts with Generative AI.
🔥1
Случайно наткнулся на предстоящий вебинар от Яндекс.Облака про их сервис Managed Apache Airflow: https://www.youtube.com/watch?v=gf-c4WkRJ7Q
Возможно вам будет интересно.
Возможно вам будет интересно.
YouTube
Автоматизируем процессы обработки данных с Managed Service for Apache Airflow™
7 декабря в 12:00 на вебинаре поговорили о ключевых возможностях Managed Service for Apache Airflow™, сервиса для управления оркестратором потоков операций по обработке данных.
Архитектор Yandex Cloud Иван Веткасов рассказал, как создать кластер Airflow…
Архитектор Yandex Cloud Иван Веткасов рассказал, как создать кластер Airflow…
👍5
Аналитик инструментов сборки и репозитория
Yandex Cloud
Москва, Санкт-Петербург, Новосибирск
Наша команда занимается развитием экосистемы инструментов монорепозитория Яндекса. Каждую неделю 8 тысяч разработчиков делают более 100 тысяч коммитов в наш монорепозиторий, пользуются нашей системой сборки более 5 млн раз, используют плагины для среды разработки и многое другое.
Наша служба постоянно работает над тем, чтобы делать системы удобнее, надёжнее, быстрее и понятнее. Мы ищем опытного аналитика, который поможет разработать систему метрик для наших продуктов для разработчиков и внедрить A/B-эксперименты, найдёт пути улучшения систем.
Какие задачи вас ждут
- Разрабатывать систему метрик качества и скорости для инструментов сборки, тестирования и репозитория
- Проводить сквозную аналитику наших инструментов
- Анализировать и улучшать продуктовые метрики наших систем
- Разрабатывать метрики разладки — уметь отслеживать, что именно с релизом пошло не так
- Внедрять A/B-тестирование в наши продукты
- Помогать строить хранилища данных репозитория и смежных систем для разработки метрик личной и командной активности и производительности
Мы ждём, что вы
- Работали продуктовым аналитиком не менее трёх лет
- Хорошо знаете Python и SQL
- Работали с BI-системами (DataLens, Tableau или PowerBI), умеете визуализировать данные
- Знаете математическую статистику и теорию вероятностей
- Готовы погружаться в специфику инструментов разработки и тесно общаться с разработчиками
- Умеете извлекать инсайты из данных и предлагать гипотезы по улучшению продукта
- Проводили A/B-эксперименты и анализировали их результаты
- Самостоятельны и не боитесь нестандартных задач
Откликнуться
Контакт в тг @oksidgi
Yandex Cloud
Москва, Санкт-Петербург, Новосибирск
Наша команда занимается развитием экосистемы инструментов монорепозитория Яндекса. Каждую неделю 8 тысяч разработчиков делают более 100 тысяч коммитов в наш монорепозиторий, пользуются нашей системой сборки более 5 млн раз, используют плагины для среды разработки и многое другое.
Наша служба постоянно работает над тем, чтобы делать системы удобнее, надёжнее, быстрее и понятнее. Мы ищем опытного аналитика, который поможет разработать систему метрик для наших продуктов для разработчиков и внедрить A/B-эксперименты, найдёт пути улучшения систем.
Какие задачи вас ждут
- Разрабатывать систему метрик качества и скорости для инструментов сборки, тестирования и репозитория
- Проводить сквозную аналитику наших инструментов
- Анализировать и улучшать продуктовые метрики наших систем
- Разрабатывать метрики разладки — уметь отслеживать, что именно с релизом пошло не так
- Внедрять A/B-тестирование в наши продукты
- Помогать строить хранилища данных репозитория и смежных систем для разработки метрик личной и командной активности и производительности
Мы ждём, что вы
- Работали продуктовым аналитиком не менее трёх лет
- Хорошо знаете Python и SQL
- Работали с BI-системами (DataLens, Tableau или PowerBI), умеете визуализировать данные
- Знаете математическую статистику и теорию вероятностей
- Готовы погружаться в специфику инструментов разработки и тесно общаться с разработчиками
- Умеете извлекать инсайты из данных и предлагать гипотезы по улучшению продукта
- Проводили A/B-эксперименты и анализировали их результаты
- Самостоятельны и не боитесь нестандартных задач
Откликнуться
Контакт в тг @oksidgi
yandex.ru
Вакансия «Аналитик инструментов сборки и репозитория» в Яндексе — работа в компании Яндекс для IT-специалистов
Работа в компании Яндекс для специалиста «Аналитик инструментов сборки и репозитория» с уровнем квалификации от «Специалист» до «Старший» — Высокая заработная плата и социальные гарантии в IT-компании России
👍2
Netflix опубликовал доклады с очередного митапа про дата инжиниринг:
— Media Data for ML Studio Creative Production
— Start Stop Continue for optimizing complex ETL jobs
— Psyberg, An Incremental ETL Framework Using Iceberg
— Knowledge Management - Leveraging Institutional Data
— Building Reliable Data Pipelines
— Streaming SQL on Data Mesh
— Data Processing Patterns
— The Netflix Data Engineering Stack
— Media Data for ML Studio Creative Production
— Start Stop Continue for optimizing complex ETL jobs
— Psyberg, An Incremental ETL Framework Using Iceberg
— Knowledge Management - Leveraging Institutional Data
— Building Reliable Data Pipelines
— Streaming SQL on Data Mesh
— Data Processing Patterns
— The Netflix Data Engineering Stack
YouTube
Netflix Data Engineering Tech Talks - Media Data for ML Studio Creative Production
In the last 2 decades, Netflix has revolutionized the way video content is consumed, however, there is significant work to be done in revolutionizing how movies and tv shows are made. In this video, Sr. Data Engineers Amanual Kahsay and Dao Mi showcase how…
🔥4👍2
Airflow 2.8
Вышла новая версия Apache Airflow — 2.8. В ней, как ни странно, очень много новых плюшек, включая ObjectStore API, улучшенный UI и многое другое. Более подробно можно почитать здесь: https://bit.ly/41uLBQP
Вышла новая версия Apache Airflow — 2.8. В ней, как ни странно, очень много новых плюшек, включая ObjectStore API, улучшенный UI и многое другое. Более подробно можно почитать здесь: https://bit.ly/41uLBQP
www.astronomer.io
Introducing Airflow 2.8
The latest minor Airflow release includes new features and improvements such as the Airflow ObjectStore, Listener hook for Datasets, enhanced logging capabilities, and more.
👍16
Отличная статья про уровни изоляций транзакций на примере популярной базы данных PostgreSQL: https://www.thenile.dev/blog/transaction-isolation-postgres
www.thenile.dev
Transaction Isolation in Postgres, explained
Ever dealt with glitches in a SaaS platform where your actions don't seem to sync up? That's often a transaction isolation issue in databases. Lets talk about transaction isolation and how they work in Postgres, so you can write reliable and performant code…
🔥9👍3
Apache Airflow в Adyen
Люблю статьи про реальные кейсы использования технологий. Давеча встретил статью Apache Airflow at Adyen: Our journey and challenges to achieve reliability at scale. Adyen это известная в узких кругах платёжная система (кажется даже публичная компания). Статья про использование Airflow в высоконагруженной системе, где жизненно необходимо чтобы система была отказоустойчивой, масштабируемой и при это не сильно сложной. Рекомендую для ознакомления.
Люблю статьи про реальные кейсы использования технологий. Давеча встретил статью Apache Airflow at Adyen: Our journey and challenges to achieve reliability at scale. Adyen это известная в узких кругах платёжная система (кажется даже публичная компания). Статья про использование Airflow в высоконагруженной системе, где жизненно необходимо чтобы система была отказоустойчивой, масштабируемой и при это не сильно сложной. Рекомендую для ознакомления.
Medium
Apache Airflow at Adyen: Our journey and challenges to achieve reliability at scale
A blog post by Jorrick Sleijster and Natasha Shroff
👍7🔥3
Неплохой обзор работы структуры данных B-Tree: https://blog.allegro.tech/2023/11/how-does-btree-make-your-queries-fast.html
blog.allegro.tech
How does B-tree make your queries fast?
B-tree is a structure that helps to search through great amounts of data. It was invented over 40 years ago, yet it is still employed by the majority of modern databases. Although there are newer index structures, like LSM trees, B-tree is unbeaten when handling…
Apache Kafka For Python Developers
Бесплатный курс по работе с Apache Kafka через Python: https://developer.confluent.io/courses/kafka-python/intro/
Бесплатный курс по работе с Apache Kafka через Python: https://developer.confluent.io/courses/kafka-python/intro/
Confluent
Introduction to Python for Kafka
In this lecture, you will learn why Python has become such a popular language for developing real time event streaming applications that take advantage of the Apache Kafka platform.
🔥19👍2