https://h2oai.github.io/db-benchmark/
Тут во внутреннем чатике мелькнула статья про бенчмарки в некоторых базах данных. Что там есть: 500 MB, 5 GB и 50 GB объем данных, groupby и join операции. Пример на скриншоте.
This page aims to benchmark various database-like tools popular in open-source data science. It runs regularly against very latest versions of these packages and automatically updates. We provide this as a service to both developers of these packages and to users. You can find out more about the project in Efficiency in data processing slides and talk made by Matt Dowle on H2OWorld 2019 NYC conference.
Тут во внутреннем чатике мелькнула статья про бенчмарки в некоторых базах данных. Что там есть: 500 MB, 5 GB и 50 GB объем данных, groupby и join операции. Пример на скриншоте.
This page aims to benchmark various database-like tools popular in open-source data science. It runs regularly against very latest versions of these packages and automatically updates. We provide this as a service to both developers of these packages and to users. You can find out more about the project in Efficiency in data processing slides and talk made by Matt Dowle on H2OWorld 2019 NYC conference.
#НамДжунаБы
Вакансия: Data Analyst / Data Steward (Junior+ / Middle) в Абсолют Банк.
Чтобы отправить резюме, придется зарегистрироваться в ODS.ai и написать в личку Schtirlitz
Вакансия: Data Analyst / Data Steward (Junior+ / Middle) в Абсолют Банк.
Чтобы отправить резюме, придется зарегистрироваться в ODS.ai и написать в личку Schtirlitz
#НамДжунаБы
Epoch8.co в поисках джуна DE
Для отклика заполните пожалуйста форму:
https://airtable.com/shrhBZuHzKPM1xA2t
Epoch8.co в поисках джуна DE
Для отклика заполните пожалуйста форму:
https://airtable.com/shrhBZuHzKPM1xA2t
https://news.1rj.ru/str/deordie/16
Очередной дайджест (8) DE or DIE
Темы выпуска
- 4 Things You Need to Know When Solving for Data Quality
- Data Lake vs. Data Warehouse
- Migrating to Apache Iceberg at Adobe Experience Platform
- 5 More Reasons to Choose Apache Pulsar Over Apache Kafka
- Create Cloud Architecture with Diagrams for AWS, Azure, and GPC
Очередной дайджест (8) DE or DIE
Темы выпуска
- 4 Things You Need to Know When Solving for Data Quality
- Data Lake vs. Data Warehouse
- Migrating to Apache Iceberg at Adobe Experience Platform
- 5 More Reasons to Choose Apache Pulsar Over Apache Kafka
- Create Cloud Architecture with Diagrams for AWS, Azure, and GPC
Telegram
DE or DIE
Мы опубликовали Digest #8: 4 things and 5 more reasons.
https://digest.deordie.org/08_4_things_and_5_more_reasons/
Желаем всем хорошей пятницы!
https://digest.deordie.org/08_4_things_and_5_more_reasons/
Желаем всем хорошей пятницы!
Не смотря на мою “ангажированность” к Moscow Python сообществу, кроме нас есть и другие сообщества, которые организуют митапы по Python.
Очередной Pytup от Яндекса пройдет 25 августа, регистрироваться можно тут.
Лично меня интересует вот эта тема: “Миллиард мутаций: хранение и поиск О поиске оптимального способа хранения более миллиарда известных мутаций человека из различных открытых источников и о том, какое место занимает Python в цепочке от сдачи пациентом слюны до выдачи результатов с найденными мутациями.”
Очередной Pytup от Яндекса пройдет 25 августа, регистрироваться можно тут.
Лично меня интересует вот эта тема: “Миллиард мутаций: хранение и поиск О поиске оптимального способа хранения более миллиарда известных мутаций человека из различных открытых источников и о том, какое место занимает Python в цепочке от сдачи пациентом слюны до выдачи результатов с найденными мутациями.”
https://blog.jetbrains.com/big-data-tools/2021/08/03/data-engineering-annotated-monthly-july-2021/
Паша Финкельштейн взял на себя тяжелую ношу, каждый месяц писать новости по дата инженерингу в блог JetBrains. И это кроме DE or DIE дайджеста, который я постил выше.
Но это очень хорошая штука, когда все важные события внутри твоей профессиональной области собирают в одно месте. Поэтому милости просим.
#Data_Engineering_Annotated
Паша Финкельштейн взял на себя тяжелую ношу, каждый месяц писать новости по дата инженерингу в блог JetBrains. И это кроме DE or DIE дайджеста, который я постил выше.
Но это очень хорошая штука, когда все важные события внутри твоей профессиональной области собирают в одно месте. Поэтому милости просим.
#Data_Engineering_Annotated
The JetBrains Blog
Data Engineering Annotated Monthly – July 2021 | The Big Data Tools Blog
August is a good time to start new things – some people are on vacation and have more spare time to read than usual, while others are back and looking for a quick refresher on what’s new in data engineering. We’re launching this Annotated series to find interesting…
Прекрасная обзорная статья на современный стек технологий по работе с данными с точки зрения инженерии и тулинга от моих друзей из Datafold
https://www.datafold.com/blog/the-modern-data-stack-open-source-edition
https://www.datafold.com/blog/the-modern-data-stack-open-source-edition
Началось, как я попал на конференцию TechTrain, то JUG от меня не отстает, “опубликуйте это”, “опубликуйте то” 😄
На самом деле, я делаю это все добровольно и никакая это не платная интеграция (мне уже предлагали деньги за рекламу, но этот канал всегда будет без монетизации через рекламу).
26 августа в 18:00 компания IT_One вместе с JUG Ru Group проведет онлайн митап по Big Data и Java.
В программе:
— Максим Стаценко, «Обзор технологий хранения больших данных. Плюсы, минусы, кому подойдет»;
— Вадим Опольский, «Apache Flink vs Свой Java Код. Для приземления данных из Kafka»;
— Круглый стол c Максимом Юнусовым, Вадимом Опольским и Максимом Стаценко, на котором спикеры обсудят системы хранения данных, архитектуры и разные подходы к работе с Big Data.
А еще вас будет ждать дискуссионная зона и розыгрыш подарков среди участников 🎁
Участие бесплатное, нужно только зарегистрироваться.
В общем, если вам интересны эти темы - приходите.
На самом деле, я делаю это все добровольно и никакая это не платная интеграция (мне уже предлагали деньги за рекламу, но этот канал всегда будет без монетизации через рекламу).
26 августа в 18:00 компания IT_One вместе с JUG Ru Group проведет онлайн митап по Big Data и Java.
В программе:
— Максим Стаценко, «Обзор технологий хранения больших данных. Плюсы, минусы, кому подойдет»;
— Вадим Опольский, «Apache Flink vs Свой Java Код. Для приземления данных из Kafka»;
— Круглый стол c Максимом Юнусовым, Вадимом Опольским и Максимом Стаценко, на котором спикеры обсудят системы хранения данных, архитектуры и разные подходы к работе с Big Data.
А еще вас будет ждать дискуссионная зона и розыгрыш подарков среди участников 🎁
Участие бесплатное, нужно только зарегистрироваться.
В общем, если вам интересны эти темы - приходите.
https://habr.com/ru/company/ods/blog/572264/
Ребята из ODS собрали и проанализировали статистику по вакансиям внутри сообщества (а это, на секундочку, крупнейшее сообщество по работе с данными).
Интересные цифры и выводы внутри статьи.
Ребята из ODS собрали и проанализировали статистику по вакансиям внутри сообщества (а это, на секундочку, крупнейшее сообщество по работе с данными).
Интересные цифры и выводы внутри статьи.
Хабр
Анализ вакансий и зарплат в Data Science
Привет, Хабр! Делимся нашим исследованием вакансий и зарплат в сфере data science и data engineering. Спрос на специалистов растет, или рынок уже насытился, какие технологии теряют, а какие набирают...
Если кто-то хотел узнать поподробней про схемы и модели хранения данных, вот будет вебинарчик интересный:
DataVault / Anchor Modeling
(8 сентября 2021 в 20:00 по мск)
Спикер: Николай Голов
🔗Ссылка: https://youtu.be/-ZgzpQXsxi0
DataVault / Anchor Modeling
(8 сентября 2021 в 20:00 по мск)
Спикер: Николай Голов
🔗Ссылка: https://youtu.be/-ZgzpQXsxi0
YouTube
DataVault / Anchor Modeling / Николай Голов
https://blog.jetbrains.com/big-data-tools/2021/09/06/data-engineering-annotated-monthly-august-2021/
Паша вновь постарался и собрал для вас новости в DE за прошедший месяц.
Паша вновь постарался и собрал для вас новости в DE за прошедший месяц.
The JetBrains Blog
Data Engineering Annotated Monthly – August 2021 | The Big Data Tools Blog
August is usually a quiet month, with vacations taking their toll. But data engineering never stops. I’m Pasha Finkelshteyn and I will be your guide through this month’s news, my impressions of the de
Итак, осень началась, а значит начался сезон конференций. Вообще, конференции это прекрасный способ узнать что-то новое, но куда важней - это нетворкинг. Да, да, банальные прописные истины! 😁
Не отпускать вас на конференцию, потому что вас там переманят - это глупость со стороны работодателя и от такого нужно бежать. Я бы сбежал.
Не ходить на конференцию, ибо “я в записи посмотрю” - это упускать возможность узнать из первых уст в кулуарах о состоянии индустрии, и выстроить связи, которые вам помогут в будущем: интересным проектом или вы найдете себе коллегу.
Мерч, стикеры, книги - куда ж без этого =)
Если что, этой осенью меня можно поймать тут:
- 18 сентября, уже завтра, TechTrain https://bit.ly/3Dxabny, я выступаю с докладом впервые) Приходите поддержать!
- 20-21 сентября, Saint HighLoad ++, https://www.highload.ru/spb/2021, тут все просто - это флагманские конференции, такие не стоит пропускать.
- 27-28 сентября, MoscowPython Conf++ https://conf.python.ru/moscow/2021. Эту конференцию я помогал организовывать, курирую один из докладов. Если вы вдруг не купили билет, то есть промокодик SimonOsipov{MPC2021} на 7% скидки
- 11-14 октября, SmartData, https://bit.ly/3ypGykp. Ну как дата инженеру не посетить конференцию для Дата Инженеров? Опять же, если у вас еще нет билета - есть промокодик trubadannykh2021JRGpc
- 25 и 26 ноября, HighLoad++ https://www.highload.ru/moscow/2021. Завершение сезона крупнейшей конференцией.
Не отпускать вас на конференцию, потому что вас там переманят - это глупость со стороны работодателя и от такого нужно бежать. Я бы сбежал.
Не ходить на конференцию, ибо “я в записи посмотрю” - это упускать возможность узнать из первых уст в кулуарах о состоянии индустрии, и выстроить связи, которые вам помогут в будущем: интересным проектом или вы найдете себе коллегу.
Мерч, стикеры, книги - куда ж без этого =)
Если что, этой осенью меня можно поймать тут:
- 18 сентября, уже завтра, TechTrain https://bit.ly/3Dxabny, я выступаю с докладом впервые) Приходите поддержать!
- 20-21 сентября, Saint HighLoad ++, https://www.highload.ru/spb/2021, тут все просто - это флагманские конференции, такие не стоит пропускать.
- 27-28 сентября, MoscowPython Conf++ https://conf.python.ru/moscow/2021. Эту конференцию я помогал организовывать, курирую один из докладов. Если вы вдруг не купили билет, то есть промокодик SimonOsipov{MPC2021} на 7% скидки
- 11-14 октября, SmartData, https://bit.ly/3ypGykp. Ну как дата инженеру не посетить конференцию для Дата Инженеров? Опять же, если у вас еще нет билета - есть промокодик trubadannykh2021JRGpc
- 25 и 26 ноября, HighLoad++ https://www.highload.ru/moscow/2021. Завершение сезона крупнейшей конференцией.
Какое-то время назад я просил ребят в сообществе DE заполнить маленький опрос при подготовке к докладу на TechTrain. Доклад можно посмотреть по ссылке, а вот немножко статистики из опроса (я же обещал!)
Подавляющее большинство инженеров из больших и очень больших компаний, и облаков в России немного, а большинство это on-prem компоненты. Тут все очевидно было. Как и с языком программирования: почти половина пишет на Python, 30% на Scala и всего 9% на Java. Тоже предсказуемо.
А вот неочевидное:
1) Лишь 11% ответивших считают, что самый главный технический навык это ЯП, 36% за SQL и 43% за знание тулинга и фреймворков. Литкоднинужен?😁
2) Лишь 30% сразу начали заниматься DE, все остальные - перекатывались из другой сферы.
3) Топ-5 навыков это вообще боль. За 67 ответов их набежало >35 разнообразных. Аж на слайд все не поместились.
Подавляющее большинство инженеров из больших и очень больших компаний, и облаков в России немного, а большинство это on-prem компоненты. Тут все очевидно было. Как и с языком программирования: почти половина пишет на Python, 30% на Scala и всего 9% на Java. Тоже предсказуемо.
А вот неочевидное:
1) Лишь 11% ответивших считают, что самый главный технический навык это ЯП, 36% за SQL и 43% за знание тулинга и фреймворков. Литкоднинужен?😁
2) Лишь 30% сразу начали заниматься DE, все остальные - перекатывались из другой сферы.
3) Топ-5 навыков это вообще боль. За 67 ответов их набежало >35 разнообразных. Аж на слайд все не поместились.
https://airflow.apache.org/docs/apache-airflow/2.2.0/changelog.html
Тут Airflow 2.2.0 подвезли.
Из заметного:
➡️ Custom Timetables (AIP-39)
➡️ Deferrable Tasks (AIP-40)
➡️ Custom
➡️ Validation of DAG params
➡️ Testing Connections from the UI - test the credentials for your Connection actually work
➡️ Duplication Connections from the UI
➡️ DAGs “Next run” info is shown in the UI, including when the run will actually start
➡️
Тут Airflow 2.2.0 подвезли.
Из заметного:
➡️ Custom Timetables (AIP-39)
➡️ Deferrable Tasks (AIP-40)
➡️ Custom
@task decorators and @task.docker➡️ Validation of DAG params
➡️ Testing Connections from the UI - test the credentials for your Connection actually work
➡️ Duplication Connections from the UI
➡️ DAGs “Next run” info is shown in the UI, including when the run will actually start
➡️
airflow standalone command runs all of the Airflow components directly without docker - great for local development