Ребята из #CloudMTS предлагают облачные сервисы для быстрого запуска новых ИТ-продуктов. Актуально для разработчиков, кто хочет выйти на рынок раньше остальных. Сервисами можно пользоваться бесплатно 30 дней!
Реализуйте ваши проекты на готовой облачной IT инфраструктуре:
✔️ Получите всё, что нужно для разработки цифрового продукта: IaaS, облачный суперкомпьютер на GPU, резервное копирование, хранилище S3, CDN, WAF, сервисы Azure и многое другое.
✔️ Используйте любое количество сервисов одновременно.
✔️ Никаких ограничений по функционалу и скрытых платежей.
Выведите свой продукт на рынок в рекордные сроки с #CloudMTS!
Узнать подробности можно по ссылке: https://bit.ly/2VhG1U2
Реализуйте ваши проекты на готовой облачной IT инфраструктуре:
✔️ Получите всё, что нужно для разработки цифрового продукта: IaaS, облачный суперкомпьютер на GPU, резервное копирование, хранилище S3, CDN, WAF, сервисы Azure и многое другое.
✔️ Используйте любое количество сервисов одновременно.
✔️ Никаких ограничений по функционалу и скрытых платежей.
Выведите свой продукт на рынок в рекордные сроки с #CloudMTS!
Узнать подробности можно по ссылке: https://bit.ly/2VhG1U2
Маленькая балалайка для анализа метаданных в базе данных PostgreSQL: https://github.com/marklit/datafluent_pg
Написана на питоне, удобно запускать из консоли. В результате формирует отчёт в Excel 🤖
Пост в блоге автора: https://tech.marksblogg.com/data-fluent-for-postgresql.html
Написана на питоне, удобно запускать из консоли. В результате формирует отчёт в Excel 🤖
Пост в блоге автора: https://tech.marksblogg.com/data-fluent-for-postgresql.html
GitHub
GitHub - marklit/datafluent_pg: Build a better understanding of your data in PostgreSQL.
Build a better understanding of your data in PostgreSQL. - GitHub - marklit/datafluent_pg: Build a better understanding of your data in PostgreSQL.
Обзор Open Source решений из мира данных: https://www.datafold.com/blog/the-modern-data-stack-open-source-edition
Datafold
The modern data stack: Open-source edition
If you're looking to build the ideal modern data stack for analytics using only open-source tools, we cover the top alternatives to your favorite paid solutions.
👍1
Хотите пилить расширения для PostgreSQL на Rust? Оно у нас есть: https://tech.marksblogg.com/postgresql-extension-rust.html
Marksblogg
Building PostgreSQL Extensions with Rust
Benchmarks & Tips for Big Data, Hadoop, AWS, Google Cloud, PostgreSQL, Spark, Python & More...
Forwarded from Pasha Finkelshteyn
Выпустил августовский выпуск https://blog.jetbrains.com/big-data-tools/2021/09/06/data-engineering-annotated-monthly-august-2021/
The JetBrains Blog
Data Engineering Annotated Monthly – August 2021 | The Big Data Tools Blog
August is usually a quiet month, with vacations taking their toll. But data engineering never stops. I’m Pasha Finkelshteyn and I will be your guide through this month’s news, my impressions of the de
Forwarded from DE or DIE
Друзья, мы опубликовали видео с прошедшего митапа DE or DIE #8. Все доступно по ссылке: https://deordie.org/meetups/08/
Также, на https://deordie.org/ вы можете найти материалы с наших прошлых митапов, и ссылки на другие проекты: дайджест статей и подкаст.
Также, на https://deordie.org/ вы можете найти материалы с наших прошлых митапов, и ссылки на другие проекты: дайджест статей и подкаст.
DE or DIE
DE or DIE #8
DE or DIE – митап, сделанный дата инженерами для дата инженеров.
Бесплатный вебинар «Vertica 11: Новая версия - новые возможности»
⏰ 6 октября 2021 года
Познакомьтесь с богатым функционалом новой версии аналитической платформы Vertica:
📌 работа с ORC-форматом (включая экспорт данных в ORC и поддержку сложных типов данных);
📌 поддержка сложных типов данных в JDBC-клиенте;
📌 партиционированные проекции;
📌 резервное копирование и восстановление в Azure;
📌 поддержка резервного копирования кластеров Eon с коммунальным хранилищем на Hadoop;
📌 множество улучшений в части шифрования подключений и соединений;
📌 поддержка развертывания Vertica Eon в инфраструктуре Kubernetes.
🤵 Ведущий — Александр Скоробогатов, архитектор решений Vertica в России и СНГ.
🤝 Присоединяйтесь!
💡 Это будет полезно для расширения профессионального кругозора или углубления знаний в области #BigData #аналитика #хранилищеданных.
▶️ Зарегистрироваться
🔎 Другой полезный контент на канале Micro Focus Russia & CIS
⏰ 6 октября 2021 года
Познакомьтесь с богатым функционалом новой версии аналитической платформы Vertica:
📌 работа с ORC-форматом (включая экспорт данных в ORC и поддержку сложных типов данных);
📌 поддержка сложных типов данных в JDBC-клиенте;
📌 партиционированные проекции;
📌 резервное копирование и восстановление в Azure;
📌 поддержка резервного копирования кластеров Eon с коммунальным хранилищем на Hadoop;
📌 множество улучшений в части шифрования подключений и соединений;
📌 поддержка развертывания Vertica Eon в инфраструктуре Kubernetes.
🤵 Ведущий — Александр Скоробогатов, архитектор решений Vertica в России и СНГ.
🤝 Присоединяйтесь!
💡 Это будет полезно для расширения профессионального кругозора или углубления знаний в области #BigData #аналитика #хранилищеданных.
▶️ Зарегистрироваться
🔎 Другой полезный контент на канале Micro Focus Russia & CIS
Forwarded from DevBrain
Вышел Python 3.10: https://www.python.org/downloads/release/python-3100/
В языке появился паттерн-матчинг, которого мне не хватало и который я подсмотрел в своё время в языке Scala. Помимо этой фичи есть и куча других с которыми можно ознакомиться по ссылке выше.
Ребята из JetBrains подсуетились и выпустили небольшое видео про новшества языка: https://www.youtube.com/watch?v=JteTO3EE7y0
В языке появился паттерн-матчинг, которого мне не хватало и который я подсмотрел в своё время в языке Scala. Помимо этой фичи есть и куча других с которыми можно ознакомиться по ссылке выше.
Ребята из JetBrains подсуетились и выпустили небольшое видео про новшества языка: https://www.youtube.com/watch?v=JteTO3EE7y0
Python.org
Python Release Python 3.10.0
The official home of the Python Programming Language
Интересный keynote от создателя Apache Airflow про тренды в области data engineering: https://www.youtube.com/watch?v=se6O5wFXEXw
Также Макс вскользь упоминает 2 своих статьи:
— The Rise of the Data Engineer
https://www.freecodecamp.org/news/the-rise-of-the-data-engineer-91be18f1e603/
— The Downfall of the Data Engineer https://maximebeauchemin.medium.com/the-downfall-of-the-data-engineer-5bfb701e5d6b
Смотреть удобно на скорости ×1.25, ×1.5
Также Макс вскользь упоминает 2 своих статьи:
— The Rise of the Data Engineer
https://www.freecodecamp.org/news/the-rise-of-the-data-engineer-91be18f1e603/
— The Downfall of the Data Engineer https://maximebeauchemin.medium.com/the-downfall-of-the-data-engineer-5bfb701e5d6b
Смотреть удобно на скорости ×1.25, ×1.5
YouTube
01 Maxime Beauchemin, Day1 Keynote, DataEngBytes 2021
The Rise & Downfall of the Data Engineer REVISITED
Maxime Beauchemin
Founder & CEO Preset. Original creator of Apache Superset and Apache Airflow.
In 2017, I wrote two blog posts about data engineering: "The Rise of the Data Engineer" was an attempt at…
Maxime Beauchemin
Founder & CEO Preset. Original creator of Apache Superset and Apache Airflow.
In 2017, I wrote two blog posts about data engineering: "The Rise of the Data Engineer" was an attempt at…
Прошла небольшая конференция по data engineering — DataEngBytes 2021. Я собрал список наиболее интересных докладов:
- What is a Data Mesh - And How Not To Mesh it Up
- Data Quality with Great Expectations and Airflow in a Reverse-ETL World
- Shift-left testing : Building reliable Data Pipelines
- Data quality: the key to long term happiness
- Reliable data engineering made easy
- Gone Streaming: dbt+Materialize
- Streaming data analytics with Apache Flink
Сам ещё не всё посмотрел, список формировал по привлекательности названия докладов 😁 Учтите, что среди докладчиков есть представители data-компаний (Databricks, Materialize, Monte Carlo Data и т.д.), так что слушайте с небольшой толикой скептицизма к их словам 🤔
- What is a Data Mesh - And How Not To Mesh it Up
- Data Quality with Great Expectations and Airflow in a Reverse-ETL World
- Shift-left testing : Building reliable Data Pipelines
- Data quality: the key to long term happiness
- Reliable data engineering made easy
- Gone Streaming: dbt+Materialize
- Streaming data analytics with Apache Flink
Сам ещё не всё посмотрел, список формировал по привлекательности названия докладов 😁 Учтите, что среди докладчиков есть представители data-компаний (Databricks, Materialize, Monte Carlo Data и т.д.), так что слушайте с небольшой толикой скептицизма к их словам 🤔
YouTube
09 Barr Moses, Day 2 Keynote, DataEngBytes 2021
What is a Data Mesh - And How Not To Mesh it Up
Barr Moses
CEO and co-founder of Monte Carlo, the data reliability company
Barr Moses is CEO & Co-Founder of Monte Carlo, a data reliability company and creator of the industry’s first Data Observability Platform…
Barr Moses
CEO and co-founder of Monte Carlo, the data reliability company
Barr Moses is CEO & Co-Founder of Monte Carlo, a data reliability company and creator of the industry’s first Data Observability Platform…
Ребята из Notion поделились личным опытом шардинга PostgreSQL: https://www.notion.so/blog/sharding-postgres-at-notion
Шардинг это всегда про компромисс. PostgreSQL из коробки не умеет в шардинг, поэтому зачастую реализация подразумевает участие самого приложения в распределении данных между шардами. Шардинг это всегда индивидуальный подход для конкретного приложения. Не существует универсального способа реализации шардинга для всех. Индивидуальный подход подразумевает понимание предметной области приложения, моделирования данных и нагрузки.
Я не так давно шардировал PostgreSQL с 1 жирной ноды на 32 физических сервера. Безусловно получили колоссальный буст в производительности запросов, клиенты довольны, но ценой усложнения архитектуры (мониторинг, репликация данных, избыточность и т.д.). Не говоря уже про решардинг данных в случае добавления новых узлов в кластер баз.
Если вам интересно как в Notion моделируют данные, то читайте https://www.notion.so/blog/data-model-behind-notion. Центральной сущностью является Block за которым следует всё остальное.
Шардинг это всегда про компромисс. PostgreSQL из коробки не умеет в шардинг, поэтому зачастую реализация подразумевает участие самого приложения в распределении данных между шардами. Шардинг это всегда индивидуальный подход для конкретного приложения. Не существует универсального способа реализации шардинга для всех. Индивидуальный подход подразумевает понимание предметной области приложения, моделирования данных и нагрузки.
Я не так давно шардировал PostgreSQL с 1 жирной ноды на 32 физических сервера. Безусловно получили колоссальный буст в производительности запросов, клиенты довольны, но ценой усложнения архитектуры (мониторинг, репликация данных, избыточность и т.д.). Не говоря уже про решардинг данных в случае добавления новых узлов в кластер баз.
Если вам интересно как в Notion моделируют данные, то читайте https://www.notion.so/blog/data-model-behind-notion. Центральной сущностью является Block за которым следует всё остальное.
Notion
Herding elephants: lessons learned from sharding Postgres at Notion
With an effort to make Notion faster and more reliable for years to come — we migrated Notion’s PostgreSQL monolith into a horizontally-partitioned database fleet.
Компания Wunder Fund ищет дата инженера/питониста в свою команду. Мы занимаемся высокочастотной алгоритмической торговлей на биржах по всему миру последние 7 лет.
Для того, чтобы у наших квантов была возможность тестировать свои торговые идеи, им необходимы исторические данные торгов. Эти данные мы собираем в несколько этапов. Сначала онлайн, прямо во время торгов, сохраняем данные максимально надежным и простым способом. Данные с разных бирж приходят в разных форматах, они могут быть очень разными. Поэтому после сохранения мы ежедневно преобразовываем данные в наш внутренний единый формат. После этого качество полученных данных проверяется по множеству параметров специальной программой-чекером.
Мы постоянно выходим на новые биржи, и у каждой биржи есть свои особенности в данных. А старые биржи систематически делают изменения в своих форматах, и они должны быть отражены в нашем софте. Нам нужен человек, который возьмет на себя работу по поддержке уже существующих пайплайнов обработки и разработке новых.
✦ Пишите за подробностями @georgy или сразу открывайте нашего бота — в нем будут подробности и короткий тест знаю/не знаю, для того, чтобы оценить, насколько мы друг другу подойдем.
Для того, чтобы у наших квантов была возможность тестировать свои торговые идеи, им необходимы исторические данные торгов. Эти данные мы собираем в несколько этапов. Сначала онлайн, прямо во время торгов, сохраняем данные максимально надежным и простым способом. Данные с разных бирж приходят в разных форматах, они могут быть очень разными. Поэтому после сохранения мы ежедневно преобразовываем данные в наш внутренний единый формат. После этого качество полученных данных проверяется по множеству параметров специальной программой-чекером.
Мы постоянно выходим на новые биржи, и у каждой биржи есть свои особенности в данных. А старые биржи систематически делают изменения в своих форматах, и они должны быть отражены в нашем софте. Нам нужен человек, который возьмет на себя работу по поддержке уже существующих пайплайнов обработки и разработке новых.
✦ Пишите за подробностями @georgy или сразу открывайте нашего бота — в нем будут подробности и короткий тест знаю/не знаю, для того, чтобы оценить, насколько мы друг другу подойдем.
На сайте ain вышла небольшая обзорная статья про дата-инженеров: http://bit.ly/article_for_dataenginners3
В ней есть краткое описание кто такие дата-инженеры, чем они занимаются, а также небольшая подборка полезных ресурсов откуда можно почерпнуть дополнительные знания. В этом списке в том числе есть ссылка и на мой канал 🤗
В ней есть краткое описание кто такие дата-инженеры, чем они занимаются, а также небольшая подборка полезных ресурсов откуда можно почерпнуть дополнительные знания. В этом списке в том числе есть ссылка и на мой канал 🤗
AIN.UA
Любить и понимать данные: кто такие дата инженеры и как им расти
Аналитика больших данных стала «новым черным» в бизнесе, а «дата пайплайн» в компаниях звучит чаще, чем «мы сломали прод». Так в чем же особенность и почему об этом все говорят?
LAST CALL 🛎
11 ноября в robot_dreams стартует курс для начинающих BI-аналитиков, data-/product-аналитиков и SQL-разработчиков, которые хотят научиться проектировать Data Warehouse и предлагать бизнес-решения на основе аналитики.
⠀
После курса вы:
▪️ пишете и оптимизируете SQL-запросы;
▪️ проектируете хранилища данных разных типов в зависимости от задач;
▪️ умеете управлять данными и разбираетесь в отличиях ETL- и ELT-подходов;
▪️ визуализируете результаты анализа и собираете данные в понятные дашборды;
▪️ находите аномалии в данных, валидируете гипотезы и делаете прогнозы для бизнеса.
⠀
В результате ― получите полный стек знаний и навыков для развития в BI-аналитике и BI-разработке.
Чтобы зарегистрироваться на курс, перейдите по ссылке и заполните форму
🔝 https://bit.ly/2ZwUUUN 🔝
11 ноября в robot_dreams стартует курс для начинающих BI-аналитиков, data-/product-аналитиков и SQL-разработчиков, которые хотят научиться проектировать Data Warehouse и предлагать бизнес-решения на основе аналитики.
⠀
После курса вы:
▪️ пишете и оптимизируете SQL-запросы;
▪️ проектируете хранилища данных разных типов в зависимости от задач;
▪️ умеете управлять данными и разбираетесь в отличиях ETL- и ELT-подходов;
▪️ визуализируете результаты анализа и собираете данные в понятные дашборды;
▪️ находите аномалии в данных, валидируете гипотезы и делаете прогнозы для бизнеса.
⠀
В результате ― получите полный стек знаний и навыков для развития в BI-аналитике и BI-разработке.
Чтобы зарегистрироваться на курс, перейдите по ссылке и заполните форму
🔝 https://bit.ly/2ZwUUUN 🔝
Неплохой гайд по подготовке к интервью по SQL с примерами от «Тамби Масаева»: https://www.youtube.com/watch?v=y6CWIBKEw_g
YouTube
Евгений Кудашев, ЦИАН Лондон - Cracking the SQL coding interview
Совсем скоро Матемаркетинг - 23, 9-10 ноября
Подробности: https://matemarketing.ru/
Евгений Кудашев , из ЦИАН хочет научить вас идеально проходить собеседования, на которых спрашивают знания SQL. В ходе выступления Женя предложит вам решить задачку с собеседования…
Подробности: https://matemarketing.ru/
Евгений Кудашев , из ЦИАН хочет научить вас идеально проходить собеседования, на которых спрашивают знания SQL. В ходе выступления Женя предложит вам решить задачку с собеседования…
Откопал свежее видео про Dagster от его автора на очередном митапе: https://www.youtube.com/watch?v=OYNPa_xxeho
У меня никак руки не дойдут его пощупать, уж больно привлекательно он выглядит. Есть кто уже пробовал его в деле?
У меня никак руки не дойдут его пощупать, уж больно привлекательно он выглядит. Есть кто уже пробовал его в деле?
YouTube
SFBigAnalytics_20211018: Dagster: The orchestrator for the full data lifecycle
Nick will cover the principles and origin of Dagster. Dagster is a new type of workflow engine: a data orchestrator. Moving beyond just managing the ordering and physical execution of data computations, Dagster considers the entire data application lifecycle.…