Всем привет! 🤝
Наверняка среди моих подписчиков есть люди, увлеченные темой Data Science. Мой товарищ Ренат Алимбеков (@alimbekovkz) недавно выпустил мануал по подготовке к интервью на роль data scientist. Ренат неоднократный призёр соревнований на Kaggle, а ныне data scientist в Beeline, где занимается задачами в области компьютерного зрения.
Наверняка многие из вас помнят, что Ренат выпускал бесплатный курс на моей образовательной платформе: Анализ медицинских изображений в Python, также он ведёт свой блог и канал.
Приобрести его руководство Data Science Interview Guide можно по ссылке на платформе Gumroad.
Используйте промокод DATAENG, чтобы получить скидку 2$.
Наверняка среди моих подписчиков есть люди, увлеченные темой Data Science. Мой товарищ Ренат Алимбеков (@alimbekovkz) недавно выпустил мануал по подготовке к интервью на роль data scientist. Ренат неоднократный призёр соревнований на Kaggle, а ныне data scientist в Beeline, где занимается задачами в области компьютерного зрения.
Наверняка многие из вас помнят, что Ренат выпускал бесплатный курс на моей образовательной платформе: Анализ медицинских изображений в Python, также он ведёт свой блог и канал.
Приобрести его руководство Data Science Interview Guide можно по ссылке на платформе Gumroad.
Используйте промокод DATAENG, чтобы получить скидку 2$.
Kaggle
Alimbekov Renat [dsmlkz]
Data scientist/IT manager/IT Auditor from Almaty Kazakhstan
[dsmlkz]: Kazakhstan Data Science Community
[dsmlkz]: Kazakhstan Data Science Community
Про полнотекстовый поиск в PostgreSQL, если вы о нём не знали: https://blog.crunchydata.com/blog/postgres-full-text-search-a-search-engine-in-a-database
К слову, у меня в блоге khashtamov.com как раз используется Full-Text Search от Postgres средствами Django.
К слову, у меня в блоге khashtamov.com как раз используется Full-Text Search от Postgres средствами Django.
Crunchy Data
Postgres Full-Text Search: A Search Engine in a Database | Crunchy Data Blog
With Postgres, you don't need to immediately look farther than your own database management system for a full-text search solution. If you haven't yet given Postgres' built-in full-text search a try, read on for a simple intro.
Стали доступны доклады с Airflow Summit 2021 🔥. Из наиболее интересных тем:
- The new modern data stack Airbyte Airflow DBT
- The Newcomer's Guide to Airflow's Architecture
- Writing Dry Code in Airflow
- Looking ahead: What comes after Airflow 2 0
- Lessons Learned while Migrating Data Pipelines from Enterprise Schedulers to Airflow
- Deep dive in to the Airflow scheduler
- Dataclasses as Pipeline Definitions in Airflow
И многие другие. Бегом изучать на канале Apache Airflow.
- The new modern data stack Airbyte Airflow DBT
- The Newcomer's Guide to Airflow's Architecture
- Writing Dry Code in Airflow
- Looking ahead: What comes after Airflow 2 0
- Lessons Learned while Migrating Data Pipelines from Enterprise Schedulers to Airflow
- Deep dive in to the Airflow scheduler
- Dataclasses as Pipeline Definitions in Airflow
И многие другие. Бегом изучать на канале Apache Airflow.
YouTube
The new modern data stack Airbyte Airflow DBT
Presented by Michel Tricot at Airflow Summit 2021.
In this talk, I’ll describe how you can leverage 3 open-source standards - workflow management with Airflow, EL with Airbyte, transformation with DBT - to build your next modern data stack. I’ll explain how…
In this talk, I’ll describe how you can leverage 3 open-source standards - workflow management with Airflow, EL with Airbyte, transformation with DBT - to build your next modern data stack. I’ll explain how…
Ребята из #CloudMTS предлагают облачные сервисы для быстрого запуска новых ИТ-продуктов. Актуально для разработчиков, кто хочет выйти на рынок раньше остальных. Сервисами можно пользоваться бесплатно 30 дней!
Реализуйте ваши проекты на готовой облачной IT инфраструктуре:
✔️ Получите всё, что нужно для разработки цифрового продукта: IaaS, облачный суперкомпьютер на GPU, резервное копирование, хранилище S3, CDN, WAF, сервисы Azure и многое другое.
✔️ Используйте любое количество сервисов одновременно.
✔️ Никаких ограничений по функционалу и скрытых платежей.
Выведите свой продукт на рынок в рекордные сроки с #CloudMTS!
Узнать подробности можно по ссылке: https://bit.ly/2VhG1U2
Реализуйте ваши проекты на готовой облачной IT инфраструктуре:
✔️ Получите всё, что нужно для разработки цифрового продукта: IaaS, облачный суперкомпьютер на GPU, резервное копирование, хранилище S3, CDN, WAF, сервисы Azure и многое другое.
✔️ Используйте любое количество сервисов одновременно.
✔️ Никаких ограничений по функционалу и скрытых платежей.
Выведите свой продукт на рынок в рекордные сроки с #CloudMTS!
Узнать подробности можно по ссылке: https://bit.ly/2VhG1U2
Маленькая балалайка для анализа метаданных в базе данных PostgreSQL: https://github.com/marklit/datafluent_pg
Написана на питоне, удобно запускать из консоли. В результате формирует отчёт в Excel 🤖
Пост в блоге автора: https://tech.marksblogg.com/data-fluent-for-postgresql.html
Написана на питоне, удобно запускать из консоли. В результате формирует отчёт в Excel 🤖
Пост в блоге автора: https://tech.marksblogg.com/data-fluent-for-postgresql.html
GitHub
GitHub - marklit/datafluent_pg: Build a better understanding of your data in PostgreSQL.
Build a better understanding of your data in PostgreSQL. - GitHub - marklit/datafluent_pg: Build a better understanding of your data in PostgreSQL.
Обзор Open Source решений из мира данных: https://www.datafold.com/blog/the-modern-data-stack-open-source-edition
Datafold
The modern data stack: Open-source edition
If you're looking to build the ideal modern data stack for analytics using only open-source tools, we cover the top alternatives to your favorite paid solutions.
👍1
Хотите пилить расширения для PostgreSQL на Rust? Оно у нас есть: https://tech.marksblogg.com/postgresql-extension-rust.html
Marksblogg
Building PostgreSQL Extensions with Rust
Benchmarks & Tips for Big Data, Hadoop, AWS, Google Cloud, PostgreSQL, Spark, Python & More...
Forwarded from Pasha Finkelshteyn
Выпустил августовский выпуск https://blog.jetbrains.com/big-data-tools/2021/09/06/data-engineering-annotated-monthly-august-2021/
The JetBrains Blog
Data Engineering Annotated Monthly – August 2021 | The Big Data Tools Blog
August is usually a quiet month, with vacations taking their toll. But data engineering never stops. I’m Pasha Finkelshteyn and I will be your guide through this month’s news, my impressions of the de
Forwarded from DE or DIE
Друзья, мы опубликовали видео с прошедшего митапа DE or DIE #8. Все доступно по ссылке: https://deordie.org/meetups/08/
Также, на https://deordie.org/ вы можете найти материалы с наших прошлых митапов, и ссылки на другие проекты: дайджест статей и подкаст.
Также, на https://deordie.org/ вы можете найти материалы с наших прошлых митапов, и ссылки на другие проекты: дайджест статей и подкаст.
DE or DIE
DE or DIE #8
DE or DIE – митап, сделанный дата инженерами для дата инженеров.
Бесплатный вебинар «Vertica 11: Новая версия - новые возможности»
⏰ 6 октября 2021 года
Познакомьтесь с богатым функционалом новой версии аналитической платформы Vertica:
📌 работа с ORC-форматом (включая экспорт данных в ORC и поддержку сложных типов данных);
📌 поддержка сложных типов данных в JDBC-клиенте;
📌 партиционированные проекции;
📌 резервное копирование и восстановление в Azure;
📌 поддержка резервного копирования кластеров Eon с коммунальным хранилищем на Hadoop;
📌 множество улучшений в части шифрования подключений и соединений;
📌 поддержка развертывания Vertica Eon в инфраструктуре Kubernetes.
🤵 Ведущий — Александр Скоробогатов, архитектор решений Vertica в России и СНГ.
🤝 Присоединяйтесь!
💡 Это будет полезно для расширения профессионального кругозора или углубления знаний в области #BigData #аналитика #хранилищеданных.
▶️ Зарегистрироваться
🔎 Другой полезный контент на канале Micro Focus Russia & CIS
⏰ 6 октября 2021 года
Познакомьтесь с богатым функционалом новой версии аналитической платформы Vertica:
📌 работа с ORC-форматом (включая экспорт данных в ORC и поддержку сложных типов данных);
📌 поддержка сложных типов данных в JDBC-клиенте;
📌 партиционированные проекции;
📌 резервное копирование и восстановление в Azure;
📌 поддержка резервного копирования кластеров Eon с коммунальным хранилищем на Hadoop;
📌 множество улучшений в части шифрования подключений и соединений;
📌 поддержка развертывания Vertica Eon в инфраструктуре Kubernetes.
🤵 Ведущий — Александр Скоробогатов, архитектор решений Vertica в России и СНГ.
🤝 Присоединяйтесь!
💡 Это будет полезно для расширения профессионального кругозора или углубления знаний в области #BigData #аналитика #хранилищеданных.
▶️ Зарегистрироваться
🔎 Другой полезный контент на канале Micro Focus Russia & CIS
Forwarded from DevBrain
Вышел Python 3.10: https://www.python.org/downloads/release/python-3100/
В языке появился паттерн-матчинг, которого мне не хватало и который я подсмотрел в своё время в языке Scala. Помимо этой фичи есть и куча других с которыми можно ознакомиться по ссылке выше.
Ребята из JetBrains подсуетились и выпустили небольшое видео про новшества языка: https://www.youtube.com/watch?v=JteTO3EE7y0
В языке появился паттерн-матчинг, которого мне не хватало и который я подсмотрел в своё время в языке Scala. Помимо этой фичи есть и куча других с которыми можно ознакомиться по ссылке выше.
Ребята из JetBrains подсуетились и выпустили небольшое видео про новшества языка: https://www.youtube.com/watch?v=JteTO3EE7y0
Python.org
Python Release Python 3.10.0
The official home of the Python Programming Language
Интересный keynote от создателя Apache Airflow про тренды в области data engineering: https://www.youtube.com/watch?v=se6O5wFXEXw
Также Макс вскользь упоминает 2 своих статьи:
— The Rise of the Data Engineer
https://www.freecodecamp.org/news/the-rise-of-the-data-engineer-91be18f1e603/
— The Downfall of the Data Engineer https://maximebeauchemin.medium.com/the-downfall-of-the-data-engineer-5bfb701e5d6b
Смотреть удобно на скорости ×1.25, ×1.5
Также Макс вскользь упоминает 2 своих статьи:
— The Rise of the Data Engineer
https://www.freecodecamp.org/news/the-rise-of-the-data-engineer-91be18f1e603/
— The Downfall of the Data Engineer https://maximebeauchemin.medium.com/the-downfall-of-the-data-engineer-5bfb701e5d6b
Смотреть удобно на скорости ×1.25, ×1.5
YouTube
01 Maxime Beauchemin, Day1 Keynote, DataEngBytes 2021
The Rise & Downfall of the Data Engineer REVISITED
Maxime Beauchemin
Founder & CEO Preset. Original creator of Apache Superset and Apache Airflow.
In 2017, I wrote two blog posts about data engineering: "The Rise of the Data Engineer" was an attempt at…
Maxime Beauchemin
Founder & CEO Preset. Original creator of Apache Superset and Apache Airflow.
In 2017, I wrote two blog posts about data engineering: "The Rise of the Data Engineer" was an attempt at…
Прошла небольшая конференция по data engineering — DataEngBytes 2021. Я собрал список наиболее интересных докладов:
- What is a Data Mesh - And How Not To Mesh it Up
- Data Quality with Great Expectations and Airflow in a Reverse-ETL World
- Shift-left testing : Building reliable Data Pipelines
- Data quality: the key to long term happiness
- Reliable data engineering made easy
- Gone Streaming: dbt+Materialize
- Streaming data analytics with Apache Flink
Сам ещё не всё посмотрел, список формировал по привлекательности названия докладов 😁 Учтите, что среди докладчиков есть представители data-компаний (Databricks, Materialize, Monte Carlo Data и т.д.), так что слушайте с небольшой толикой скептицизма к их словам 🤔
- What is a Data Mesh - And How Not To Mesh it Up
- Data Quality with Great Expectations and Airflow in a Reverse-ETL World
- Shift-left testing : Building reliable Data Pipelines
- Data quality: the key to long term happiness
- Reliable data engineering made easy
- Gone Streaming: dbt+Materialize
- Streaming data analytics with Apache Flink
Сам ещё не всё посмотрел, список формировал по привлекательности названия докладов 😁 Учтите, что среди докладчиков есть представители data-компаний (Databricks, Materialize, Monte Carlo Data и т.д.), так что слушайте с небольшой толикой скептицизма к их словам 🤔
YouTube
09 Barr Moses, Day 2 Keynote, DataEngBytes 2021
What is a Data Mesh - And How Not To Mesh it Up
Barr Moses
CEO and co-founder of Monte Carlo, the data reliability company
Barr Moses is CEO & Co-Founder of Monte Carlo, a data reliability company and creator of the industry’s first Data Observability Platform…
Barr Moses
CEO and co-founder of Monte Carlo, the data reliability company
Barr Moses is CEO & Co-Founder of Monte Carlo, a data reliability company and creator of the industry’s first Data Observability Platform…
Ребята из Notion поделились личным опытом шардинга PostgreSQL: https://www.notion.so/blog/sharding-postgres-at-notion
Шардинг это всегда про компромисс. PostgreSQL из коробки не умеет в шардинг, поэтому зачастую реализация подразумевает участие самого приложения в распределении данных между шардами. Шардинг это всегда индивидуальный подход для конкретного приложения. Не существует универсального способа реализации шардинга для всех. Индивидуальный подход подразумевает понимание предметной области приложения, моделирования данных и нагрузки.
Я не так давно шардировал PostgreSQL с 1 жирной ноды на 32 физических сервера. Безусловно получили колоссальный буст в производительности запросов, клиенты довольны, но ценой усложнения архитектуры (мониторинг, репликация данных, избыточность и т.д.). Не говоря уже про решардинг данных в случае добавления новых узлов в кластер баз.
Если вам интересно как в Notion моделируют данные, то читайте https://www.notion.so/blog/data-model-behind-notion. Центральной сущностью является Block за которым следует всё остальное.
Шардинг это всегда про компромисс. PostgreSQL из коробки не умеет в шардинг, поэтому зачастую реализация подразумевает участие самого приложения в распределении данных между шардами. Шардинг это всегда индивидуальный подход для конкретного приложения. Не существует универсального способа реализации шардинга для всех. Индивидуальный подход подразумевает понимание предметной области приложения, моделирования данных и нагрузки.
Я не так давно шардировал PostgreSQL с 1 жирной ноды на 32 физических сервера. Безусловно получили колоссальный буст в производительности запросов, клиенты довольны, но ценой усложнения архитектуры (мониторинг, репликация данных, избыточность и т.д.). Не говоря уже про решардинг данных в случае добавления новых узлов в кластер баз.
Если вам интересно как в Notion моделируют данные, то читайте https://www.notion.so/blog/data-model-behind-notion. Центральной сущностью является Block за которым следует всё остальное.
Notion
Herding elephants: lessons learned from sharding Postgres at Notion
With an effort to make Notion faster and more reliable for years to come — we migrated Notion’s PostgreSQL monolith into a horizontally-partitioned database fleet.
Компания Wunder Fund ищет дата инженера/питониста в свою команду. Мы занимаемся высокочастотной алгоритмической торговлей на биржах по всему миру последние 7 лет.
Для того, чтобы у наших квантов была возможность тестировать свои торговые идеи, им необходимы исторические данные торгов. Эти данные мы собираем в несколько этапов. Сначала онлайн, прямо во время торгов, сохраняем данные максимально надежным и простым способом. Данные с разных бирж приходят в разных форматах, они могут быть очень разными. Поэтому после сохранения мы ежедневно преобразовываем данные в наш внутренний единый формат. После этого качество полученных данных проверяется по множеству параметров специальной программой-чекером.
Мы постоянно выходим на новые биржи, и у каждой биржи есть свои особенности в данных. А старые биржи систематически делают изменения в своих форматах, и они должны быть отражены в нашем софте. Нам нужен человек, который возьмет на себя работу по поддержке уже существующих пайплайнов обработки и разработке новых.
✦ Пишите за подробностями @georgy или сразу открывайте нашего бота — в нем будут подробности и короткий тест знаю/не знаю, для того, чтобы оценить, насколько мы друг другу подойдем.
Для того, чтобы у наших квантов была возможность тестировать свои торговые идеи, им необходимы исторические данные торгов. Эти данные мы собираем в несколько этапов. Сначала онлайн, прямо во время торгов, сохраняем данные максимально надежным и простым способом. Данные с разных бирж приходят в разных форматах, они могут быть очень разными. Поэтому после сохранения мы ежедневно преобразовываем данные в наш внутренний единый формат. После этого качество полученных данных проверяется по множеству параметров специальной программой-чекером.
Мы постоянно выходим на новые биржи, и у каждой биржи есть свои особенности в данных. А старые биржи систематически делают изменения в своих форматах, и они должны быть отражены в нашем софте. Нам нужен человек, который возьмет на себя работу по поддержке уже существующих пайплайнов обработки и разработке новых.
✦ Пишите за подробностями @georgy или сразу открывайте нашего бота — в нем будут подробности и короткий тест знаю/не знаю, для того, чтобы оценить, насколько мы друг другу подойдем.
На сайте ain вышла небольшая обзорная статья про дата-инженеров: http://bit.ly/article_for_dataenginners3
В ней есть краткое описание кто такие дата-инженеры, чем они занимаются, а также небольшая подборка полезных ресурсов откуда можно почерпнуть дополнительные знания. В этом списке в том числе есть ссылка и на мой канал 🤗
В ней есть краткое описание кто такие дата-инженеры, чем они занимаются, а также небольшая подборка полезных ресурсов откуда можно почерпнуть дополнительные знания. В этом списке в том числе есть ссылка и на мой канал 🤗
AIN.UA
Любить и понимать данные: кто такие дата инженеры и как им расти
Аналитика больших данных стала «новым черным» в бизнесе, а «дата пайплайн» в компаниях звучит чаще, чем «мы сломали прод». Так в чем же особенность и почему об этом все говорят?