Нашел видео про Dagster от одного из его авторов: https://www.youtube.com/watch?v=MF5OaQEOF2E
Он у меня "на карандаше", хочу попробовать и написать небольшой туториал в блоге.
Он у меня "на карандаше", хочу попробовать и написать небольшой туториал в блоге.
YouTube
An Introduction to Dagster: The orchestrator for the full data lifecycle - UDEM June 2021
Nick Schrock covers the principles and origin of Dagster. Dagster is a new type of workflow engine: a data orchestrator. Moving beyond just managing the ordering and physical execution of data computations, Dagster considers the entire data application lifecycle.…
Forwarded from How to DWH with Python
Подготовил конспект курса по Spark. Поможет освежить важное в памяти или сэкономить время на просмотре. Сам курс к изучению рекомендую.
#briefly #spark Spark Starter Kit
https://telegra.ph/Udemy-Spark-Starter-Kit-part-1-06-19
What's inside:
— Hadoop and Spark comparison: storage, MapReduce, speed, resources management.
— Challenges Spark tries to address.
— How Spark achieves high efficiency.
— How Spark achieves fault-tolerance.
— What is RDD.
Ссылка на курс: Spark Starter Kit
#briefly #spark Spark Starter Kit
https://telegra.ph/Udemy-Spark-Starter-Kit-part-1-06-19
What's inside:
— Hadoop and Spark comparison: storage, MapReduce, speed, resources management.
— Challenges Spark tries to address.
— How Spark achieves high efficiency.
— How Spark achieves fault-tolerance.
— What is RDD.
Ссылка на курс: Spark Starter Kit
Telegraph
Udemy: Spark Starter Kit, part 1
Spark vs Hadoop: who wins? Link to lecture. Hadoop = HDFS + MapReduce. Spark is not a replacement for Hadoop. In particular, Spark does not come with its own storage: it leverages existing one like HDFS, S3, etc. Distributed filesystem are preferred to accelerate…
Forwarded from DE or DIE
Мы опубликовали материалы митапа DE or DIE #7: https://deordie.org/meetups/07/ (видео докладов + презентации в формате PDF).
DE or DIE
DE or DIE #7
DE or DIE – митап, сделанный дата инженерами для дата инженеров.
Forwarded from DevBrain
Крутейшие доклады с Python Web Conf 2021: https://www.youtube.com/playlist?list=PLt4L3V8wVnF4iB8pGfkR7eozIJPwCM7vv
Ожидается серия постов про Kafka на службе у кибербезопасников: https://www.kai-waehner.de/blog/2021/07/02/kafka-cybersecurity-siem-soar-part-1-of-6-data-in-motion-as-backbone/
Kai Waehner
Kafka for Cybersecurity (Part 1 of 6) - Data in Motion as Backbone - Kai Waehner
Blog series about use cases and architectures for Apache Kafka in the cybersecurity space, including SIEM/SOAR modernization. Part 1: Overview
Forwarded from DevBrain
Конференция о дата-инжиниринге SmartData 2021 ищет спикеров 🎙
Вам есть о чем рассказать и что обсудить с коллегами по цеху? Тогда вам нужно подать заявку на участие в конференции!
В этом году SmartData пройдет 11-14 октября, онлайн (гибридный формат решили отложить из-за непредсказуемости ввода ограничений на офлайн мероприятия).
Темы, которые ждут больше всего:
✔️ Стриминг;
✔️ СУБД и хранилища для больших данных;
✔️ Архитектура DWH;
✔️ Data governance;
✔️Технологии построения ETL;
✔️ Оркестрация и MLOps.
Но этим списком не ограничивается — вы можете подать заявку с любой темой из области дата-инжиниринга.
Если все-таки сомневаетесь, то программный комитет всегда готов обсудить актуальность темы и помочь выбрать правильный вектор доклада. Плюс, ребята помогут с прокачкой ваших ораторских навыков, если у вас мало опыта в публичных выступлениях.
👉Подать заявку и узнать подробности можно на сайте.
❓Вопросы присылайте на почту program@smartdata.ru
Вам есть о чем рассказать и что обсудить с коллегами по цеху? Тогда вам нужно подать заявку на участие в конференции!
В этом году SmartData пройдет 11-14 октября, онлайн (гибридный формат решили отложить из-за непредсказуемости ввода ограничений на офлайн мероприятия).
Темы, которые ждут больше всего:
✔️ Стриминг;
✔️ СУБД и хранилища для больших данных;
✔️ Архитектура DWH;
✔️ Data governance;
✔️Технологии построения ETL;
✔️ Оркестрация и MLOps.
Но этим списком не ограничивается — вы можете подать заявку с любой темой из области дата-инжиниринга.
Если все-таки сомневаетесь, то программный комитет всегда готов обсудить актуальность темы и помочь выбрать правильный вектор доклада. Плюс, ребята помогут с прокачкой ваших ораторских навыков, если у вас мало опыта в публичных выступлениях.
👉Подать заявку и узнать подробности можно на сайте.
❓Вопросы присылайте на почту program@smartdata.ru
Forwarded from DevBrain
Курсы по Redis стали доступны в режиме self-paced обучения бесплатно: https://university.redislabs.com/
Ребята из IT Resume @it_resume собрали большую подборку авторских телеграмм-каналов для аналитиков. Там более 20 каналов на любой вкус - анализ данных, программирование, data engineering, data science и многое другое 👍
Теперь вам точно будет, что почитать на предстоящих выходных 🙃
Подробнее - в статье
Теперь вам точно будет, что почитать на предстоящих выходных 🙃
Подробнее - в статье
Хабр
Большая подборка телеграмм-каналов для аналитиков
Работа аналитика требует постоянного пополнения своих знаний - новые инструменты, обновления и методы создаются, как горячие пирожочки. Но перерабатывать такие объемы информации просто нереально, а...
Свет увидела новая распределенная SQL база данных на Rust (учебная): https://github.com/erikgrinaker/toydb
Автор также подробно описал её архитектуру: https://github.com/erikgrinaker/toydb/blob/master/docs/architecture.md
Автор также подробно описал её архитектуру: https://github.com/erikgrinaker/toydb/blob/master/docs/architecture.md
GitHub
GitHub - erikgrinaker/toydb: Distributed SQL database in Rust, written as an educational project
Distributed SQL database in Rust, written as an educational project - erikgrinaker/toydb
Я сейчас изучаю как можно больше информации по теме качества данных (Data quality), и наткнулся на парочку статей от Airbnb:
- Data Quality at Airbnb: Part 1 — Rebuilding at Scale
- Data Quality at Airbnb: Part 2 — A New Gold Standard
Если вам также есть чем поделиться по теме, то накидайте, пожалуйста, ссылок в комментариях.
- Data Quality at Airbnb: Part 1 — Rebuilding at Scale
- Data Quality at Airbnb: Part 2 — A New Gold Standard
Если вам также есть чем поделиться по теме, то накидайте, пожалуйста, ссылок в комментариях.
Medium
Data Quality at Airbnb
Part 1 — Rebuilding at Scale
Всем привет! 🤝
Наверняка среди моих подписчиков есть люди, увлеченные темой Data Science. Мой товарищ Ренат Алимбеков (@alimbekovkz) недавно выпустил мануал по подготовке к интервью на роль data scientist. Ренат неоднократный призёр соревнований на Kaggle, а ныне data scientist в Beeline, где занимается задачами в области компьютерного зрения.
Наверняка многие из вас помнят, что Ренат выпускал бесплатный курс на моей образовательной платформе: Анализ медицинских изображений в Python, также он ведёт свой блог и канал.
Приобрести его руководство Data Science Interview Guide можно по ссылке на платформе Gumroad.
Используйте промокод DATAENG, чтобы получить скидку 2$.
Наверняка среди моих подписчиков есть люди, увлеченные темой Data Science. Мой товарищ Ренат Алимбеков (@alimbekovkz) недавно выпустил мануал по подготовке к интервью на роль data scientist. Ренат неоднократный призёр соревнований на Kaggle, а ныне data scientist в Beeline, где занимается задачами в области компьютерного зрения.
Наверняка многие из вас помнят, что Ренат выпускал бесплатный курс на моей образовательной платформе: Анализ медицинских изображений в Python, также он ведёт свой блог и канал.
Приобрести его руководство Data Science Interview Guide можно по ссылке на платформе Gumroad.
Используйте промокод DATAENG, чтобы получить скидку 2$.
Kaggle
Alimbekov Renat [dsmlkz]
Data scientist/IT manager/IT Auditor from Almaty Kazakhstan
[dsmlkz]: Kazakhstan Data Science Community
[dsmlkz]: Kazakhstan Data Science Community
Про полнотекстовый поиск в PostgreSQL, если вы о нём не знали: https://blog.crunchydata.com/blog/postgres-full-text-search-a-search-engine-in-a-database
К слову, у меня в блоге khashtamov.com как раз используется Full-Text Search от Postgres средствами Django.
К слову, у меня в блоге khashtamov.com как раз используется Full-Text Search от Postgres средствами Django.
Crunchy Data
Postgres Full-Text Search: A Search Engine in a Database | Crunchy Data Blog
With Postgres, you don't need to immediately look farther than your own database management system for a full-text search solution. If you haven't yet given Postgres' built-in full-text search a try, read on for a simple intro.
Стали доступны доклады с Airflow Summit 2021 🔥. Из наиболее интересных тем:
- The new modern data stack Airbyte Airflow DBT
- The Newcomer's Guide to Airflow's Architecture
- Writing Dry Code in Airflow
- Looking ahead: What comes after Airflow 2 0
- Lessons Learned while Migrating Data Pipelines from Enterprise Schedulers to Airflow
- Deep dive in to the Airflow scheduler
- Dataclasses as Pipeline Definitions in Airflow
И многие другие. Бегом изучать на канале Apache Airflow.
- The new modern data stack Airbyte Airflow DBT
- The Newcomer's Guide to Airflow's Architecture
- Writing Dry Code in Airflow
- Looking ahead: What comes after Airflow 2 0
- Lessons Learned while Migrating Data Pipelines from Enterprise Schedulers to Airflow
- Deep dive in to the Airflow scheduler
- Dataclasses as Pipeline Definitions in Airflow
И многие другие. Бегом изучать на канале Apache Airflow.
YouTube
The new modern data stack Airbyte Airflow DBT
Presented by Michel Tricot at Airflow Summit 2021.
In this talk, I’ll describe how you can leverage 3 open-source standards - workflow management with Airflow, EL with Airbyte, transformation with DBT - to build your next modern data stack. I’ll explain how…
In this talk, I’ll describe how you can leverage 3 open-source standards - workflow management with Airflow, EL with Airbyte, transformation with DBT - to build your next modern data stack. I’ll explain how…
Ребята из #CloudMTS предлагают облачные сервисы для быстрого запуска новых ИТ-продуктов. Актуально для разработчиков, кто хочет выйти на рынок раньше остальных. Сервисами можно пользоваться бесплатно 30 дней!
Реализуйте ваши проекты на готовой облачной IT инфраструктуре:
✔️ Получите всё, что нужно для разработки цифрового продукта: IaaS, облачный суперкомпьютер на GPU, резервное копирование, хранилище S3, CDN, WAF, сервисы Azure и многое другое.
✔️ Используйте любое количество сервисов одновременно.
✔️ Никаких ограничений по функционалу и скрытых платежей.
Выведите свой продукт на рынок в рекордные сроки с #CloudMTS!
Узнать подробности можно по ссылке: https://bit.ly/2VhG1U2
Реализуйте ваши проекты на готовой облачной IT инфраструктуре:
✔️ Получите всё, что нужно для разработки цифрового продукта: IaaS, облачный суперкомпьютер на GPU, резервное копирование, хранилище S3, CDN, WAF, сервисы Azure и многое другое.
✔️ Используйте любое количество сервисов одновременно.
✔️ Никаких ограничений по функционалу и скрытых платежей.
Выведите свой продукт на рынок в рекордные сроки с #CloudMTS!
Узнать подробности можно по ссылке: https://bit.ly/2VhG1U2