Forwarded from Инжиниринг Данных (Dmitry Anoshin)
8 июня Иван Трусов - Solution Architect Databricks в Берлине расскажет нам про платформу Databricks и Lakehouse.
У нас запланирована целая серия вебинаров с русскоговорящими архитекторами Databricks, stay tuned!
Хочу рассказать как со всеми ними познакомился. Так как я внедряю Azure Databricks в Microsoft Gaming/Xbox, то спустя какое-то время я устал париться с поддержкой Azure и ждать неделями их бесполезные ответы, я написал директору Azure Databricks в Microsoft и попросил помочь с CI/CD, в итоге наc соединили с командой архитекторов в Берлине и Амстердаме и я рассказал им про datalearn и попросил выступить. Мир тесен!
PS CI/CD pipeline уже работает!
У нас запланирована целая серия вебинаров с русскоговорящими архитекторами Databricks, stay tuned!
Хочу рассказать как со всеми ними познакомился. Так как я внедряю Azure Databricks в Microsoft Gaming/Xbox, то спустя какое-то время я устал париться с поддержкой Azure и ждать неделями их бесполезные ответы, я написал директору Azure Databricks в Microsoft и попросил помочь с CI/CD, в итоге наc соединили с командой архитекторов в Берлине и Амстердаме и я рассказал им про datalearn и попросил выступить. Мир тесен!
PS CI/CD pipeline уже работает!
Forwarded from Kseniia Tomak
DE or DIE #7
Ребята, мы рады анонсировать митап #7 нашего сообщества DE or DIE!
Дата и время: 16 июня (среда) 18:00
Формат: Онлайн (трансляция на YouTube)
Регистрация по ссылке: https://deordie.timepad.ru/event/1669693/
Темы:
18:00-19:00. Handling late data. How to make the right choice? - Дарья Буланова
19:15-20:15. Ingestion and historization in the Data Lake? - Илья Тодор
20:15-20:45. After Show - организаторы DE or DIE и спикеры
(*): Несмотря на англоязычные названия доклады будут на русском языке.
Ждем вас в следующую среду. Ссылку на трансляцию опубликуем за час до мероприятия.
Ребята, мы рады анонсировать митап #7 нашего сообщества DE or DIE!
Дата и время: 16 июня (среда) 18:00
Формат: Онлайн (трансляция на YouTube)
Регистрация по ссылке: https://deordie.timepad.ru/event/1669693/
Темы:
18:00-19:00. Handling late data. How to make the right choice? - Дарья Буланова
19:15-20:15. Ingestion and historization in the Data Lake? - Илья Тодор
20:15-20:45. After Show - организаторы DE or DIE и спикеры
(*): Несмотря на англоязычные названия доклады будут на русском языке.
Ждем вас в следующую среду. Ссылку на трансляцию опубликуем за час до мероприятия.
Про новую роль Analytics Engineer: https://youtu.be/C5UcxBwdCEg
YouTube
Analytics Engineer: New Role in a Data Team - Victoria Perez Mola
We talked about:
00:00 DataTalks.Club intro
02:45 Victoria’s background
04:05 A typical day as an Analytics Engineer
06:49 What is DBT?
10:04 Tools for Analytics Engineers
11:48 How Victoria became an Analytics Engineer
14:34 Difference between an analytics…
00:00 DataTalks.Club intro
02:45 Victoria’s background
04:05 A typical day as an Analytics Engineer
06:49 What is DBT?
10:04 Tools for Analytics Engineers
11:48 How Victoria became an Analytics Engineer
14:34 Difference between an analytics…
Нашел видео про Dagster от одного из его авторов: https://www.youtube.com/watch?v=MF5OaQEOF2E
Он у меня "на карандаше", хочу попробовать и написать небольшой туториал в блоге.
Он у меня "на карандаше", хочу попробовать и написать небольшой туториал в блоге.
YouTube
An Introduction to Dagster: The orchestrator for the full data lifecycle - UDEM June 2021
Nick Schrock covers the principles and origin of Dagster. Dagster is a new type of workflow engine: a data orchestrator. Moving beyond just managing the ordering and physical execution of data computations, Dagster considers the entire data application lifecycle.…
Forwarded from How to DWH with Python
Подготовил конспект курса по Spark. Поможет освежить важное в памяти или сэкономить время на просмотре. Сам курс к изучению рекомендую.
#briefly #spark Spark Starter Kit
https://telegra.ph/Udemy-Spark-Starter-Kit-part-1-06-19
What's inside:
— Hadoop and Spark comparison: storage, MapReduce, speed, resources management.
— Challenges Spark tries to address.
— How Spark achieves high efficiency.
— How Spark achieves fault-tolerance.
— What is RDD.
Ссылка на курс: Spark Starter Kit
#briefly #spark Spark Starter Kit
https://telegra.ph/Udemy-Spark-Starter-Kit-part-1-06-19
What's inside:
— Hadoop and Spark comparison: storage, MapReduce, speed, resources management.
— Challenges Spark tries to address.
— How Spark achieves high efficiency.
— How Spark achieves fault-tolerance.
— What is RDD.
Ссылка на курс: Spark Starter Kit
Telegraph
Udemy: Spark Starter Kit, part 1
Spark vs Hadoop: who wins? Link to lecture. Hadoop = HDFS + MapReduce. Spark is not a replacement for Hadoop. In particular, Spark does not come with its own storage: it leverages existing one like HDFS, S3, etc. Distributed filesystem are preferred to accelerate…
Forwarded from DE or DIE
Мы опубликовали материалы митапа DE or DIE #7: https://deordie.org/meetups/07/ (видео докладов + презентации в формате PDF).
DE or DIE
DE or DIE #7
DE or DIE – митап, сделанный дата инженерами для дата инженеров.
Forwarded from DevBrain
Крутейшие доклады с Python Web Conf 2021: https://www.youtube.com/playlist?list=PLt4L3V8wVnF4iB8pGfkR7eozIJPwCM7vv
Ожидается серия постов про Kafka на службе у кибербезопасников: https://www.kai-waehner.de/blog/2021/07/02/kafka-cybersecurity-siem-soar-part-1-of-6-data-in-motion-as-backbone/
Kai Waehner
Kafka for Cybersecurity (Part 1 of 6) - Data in Motion as Backbone - Kai Waehner
Blog series about use cases and architectures for Apache Kafka in the cybersecurity space, including SIEM/SOAR modernization. Part 1: Overview
Forwarded from DevBrain
Конференция о дата-инжиниринге SmartData 2021 ищет спикеров 🎙
Вам есть о чем рассказать и что обсудить с коллегами по цеху? Тогда вам нужно подать заявку на участие в конференции!
В этом году SmartData пройдет 11-14 октября, онлайн (гибридный формат решили отложить из-за непредсказуемости ввода ограничений на офлайн мероприятия).
Темы, которые ждут больше всего:
✔️ Стриминг;
✔️ СУБД и хранилища для больших данных;
✔️ Архитектура DWH;
✔️ Data governance;
✔️Технологии построения ETL;
✔️ Оркестрация и MLOps.
Но этим списком не ограничивается — вы можете подать заявку с любой темой из области дата-инжиниринга.
Если все-таки сомневаетесь, то программный комитет всегда готов обсудить актуальность темы и помочь выбрать правильный вектор доклада. Плюс, ребята помогут с прокачкой ваших ораторских навыков, если у вас мало опыта в публичных выступлениях.
👉Подать заявку и узнать подробности можно на сайте.
❓Вопросы присылайте на почту program@smartdata.ru
Вам есть о чем рассказать и что обсудить с коллегами по цеху? Тогда вам нужно подать заявку на участие в конференции!
В этом году SmartData пройдет 11-14 октября, онлайн (гибридный формат решили отложить из-за непредсказуемости ввода ограничений на офлайн мероприятия).
Темы, которые ждут больше всего:
✔️ Стриминг;
✔️ СУБД и хранилища для больших данных;
✔️ Архитектура DWH;
✔️ Data governance;
✔️Технологии построения ETL;
✔️ Оркестрация и MLOps.
Но этим списком не ограничивается — вы можете подать заявку с любой темой из области дата-инжиниринга.
Если все-таки сомневаетесь, то программный комитет всегда готов обсудить актуальность темы и помочь выбрать правильный вектор доклада. Плюс, ребята помогут с прокачкой ваших ораторских навыков, если у вас мало опыта в публичных выступлениях.
👉Подать заявку и узнать подробности можно на сайте.
❓Вопросы присылайте на почту program@smartdata.ru
Forwarded from DevBrain
Курсы по Redis стали доступны в режиме self-paced обучения бесплатно: https://university.redislabs.com/
Ребята из IT Resume @it_resume собрали большую подборку авторских телеграмм-каналов для аналитиков. Там более 20 каналов на любой вкус - анализ данных, программирование, data engineering, data science и многое другое 👍
Теперь вам точно будет, что почитать на предстоящих выходных 🙃
Подробнее - в статье
Теперь вам точно будет, что почитать на предстоящих выходных 🙃
Подробнее - в статье
Хабр
Большая подборка телеграмм-каналов для аналитиков
Работа аналитика требует постоянного пополнения своих знаний - новые инструменты, обновления и методы создаются, как горячие пирожочки. Но перерабатывать такие объемы информации просто нереально, а...
Свет увидела новая распределенная SQL база данных на Rust (учебная): https://github.com/erikgrinaker/toydb
Автор также подробно описал её архитектуру: https://github.com/erikgrinaker/toydb/blob/master/docs/architecture.md
Автор также подробно описал её архитектуру: https://github.com/erikgrinaker/toydb/blob/master/docs/architecture.md
GitHub
GitHub - erikgrinaker/toydb: Distributed SQL database in Rust, written as an educational project
Distributed SQL database in Rust, written as an educational project - erikgrinaker/toydb
Я сейчас изучаю как можно больше информации по теме качества данных (Data quality), и наткнулся на парочку статей от Airbnb:
- Data Quality at Airbnb: Part 1 — Rebuilding at Scale
- Data Quality at Airbnb: Part 2 — A New Gold Standard
Если вам также есть чем поделиться по теме, то накидайте, пожалуйста, ссылок в комментариях.
- Data Quality at Airbnb: Part 1 — Rebuilding at Scale
- Data Quality at Airbnb: Part 2 — A New Gold Standard
Если вам также есть чем поделиться по теме, то накидайте, пожалуйста, ссылок в комментариях.
Medium
Data Quality at Airbnb
Part 1 — Rebuilding at Scale
Всем привет! 🤝
Наверняка среди моих подписчиков есть люди, увлеченные темой Data Science. Мой товарищ Ренат Алимбеков (@alimbekovkz) недавно выпустил мануал по подготовке к интервью на роль data scientist. Ренат неоднократный призёр соревнований на Kaggle, а ныне data scientist в Beeline, где занимается задачами в области компьютерного зрения.
Наверняка многие из вас помнят, что Ренат выпускал бесплатный курс на моей образовательной платформе: Анализ медицинских изображений в Python, также он ведёт свой блог и канал.
Приобрести его руководство Data Science Interview Guide можно по ссылке на платформе Gumroad.
Используйте промокод DATAENG, чтобы получить скидку 2$.
Наверняка среди моих подписчиков есть люди, увлеченные темой Data Science. Мой товарищ Ренат Алимбеков (@alimbekovkz) недавно выпустил мануал по подготовке к интервью на роль data scientist. Ренат неоднократный призёр соревнований на Kaggle, а ныне data scientist в Beeline, где занимается задачами в области компьютерного зрения.
Наверняка многие из вас помнят, что Ренат выпускал бесплатный курс на моей образовательной платформе: Анализ медицинских изображений в Python, также он ведёт свой блог и канал.
Приобрести его руководство Data Science Interview Guide можно по ссылке на платформе Gumroad.
Используйте промокод DATAENG, чтобы получить скидку 2$.
Kaggle
Alimbekov Renat [dsmlkz]
Data scientist/IT manager/IT Auditor from Almaty Kazakhstan
[dsmlkz]: Kazakhstan Data Science Community
[dsmlkz]: Kazakhstan Data Science Community