DataEng – Telegram
DataEng
4.35K subscribers
40 photos
9 files
537 links
Канал про Data Engineering & Distributed Systems.

Всё, что вы хотели знать про построение инфраструктуры для хранения, обработки и эффективного анализа гигантского объёма данных.

Автор @adilkhash
Download Telegram
Forwarded from Инжиниринг Данных (Dmitry Anoshin)
8 июня Иван Трусов - Solution Architect Databricks в Берлине расскажет нам про платформу Databricks и Lakehouse.

У нас запланирована целая серия вебинаров с русскоговорящими архитекторами Databricks, stay tuned!

Хочу рассказать как со всеми ними познакомился. Так как я внедряю Azure Databricks в Microsoft Gaming/Xbox, то спустя какое-то время я устал париться с поддержкой Azure и ждать неделями их бесполезные ответы, я написал директору Azure Databricks в Microsoft и попросил помочь с CI/CD, в итоге наc соединили с командой архитекторов в Берлине и Амстердаме и я рассказал им про datalearn и попросил выступить. Мир тесен!

PS CI/CD pipeline уже работает!
Forwarded from Kseniia Tomak
DE or DIE #7

Ребята, мы рады анонсировать митап #7 нашего сообщества DE or DIE!

Дата и время: 16 июня (среда) 18:00
Формат: Онлайн (трансляция на YouTube)

Регистрация по ссылке: https://deordie.timepad.ru/event/1669693/

Темы:
18:00-19:00. Handling late data. How to make the right choice? - Дарья Буланова
19:15-20:15. Ingestion and historization in the Data Lake? - Илья Тодор
20:15-20:45. After Show - организаторы DE or DIE и спикеры

(*): Несмотря на англоязычные названия доклады будут на русском языке.

Ждем вас в следующую среду. Ссылку на трансляцию опубликуем за час до мероприятия.
Прямо сейчас идёт митап по dataeng: https://www.youtube.com/watch?v=KzVFf65owck
Сказка про Apache Kafka: https://www.gentlydownthe.stream/
Forwarded from How to DWH with Python
Подготовил конспект курса по Spark. Поможет освежить важное в памяти или сэкономить время на просмотре. Сам курс к изучению рекомендую.

#briefly #spark Spark Starter Kit
https://telegra.ph/Udemy-Spark-Starter-Kit-part-1-06-19

What's inside:
— Hadoop and Spark comparison: storage, MapReduce, speed, resources management.
— Challenges Spark tries to address.
— How Spark achieves high efficiency.
— How Spark achieves fault-tolerance.
— What is RDD.

Ссылка на курс: Spark Starter Kit
Forwarded from DE or DIE
Мы опубликовали материалы митапа DE or DIE #7: https://deordie.org/meetups/07/ (видео докладов + презентации в формате PDF).
Forwarded from DevBrain
Крутейшие доклады с Python Web Conf 2021: https://www.youtube.com/playlist?list=PLt4L3V8wVnF4iB8pGfkR7eozIJPwCM7vv
Forwarded from DevBrain
Конференция о дата-инжиниринге SmartData 2021 ищет спикеров 🎙

Вам есть о чем рассказать и что обсудить с коллегами по цеху? Тогда вам нужно подать заявку на участие в конференции!

В этом году SmartData пройдет 11-14 октября, онлайн (гибридный формат решили отложить из-за непредсказуемости ввода ограничений на офлайн мероприятия).

Темы, которые ждут больше всего:
✔️ Стриминг;
✔️ СУБД и хранилища для больших данных;
✔️ Архитектура DWH;
✔️ Data governance;
✔️Технологии построения ETL;
✔️ Оркестрация и MLOps.

Но этим списком не ограничивается — вы можете подать заявку с любой темой из области дата-инжиниринга.

Если все-таки сомневаетесь, то программный комитет всегда готов обсудить актуальность темы и помочь выбрать правильный вектор доклада. Плюс, ребята помогут с прокачкой ваших ораторских навыков, если у вас мало опыта в публичных выступлениях. 

👉Подать заявку и узнать подробности можно на сайте.
Вопросы присылайте на почту program@smartdata.ru
Forwarded from DevBrain
Курсы по Redis стали доступны в режиме self-paced обучения бесплатно: https://university.redislabs.com/
Ребята из IT Resume @it_resume собрали большую подборку авторских телеграмм-каналов для аналитиков. Там более 20 каналов на любой вкус - анализ данных, программирование, data engineering, data science и многое другое 👍

Теперь вам точно будет, что почитать на предстоящих выходных 🙃
Подробнее - в статье
Свет увидела новая распределенная SQL база данных на Rust (учебная): https://github.com/erikgrinaker/toydb
Автор также подробно описал её архитектуру: https://github.com/erikgrinaker/toydb/blob/master/docs/architecture.md
Я сейчас изучаю как можно больше информации по теме качества данных (Data quality), и наткнулся на парочку статей от Airbnb:

- Data Quality at Airbnb: Part 1 — Rebuilding at Scale
- Data Quality at Airbnb: Part 2 — A New Gold Standard

Если вам также есть чем поделиться по теме, то накидайте, пожалуйста, ссылок в комментариях.
Всем привет! 🤝
Наверняка среди моих подписчиков есть люди, увлеченные темой Data Science. Мой товарищ Ренат Алимбеков (@alimbekovkz) недавно выпустил мануал по подготовке к интервью на роль data scientist. Ренат неоднократный призёр соревнований на Kaggle, а ныне data scientist в Beeline, где занимается задачами в области компьютерного зрения.

Наверняка многие из вас помнят, что Ренат выпускал бесплатный курс на моей образовательной платформе: Анализ медицинских изображений в Python, также он ведёт свой блог и канал.

Приобрести его руководство Data Science Interview Guide можно по ссылке на платформе Gumroad.

Используйте промокод DATAENG, чтобы получить скидку 2$.