Data Engineering / Инженерия данных / Data Engineer / DWH – Telegram
Data Engineering / Инженерия данных / Data Engineer / DWH
2.28K subscribers
50 photos
7 videos
53 files
356 links
Data Engineering: ETL / DWH / Data Pipelines based on Open-Source software. Инженерия данных.

DWH / SQL
Python / ETL / ELT / dbt / Spark
Apache Airflow

Рекламу не размещаю
Вопросы: @iv_shamaev | datatalks.ru
Download Telegram
Forwarded from Инжиниринг Данных (Dmitry)
DATALEARN | DE - 101 | МОДУЛЬ 7-4 ЗНАКОМСТВО С SPARK API

В этом модуле мы познакомимся еще ближе с Apache Spark.

В этом видео вы узнаете про:

📌 что такое RDD (Resilient Distributed Datasets)
📌 что такое DataFrame
📌 посмотрим на пример синтаксиса Scala vs Python
📌 типы данных Spark
📌 схему(schema) dataframe
📌 колонки (colums) и вычисляемы (expressions) поля dataframe
📌 основные операции при работе с dataframe (Reader, Wrtiter)
📌 примеры чтения разных источников и файлов (API, база данных, JSON, Parquet, CSV, TXT)
📌 различные операции для трансформации, фильтрации и агрегации данных в Spark DataFrame (прям как в SQL)
📌 Spark SQL, Catalyst Optimizer
📌 план запроса Spark
📌 примеры advance Spark функций и ноутбуков в Databticks

В качестве лабораторной работы мы будем анализировать данные по пожарной службы Сан-Франциско. Я покажу, как можно прочитать файл и выполнить простые запросы на PySpark.

Так же мы посмотрим на курс от Databricks про Apache Spark Developer. Мы посмотрим лишь, часть, которая относится к этой лекции:

📌 Reader & Writer
📌 DataFrame & Column
📌 Aggregations
📌 Datetime functions
📌 Complex Types
📌 Additional Spark Functions

PS В репозиторий я добавил следующие доп материалы:

🌴Есть целый курс Apache Spark Programming в 2х вариантах:
- HTML - вы можете посмотреть на пример кода
- Databricks Notebooks - вы можете загрузить ноутбуки в Databricks Community Edition

🌴Так же я создал небольшой docker-compose.yml (chatGPT4 создал 🤖) - как шаблон для запуска:
- Spark 3.2.0
- Jupyter notebooks

Что нужно сделать (помочь):
1. Взять курс Databricks, и скопировать демо данные (там монтируется папка с Parquet) в наш репозиторий.
2. Проверить, что docker-compose работает, и добавить файлы из лаб (PySpark) и демо данные в контейнер по Jupyter.

Таким образом, Databricks нам больше вообще не нужен будет, чтобы пройти курс Apache Spark Developer. Кто в теме, сделайте pull request. Вы можете обсудить этот вопрос в Datalearn чате (модуль 7).
Доступ к ChatGPT
Если не знаете, как получить доступ к ChatGPT, то советую заюзать https://onlinesim.io/v2/numbers/

Не реклама (сам несколько раз использовал)
Hi everyone!

Great work on the projects! Now it's time to evaluate your peers.

We've updated the page with the projects (https://github.com/DataTalksClub/data-engineering-zoomcamp/blob/main/cohorts/2023/project.md), now it contains two more links:

- Peer review assignments: https://docs.google.com/spreadsheets/d/e/2PACX-1vRYQ0A9C7AkRK-YPSFhqaRMmuPR97QPfl2PjI8n11l5jntc6YMHIJXVVS0GQNqAYIGwzyevyManDB08/pubhtml?gid=0&single=true
- Evaluation form: https://forms.gle/1bxmgR8yPwV359zb7

To find the projects assigned to you, use the first link (peer review assignments) and find your hash in the first column. You will see three rows: you need to evaluate each of these projects. For each project, you need to submit the form once, so in total, you will make three submissions.

Use this as an opportunity to learn from your peers - and you will learn a lot.

But also remember - if you don't do peer review, you will fail your projects.

Have fun!

Also - the form for submitting project attempt #2 is open, so if you didn't have time to work on your project yet, now you can do it.
https://www.phind.com/ - Phind: The AI search engine for developers.

Get instant answers, explanations, and examples for all of your technical questions.
Youtube PlayList: Apache NiFi с нуля за 3 часа. Конструктор вместо кода

1. Apache NiFi Install v1.14.0
2. Apache NiFi. Введение и первый опыт на практике. Это же конструктор!
3. Процессоры в Apache NiFi и не только. Разбираемся с деталями конструктора
4. Apache NiFi особенности. Без чего не выйти в прод
5. Проблемы с Apache NiFi и как с ними бороться. Наш опыт
6. Как ускорить процессоры в Apache NiFi. Оптимизация
7. История изменений данных в Apache NiFi. Data Provenance
8. Apache NiFi Registry Install v1.14.0
9. Экспорт и импорт потоков с помощью рук, Rest Api и Apache NiFi Registry
10. Git, Apache NiFi Registry и CI/CD
11. Обзор Keycloak и настройка SSO в NiFi
12. Выкачиваем код Apache NiFi. Меняем под себя и делаем UI для процессора

https://www.youtube.com/playlist?list=PL4MpKy3QjNp_rOEEibc4Ro8UK4g8vLX6_
AvitoTech Team PlayBook

Открытый справочник по ценностям, бизнес-процессам, стандартам, процедурам и правилам, которые используются в команде разработки в Авито.

https://github.com/avito-tech/playbook

Подсмотрел в канале @rtdlinks