Инжиниринг Данных – Telegram
Инжиниринг Данных
23.4K subscribers
1.98K photos
56 videos
192 files
3.2K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
На фотки студии Microsoft/Xbox. Я уже познакомился с командами аналитики в половине студий. Ну и все игры поиграл. Недавно ещё заказал новый Xbox Series S, и купил у коллеги руль с педалями Logitech G920. Осталось найти время поиграть, но детям нравится моя новая работа🤙
13 мая Steve Wexler расскажет про свою новую (несомневаюсь - крутейшую) книгу - The Big Picture. Регистрация https://us02web.zoom.us/webinar/register/WN_M0CIUP6dSAaL7XDfmpI9UA
Есть ещё одна лаба, которую я хочу сделать. 6й модуль будет про аналитические хранилища данных. И Терадата это одна из первых MPP платформ. В лабе я хочу, скачать готовую VM с Терадата, запустить её в VMware, загрузить туда данные через Pentaho (с локальной машины), то есть опять нужно настроить сеть, чтобы локальный и VM были вместе. (У меня есть инструкция). А дальше можно позапускать запросы, чтобы посмотреть на разные фичи MPP базы, которые будут так же актуальны и для AWS Redshift. В общем, если, кто хочет заморочиться, чтобы сделать и описать все в markdown, пишите в комментариях.
Согласно github, datalearn 10 мая был 1 год!
Урок 5.4 Основы безопасности облачных решений.

Безопасность одна из самых важных и скучных тем, по крайней мере для меня. Очень важно понимать возможности облачных провайдеров и знать основные правила создания облачных решений. В этом уроке я расскажу про:

📌 Cloud Shared Responsibility Model (Модель общей ответственности в облаке)
📌 Security Terms (Термины безопасности)
📌 Cloud Security Threats (Облачные угрозы безопасности)
📌 Cloud Security Mechanisms

На лабораторной работе мы посмотрим примеры сервисов для безопасности облачных решения и воспользуемся AWS CLI.
Ребята в процессе создания лабораторных работ для модуля 5. Уже готовы:

Запуск экземпляра EC2 в частном виртуальном облаке (Virtual Private Cloud - VPC)
В этом практическом занятии у вас будет возможность изучить и понять фундаментальные и вычислительные сервисы, предоставляемые AWS. Мы создадим частное виртуальное облако (Virtual Private Cloud - VPC), подсети в нескольких зонах доступности (Availability Zones - AZs), маршруты (routes) и интернет-шлюз (internet gateway), а также добавим группу безопасности. Эти сервисы являются основой сетевой архитектуры внутри AWS и охватывают такие концепции, как инфраструктура, дизайн, маршрутизация и безопасность.
Автор: @erfolg5862

Создаем статичный веб-сайт на Amazon S3
В этой лабораторной работе мы с вами создадим простой статичный веб-сайт и зададим базовые настройки его конфигурации. Этот пример продемонстрирует, как легко можно создать хостинг для веб-сайта, который будет содержать файлы: HTML, CSS, JavaScript, шрифты и изображения.
автор: @edgar_lakshin

Создаем лямбда функцию в AWS Console
В этом практическом лабораторном сценарии вы напишете лямбда-функцию Node.js, которая проверяет URL-адрес (например, www.amazon.com) и возвращает код состояния, который показывает, работает ли веб-сайт или нет. Во время этой лабораторной работы у вас будет возможность изучить консоль Lambda, код функции, роли выполнения, тестовые события и результаты выполнения. AWS Lambda позволяет писать краткие функции и беспокоиться только о своем коде. Поскольку Lambda является бессерверной, AWS управляет базовой инфраструктурой за вас.
Автор: @AlexMadeAnotherOne

И в процессе еще много лабораторных работ по модулю 5, 6 (облачные DW), и 8(big data в облаке).

Хотите, что-то выучить? Лучший вариант это учить других;) Можете тоже добавить лабораторную работу.
как же знакомо…🤣
Материалы “Cheat Sheet” по подготовки к сертификации по Google Cloud Platform. https://www.startcloudnow.com/google%20cloud.html
original.pdf
1.2 MB
Azure Synapse Analytics Playbook
IoT аналитика всегда интересна. Примеры решений на Azure Databricks (Spark). IoT проект включает в себя:
- создание Delta Lake (3 слоя Bronze, Silver, Gold)
- создание streaming pipelines
- дашборды на Power BI

Part 1
Part 2
Part 3
GDPR и Privacy - вызов для дата инжиниринга. Тут нужно либо потратить много времени для дизайна будущей системы, чтобы она отвечала всем требованиям, либо потратить ещё больше времени на модификацию существующей.

NY times рассказывает про свой случай.

В Амазоне я застал время до и после законов GDPR. В один прекрасный момент все наши озера данных (данные в S3 в виде файлов), стали вдруг не complaint. Решение были разные:
1) перезагружать все данные каждые 90 дней
2) хранить только последние 30 дней
3) хранить только в базе данных Redshift
4)Delta Lake на EMR+Spark

Все вдруг стали очень занятыми и у нас появилось много новой работы))
Daniel Kahneman: ‘Clearly AI is going to win. How people are going to adjust is a fascinating problem’

Daniel Kahneman, 87, was awarded the Nobel prize in economics in 2002 for his work on the psychology of judgment and decision-making. His first book, Thinking, Fast and Slow, a worldwide bestseller..В общем понятно, что за “кент”))

https://www.theguardian.com/books/2021/may/16/daniel-kahneman-clearly-ai-is-going-to-win-how-people-are-going-to-adjust-is-a-fascinating-problem-thinking-fast-and-slow