Инжиниринг Данных – Telegram
Инжиниринг Данных
23.4K subscribers
1.98K photos
56 videos
192 files
3.2K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Для Северной Америке главный интерес сейчас вокруг миграции DW (не важно откуда и куда, но главное все мигрировать и модернизировать), обычно это будет одна из 4х платформ Redshift, Azure Synapse, Big Query, Snowflake. (Или это просто мой feed и мой bias)
Проблемы с данными
С сентября в University of Victoria я буду преподавать Cloud Computing для студентов MBA и для курсов повышения квалификации. Скорей всего это будет AWS Educate + Azure. Заодно можно будет и на русском сделать этот курс для data learn
Data Learn начинался как супер ресурс для Data Engineering. Но программа получилась такая, что она пойдет даже тем, кто вообще без опыта (и мне даже так легче, последовательно). Реальный DE начнется в модуле 5-6. Но зато всем будет понятно, что это.

Если есть простые вещи, просто пропустите и мы дойдем до вещей по сложней. Зато, возможно ваши знакомые кто, слышал про ИТ и думает, что это только программирование, computer science и Machine Learning, смогут отрыть для себя новый мир, где нет высоких входных требований, и от простого идти к сложному.

В общем небольшой обзор Excel. Это такой опциональный вариант, для аудитории, кто совсем без опыта. Уверен много классных ресурсов по Excel (скиньте в комменты ссылки).

Один из учеников - Павел Новичков создал дашборд для примера и пишет пошаговую инструкцию, как можно сделать такой же.
Пообщался с командой, которая будет строить центральное Озеро Данных для Amazon Human Resources. Первое требование - coding для Data Engineer. То есть нужно знать SQL и Python. Про R вообще не слышно, как будто нишевой продукт.
Вот некоторые из реальных business cases применения Machine Learning, которые могут применяться к компаниях:
1. Ranking (ранжирование) - на сайте Amazon вы вводите ключевое слов и получаете список продуктов. Задача Amazon показать наиболее релевантный продукт клиенту.

2. Recommendation (рекомендации) - показать клиенту то, что ему нужно, желательно только один продукт.

3. Classification (Классификация) - создание категорий и подкатегорий продуктов.

4. Regression (Регрессия) - используется для численных значений, например прогноз продаж.

5. Clustering (Кластеризация) - группировка клиентов по схожим признакам, например для рассылки email с рекламой.

6. Anomaly Detection (Предсказание сбоев) - Можно использовать серверные логи в дата центре, чтобы предсказать следующий отказ.

7. Natural Language Understanding - Alexa трансформирует звук в текст, и извлекает семантику и выполняет конкретное действие.

8. Computer Vision (компьютерное зрение) - распознавание изображений, например по фотографии можно определить категорию продукта.

Напишите в коментах еще примеры
Парадо́кс дней рожде́ния. В группе, состоящей из 23 или более человек, вероятность совпадения дней рождения (число и месяц) хотя бы у двух людей превышает 50 %. Например, если в классе 23 ученика или более, то более вероятно то, что у какой-то пары одноклассников дни рождения придутся на один день, чем то, что у каждого будет свой неповторимый день рождения