Инжиниринг Данных – Telegram
Инжиниринг Данных
23.4K subscribers
1.98K photos
56 videos
192 files
3.2K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Из жизни:

-Мы только что внедрили Machine Learning!
-Ваша модель быстрая?
-Нет.
-Ваша модель дешёвая?
-Нет.
-Ну хотя бы она решает бизнес проблему?
-Нет. Но она является произведением инжирингового искусства и построена с помощью самых современных инструментов!

Мне кажется у меня похожий подход про решения data engineering 🤗
This media is not supported in your browser
VIEW IN TELEGRAM
Как создать свою игру и заработать на ней?
Что актуально сегодня и будет востребовано завтра?
Как устроен процесс разработки в мобильном геймдеве?

https://news.1rj.ru/str/product_gamedev

В этом канале рассказывается внутренняя кухня разработки игр. Геймдизайн, аналитика и маркетинг.
Кратко, без воды, только самая суть.
fivetran-2020-essential-guide-digital.pdf
1.1 MB
Whitepaper от облачного ETL Fivetran про маркетинговую аналитику
Forwarded from Я у мамы аналитик (Stas Valuev)
Уже неделю всей редакцией (сам с собой, ага) кайфую с энциклопедической статьи про базы данных. Если бы сейчас кто-то попросил скинуть материалы для погружения в тему - поставил бы на первое место без колебаний.

Тут и схемы, и графики, и топы, и написано по делу (и даже нет привычного срача в комментах).

Немного про статистику и тренды:
- реляционные БД все еще сила, занимают почти 75% рынка;
- open source и тут растет и, кажется, скоро начнет побеждать;
- облачные БД тоже растут, но до победы еще ой как далеко;
- подробнее про популярность различных БД тут.

🔗 Ссылка на статью
1609228817415.pdf
14.2 MB
33 Tableau Tips от Tableau Zen Master Ryan Sleeper (это его книги по табло доступны в русском переводе)
Есть что рассказать про Data Analytics на английском, можете попробовать зарегистрироваться тут https://callfordataspeakers.com/

А если хотите на русском, то welcome в datalearn, проведем вебинар!
Еще один инструмент для ETL, Data pipeline и даже для ML. https://dagster.io/
У Microsoft есть сайт, где можно выбрать бесплатные тренинги и воркшопы онлайн https://events.microsoft.com/
🎉 Друзья всех с Наступающим Новым Годом, а для тех кто будет это читать или смотреть позже, то уже С Новым Годом!

❤️ Команда DataLearn шлет поздравления - всем участникам сообщества и будущим новичкам.

❤️ В поздравлении мы анонсировали часть новинок, которые вас будут ждать, но далеко не все, а анонсы новинок в том числе не представленных в видео, анонсируем в ближайшее время
https://youtu.be/LaV5m7S3KP0
Короткое и интересное видео про работу голосовых помощников, которые собирают наши данные, чтобы делать рекламу умней. Интересный момент, колонки Гугл и Алекса почти задаром, а вот у Яндекса они стоят очень дорого, чтобы собирать данные клиентов. Возможно производство не такое массовое и поэтому дорогое.
Netflix описал как они оптимизировали хранилище данных в Amazon S3. https://netflixtechblog.com/optimizing-data-warehouse-storage-7b94a48fdcbe
В этом посте один товарищ долго и с картинками размышляет про разницу ETL и ELT.
Пример архитектуры для Big Data на AWS/GCP/Azure
Матилион недавно рассказал просто про Lakehouse на BigData London.

Lakehouse = DW + Data Lake. В облаках они хороши вместе уживаются в общую платформу.
Попался интересный ресурс про Data
Добавил новое видео про ETL подсистемы.

Согласно Ральфу Кимбаллу (тот самый, который изобрел Dimensional Modelling), существует 34 ETL подсистемы, которые делятся на 4 основных категории:
📌 Data Extracting (получить данные из систем - E в ETL)
📌 Cleaning and Conforming Data (интеграция данных и подготовка к загрузке в DW - T в ETL)
📌 Delivering Data for Presentation (обработка данных в DW - L в ETL)
📌 Managing the ETL environment (yправление и мониторинг компонентов ETL)

Само по себе понятие ETL подсистема - это некая абстракция. Не нужно копать глубоко. Как правило - это либо компонент ETL решения, например готовый компонент в Pentaho DI для создания SCD Type 2 (подсистема 9) или компонент для создания последовательности чисел, в случае необходимости генерации суррогатных ключей (подсистема 10). Это может буть функциональность ETL инструмента для обработки ошибок (подсистема 5) или возможность мониторинга выполнения ETL job (подсистема 27).

Ну а если вы используете код (python, java, C и тд), то вам необъодимо уже изобретать свои компоненты или искать существующие.
Старый пост от HBR про Learning to Learn. Главное преимущество тогда и тем более сейчас это учиться быстрее чем ваши конкуренты (применимо для компаний). Тоже само и про персональное развитие, это непозволительная роскошь что-то выучить от начала до конца и расслабиться. (В нашей профессии конца нет, пока учишь одно, появляется ещё 3 новых технологии/подхода). Чем дальше тем больше нужно учить, поэтом скорость потребления материала (не количество прочитанных книг или прослушанных лекций), а именно ценные блоки информации, которые помогают нам развивать нашу карьеру и компетенцию.
1609865357375.pdf
2.6 MB
Очень веселая презентация - Statistics for Hackers