Инжиниринг Данных – Telegram
Инжиниринг Данных
23.4K subscribers
1.98K photos
56 videos
192 files
3.2K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Сегодня я выступаю в офисе McKinsey Boston вместе с их дочерней компанией QuantumBlack, которая является (для меня) самой крутой в мире консалтинговой компанией по аналитике. Поэтому я хочу, чтобы Rock Your Data была чем-то похожа на них, но у нас пока нет бизнес консалтинг партнера, но идея правильная, да и офисов по всему миру😎

Вот презентация.

*Про Матиллион я демо покажу, а в презентацию просто накидал скиншоты.
This media is not supported in your browser
VIEW IN TELEGRAM
Meetup прошел супер! Секрет простой, надо побольше гифок в презентацию и побольше шутить. Люди хотят развлечений вечером после работы, а не скучные рассказы как там все в облаке работает;)
Интересная статья про сравнение аналитики и статистики как отдельных дисциплин.
Хороший курс по основе работе с данными - трансформации и визуализация.
Я нираз писал про Snowflake. Вот и книжка почти готова. На вопрос зачем столько книг писать? Ответ простой, написать книгу - это всего лишь возможность, которая создаст еще больше возможностей. Особенно если учесть, что Rock Your Data нацелена на облачную аналитику, то такие книги лишь укрепят авторитет компании для партнеров и клиентов.
Если кто в Ванкувере в эти дни - Велком! Осталось разобраться как работает Azure, и подготовиться к экзамену DP-200 Data Platform Engineer ну и все материалы подготовить. Если у кого чего есть, поделитесь. Я нашел интересный курс на Linux Academy - Azure D200 Certification Prep.
Команды curl вам пригодиться! Если вы работаете с данными и не знаете, что это такое, то в этом посте подробно описано с примерами и упражнениями. https://jvns.ca/blog/2019/08/27/curl-exercises/
Слышали о CAP теореме? В CAP говорится, что в распределенной системе возможно выбрать только 2 из 3-х свойств:

C (consistency) — согласованность. Каждое чтение даст вам самую последнюю запись.
A (availability) — доступность. Каждый узел (не упавший) всегда успешно выполняет запросы (на чтение и запись).
P (partition tolerance) — устойчивость к распределению. Даже если между узлами нет связи, они продолжают работать независимо друг от друга.

Обычно, когда мы собираемся строить решение Big Data, то вам стоит подумать, какие 2 требования наиболее важны для проекта.
Мы слышали много раз про Data Lake, но всегда был вопрос как же не превратить это все в болото данных. Успех был в правильной организации метаданных. Теперь Data Lake эволюционировали в Delta Lake, то есть действительно стали на шаг ближе к традиционным хранилищам данных. Более подробно в статье от databricks.
А вы бы смогли объяснить бабушке, что такое SQL и NoSQL? Посмотрите как это делается в этой статье.

Что касается меня, то за весь свой опыт я стороной обходил NoSQL. Можно решить аналитическую задачу без NoSQL. Да и вообще каждый проект имеет множество решений и зависят они от экспертизы в команде. Если это программисты, то будет java/python, AWS lambda, glue (например), если это BI, то будет много custom SQL (везде где только можно), ну и так далее. Достаточно знать один способ очень хорошо и понимать конечную цель, а цель обычно одна, бизнесу денег заработать.
Данные помогает делать бизнес (деньги) эффективней, но какой ценой? Все знают про Amazon Prime - бесплатная доставка за 2 дня, есть и другие опции как Prime Now, Prime Air и другие. Мы можем использовать данные, чтобы рассчитать модель доставки, и на компьютере все будет сходиться. Конечно все факты сложно учесть. Wallmart, например, пытается сделать доставку за 1 день, вместо 2х. В этой статье описаны случаи, когда из-за жесткого графика доставки страдают люди. По сути это обратная сторона монеты эффективной бизнес модели основанной на данных.