Инжиниринг Данных – Telegram
Инжиниринг Данных
23.4K subscribers
1.98K photos
56 videos
192 files
3.2K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
Meetup прошел супер! Секрет простой, надо побольше гифок в презентацию и побольше шутить. Люди хотят развлечений вечером после работы, а не скучные рассказы как там все в облаке работает;)
Интересная статья про сравнение аналитики и статистики как отдельных дисциплин.
Хороший курс по основе работе с данными - трансформации и визуализация.
Я нираз писал про Snowflake. Вот и книжка почти готова. На вопрос зачем столько книг писать? Ответ простой, написать книгу - это всего лишь возможность, которая создаст еще больше возможностей. Особенно если учесть, что Rock Your Data нацелена на облачную аналитику, то такие книги лишь укрепят авторитет компании для партнеров и клиентов.
Если кто в Ванкувере в эти дни - Велком! Осталось разобраться как работает Azure, и подготовиться к экзамену DP-200 Data Platform Engineer ну и все материалы подготовить. Если у кого чего есть, поделитесь. Я нашел интересный курс на Linux Academy - Azure D200 Certification Prep.
Команды curl вам пригодиться! Если вы работаете с данными и не знаете, что это такое, то в этом посте подробно описано с примерами и упражнениями. https://jvns.ca/blog/2019/08/27/curl-exercises/
Слышали о CAP теореме? В CAP говорится, что в распределенной системе возможно выбрать только 2 из 3-х свойств:

C (consistency) — согласованность. Каждое чтение даст вам самую последнюю запись.
A (availability) — доступность. Каждый узел (не упавший) всегда успешно выполняет запросы (на чтение и запись).
P (partition tolerance) — устойчивость к распределению. Даже если между узлами нет связи, они продолжают работать независимо друг от друга.

Обычно, когда мы собираемся строить решение Big Data, то вам стоит подумать, какие 2 требования наиболее важны для проекта.
Мы слышали много раз про Data Lake, но всегда был вопрос как же не превратить это все в болото данных. Успех был в правильной организации метаданных. Теперь Data Lake эволюционировали в Delta Lake, то есть действительно стали на шаг ближе к традиционным хранилищам данных. Более подробно в статье от databricks.
А вы бы смогли объяснить бабушке, что такое SQL и NoSQL? Посмотрите как это делается в этой статье.

Что касается меня, то за весь свой опыт я стороной обходил NoSQL. Можно решить аналитическую задачу без NoSQL. Да и вообще каждый проект имеет множество решений и зависят они от экспертизы в команде. Если это программисты, то будет java/python, AWS lambda, glue (например), если это BI, то будет много custom SQL (везде где только можно), ну и так далее. Достаточно знать один способ очень хорошо и понимать конечную цель, а цель обычно одна, бизнесу денег заработать.
Данные помогает делать бизнес (деньги) эффективней, но какой ценой? Все знают про Amazon Prime - бесплатная доставка за 2 дня, есть и другие опции как Prime Now, Prime Air и другие. Мы можем использовать данные, чтобы рассчитать модель доставки, и на компьютере все будет сходиться. Конечно все факты сложно учесть. Wallmart, например, пытается сделать доставку за 1 день, вместо 2х. В этой статье описаны случаи, когда из-за жесткого графика доставки страдают люди. По сути это обратная сторона монеты эффективной бизнес модели основанной на данных.
Если уж так случилось, что вы бросились изучать Machine Learning, то шаг номер один это математика, а если сразу математика и питон, то это замечательно, нашел классный курс для вас (бесплатный)! Платный будет только если я сделаю😝 А вот от него лабы, можете посмотреть.