Инжиниринг Данных – Telegram
Инжиниринг Данных
23.5K subscribers
1.98K photos
56 videos
192 files
3.2K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Пока мы в свои 20-30+ думаем, чем бы нам заниматься и где развиваться, некоторым удается в 10 лет сделать больше😜 Я в 10 лет мог из лего замок построить, кстати он еще со мной в Канаде, мое приданное. И он стоит на Ebay 500US$ (собранный). Лего еще та инвестиция! Вообще с лего интересно получилось, все свое лего так бережно берег для своих детей, а оно у них повсюду валяется, все перемешано и сломано… Но замок лежит в гараже до лучших времен.☺️
В последнем видео про ETL я рассказывал про ETL подсистемы и одна из них называлась Late Arriving Dimensions. Скрывать не буду, особо никогда не пользовался этим подходом. Вот довольно простое видео от Matillion на примере Snowflake.

А если у вас не хранилище данных, а озеро, в нашем примере delta lake, то там тоже можно реализовать этот подход.
Новый вебинар от Романа:

Друзья, приветствую всех!
Вот и польза подоспела сразу после праздников.
В среду (13 января) в 20:00 по мск вебинар!

Тема: Data команда. Цели, структура и управление
Спикер: Владимир Лагутинский, профессионал с 10-ти летним опытом в данной теме
🔔 Что нужно сделать:
📌 Перейти по ссылке и поставить колокольчик, чтобы в понедельник не пропустить
📌 Отложить все дела на понедельник
📌 В среду в 20:00 быть на вебинаре

Всех обнял, до встречи в эфире
🤗
И ПОДПИШИТЕСЬ НА НАШ ЮТУБ
https://youtu.be/NLOq7GC7zA8
Родители у меня орнитологи и работают в Московском Зоопарке, в принципе я там и вырос, и водил свою будущую жену на свидание покормить пеликанов. Они несколько раз посещали Канаду и отец кандидат наук по птицам и хорошо в них разбирается и у него много научных статей по этой теме. Я ему помог освоить medium, где он написал мини рассказ про животный мир Британской Колумбии, если кому интересно, можете прочитать.
Это пять!
Интересное решение - google big query позволяет читать данные в другом облаке. Это уже тренд на multicloud и пример как вендоры адаптируются, ну и со снежинкой конкуренция. Раньше bigquery умел читать только данные из своего google storage.
Мы начали наш вебинар про руководство Data проектов https://youtu.be/NLOq7GC7zA8
Майкл Сейлор - создатель MicroStrategy. Сейчас они ещё на плаву за счёт больших клиентов, я даже про них написал книгу в 2015, когда работал с продуктом. И в Москве было большое разочарование, когда прошел собеседование на sales engineer по MicroStrategy и в итоге они решили закрыть офис в Москве. Интересный факт, что в прошлом году или в 2019, компания инвестировала 120млн баксов своих денег, + сам Майкл вложил кучу своих денег в Bitcoin. Неожиданное решение от совета директоров, но теперь это дело стоит 500млн. Интересно как дальше пойдет. Я вот без единого биткоина, но зато есть серебряные и золотые монеты, акции snow, Tesla, amazon и Microsoft. И на том хорошо, что хоть немного денег удалось не проесть🤗 а у вас как?
Для девочек 12-19 лет отличная возможность изучить технологии и профессии в tech.

DigiGirlz at Microsoft
Microsoft is proud to offer free technology programs specifically for youth. Our Microsoft DigiGirlz programs give middle and high school girls* opportunities to learn about careers in technology, connect with Microsoft employees, and participate in hands-on computer and technology workshops.
Analytics Engineer vs Data Engineer vs Data Analyst. dbt в своем посте рассказывает про особенности каждой роли. Я на своем опыте понял, что гнаться за классными названиями не всегда удобно. Например, в Linkedin я сделал Analytics Engineering, но есть проблема - рекрутеры, руководители компаний и другие люди, кому я мог бы “продать” свой профайл, не очень понимают. Сейчас вроде как для большинства, что есть BI, Data Engineering и Data Science. Поэтому, несмотря на то, что Analytics Engineering более подходит к тому, что я делаю - end to end analytics solution, приходится играть по правилам рынка.

Кстати, чем больше узнаю про dbt, тем больше вижу преимущество SQL ETL vs того же Apache Airflow с питоном.
Про #datalearn

Мы используем GitHub как учебник, для конечного пользователя это просто страничка с текстом и гиперссылками на YouTube видео, дополнительные материалы или файлы для домашнего задания.

На текущий момент 2 основных страницы в нашем учебнике:
1. readme.md - Про курс “Введение в Аналитику и Инжиниринг данных”, информация про каналы Slack и пару ссылок на YouTube про курс.
2. DE-101.md - Следующая страница непосредственно про сам курс. Тут введение к курсу, оглавление, требования к курсу (больше как рекомендации), информация про значки и сертификат и ссылки на главы (модули) курса.
Trino - еще одна технология open source SQL engine. Я лично никогда не использовал. Из ближайшего я пользовался Amazon Athena (presto).Trino как раз и есть presto, они его переименовали и добавили новые фичи.

Update от Евгения из комментария: Есть два разных Presto - один это PrestoDB, это то что сделали в фб и эта версия поддерживается их сообществом. Есть prestoSql(теперь trino) - это часть разрабов ушедшая с фб организовали свою компанию и форкнулись от prestoDB и теперь пилят свою версию. А ещё есть https://www.starburstdata.com/ - они делают интерпрайз версию presto))
Новый, полезный вебинар от Романа. Нравится вам или нет, но git это важный инструмент современного инженера/аналитика. Поэтому мы хотим вам помочь освоить его.

Друзья уже в понедельник долгообещанный вебинар по гиту

Приготовьте свои датапушки
💣 и заварите чай ☕️

Дата: понедельник 18 января в 20:00 по мск
Спикер: Денис Волк
Senior Data Scientist в зарубежном стартапе, через фриланс-биржу Toptal. 18 лет опыта в науке и наукоёмких проектах, из них 8 непосредственно связаны с разработкой DS/ML решений. PhD in math.
Тема вебинара: Расскажет о Гите - что, как и зачем
Краткое содержание:


Зачем?
Как?
Основная часть: "как устроена работа с git": демонстрация экрана
Создания р
епозитория
Git add
Git reset
Git commit
Ветки
Git merge
Два основных формата работы с ветками
Методология git flow
Github/gitlab


И это вкратце - там дофига, возможно разобьем на 2 вебинара
Гитхаб - это один из самых необходимых инструментов для работы, так что приходите и учитесь
🔔 Что нужно сделать:
📌 Перейти по ссылке и поставить колокольчик, чтобы в понедельник не пропустить
📌 Отложить все дела на понедельник
📌 В понедельник в 20:00 быть на вебинаре

Всех обнял, до встречи в эфире :hugging_face:
И ПОДПИШИТЕСЬ НА НАШ ЮТУБ
ССЫЛКА:
https://youtu.be/-CPiOe9rnh0