Инжиниринг Данных – Telegram
Инжиниринг Данных
23.5K subscribers
1.98K photos
56 videos
192 files
3.19K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Analytics Engineer vs Data Engineer vs Data Analyst. dbt в своем посте рассказывает про особенности каждой роли. Я на своем опыте понял, что гнаться за классными названиями не всегда удобно. Например, в Linkedin я сделал Analytics Engineering, но есть проблема - рекрутеры, руководители компаний и другие люди, кому я мог бы “продать” свой профайл, не очень понимают. Сейчас вроде как для большинства, что есть BI, Data Engineering и Data Science. Поэтому, несмотря на то, что Analytics Engineering более подходит к тому, что я делаю - end to end analytics solution, приходится играть по правилам рынка.

Кстати, чем больше узнаю про dbt, тем больше вижу преимущество SQL ETL vs того же Apache Airflow с питоном.
Про #datalearn

Мы используем GitHub как учебник, для конечного пользователя это просто страничка с текстом и гиперссылками на YouTube видео, дополнительные материалы или файлы для домашнего задания.

На текущий момент 2 основных страницы в нашем учебнике:
1. readme.md - Про курс “Введение в Аналитику и Инжиниринг данных”, информация про каналы Slack и пару ссылок на YouTube про курс.
2. DE-101.md - Следующая страница непосредственно про сам курс. Тут введение к курсу, оглавление, требования к курсу (больше как рекомендации), информация про значки и сертификат и ссылки на главы (модули) курса.
Trino - еще одна технология open source SQL engine. Я лично никогда не использовал. Из ближайшего я пользовался Amazon Athena (presto).Trino как раз и есть presto, они его переименовали и добавили новые фичи.

Update от Евгения из комментария: Есть два разных Presto - один это PrestoDB, это то что сделали в фб и эта версия поддерживается их сообществом. Есть prestoSql(теперь trino) - это часть разрабов ушедшая с фб организовали свою компанию и форкнулись от prestoDB и теперь пилят свою версию. А ещё есть https://www.starburstdata.com/ - они делают интерпрайз версию presto))
Новый, полезный вебинар от Романа. Нравится вам или нет, но git это важный инструмент современного инженера/аналитика. Поэтому мы хотим вам помочь освоить его.

Друзья уже в понедельник долгообещанный вебинар по гиту

Приготовьте свои датапушки
💣 и заварите чай ☕️

Дата: понедельник 18 января в 20:00 по мск
Спикер: Денис Волк
Senior Data Scientist в зарубежном стартапе, через фриланс-биржу Toptal. 18 лет опыта в науке и наукоёмких проектах, из них 8 непосредственно связаны с разработкой DS/ML решений. PhD in math.
Тема вебинара: Расскажет о Гите - что, как и зачем
Краткое содержание:


Зачем?
Как?
Основная часть: "как устроена работа с git": демонстрация экрана
Создания р
епозитория
Git add
Git reset
Git commit
Ветки
Git merge
Два основных формата работы с ветками
Методология git flow
Github/gitlab


И это вкратце - там дофига, возможно разобьем на 2 вебинара
Гитхаб - это один из самых необходимых инструментов для работы, так что приходите и учитесь
🔔 Что нужно сделать:
📌 Перейти по ссылке и поставить колокольчик, чтобы в понедельник не пропустить
📌 Отложить все дела на понедельник
📌 В понедельник в 20:00 быть на вебинаре

Всех обнял, до встречи в эфире :hugging_face:
И ПОДПИШИТЕСЬ НА НАШ ЮТУБ
ССЫЛКА:
https://youtu.be/-CPiOe9rnh0
Последний раз я работал с Microstrategy в 2015 году и даже написал книгу про продукт. Они были реально крутыми среди Enterprise BI. И как я говорил, я мечтал работать у них. Даже была возможность работать на них в Торонто, но я выбрал Amazon.

Их лидер, реально шарит в трендах, поэтому обязательно посмотрите хотя бы keynotes их главной конференции.

https://www.microstrategy.com/en/resources/events/world-2021
Я хотел бы поделиться своими успехами и неудачами в 2020. Все они связаны в основном с работой. Я заметил, что лучше напридумывать себе планов много, и потом много завалить, чем напридумывать мало, и тоже много завалить.😂

Сначала список Failed:
Я провалил свою карьеру в Амазон, я так и не получил повышение L6. Я знаю почему, но все равно, 5 лет фигачить и не получить того, что хочется, это конечно еще та подстава. Я так и был просто data engineer. Но зато засчет communities, которые я развивал, меня многие знают в Амазоне, и будет легко прийти обратно, может быть на L7 сразу🤫
Rock Your Data консалтинг, после 3х лет, тоже дал течь. Но опыт крутой. Я придумал себе реальность, в которой я был Practice Director и моей миссией было нести инновации по облачной аналитике в Северной Америке. В остатке хорошая репутация на рынке, опыт и знания.
Впервые я почувствовал выгорание. Это когда ты лежишь в гору, а вершина все дальше и дальше и пропадает просто цель куда-то лезть.
Я думал сделать курс на datalearn это быстро. Оказалось нет. Я вообще не понимаю как всякие школы клепают курсы так быстро.
Я планировал сдать экзамены по AWS BigData, AWS Cloud Practitioner и Snowflake Core. 2 раза AWS Cloud Practitioner отваливался по среди экзамены🤯 и я в итоге забил. Прошел курс по AWS BigData и уже не стал освежать снежинку. И так сойдет.🤠 Сертификация полезна джунам, доказать, что они чего-то стоят.
Я планировал пройти все курсы по DataBricks, в итоге закончил только 10 процентов. И еще даже не вернулся к ним. Хочется, но не можется🥴
Я обложился книгами по Spark, и прочитал только 1ю главу (в 2х книгах)
Я нашел супер крутую книгу по Game Analytics, 800 страниц, прочитал где-то 80, и отложил🥴
Так же я сделал с книгой по Building Data Teams, прочитал 4 главы и встало. А есть и другие интересные книги, которые ждут, чтобы я их прочитал.
Я должен был полететь в Сан Диего на EDW20 конференцию, даже купил билеты, но из-за пандемии “все пропало, шеф”
Я провалил собесы в Tesla, Lyft и Facebook (там было больше всего раундов) на позицию manager data engineer
Летом я должен был переехать в Seattle, но решил вообще уйти из Амазона и пока не соваться в США.

Но есть и хорошее:
За свои “страдания” в Амазоне, я получил Sr Data Engineer в Microsoft, и мой total comp улучшился на 50%, конечно не то, что я хотел, но в Канаде очень сложно ЗП прям высокую получать. Прибавьте еще высокие налоги. В принципе я рассматриваю свою ситуацию как норм, но на мои доводы не помогли подвинуть планку во время переговоров. Так же мне дали Xbox, Xbox Game Pass и игровой комп, чтобы играл😋
Мой Канал уже достиг 5600 подписчиков, это вроде здорово. Моя привычка искать новости по аналитики и кому-нибудь их показывать приносит пользу.
Я построил настоящий турник, даже 2, детский и взрослый у себя во дворе, теперь вот подтягиваюсь.👊
Я получил синий пояс по джиу джитсу после 3х лет, что приятно. 💪
С пацанами стали лазить по местным горам, в среднем 1500 метров высота, зато там снега по пояс У нас это называется hiking. Уже 3 раза сходили, было круто.🏔
Сдал экзамен на огнестрельное оружие и охоту, сами понимает зомби апокалипсис за окном🧟‍♂️
Вместе с подписчиками написали новую книгу - Azure Data Factory

В общем по карьере все провалил, но основную задачу решил. Как видите, теряю хватку и уже сложней доделывать дела до конца, точнее чаще появляется вопрос “Зачем”. По карьере стало сложно, раньше была простая цель, переехать куда-нибудь и работать в компании типа FAANG. И вот я все это сделал, а дальше не подумал, что делать. Еще из дома работать🤪 с 3мя маленькими детьми.

В итоге я определил для себя несколько сценариев:
- Проработать года 2 в Microsoft, и потом если не будет движение, посмотреть на Австралию или Европу или продать себя дорого в Seattle, если вообще такая возможность существует. Прочитать все книги и пройти все необходимые курсы. 2 года сидеть на попе ровно.😇
- Иногда появляются мысли, что может уже хватить этих крысиных гонок, больше гулять и с детьми играть. Но с другой стороны, мы живем один раз, жизнь должна быть насыщенной и бить ключом.🤫
- Может быть пойти по стопам Rock Your Data, и например возглавить практику Data Engineering в Ванкувере в Slalom, но бюджеты как обычно скромные на зарплатной фонд, но это уже другая лига. По словам 4х Sr Directors из Северной Америки, я могу справиться с поставленной задачей🙄

PS datalearn занимает особое место, это мой персональный challenge и я его доделаю. Сейчас я хочу добавить воронку для студентов, где активных студентов мы будет продвигать и устраивать на работу. Есть уже пар success stories в РФ, пока испытательный срок, и даже получилось одно Канада (он был поваром до ковида, со мной на джиу джитсу ходил) устроить в этом месяце разработчиком Power BI. Не без помощи студентов datalearn, которые его накачивали знаниями в замен на практику английского.

PPS Моя жена читает, ей самое большое спасибо, за все что происходит и за возможность заниматься любимым делом! Заграницу только со своим самоваром!😍
❤‍🔥1
Статья про создания delta lake с помощью Redshift Spectrum и AWS Glue. Я про такое даже и не думал, а ведь Glue использует Spark, следовательно можно реализовать delta lake.
Какой(ие) messengers вы используете?
Anonymous Poll
97%
telegram
49%
what’s up
4%
signal
15%
viber
17%
skype
10%
facebook messenger
1%
wechat
Всем привет, вебинар по Гиту перенесли по техническим причинам. Сообщим как будет новая дата.
Я никогда не рассказывал про секретный ингредиент успешной карьеры. Так вот расскажу, я проработал где-то 4 года на Moscow Fashion Week в рассадке. То есть носить стулья и заставлять их. Ничего интересного, но я быстро смекнул, где круто, это работать со спонсорами и получилось перейти работать напрямую на руководство недели моды. 2 раза в год по 7 дней было супер весело. На фотке это атрибут работы со спонсорами - коморка с ништяками. Как в стихах у Маяковского - “На работе ты хозяин, а не гость..”. Этим алкоголем мы платили в такси, угощали охрану гостиного двора или точнее платили им “дань”, за то, что могли пол ночи там шуметь. Это была целая эпоха. Будущую жену я водил не только в зоопарк, но и на первый ряд на закрытые показы, afterparty/preparty, да что там жену, на первом ряду сидели наши родители, бабушки, друзья и просто хорошие люди. Вот где я приобрел реально полезные навыки, которые пригодились в карьере. Одно радует, что не засосало в этот fashion, там денег нет🙄
❤‍🔥1
А в этой статье обсуждается стоимость аналитического решения на Microsoft Azure. Уже понятно, что на облаках можно все сделать просто и быстро (относительно конечно), но при этом еще можно потратить очень много денег, и даже не заметить этого
Хотел поделится успехами одного из студентов. Я про него писал, он местный канадец, работал поваром. Во время пандемии его сократили. Мы как-то разговорились перед тренировкой джиу джитсу летом, я как обычно предложил ему стать BI разработчиком (наверно я предлагал всем своим знакомым🤔, у меня и других тем для разговора нет🤪). К моему удивлению он согласился.

Я его нагрузил материалами, книгами и курсами. Так как datalearn на русском, то пару студентов вызвались добровольцами переводить ему контент и помогать, ну и практиковать английский заодно.

Если честно, я даже удивился результатам:
1. Сделал хороший Linkedin профайл
2. Он сдал сертификат по AWS Cloud Practitioner.
3. Он прошел кучу курсов на Linux Academy, Cloud Academy и несколько на Coursera
4. Он стал учавствовать в MakeOverMonday по Tableau и уже нарисовал хорошие дашборды.
5. Он завел блог на medium и пишет чего-то там, выглядит солидно, пусть даже очень базовые вещи.
6. Он сделал резюме в Tableau

Сейчас он нашел контракт на PowerBI в местной консалтинг компании. “Человек сам кузнец своего счастья” - это прям про него. Я ему указал направление и за месяцев 8 он сделал такой крутой скачок. Он даже слово “аналитика” не знал, не то, чтобы SQL.

Поэтому, все в ваших руках!🤗
😊😜🤫
Нашел интересное:
Artificial Intelligence = linear regression & decision trees

Smart Algorithms = random forest

Next-Gen machine learning = boosted trees

AutoML = import autosklearn

Intelligent Automation = Windows scheduler, crontab

MLOps = docker

Analytics at scale = no more excel

Customer-centric data lake = we have customer_id in our database tables

Serverless Architecture = I have no idea what a server is

Cloud APIs = my dev-ops guy made me click some link

Advanced Analytics = SQL

DataViz Guru = library(ggplot2)

Data Consultant = often draws convenient conclusions from data

Advanced ML/DL = Python

Image Recognition = MNIST

NLP Experts = transfer learning on GTP-3/Bert

Reproducible experiments = jupyter notebooks

Maintain source code = git add . && git commit -m "yolo" && git push origin master

Distributed Analytics = no more MySQL on a laptop

Experimentation Framework = z-tests

Advanced Statistics = random control groups

Customer loyalty focus = we spam them with emails

Centre of Excellence = fancy team name to justify payrises

HR analytics = people leave, we didn't pay them enough


Добавляйте свои примеры в комменты
🐳1
Замечательные новости, скоро расшарю интересную вакансию в Москве. Оплата поста как обычно идет в организацию https://vsevsevmeste.ru/ (3000 рублей). Это хороший тренд использовать деньги за рекламу в постах на что-то хорошее. Все просто, если я не трачу свое время, то почему бы не направить эти деньги на что-то хорошее. Возможно и другие каналы могу работать по такой же модели🤗
Пообщался со Slalom недавно, раз так 7. В итоге они предложили интересную позицию Director - Data Engineering. Они открывают офис в Ванкувере и хотят развивать компетенцию Data Engineering, вырастить практику до 30 человек. Это первый раз когда история про Rock Your Data сработала на все 100%.

С одной стороны это большой риск, развивать консалтинг во время пандемии. Но где большой риск, там большие возможности. Морально я готов потерять работу и провести пол года на Бали или около того. Несмотря на то, что. Slalom это крутая компания, зарплата директора ненамного больше старшего инженера в FAANG и нет стока. Так же это суета, меньше времени с семьей. Но при хорошем раскладе это может быть отличное развитие карьеры. Из главных минусов, это то, что я начал работать в Microsoft совсем недавно, и это будет очень неудобно и некрасиво уходить. В общем это первый раз когда я абсолютно не уверен, что делать дальше.