Инжиниринг Данных – Telegram
Инжиниринг Данных
23.5K subscribers
1.98K photos
56 videos
192 files
3.2K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Отличная получилось дискуссию про SQL, я рад, что вам тоже нравится его простота и удобство.

Но я хотел бы посмотреть на простоту и удобство SQL, data engineering и ИТ в целом с другого ракурса.

Возможно все началось с книги Адам Смита - "Богатство нации", в которой он писал про успешную бизнес модель, где необходимо взять сложный процесс и разбить его на на маленькие задачки, которые могут выполнять не квалицированные и дешевые трудяги. Главная задача - легко найти и заменить человека, если вдруг он посчитал себя особенным и слишком умным.

Так он рассказывал про производство пуговиц. Допустим есть 3 мастера, кто делает самые лучшие пуговицы ручной работы, а есть завод по производству пуговиц, где 10 человек в конвейере делают тысячи пуговиц за тоже время, пока мастер вручную сделает несколько.

Фабрики и заводы имели свой показатель успешности - PERL (Percentage of Easily Replaced Laborers). Интересно FAANG измеряют такое? Все необходимое для этого есть.

Образование кстати тоже часто направлено именно на создание такой ячейки общества, которая будет работать и не задавать лишних вопросов.

Еще немножко по этой теме. В книге "Миф о Е" Майкла Гербера написано:

The model will be operated by people with the lowest possible level of skills.

То есть хорошо использовать неквалифицированный труд, так как если нужны крутые спецы, то ваша бизнес модель в зоне риска и будет сложно ее воспроизвести.

The business model should be such that the employees needed posses the lowest possible level of skill necessary to fulfill the functions for which each is intended.

Вот и получается, что для фабрик, корпораций выгодней иметь дело с легко заменимыми сотрудниками.

При этом многие привыкли таже жить с узким кругозором и получать инструкции сверху.

Теперь вернемся к нашему изначальному вопросу, почему SQL популярен? Потому что он легкий.

Почему все крупные вендоры идут по пути упрощения решений, потому что будет легче обучить низкоквалифицированных людей и дать им клавиатуру с мышкой, чтобы они начинали приносить пользу, получали минимум денег, боялись потерять работу и были очень лояльными, ведь как и фабрики, корпорации дают нам job security, insurance, pension.

Вот и ИТ, как и фабрики, работают таким образом, что есть несколько крутых людей, кто понимает как все работает, а остальные 90% это легко заменимые люди, даже со знанием алгоритмов и структур данных.

Поэтому можно легко уволить тысячи людей и потом нанять снова других, все легко заменимые. А если еще все используют простые и понятные технологии SQL, Databricks, Snowflake и тп, то вообще класс, даже без опыта человек может быстро разобраться.

То есть по факту никакой job security🥺 Но при этом от вас хотят покорности и лояльности.

Так что я буду в роли профсоюза для дата специалистов🤓

Получился такой не стандартный ответ, про популярность SQL.🤪

PS на самом деле эти мыли навеяла книга Сет Годин "Linchpin Are you Indispensable", так что цените себя, свое время, и делайте то, что ВАМ выгодно и необходимо, а то владельцы фабрик, выпускники MBA вас быстро разведут на тяжелую работу за просто так😃

В ИТ в целом не так плохо, даже если вы легко заменимый спрос и темпы развития позволяют вам быть гибким и подстраиваться под ситуацию и пользоваться благами корпорация и уделять им столько внимания, сколько они заслужили.
🌚41🐳25🍾9👻9🌭3
Сегодня коллега показал Mermaid - простой язык для создания диаграмм прямо в документации (Notion, Mirro, Confluence). Это намного удобней, чес использовать тот же drawio для простых схем, который создает статические картинки, и потом их неудобно обновлять.

Я обычно использую draw.io потому что там есть все необходимое иконки Aws, azure.

Еще иногда использую python для создания диаграмм.

А вы что используете?
🐳27👻4🍌2💯1
У меня уже есть небольшой опыт работы с Snowflake, не смотря на то, что до пандемии я написал книгу Jumpstart Snowflake, делал Snowflake user groups в Канаде и получил статус Snowflake Data Here (это такой статус их community), реальный опыт только появился летом.

Даже есть некоторые метрики по цене, в месяц за хранилище данных размером 830Тб стоит 100к+ US$. Используем pemifrost и terraform для управление хранилищем и доступом. Основные потребители это Looker, Tableau, dbt. Мой следующий вебинар для коллег будет про сравнение Looker и Tableau, так как "должен остаться только один!". Мы пока не используем Snowpark и хочется его сравнить с AWS Glue. Я попросил провести демо на эту тему их инженеров.

Несколько интересных ссылок по этой теме:
A Spark Developer’s Guide to Snowpark
Data Engineering with Snowpark Python and dbt

Вообще мне нравится работать с простыми технологиями, самостоятельно я могу сделать все что угодно, все просто и понятно, и если что-то сломается, я починю. Это к вопросу про легкозаменых людей. Другой вопрос, что я один могу сделать это быстрей чем команда из 3х менее опытных человек.

Потому что мой другой проект это вообще адок, он полностью состоит из Open Source решений, и чтобы добавить новый показатель в таблицу, это займет у меня неделю, нужно будет изменить код в 3-4х репозиториях. И тут конечно сложно заменить человека. Я не понимаю, почему 7 дата инженеров продолжают обслужить technical dbt, в котором есть Luigi, Airflow, Prefect, AWS Batch, куча custom code. Вместо того, чтобы убивать старое и плохое, мы продолжаем стоить новое, ничем не лучше, чем старое. Я как то писал про типы менеджеров, и это тот случай, когда директор по дата инжинирингу фанат открытого ПО и даже не знает преимуществ snowflake, databricks. Цена такого аналитического решения несколько тысячи $, но и объемы данных 50Тб для озера данных.

В целом хороший опыт, сразу участвовать в двух кардинально разных проектах. И видеть преимущества и недостатки каждого из них.

PS Я писал про возможность для желающих, кому нужно показать опыт в США/Канаде, могут использовать компания Rock Your Data - сайт работает, но у компании нет никаких активностей. Я даже на письма клиентов потенциальных не отвечаю.

Процесс примерно такой:
1) Добавляете себе компанию в Linkedin (любую вакансию)
2) Пишите в резюме про свои проекты (даже не настоящие)
3) Нужно написать статью на medium, чтобы опубликовать ее в блог компании
4) В linkedin в ленте компании расшарим пост и тег автора (это для надежности)
Для несерьезных контор этого вполне хватает, им не нужны доказательства, им важен ваш опыт.
👨‍💻14🍾6❤‍🔥3🐳3😈3👻3🍓2🌚1🍌1
Ну как не выложить такое стихотворение, которое мне прочитали на прошедший день рождение, да еще подарили форму полицейского😝

Дядя Дима - милиционер.
OST. Дядя Степа, Сергей Михалков

Кто не знает дядю Диму? Дядю Диму знать не лень ! Знают все, что дядя Дима Был рожден в особый день.

Что давно когда-то жил он рядом с парком, что в Филях. а теперь уже в Канаде
Быстро движется в делах

В амазонах, Майкрософтах Тех, что знает вся страна, трудится Аношин Дмитрий есть любимая семья

Он шагает по Порт Муди От двора и до двора, кофе пьет, читает книги под диваном два ружья.

Он плывет на борде смело, тут канадец, например Рот раскрыл от изумленья: вот это Дата инженер

Дядю Диму уважают Все, от взрослых до ребят. Встретят - взглядом провожают И с улыбкой говорят:

- Да-а! Людей такого роста Встретить запросто не просто! Да-а! Такому молодцу Форма новая к лицу!

Ведь день полиции теперь
С Димой празднуй в один день
Пусть по сивью драйв пройдёт
И порядок наведет !

Чтоб с делами было в норме
Ты ходи теперь по форме
Полицейской
Каждый день
🍾106❤‍🔥12🐳4🍌2🍓1
В посте выше я писал про новинки от AWS, где главный упор был про размыв границ между инструментами, например между OLTP и Data Warehouse.

Сегодня мне попался похожий пример, но у Azure - hybrid transactional and analytical processing (HTAP) - позволяет Synapse Analytics напрямую подключаться к ComosDB (Azure NoSql база данных). Такая же идея ETL zero.

Но у всего этого большой минус, если что-то не работает будет сложней найти, что именно, так как для клиента это black box.
❤‍🔥3🌚2
Хорошее напоминание, что HR защищает интересы компании, а не сотрудников.

Недавно была интересная история, в одной компании, когда она была маленькая, да "удаленькая" обещали делать каждый год всем одинаковое повышение , чтобы догнать инфляцию. Так в начале 2022 все получили автоматом 7%. Потом компания выросла раза в 3-4 раза и наняла армию HR, и в этом году они сказали, что они такие молодцы, и всем сделают stock refresh (компания не публичная), на мой вопрос про один из бенефитов - ежегодное повышение зарплаты равное инфляции, мне сказали, что не было такого. Я не берусь говорить, что это было официально (офер я даже свой не читал, меня обычно кроме зарплаты в нем ничего не интересует, и копию не нашел, скорей всего это было просто на словах про такие бенефиты).

Сейчас-то инфляцию огого, и лучше дать фантиков стоков, которые как бы и нет, чем платить деньги. И кто еще после это жульничает🤭
❤‍🔥23🐳3🍾3🌭1🍓1👻1
Где смотреть новости про Power BI?

Microsoft Power BI Blog - все про Power BI, описание новых фич, релизов и даты проведения workshops.

Previous monthly updates to Power BI Desktop and the Power BI service - ежемесячные релизы по Power BI и их описание

What's new in the mobile apps for Power BI - ежемесячные релизы для мобильного клиента и их описание.

What's new and planned for Power BI - запланированные фичи и их дата релиза.
❤‍🔥17😈2🍌1👻1👨‍💻1
Одно их моих не любимых занятий это смотреть на Query план в Oracle, SQL Server, Teradata, Redshift или даже Spark. Не хватало терпения погрузиться в эту тему.

Зато вот у Snowflake очень приятный Query Profiler, не думаю, что в него часто смотрят, ведь если запрос работает относительно быстро, а платим за базу не мы, то "и так сойдет"😁

Как у вас дела с планами БД? Освоили тайное знание оптимизации БД? Какие ресурсы хорошие?🦾
👨‍💻9
Классный пример палитры для Табло дашбордов, который сделали для AWS департамента сертификации и загрузи в Tableau Public.

PS Значит Quicksight все еще пыль глотает от табло😅
👻7🌭3
Еще один пост про Табло, про пример embedded analytics.

На сайте правительства Канады есть табло дашборды - COVID-19: Outbreak update, достаточно печальная визуализация. И вот еще один COVID-19 vaccination in Canada.

Это проект был сделан канадским deloitte, и используют AWS, Tableau Server (high availability cluster), и к сожалению весь ETL для dashboard сделан на Tableau Prep🙈
😈4🍌2
Если вы еще не слушали! Спасибо товарищу, кто скинул скрин. Подкаст научит вас жизни🙃
👻16🍌3❤‍🔥2👨‍💻2
Сегодня увидел хороший пост в Linkedin и понравилась цитата - "You should either earn, or learn. "

То есть либо вы учитесь, либо вы зарабатываете. И если ни того, ни другого, то вы теряете время. И даже если вы зарабатываете, но не учитесь при этом, то наступает апатия, поэтому учится важно всегда, и я заметил если еще и зарабатывать хорошо, то и учиться есть мотивация даже больше.

А потом еще можно зарабатывать и учится 6 дней в неделю по 12 часов🦾
👨‍💻55❤‍🔥20🐳7🍌3🌭2
Сегодня познакомился со SnowPark от Snowflake. Не буду вдаваться в подробности хайпа от сноуфлейка и их противостоянию с Databricks. В целом мне показалсь лажа какая-то. Но это на мое субъективное мнение, как человека, который уже почти год записывает 7й модуль про Spark🦆 (обязательно попробую его в курсе)

Что такое SnowPark, кроме того, что S + Park = Spark, там мало чего от самого Spark🙃 Главная фишка это использования snowpark для создания абстракций ваших данных - dataframe, которые должны быть уже внутри хранилища данных. Соответственно поддержка PySpark (уверен там куча ограничений).

Сегодня я узнал золотую фразу от продавцов "снега" - "Limitation today, it is not the same tomorrow!" и ее вариации, причем они ее повторяли несколько раз (account manager, sales engineer, data engineer). То есть типа, даже если сегодня наш продукт 💩 это не значит, что завтра он будет таким же!

Вот будет вам менеджер делать мозг, а вы ему - "Limitation today, it is not the same tomorrow!" - шах и мат👻

Короче, по делу.

SnowPark позволяет нам:
1. Использовать Python, Scala, и еще пару языков, чтобы создавать абстракции данных dataframe и работать с ними, используя гибкость языка программирования
2. Мы можем использовать, например, библиотеки Python, чтобы работать с данными. Может создавать функции и тп. Но даже Redshift года 4 назад поддерживал Python UDF. Но в цевлом приятный бонус, если вы знаете как сократить кол-во строк кода, вместо большого SQL.
3. У снежинки нет своего решения для ноутбуков и они используют jupyter ноутбуки или аналоги.
4. Если Spark все наши трансформации загоняет в RDD, то Snowpark наоборот в SQL и строит классический Snowflake query план. То есть никаких бенефитов в цене особо и нет. Не очень понял, что будет когда используем кастомную библиотеку и как будет выглядеть план запроса. Но используются те же Compute Nodes.
5. Ничего дополнительно не надо, должно работать из коробки.
6. Для data science команды явно будет поудобней, для дата инженеров с dbt хз
7. Snowpark это не замена Databricks, Glue это просто как улучшение для написание запросов + возможность использовать готовые пакеты популярных языков
8. Что-то упоминали про Iceberg, но как я понял большие ограничения с этим. Идея, наверно использовать snowflake compute, чтобы читать данных их S3 и аналогов.

Как говорят айтишники - "бесполезная балалайка"🛀

Материалы:
[QuickStart](https://quickstarts.snowflake.com/guide/getting_started_snowpark_machine_learning/index.html#0)
[Self-Serve Metrics Using Snowpark Python](https://medium.com/snowflake/self-serve-metrics-using-snowpark-python-dd1d56ba78ae)
[A Spark Developer’s Guide to Snowpark](https://www.phdata.io/blog/spark-developers-guide-to-snowpark/)
[Snowpark Documentation](https://docs.snowflake.com/en/developer-guide/snowpark/index.html)
[Migrating from PySpark to Snowpark Python Series — Part 1](https://medium.com/snowflake/migrating-from-pyspark-to-snowpark-python-series-part-1-a75058c1e579)

Ну и как же без [презентации](https://docs.google.com/presentation/d/1fVFtOJ3Pmtt00mbaVDB-8majGM256oQS4Sgn9z5swcE/edit?usp=sharing)!

PS делал из web telegram, а там не понятно как редактировать текст и делать ссылки.
🍓9🌭1
Мне не давно дали в тык, что я пропуская много митингов - standup, sprint planning и тп. И действительно, уже несколько месяцев у меня не было notifications. Оказалось все банально просто. Если macobook закрыт и я делаю mirror на большой экран, то ноут ведет себя как будто muted. Так что имейте ввиду! Единственное я забыл сказать менеджеру Limitiation today, it is not the same tomorrow. И действительно, сегодня я полон сил и готов идти на митинги! Как раз будет время проверить новости в телграмме))
❤‍🔥28🍾13👨‍💻6🌭3👻3🌚2
Неудачное интервью 😕

- Да как это ты не знаешь, тут же написано Oracle! - воскликнул один из собеседующих, указывая на мое резюме. Я чувствовал себя воришкой, которого поймали с поличным, помню попробовал как-то оправдаться.
- Мы Вам перезвоним - сказал второй интервьюер,
- Не нужно, я … лучше еще подготовлюсь - помню ответил я.

Я вышел с ощущением, что я самый глупый человек на свете, 4ый курс университета, а знаний ноль. Я шел и долго прокручивал весь диалог в голове. Справедливости ради, у меня в резюме были написаны все технологии, которых когда-либо случайно коснулся, поэтому первым делом я выбросил оттуда все, на что элементарно не смог ответить. Я благодарен тому опыту, ведь после этого я начал лучше готовиться, больше изучать и тщательнее выбирать компании.

Ощущение самозванца еще долго преследует, но если выгуливать свой страх на собеседованиях и из каждого неудачного интервью делать выводы, то со временем страх проходит, становишься увереннее.

Уверенного человека, тяжелее дешево купить.

Тут дело даже не в Google или Kaspi или маленький стартап, просто собеседования это всегда продажи. Правильно предоставить свой опыт, правильно «упаковать» резюме, завысить ценник, поторговаться. Вы наверное удивитесь, если скажу в одной и той-же компании, мидлы могут зарабатывать больше, чем сеньоры. «Хардскиллы» - кричали они, «капитализм» - шепнул HR.

Я верю, что у человека, который пробовал проходить интервью 100 раз, больше шансов устроиться в хорошую компанию, чем у человека, который решил 1000 литкодовских задач.

Выжимка:
- Не пишите в резюме все технологии, о которых слышали. Выбирайте те, на которые можете ответить хотя бы легкие/средние вопросы.
- Собеседутесь периодически, даже если не собираетесь уходить. записывайте видео или конспектируйте сложные вопросы. После каждого интервью вы должны выходить чуть умнее 🙂
- Не храните рефераллы, используйте их. Найдете новые потом, а опыт уже будет. Завалите пару собеседований в Amazon.
- Завышайте свой ценник и торгуйтесь. В лучшем случае придется потом на деле доказать свою ценность. В худшем будет понимание на какую сумму вы можете претендовать.
- Вы не самозванец и не обманщик, Вы востребованный специалист. Вы хотите работать в компании, которая Вам нравится и получать деньги, которых достойны, в этом нет ничего постыдного.
- Вы никогда не станете абсолютно готовым. Не нужно ждать идеального момента, знания и опыт придут только с практикой.
❤‍🔥116🐳24🌭15🍌4👻3🍾2👨‍💻1
Сегодня наконец попробовал GitHub CoPilot на примере создания python для общения с Api Marketo и вот что получил за 2 минуты. (такой вот аналог платному reverse ETL - python noscript).

Могу еще что-нибудь создать, пишите комментария с кометном на английском, и попробую код сгенерировать.
👨‍💻9🍌5🍓1
This media is not supported in your browser
VIEW IN TELEGRAM
Крутая новость для всех диджитал-специалистов и людей, которые интересуются технологиями: Альфа снова проведёт конференцию Alfa Digital Open.

На ней подробно расскажут о продвинутой аналитике, изменениях в мобильной разработке, внутренних приложениях для сотрудников. И, конечно, поделятся опытом: какие чат-боты разрабатывают в Альфе и как отслеживают их эффективность.

Конференция пройдёт 13 декабря в 17:00 по МСК. Нужно предварительно зарегистрироваться — это бесплатно.
🍌15🍾7🐳2
The business people, the actuaries, know what data they need and can define requirements, but typically don’t have the skill set to design a data architecture that gives them the data they need. Technology people typically don’t understand the business requirements, but they can design the data architectures. It’s like the people in IT speak blue, the people in business speak red, but we need people who speak purple in order to create an appropriate solution.https://www2.deloitte.com/us/en/insights/focus/cognitive-technologies/artificial-intelligence-purple-people.html

Так же в статье упоминается - Wayne Eckerson was the first to define the “purple person” in a 2010 blog post—someone with the mix of business and technology skills that is present in many successful business intelligence and analytics people.

Он оч крут, один из первых топил за аналитику и написал очень хорошую книгу - Secrets of Analytical Leaders: Insights from Information (очень рекомендую, особенно менеджерам). У меня даже была идею такую же написать современную где поговорить с современными лидерами и спросить как у них с облачной аналитикой. Но силы уже не те))
🐳14👨‍💻5🌚3
Пятница был классный день! Потому что я не работал😏 Один из бенефитов для всех компаний - это 4-5 дней волонтерства, то есть можно в эти дни делать, что угодно - собирать мусор на пляже, сдавать бутылки, или сводить класс сына в Microsoft Garage.

Я выбрал последнее, это был классный field trip на день в центральный офис Microsoft Vancouver, где детям рассказали и показали много классных штук, замотивировали их по максимум учиться хорошо, поступить в универ и стать инженерами и изобретателями.

В качества, workshop всем выдали ноутбуки и интересный девай с от AdaFruit. Это такой упрощенный аналог ардуино с лампочками и датчиками. Для детей кто изучает начальный кодинг очень хорошая вещь.

Все дети создали свою программу, загрузили в девайс и потом их фотографировали в темный VR комнате, таким образом, чтобы на длинной выдержке фотоаппарата появился рисунок. А потом напечатали всем личный стикер с фото.

Ну и конечно накормили пиццей, дали поиграть в аркадный автомат и еще много чего. Так что Vasily’s Dad вообще легенда теперь у сына в классе👌 Ну меня в принципе и так все знали, я со многими в Fortnite рубился часто раньше😁

Если есть возможность брать детей на работу берите, есть возможность прийти в класс к детям и чему-то научить - придите и научите! 😊

PS Я загружу пару фоток в комменты.
❤‍🔥95🐳10