NEW BOT Телеграм, страница

Инжиниринг Данных

Нашел интересное тестовое задание. Может быть кто-то хочет попробовать его решить на Python?

Мне видится, что можно взять spark, прочитать все JSON в папке data, извлечь схему JSON и дальше написать запрос.

Я не понял, что они хотят найти. Но понятно, что в итоге программу можно положить в docker. Ну или сразу брать готовый контейнер со spark.

На выходе, будет spark submit, куда передается параметры.

Если вы изучаете питон, отличное упражнение и можно решить вообще без спарка.

Интересно посмотреть на ваши решения.

GitHub

homework/dep-tree at master · ActiveState/homework

Contribute to ActiveState/homework development by creating an account on GitHub.

4.46K viewsDmitry Anoshin, 16:04

Инжиниринг Данных

Building_an_Open,_Petabyte_Scale_Data_Platform_Keynote_9_29_21.pdf

12.5 MB

Хорошая презентация с the Building an Open, Petabyte Scale Data Platform with Databricks Workshop. Много интересных слайдов, можно идеи к себе в слайды утащить.

4.3K viewsDmitry Anoshin, 20:16

Инжиниринг Данных

3.65K viewsDmitry Anoshin, 20:18

Инжиниринг Данных

3.66K viewsDmitry Anoshin, 20:19

Инжиниринг Данных

3.63K viewsDmitry Anoshin, 20:20

Инжиниринг Данных

Это очень популярный слайд про ML

3.84K viewsDmitry Anoshin, 20:26

Инжиниринг Данных

Сегодня я поймал себя на мысли, что мне неудобно отправлять коллегам письмо в 9 вечера. И outlook мне показал хорошую опцию - поставить письмо на расписание, так как я его написал в нерабочее время.

Раньше я всегда считал, что это круто написать письмо в 12 ночи, и показать насколько я крут😎

А как у вас с коммуникацией в нерабочее время? Не могу похвастаться карьерными перспективами в майкрософт, но work life balance тут существует. При условии, что вы в рабочее время работаете.🦆

3.9K viewsDmitry Anoshin, edited 04:15

Инжиниринг Данных

Важные обновления по модулю 6.4 про Azure Synapse.
1) Рома нарисовал красивую обложку 😋
2) Сергей Сволодарский создал шикарную пошаговую инструкцию на русском по Azure Synapse workshop (Dedicated SQL Pool, Serverless SQL, ADF, Power BI, table design techniques). https://github.com/Data-Learn/data-engineering/blob/master/DE-101%20Modules/Module06/DE%20-%20101%20Labs/Azure%20-%20Synapse%20Analytics/Azure-Synapse.MD

PS Сергей такой же ученик даталерн. Он живет в Канаде и хочет работать с данными на позиции дата инженера или BI инженера. Он решил пойти немного дальше и проактивно делает очень качественные материалы для вас.

Зачем? Все просто, когда мы учим других, мы сами активно учимся. Я внимательно слежу за его прогрессом и все жду когда он начнет проходит собесы, пора же уже?))) Уверен он уже многому научился и найдет отличную работу, главное начать проходить собеседования.

Вы тоже можете сделать лабы для даталерн, материалов много и темы все интересней.

3.9K viewsDmitry Anoshin, edited 16:06

Инжиниринг Данных

Сегодня просматривая новости из мира аналитики я заметил 2 очень противоречивых тренда. Сейчас я расскажу, hold my beer!

Во-первых, умные ребята из BI вендора Holistics, у которых очень трезвый взгдяд на вещи и продукты, доперли, что аналитика должна быть в виде кода, они даже заголовок придумали Analytics-As-Code. Looker таким был с самого начала, ну да ладно.

Главная идея, что это решит проблему отслеживания изменений в BI, вот поменяли мы логику метрики, но об этом кроме нас, и может быть, кроме конфлуес/вики никто не узнает (и там это быстро устареет). А вот если у нас BI не приложение, а код, то можно сделать Code Commit, Code Review и даже Unit tests.

Таким образом мы создаем инженерную культуру, повышаем надежность решений. Как следствие для компании зарплата специалистов растет, поэтому это еще вопрос готовы ли мы к этому?

А теперь посмотрим, как дела у инжиниринга данных и пайплайнов. Здесь мы видим совершенно противоположную новсть - The Data Integration Arms Race - Matillion's $150 Million Vs. Fivetran's $565 Million - в которой нам рассказывают про low code solutions. То есть Analytics-as-Application. Вплоть до того, что вам вообще не надо писать код, чтобы делать работу инженера данных. Но у вас возникает проблема, когда у вас больше одного инженера, когда ваши pipelines и SLA имеют важное значение для бизнеса.

Но тем неменее, мы видим как продуктовые компании одновременно рассказывают нам противоположные вещи, причем судя по раундам инвестиций - не безуспешно.

Так как же быть? Как обычно, ответ по середине. Вам как дата профессионалу нынешнему или будущему, надо понимать когда и что использовать, когда low code, хорошо, а когда as a code - must have. Если вы топите только за одно, значит вы доконца поняли другое. У всего есть pros & cons.

По опыту скажу, что для меня лучшее это начать с простого (applications) и двигаться в сторону более сложного (as a code).

www.holistics.io

Analytics As-Code | Self-service BI Platform

Holistics lets you write code (DSL) to define your analytics logic, and check them into Git. This makes analytics process more maintainable and streamlined.

4.22K viewsDmitry Anoshin, 17:07

Инжиниринг Данных

Если вдруг, вы еще сомневаетесь😎

3.89K viewsDmitry Anoshin, 20:13

Инжиниринг Данных

4.25K viewsDmitry Anoshin, 22:36

Инжиниринг Данных

Скинули картинку про мой доклад на AI Ukraine.

3.69K viewsDmitry Anoshin, 20:19

Инжиниринг Данных

Очень актуальная картинка про дата отделы. Все хотят всего и сразу от аналитического департамента. Для них-то это пустяк, посмотреть цифЕрку или накидать отчетик.

А для дата команды это растущий backlog, постоянная смена приоритетов, и трата дорогих ресурсов для ерунду.

Поэтому самое лучшее, что мы может сделать - сказать НЕТ. “Telling people no”.

3.98K viewsDmitry Anoshin, 23:34

Инжиниринг Данных

Сегодня я узнал, что такое - faceted charts. Хотя всегда их использовал раньше, не знал, что это faceted.

The facet implies a little face, such as one of the sides of an object (e.g., a cut diamond) that has many faces. The word is useful for describing an object that creates many little graphics that are variations of a single graphic. In a graphical system, facets are frames of frames. Because of this recursion, facets make frames behave like points in the sense that the center of a frame can be located by coordinates derived from a facet. Thus we can use facets to make graphs of graphs or tables of graphs

3.6K viewsDmitry Anoshin, edited 00:26

Инжиниринг Данных

В статье про межгалактический data stack, знающий человек (как я понял он был одним из основателей Mode - популярного SaaS BI инструмента в 2012-2013 для стартапов на базе SQL) рассуждает про сложность визуализации и ее роль в организации.
https://benn.substack.com/p/the-intergalatic-data-stack

3.71K viewsDmitry Anoshin, 03:09

Инжиниринг Данных

Отличная статья про data vault с пример было - стало, из схемы звёзды сделали data vault.

phData

How to Build a Modern Data Platform Utilizing Data Vault

Building a new data lake? Consider using a data vault architecture for optimal business value. Learn more about the pros and cons.

4.25K viewsDmitry Anoshin, 07:57

Инжиниринг Данных

Интересная точка зрения про корреляцию опыта собеседования и опыта работы в компании. Если в описание вакансии хаус, если ваш спрашивают непонятные вопросы и дают непонятные задания, не говорят сроков по этам, уровень дохода, перспективы и многое другое, то скорей всего внутри компании вас не ждет ничего хорошего.

Компании, которые хотят найти хороших спецов постараются сделать этот процесс максимально понятным и прозрачным.

3.94K viewsDmitry Anoshin, edited 16:46

Инжиниринг Данных

В тему datalearn, ваши первые собеседования будут BAD! И это нормально, главное, что 20е или 30е закончилось офером.

В любом процессе будет сначало плохо, но просто надо двигаться дальше и все будет супер!

👍1

3.88K viewsDmitry Anoshin, 18:05

Инжиниринг Данных

Недавно в нашем чатике обсуждали жизнь и работу в Черногории. Замечательная страна.

4.05K viewsDmitry Anoshin, 22:59

Инжиниринг Данных

O'Reilly опубликовали результаты опроса по зарплатам, которые они провели среди подписчиков Data&AI.

Вот основные моменты:
- Средняя зарплата 146000 US$.
- За последние три года в среднем у людей зарплата выросла на 9252 US$ в год, то есть на 2.25%. Нашлось 8% бедолаг, у кого заработок понизился.
- Толька 22% крепко призадумались о смене работы, возможно из-за пандемии все хотят надежности и боятся поменять работу
- В Калифорнии самая высокая средняя компенсация - 176000 US$, затем NY и Boston (MA штат)
- 84% зарплат женщин оказались меньше их коллег мужчин, зато у женщин было больше ученых степеней
- Многое товарищи прошли сертификация AWS и Azure, и это положительно сказалось на доходах
- Многое из опроса проходят тренинги и проходят курсы.

А что я думаю о результатах?
- Так, я не понял где зарплаты по 500 000 US$, на графиках шкала заканчиватся на 200 000 US$🤔
- Почему у женщин зарплаты меньше? Если мы только и слышим о равенстве в западном мире. Возможно, мужики более наглые и не стесняются торговаться?
- Понятное дело в ИТ все время надо учится, а то будет как у 8% бедолаг - понижение зарплаты
- В списке языков Python и SQL где-то по середине, а сверху Rust и Go. На них тоже делают Data&AI? Кто использует PERL для аналитики, тот вообще, мягко говоря, неудачник (судя по графикам). Еще мне понравился язык D.

Получается очень красивое название у опроса и цель хорошая была, но как-то получается бесполезные результаты, а вы что думаете?

O’Reilly Media

2021 Data/AI Salary Survey

In June 2021, we asked the recipients of our Data & AI Newsletter to respond to a survey about compensation. The results gave us insight into

4.1K viewsDmitry Anoshin, 04:09

Инжиниринг Данных

Народ, вы используете docker для DE? В каких случаях можно получить преимущетсва?

PS Никогда не использовал в продакшн.

3.91K viewsDmitry Anoshin, 05:30

About

Blog

Apps

Platform