Инжиниринг Данных – Telegram
Инжиниринг Данных
23.4K subscribers
1.98K photos
56 videos
192 files
3.2K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Я долго ждал когда epic grow seasons (сериал про продукты) анонсируют серию в своем телеграм канале, но что-то не дождался. Зато сегодня мне скинули скрин из рекламы в Инстаграм. Это было непросто, записать доклад на 45 мин за 15. Я пытался его учить как стихотворение, но не так то это просто. Рассказывал Канадцам в студии на русском. Это они сделали мне новую фотографию для Аватарки и еще записали афигенное интро с самокатом на набережной, я маленький кусочек добавил. А сам доклад у них на сайте.
Слышали вы про Code Review? Это когда в команде несколько человек пишут код в своем branch, например SQL, PySpark и потом делают commit.

Дальше, нужно создать Pull Request, и начинается Code Review, коллеги смотрят ваш код и оставляют комментарии по улучшению. И когда всего будет ок, после множества итераций, ваш branch сделает merge в MAIN (заметьте, MASTER уже не комильфо!).

Сегодня после очередного code review, я чувствую, что я прошел 5 стадий реагирования на изменения по Э. Кюблер-Росс.

Все 5 ключевых стадий эмоционального реагирования:

-Отрицание🙅‍♂️
-Гнев🤬
-Торг🙄
-Депрессия
-Принятие🤗
Статья про ETL, но на react и rails и так тоже можно. "Extract, Transform and Load with React & Rails - DEV Community" https://dev.to/erinfoox/extract-transform-and-load-with-react-rails-ggp
The First Rule of Machine Learning: Start without Machine Learning
Если в кратце:


"When you have a problem, build two solutions - a deep Bayesian transformer running on multicloud Kubernetes and a SQL query built on a stack of egregiously oversimplifying assumptions. Put one on your resume, the other in production. Everyone goes home happy."

То есть всякие кубернетисы, эмлфло(не путать с ммм), глубокие обучения это конечно прекрасно, но давайте сначала сделаем простую модельку, чтобы принести value для stakeholders.
👍1
Если работаете с AWS или учитего его, то это хорошее место для доп знаний - AWS вебинары. https://pages.awscloud.com/AWS-Online-Tech-Talks_September-2021.html
Хорошая картинка, должна быть многим знакома, у кого огромный backlog по задачам в BI делах. Именно для этого хорошо иметь self-service BI, чтобы такого не было, но его же не существует?))
Как у обстоят дела с эмпатией? Я услышал это слово впервые, когда началась эра смены bad ass CEO в штатах и на их место приходили тихий и спокойные ребята, фокус переходил на сотрудников и культуру. Bro culture уже начала идти на спад.

Когда у Microsoft появился новый СЕО - Сатя, то я познакомился со словом эмпатия - Microsoft CEO Satya Nadella: How Empathy Sparks Innovation.

Это напомнилу мне истороия из лицея 1501, кстати символ лицея - яйцо, его памятник прям перед входом. Наш учитель английского был большим шутником и проказником. Каждый раз когда он давал нам контрольную работу, он включал классическую музыку и аргументировал, что согласно исследованиям, коровы дают больше молоко под классическую музыку.

Возможно эмпатия - это как классическая музыка для коров, чтобы сотрудники больше давали "молока".

Согласно википедии эмпатия это осознанное сопереживание текущему эмоциональному состоянию другого человека без потери ощущения происхождения этого переживания.

Мне запомнилась одна фраза, когда я слушал аудио книгу про Стива Джобса, он сказал, что у молодого Билл Гейтса напрочь отсутствует эмпатия, так что для ценителей конспиралогии это явно знак;)

А сегодня попалась статья про Empathy Is The Most Important Leadership Skill According To Research. Так что, не одним лишь SQL и Python, надо заниматься, но обязательно иметь empathy и развивать эмоциональный интелект.
the_art_of_collaborative_data_science_at_scale_NEW_BRAND_NO_TEI.pdf
14.2 MB
The Art of Collaborative Data Science at Scale

A unified approach that boosts data science agility and productivity

Красивая брошюрка от Databricks
В Амазоне был большой плюс за счет email group по всем напрвлениям. Можно считать, что это как community. Можно писать в группу про Табло, DE, DS, и много других. За счет этого работая в одной команде, можно общаться со всеми. Эти группы еще часто использовались для не совсем легального переманивания сотрудников HRами. Но главное правило Амазона - никаких повышений при переходе, так что внутренний переход, это обычно почти как понижение. Я сделал таких аж 3, зато повышение опыта в геометрической прогрессии.

В Майкрософт все наоборот, групп нет. Есть Yammer, это продукт Microsoft Office, смесь форума и SharePoint. В общем, нет возможности общаться с другими. Я даже создал страницу по аналитике на ямере, но за год пришло 10 человек.

Но потом я нашел другое мероприятие - Azure Bootcamp, это внутренние тренинги для новичков всего Azure и всех других желающих, вот для них я и сделаю презентацию, буду рассказывать в Azure про AWS и GCP😎

Getting started with Modern Data Stack: from Database to Lake House

Learn about key milestones in analytics and data engineering space starting from simple reporting solutions on top of SMP databases, moving towards MPP data warehouses, rise and fall of Hadoop ecosystem. Finally, will shift towards modern data stack with rise of cloud computing. Then I will explain the key concepts of Lake house architecture and review the data analytics market including AWS, Azure and GCP solutions, as well as third parties’ solutions like Databricks and Snowflake and popular data integrations tools. Finally, I will show couple reference architectures built on top of AWS and Azure for data warehousing, big data and ML use cases.
В Microsoft Teams есть крутая возможность отправлять сообщение через webhook, так же как и в slack, telegram и другие. Но у teams какие-то невероятные возможности, можно отправлять дашборды, делать кнопки, отправлять запросы и получать графики. У меня пока только получается выполнять SQL в databricks и отправлять сообщения в тексте. Но я нашел библиотеки графиков, только не понятно как ими пользоваться, может вам пригодтся. Это моя давняя мечта сделать BI в чат ботах, все insights по требования, все рассылки по показателям в своих каналах. https://dev.teams.microsoft.com/storybook/main/index.html?path=/story/ui-templates-dashboards--with-data-vizualization

https://docs.microsoft.com/en-us/microsoftteams/platform/concepts/design/design-teams-app-ui-templates
Twilio сделало интерактивную игру, в который вы можете учить программирование https://www.twilio.com/quest

Top-Secret JavaScript Test Lab
At a remote research station deep within The Cloud, TwilioQuest scientists study the raw and untamed power of the JavaScript programming language. Join the research team and prepare yourself for an explosive discovery!

Mysteries of the Pythonic Temple
Uncover the secrets of the Python programming language as you explore the ancient Pythonic Temple, the last surviving structure of the fabled City of Python.

OSS Elephpant
Explore a colony ship of techno-anarchist PHP developers known as the OSS Elephpant. Assist the ship's onboard AI to restore critical systems and save the colonists, while learning the PHP programming language!

The Flame of Open Source
The evil Legacy Systems have stolen the legendary Flame of Open Source and hidden it in the center of a maze in an enchanted forest! Reclaim this lost power and clear the way for all developers to contribute to open source.
Инженеры PayPal сравнивают BigQuery и Dataproc with Spark (как я понимаю это Hadoop кластер, такой же как AWS EMR, Azure Hdinsight). Вопрос интересный - условно классическое хранилище данных против big data озера данных.
Статья написано про конкретный пример - пароли в Python, то есть о том, что нельзя хранить их в коде. На самом деле топик достаточно обширный. В облаках я уже привык использовать решения для безопасности, где я могу хранить ключи - AWS Secret Manager или Azure Key Vault. А как вы храните пароли, если не используете облако?

Другая проблема - это ротация паролей и ключей каждые 90 дней. Например, AWS Secret может сам меня ключ IAM secret key и подставлять в код - идеальный сценарий. У Azure, да и AWS можно вообще обходится без паролей, что тоже очень хорошая практика. Но интересно как с этим on premise?

"Stop Hardcoding Sensitive Data in Your Python Applications | by Ahmed Besbes | Sep, 2021 | Towards Data Science" https://towardsdatascience.com/stop-hardcoding-sensitive-data-in-your-python-applications-86eb2a96bec3
Forwarded from LEFT JOIN
Наконец-то созрел сделать подборку аналитических блогов в телеграме в виде новой статьи блога. Однако, чтобы было интереснее подборка составлена не вручную, а на основе графа связей, построенного с помощью Python. В качестве стартовой точки были взяты тексты телеграм-канала Интернет-аналитика и выделены те аналитические каналы, на которые Леша Никушин в нем ссылался. Получился список таких каналов и процедура проделана еще раз, итеративно: мы взяли тексты всех записей этих каналов и распарсили их, нашли упоминания всех других аналитических телеграм-каналов. С парсингом текстов помогал стажер Андрей, а затем я построил граф связей на основе полученных данных, используя тулзу из Georgia Tech.

В результате по показателю degree (количество связей), топ-10 каналов выглядит так:
1. Интернет-аналитика @internetanalytics
2. Reveal The Data @revealthedata
3. Инжиниринг Данных @rockyourdata
4. Data Events @data_events
5. Datalytics @datalytx
6. Чартомойка @chartomojka
7. LEFT JOIN @leftjoin
8. Epic Growth @epicgrowth_chat
9. RTD: ссылки и репосты @rtdlinks
10. Дашбордец @dashboardets

По-моему, получилось супер-круто и визуально интересно (тул немного глючит, поэтому сделайте зум-аут в правом нижнем углу), а Андрей – большой молодец! Кстати, он тоже начал свой канал «Это разве аналитика?», где публикуются новости аналитики.

Забегая вперед: у этой задачи имеется продолжение. С помощью Марковской цепи мы смоделировали в каком канале окажется пользователь, если будет переходить итеративно по всем упоминаниям в каналах. Получилось очень интересно, но об этом мы расскажем в следующий раз!
Иногда в контексте встреч на работе встречается слово - vanilla, нет, это не про мороженное!

Vanilla software - In computer science, vanilla is the term used to refer when computer software and sometimes also other computing-related systems like computer hardware or algorithms are not customized from their original form, i.e., they are used without any customizations or updates applied to them.

Vanilla software has become a widespread de facto industry standard, widely used by businesses and individuals. The term comes from the traditional standard flavor of ice cream, vanilla.

According to Eric S. Raymond's The New Hacker's Dictionary, "vanilla" means more "default" than "ordinary".
В августе вышла новая книга - Tableau Strategies (книжка не для новичков).

Содержание:
1. Categorical Analysis
2. Quantitative Analysis
3. Making Comparisons
4. Working With Time
5. Key Performance Indicators
6. Building Impactful Tables
7. Working With Geospatial Data
8. Advanced Mathematical Concepts
9. Constructing Dynamic Analyses
10. Advanced Data Modeling
11. Advanced Interactivity
12. Building Dashboards And Data Products
13. The Broader Tableau Ecosystem
14. Industry Frameworks

https://learning.oreilly.com/library/view/tableau-strategies/9781492080077/