NEW BOT Телеграм, страница

Инжиниринг Данных

⚡️ Какие навыки должен иметь аналитик для работы с ведущими банками?

Международная консалтинговая компания Accenture выделила ТОП-5 навыков аналитика, которого «оторвут с руками» все ведущие IT-компании 🔥

Сверься с чек-листами в статье, чтобы определить свои сильные стороны и понять, какие качества стоит прокачать, если есть желание развиваться как IT-аналитик в финансовом секторе.

Читай статью по ссылке: https://vk.cc/c91usu

PS пост поддержал приют для собак в Ногинске.

4.96K viewsDmitry Anoshin, 06:01

Инжиниринг Данных

Всем привет завтра (20 декабря) в 21:00 по мск вебинар!
Продолжение (2-я часть) про Data Vault Anchor modeling от Николая Голова.
Ссылка: https://youtu.be/IZw1cB1uDts

YouTube

ЧАСТЬ 2 DataVault Anchor Modeling / Николай Голов

Голов Николай :
azathot.mail@gmail.com
nikolay@manychat.com
linkedin.com/in/golov-nikolay-data

4.68K viewsRoman Ponomarev, 18:40

Инжиниринг Данных

Часто, когда мы делаем систему или платформу данных в среде разработки, у нас нет еще реального объема данных для тестирования.

Например в геймдеве это частое явление, когда у нас просто нет продакшн данных до релиза игра и нам нужно сделать нагрузочное тестирование.

Самый популярный вариант - это нагенерить dummy/fake данных и прогнать через data pipelines/transformation/storage/BI access и тп.

И теперь вопрос для знатоков, как вы это делаете? Например, у меня есть Spark и на входе JSON файлы, которые разложены по часам.

Допустим я хочу нагенерить файлов на сотни млн событий и загрузить их в мое озеро и посмотреть как пойдет.

Я нашел пару библиотек на питоне:
- https://github.com/Zac-HD/hypothesis-jsonschema
- https://pythonrepo.com/repo/ghandic-jsf-python-josn

Они вроде умеют брать на вход простую схему JSON и создавать fake данные, но не понятно как контролировать объем. Может есть еще вариантыы

GitHub

GitHub - python-jsonschema/hypothesis-jsonschema: Tools to generate test data from JSON schemata with Hypothesis

Tools to generate test data from JSON schemata with Hypothesis - python-jsonschema/hypothesis-jsonschema

4.67K viewsDmitry Anoshin, edited 01:09

Инжиниринг Данных

23 декабря в 16:00 (мск) Nedra.Digital приглашает на свой открытый онлайн митап «Данные в разведке и добыче».

Мы IT компания, которая помогает в цифровой трансформации нефтегазовой индустрии в России и мире. Вместе с нашими коллегами из «Газпром нефти» расскажем о ключевых направлениях работы с данными в нефтегазовой отрасли, таких как развитие централизованного хранилища данных, работа с качеством потоковых данных и их верификации, международный open-source стандарт и платформа интеграции данных разведки и добычи OSDU, DataOps, промышленный стандарт WITSML, и многое другое.

Ссылка на регистрацию

https://nedra-event.timepad.ru/event/1876513/

PS Пост поддержал приют для собак.

nedra-event.timepad.ru

MeetUp "Данные в разведке и добыче" / События на TimePad.ru

Nedra приглашает на свой первый открытый онлайн митап «Данные в разведке и добыче».

Мы IT компания, которая помогает в цифровой трансформации нефтегазовой индустрии в России и мире. Вместе с нашими коллегами из «Газпром нефти» расскажем о ключевых направлениях…

👍1

4.87K viewsDmitry Anoshin, 06:01

Инжиниринг Данных

Всем привет, через 8 минут начинаем:
https://youtu.be/IZw1cB1uDts

YouTube

ЧАСТЬ 2 DataVault Anchor Modeling / Николай Голов

Голов Николай :
azathot.mail@gmail.com
nikolay@manychat.com
linkedin.com/in/golov-nikolay-data

4.44K viewsRoman Ponomarev, 17:53

Инжиниринг Данных

https://habr.com/ru/post/596543/

Хабр

Эксперимент Базермана: как мы ежедневно теряем деньги

Вы ещё не слышали, как профессор Гарвардской школы бизнеса «наживается» на своих студентах? Тогда вам, наверное, будет интересно узнать о том, как продать 20 долларов за гораздо большую сумму. Скажем,...

4.64K viewsDmitry Anoshin, 21:38

Инжиниринг Данных

Новый (для меня) термин - “metrics store”
Now the metrics store is gaining traction as its own category in the modern data stack. This technology provides some key benefits:

->Metrics become the language of data: You can build metric logic and support various data models all in one place. Metrics are already the language of the business, so why not use this as a model for how you interact with and surface insights?
->Eliminate secondary sources of truth: Consolidate all of your metrics so that all of your metrics are consistent across all upstream and downstream tools.
->Build a knowledge hub around metrics: Add context to your metrics so that the data team isn’t stuck answering the same questions over and over.
->All of the questions and the context is already ready and accessible for data teams and business users.

Статья обсуждает вопрос эволюции аналитики и примеры из индустрии от ведущих компаний.

https://towardsdatascience.com/a-brief-history-of-the-metrics-store-28208ec8f6f1

5.4K viewsDmitry Anoshin, edited 06:56

Инжиниринг Данных

Microsoft ведёт блог - Data Science Microsoft на medium и часто там публикуются хорошие материалы. В статье Anatomy of a chart рассказывается про базовые принципы визуализации данных, которые для многих уже известны, а если нет, то вы можете узнать про них.

Successful chart design is not a random transition from data to visual. It requires an understanding of important concepts such as pre-attentive attributes, Gestalt principles, and how to apply the Grammar of Graphics. Each component must be handled with care as it is placed on the coordinate system used to systematically create a graph. Each piece has a purpose and plays an important role in the overall story. Applying these core principles helps data designers tell that story and deliver valuable insights to their audience.

Medium

Anatomy of a chart

How to think about designing data visualizations

4.74K viewsDmitry Anoshin, edited 20:37

Инжиниринг Данных

Вот у меня была денди со 2го класса и спустя столько лет можно прочитать историю про создание бренда на российском рынке.

DTF

Легенда о слоне: как IT-компания Steepler создала Dendy и основала российский консольный рынок — Игры на DTF

Рисковый проект, который осчастливил миллионы детей.

4.28K viewsDmitry Anoshin, 21:16

Инжиниринг Данных

Загружаю последний урок модуля 6 - 6.8 про традиционнвй обзор вакансий в мире и мы можем переходить к модулю 7 про Apache Spark.

Кто пройдет модуль 6, может смело добавить к себе в Linkedin такой сертификат, вы его заслужили.

4.29K viewsDmitry Anoshin, 01:04

Инжиниринг Данных

LearningSpark2.0.pdf

15.3 MB

Это прям судьба! Databricks раздает бесплатно книгу - Learning Spark V2. Офигенная книга, я по ней и изучал Spark год назад и буду ее использовать в модуле 7. Вам она точно пригодится!

PS Спасибо Денису Волку за наводку в slack.

5.88K viewsDmitry Anoshin, 01:40

Инжиниринг Данных

Готово видео по 6.8 https://youtu.be/xXpoegKJUYU

YouTube

DATALEARN | DE - 101 | МОДУЛЬ 6-8 ОБЗОР ВАКАНСИЙ ДАТА ИНЖЕНЕРА (DATA ENGINEER) ПО ВСЕМУ МИРУ

В заключительном уроке нашего модуля про аналитические хранилища данных мы посмотрим на пример описаний вакансий инженера данных на hh.ru, linkedin, indeed.com/worldwide. Так же покажу, как я сканирую вакансии и понимаю сходу насколько хорошая или плохая…

4.64K viewsDmitry Anoshin, 03:25

Инжиниринг Данных

Небольшое вводное видео к модулю 7 про Apache Spark. В этом видео получилось больше информации про Whistler, BC, чем про сам спарк:)

PS опечатка на скрине, должно быть 7😋

YouTube

DATALEARN | DE - 101 | МОДУЛЬ 7-1 ВВЕДЕНИЕ

В 7м модуле мы познакомимся с open source решением для аналитики и инжиниринга данных - Apache Spark и его коммерческой версией Databricks. Вы узнаете примеры использования в индустрии и популярные use cases. Я расскажу о своем опыте с Apache Spark в Амазоне…

👍1

4.59K viewsDmitry Anoshin, edited 07:38

Инжиниринг Данных

Выходит новая книга Data Engineering with AWS, автор книги является Senior Solution Architect в AWS.

Book Denoscription
Knowing how to architect and implement complex data pipelines is a highly sought-after skill. Data engineers are responsible for building these pipelines that ingest, transform, and join raw datasets - creating new value from the data in the process.

Amazon Web Services (AWS) offers a range of tools to simplify a data engineer's job, making it the preferred platform for performing data engineering tasks.

This book will take you through the services and the skills you need to architect and implement data pipelines on AWS. You'll begin by reviewing important data engineering concepts and some of the core AWS services that form a part of the data engineer's toolkit. You'll then architect a data pipeline, review raw data sources, transform the data, and learn how the transformed data is used by various data consumers. The book also teaches you about populating data marts and data warehouses along with how a data lakehouse fits into the picture. Later, you'll be introduced to AWS tools for analyzing data, including those for ad-hoc SQL queries and creating visualizations. In the final chapters, you'll understand how the power of machine learning and artificial intelligence can be used to draw new insights from data.

By the end of this AWS book, you'll be able to carry out data engineering tasks and implement a data pipeline on AWS independently.

What you will learn
-Understand data engineering concepts and emerging technologies
-Ingest streaming data with Amazon Kinesis Data Firehose
Optimize, denormalize, and join datasets with AWS Glue Studio
-Use Amazon S3 events to trigger a Lambda process to transform a file
-Run complex SQL queries on data lake data using Amazon Athena
-Load data into a Redshift data warehouse and run queries
-Create a visualization of your data using Amazon QuickSight
-Extract sentiment data from a dataset using Amazon

Table of Contents
- An Introduction to Data Engineering
- Data Management Architectures for Analytics
- The AWS Data Engineer's Toolkit
- Data Cataloging, Security and Governance
- Architecting Data Engineering Pipelines
- Ingesting Batch and Streaming Data
- Transforming Data to Optimize for Analytics
- Identifying and Enabling Data Consumers
- Loading Data into a Data Mart
- Orchestrating the Data Pipeline
- Ad Hoc Queries with Amazon Athena
- Visualizing Data with Amazon QuickSight
- Enabling Artificial Intelligence and Machine Learning

Для тех кому предстоит работать в AWS книга будет очень кстати.

4.59K viewsDmitry Anoshin, 18:44

Инжиниринг Данных

В плохом качестве картинка (можно найти по отдельности в хорошем), но передает всю боль индустрии, когда для одной задачи есть сотня тулов, и какой же выбрать🤪

4.25K viewsDmitry Anoshin, 18:47

Инжиниринг Данных

Jason Brownlee states that “feature engineering is the process of transforming raw data into features that better represent the underlying problem to the predictive models, resulting in improved model accuracy on unseen data”

4.21K viewsDmitry Anoshin, 19:03

Инжиниринг Данных

Слышали ли вы про MapReduce? Чаще всего это слово использует при упоминании Hadoop.

4.39K viewsDmitry Anoshin, 04:02

Инжиниринг Данных

SeeMTo - новый канал о рациональности, аналитических инструментах и многом другом. Материалы публикуются на основе исследований, кейсов и мнения практикующего аналитика.

В одном из последних постов обзор «Рациональность: от ИИ до зомби» Юдковского. Автор привел подборку практических инструментов из книги.

На английском: seemto.blog.

PS Пост поддержал приют для собак в Ногинске.

SeeMTo

SeeMTo - Seeking Mental Tools. Канал о рациональности, аналитических инструментах и многом другом.

Материалы публикуются на основе исследований, кейсов и мнения практикующего аналитика.

Пишите на @SeeMTo_admin или admin@seemto.blog

4.46K viewsDmitry Anoshin, 06:00

Инжиниринг Данных

Для сравнения цен. Модуль 5 на data learn у нас был про облачные вычисления - совершенно бесплатно. А вот его цена в местном университете 700$. Так что пройдя модуль 5 вы сэкономите приличную сумму=)

Еще из интересно - университет заключил партнерство с Microsoft, и теперь мне нужно выкинуть все про AWS из курса😅

Continuing Studies at UVic

Cloud Computing for Business

Employers value people who can understand and evaluate the design, construction and structures of cloud systems. This course introduces you to cloud comput

4.35K viewsDmitry Anoshin, 19:11

Инжиниринг Данных

What to Look for in a Great Engineering Leader

the most important trait of an engineering leader is that they must be biased to say “yes”, but willing to say “no”

What to Look for in a Great Engineering Leader

Engineering leaders are tricky hires. Do you want someone with great technical skills? Great management skills? Great charisma with customers? A track record of performance at large and small scale? Or do you look for your classic leadership principles….

4.3K viewsDmitry Anoshin, 21:13

Инжиниринг Данных

Где-то в комментариях проскакивала информация о замечательном курсе - Distributed Systems in One Lesson. Я собрался силами и прошел его, правда со всеми домашними делами получилось 8 часов, вместо 4х обещанных.

На уроке были рассмотрены базовые вещи для distributed systems и их описание.

В целом курс понравился, несмотря на то, что он 2015 года. Узнал что-то нововое. Наример, не существует понятия "сейчас" и на самом деле все эти привычные вещи systime, now() - очень относительные - There is No Now (Problems with simultaneity in distributed systems)

Его одного конечно не достаточно, надо еще и книжку читать про Designing Data Intensive Application (кстати есть на русском). А еще лучше внедрять решение.

Использование облачных технологий упрощает нашу жизнь, мы как будто outsource решения по дизайну distributed system венндору и сами фокусируемся на бизнес проблеме, но всегда интересно понимать суть происходящего.

O’Reilly Online Learning

Distributed Systems in One Lesson

Simple tasks like running a program or storing and retrieving data become much more complicated when you do them on collections of computers, rather than single machines. Distributed systems have … - Selection from Distributed Systems in One Lesson [Video]

4.65K viewsDmitry Anoshin, 01:38

About

Blog

Apps

Platform