NEW BOT Телеграм, страница

Инжиниринг Данных

Уже не новый, но хороший пост - Test data quality at scale with Deequ - про data quality и unit tests для data pipelines.

А какие framework вы используете? Я видел несколько для Spark/Databricks. И скоро планирую что-нибудь внедрить.

Amazon

Test data quality at scale with Deequ | Amazon Web Services

In this blog post, we introduce Deequ, an open source tool developed and used at Amazon. Deequ allows you to calculate data quality metrics on your dataset, define and verify data quality constraints, and be informed about changes in the data distribution.…

3.57K viewsDmitry Anoshin, 21:09

Инжиниринг Данных

Летняя школа от Snowflake:
Snowflake 101 – Available Now
Analysis and Visualization Best Practices – Available August 9
Data Management for Analysts – Available August 16
Advanced Analytics and Emerging Trends – Available August 23

3.5K viewsDmitry Anoshin, edited 22:10

Инжиниринг Данных

Введение к 6 модулю.

В 6 модуле мы узнаем про аналитические и облачные хранилища данных которые используются в индустрии. Крупные компания Amazon, Microsoft, Airbnb, и многие другие из списка SP500 используют одну или сразу несколько решений для аналитических хранилищ данных - Amazon Redshift, Microsoft Synapse, Google BigQuery или Snowflake. Но кроме облачных хранилищ есть еще много on-premise Teradata, Greenplum, Vertica, Exasol и тп.

Из модуля вы узнаете:
📌 Основы аналитических хранилищ данных
📌 MPP vs SMP
📌 Практика с Redshift, Snowflake и Azure Synapse
📌 Облачные ETL инструменты
📌 Обзор вакансий мирового рынка
📌 Обзор решений для операционной аналитики - Splunk, Azure Data Explorer и ElasticSearch

YouTube

DATALEARN | DE - 101 | МОДУЛЬ 6-1 ВВЕДЕНИЕ

В 6 модуле мы узнаем про аналитические и облачные хранилища данных которые используются в индустрии. Крупные компания Amazon, Microsoft, Airbnb, и многие другие из списка SP500 используют одну или сразу несколько решений для аналитических хранилищ данных…

3.74K viewsDmitry Anoshin, 23:38

Инжиниринг Данных

Ted Talks у меня всегда ассоциировались с мучительным изучением английского языка. Каждый день я смотрел по одному talk, и иногда даже пытался писать пересказ. Вот интресный talk - Inside the mind of a master procrastinator | Tim Urban

Кстати узнал крутой lifehack для иммиграции в Канаду. Я всегда думал, что надо сдавать IELTS, но у знал недавно, что можно сдать другой экзамен намного легче https://www.celpip.ca/

YouTube

Inside the Mind of a Master Procrastinator | Tim Urban | TED

Tim Urban knows that procrastination doesn't make sense, but he's never been able to shake his habit of waiting until the last minute to get things done. In this hilarious and insightful talk, Urban takes us on a journey through YouTube binges, Wikipedia…

3.86K viewsDmitry Anoshin, 17:14

Инжиниринг Данных

Свежая статья про Analytics Engineer:

If you work in the world of data, you have at this point heard a lot of talk about the Modern Data Stack. It has gained a lot of buzz and attention as companies have begun a fundamental shift in how they think about analytics and machine learning. The Modern Data Stack is built on the new cloud-native technologies that have emerged in the last decade that are fast, reliable, scalable, and, most importantly, accessible everywhere. Some of the technologies that have made this possible are massively parallel processing (MPP) cloud data warehouses like Redshift, Snowflake, and BigQuery; ingestion tools like Stitch, Airbyte and Fivetran that have improved reliability and connector coverage; and analytics platforms like ThoughtSpot that enhance users’ experience when finding and sharing data insights, and make that data accessible to everyone, everywhere.

https://medium.com/validio/dbt-and-the-analytics-engineer-whats-the-hype-about-907eb86c4938

Medium

dbt and the Analytics Engineer — what’s the hype about?

If you work in the world of data, you have at this point heard a lot of talk about the Modern Data Stack. It has gained a lot of buzz and…

3.72K viewsDmitry Anoshin, 23:04

Инжиниринг Данных

Еще один полезный фидбек от Александры, который я подсмотрел в нашем женском сообществе, кстати Александра курирует нашу группу в Facebook.

Всем привет! Хочу от себя поблагодарить Дмитрия и всех разработчиков курса)) 🙏 Это был мой начальный этап в понимании в какую сторону работы с данными я хотела бы развиваться. Предыстория. Я долго работала в интернет маркетинге и в какой-то момент стало ясно, что пора что-то менять. Работа, говоря прямо, стала бесить. Дата аналитика всегда меня привлекала, но и страшно было - женщина, за 30ть. Тема даты стала активно пушится из каждого утюга, но

1) никто толком не мог объяснить разницу между дата сайнтистом и дата аналитиком, например.
2) было очевидно, что на волне бума обучающие организации "косят" деньги (один такой курс я прошла, спасибо, знакомой, бесплатно).

Случайно (уже не помню как) наткнулась на курс, здесь (и это самое главное) по полочкам мне разложили кто есть кто, какие знания нужно развивать, что бы, как сейчас говорят, войти в профессию. А главное, я смогла определиться в направлением. Начала со смежной с моей уже прошлой профессией - с web-аналитики. За это время параллельно с изучением основных инструментов по новой профессии, я начала изучать python, sql, Tableau, как устроены ААР, процессы (ох, ETL - самое сложное :slightly_smiling_face: оказалось)). И эти знания в последствии дали мне несколько очков сверху при рассмотрении моей кандидатуры на собеседованиях, что самое интересное они волнуют работодателя даже больше, чем Google Analytics\GTM. Да, даже так! Да и сама профессия со времен моей работы в интернет маркетинге изменилась, функционал расширился. И это отлично.

Что могу посоветовать от себя лично: сделайте git. кидайте туда все-все-все. Скрины практик на курсе, какие-то упражнения с sql, с python. Пусть даже кривые\с ошибками, но кидайте и включайте ссылку в резюме. Задавайте много уточняющих вопросов на собеседовании. Прошла много разных собеседований и крайне часто, сыпя вопросами в сторону работодателя получается так, что

1) они ищут "сами-не-знаю-кого", но модно и нужно, и конкуренты
2) хотят вроде как web-аналитика, а по факту он должен: знать все про вебку, работать в Hadoop, строить предсказательные модельки и хорошо бы ETL, и все за малую денежку. Ребята, не ведитесь. Это значит там бардак.

Не всегда HR умеют грамотно описать вакансию - это еще одна проблема.

Ходите, общайтесь. Много. Это дает понимание происходящего.

Сейчас DE\DA ищут очень многие компании, даже web-аналитики все еще востребованы, хотя направление не новое.

Уважайте, цените себя и верьте в себя. Вы на курсе! А он ооочень богатый в плане знаний. И действительно поможет в будущем.

3.88K viewsDmitry Anoshin, edited 23:55

Инжиниринг Данных

Ещё один отличный фидбек от Ивана. Получается у всех опыт отличается и пути разные, но если цель понятно, ее относительно легко добиться, все необходимое есть.

Хотел бы так же поблагодарить Дмитрия за курс!

Во многом благодаря курсу и тому направлению которое задал Дмитрий, я получил оффер на позицию ETL разработчика в крупный банк.

Основной стэк:
Informatica, Oracle, Python, Power BI.

До этого конечно был опыт работы в техподдержке 0,5 года.

И как уже говорили Дмитрий, нужно проходить собеседования.
Я прошёл около 15 собеседований и уже в дальнейшем знал, что будут спрашивать.
Были очень странные собеседования, когда просили написать API на Python,спрашивали декораторы и итераторы, отличия *args и **kwargs(это уже advanced уровень).
Спрашивали advanced вопросы по Oracle(партиционирование, индексы, PL/SQL).
Один раз спросили про теорию сетей(в общих чертах понимать нужно).
Иногда просили подготовить
набор тестовых данных из 10-15 таблиц.
Спрашивали, а вы знаете как в SQL работает where😃
Так же плюс собеседований, дают тестовые задания, на которых можно прокачаться.
Кстати, по образованию я учитель физической культуры)

На всех собеседованиях, удивлялись, что я знаю архитектуру DWH и могу объяснить какую пользу могут принести Data/Engineer/Analyst для компании, опять же все благодаря курсу)
Какие то моменты углубленно сам изучал.
Достаточно подробно изучил Talend даже записал пару видео на YouTube, ознакомился с Luigi, постоянно работаю с Docker и Linux.
Есть пробелы в BI и статистике, но стараюсь наверстать.

Так же хотел бы поблагодарить Анатолия за курс по SQL, лучшего объяснения оконных функций я не встречал)

Так же в подготовке мне помогли курсы Глеба Михайлова.
У него есть крутой курс на udemy и он ведёт телеграм канал.

4.13K viewsDmitry Anoshin, 14:05

Инжиниринг Данных

Не пропустите следующий офигенно полезный вебинар про Apache Spark, SparkSQL и Pyspark https://youtu.be/OfS5o8vz-O8

YouTube

ВВЕДЕНИЕ В PYSPARK И SPARKSQL / ОЛЕГ АГАПОВ

На вебинаре хочу рассказать про появление Apache Spark, его применение в современном стеке дата-инструментов, а также на практике показать как запустить Spark на своём компьютере и написать первый ETL пайплайн!

🔔 План:
📌 Как и почему появился Apache Spark…

4.56K viewsDmitry Anoshin, edited 17:32

Инжиниринг Данных

Forwarded from LEFT JOIN

Буквально неделю назад закончил обучение Clickhouse от Altinity (101 Series Training). Мне очень понравилось погружение в Clickhouse со стороны команды, которая по праву считается экспертами в CH, искренне рекомендую это обучение всем, кто заинтересован в расширении знаний о Clickhouse.

Написал заметку о том, что происходит в четырех днях тренинга и делюсь своим конспектом ✍️.

LEFT JOIN

Тренинг по Clickhouse от Altinity

Буквально на днях закончил обучение Clickhouse от Altinity (101 Series Training). Для тех, кто только знакомится с Clickhouse Altinity предлагает базовый бесплатный тренинг: Data Warehouse Basics. Рекомендую начать с него, если планируете погружаться в обучение.…

4.15K viewsDmitry Anoshin, 13:08

Инжиниринг Данных

через пару минут начинаем https://youtu.be/OfS5o8vz-O8

YouTube

ВВЕДЕНИЕ В PYSPARK И SPARKSQL / ОЛЕГ АГАПОВ

4.93K viewsRoman Ponomarev, 15:59

Инжиниринг Данных

Вводная статья про использование git для SQL - зачем и как. И даётся описание как использовать плагин для dbeaver, который синхронизирует с гит (у нас в даталерн dbeaver основной инструмент, может кто захочет на русском написать туториал и мы в гит добавим?)

Better with Data

How to Version Control Your SQL

A version control tutorial for analysts

7.18K viewsDmitry Anoshin, 05:47

Инжиниринг Данных

Отличная статья про лидерство без авторитета в дата командах и техники для завоевания доверия у коллег и руководителей. https://eugeneyan.com/writing/influencing-without-authority/

5.44K viewsDmitry Anoshin, 13:04

Инжиниринг Данных

Data Warehouse Costs Soar, ROI Still Not Realized

94% report of data leaders voice serious concerns

Only 22% saw a full return on investment

https://www.businesswire.com/news/home/20210812005242/en/Data-Warehouse-Costs-Soar-ROI-Still-Not-Realized

Все как обычно, сложно окупить аналитическое решение и просчитать его пользу. Но и без него никак.

4.47K viewsDmitry Anoshin, edited 19:52

Инжиниринг Данных

Data & AI tools 2020 🤯

4.96K viewsDmitry Anoshin, 21:05

Инжиниринг Данных

На картинке лишь малая часть инструментов за 2020 год для работы с данными. "Растут как грибы" - это реально про них. Да еще и мой прошлый пост про 0 ROI от внедрения аналитического решения. Так же без него тоже никуда, поэтому народ время не теряет и пилит свой "табло" или "аирфло" или еще чего-нибудь, что хорошо стрельнуло.

Проблема тут, что из-за такого обилия инструментов, новичок просто утонет и никогда не найдет выхода из лабиринта иснтрументов. Если 10 лет назад было по 3 инструмента в каждой категории, а категорий было максимум 5, то теперь просто "жопа". Одно из преимуществ datalearn для меня, что я хочу сделать такой мостик между сегодняшним хаусом инструментов и пониманием основ. Но я не про datalearn сейчас.

Сегодня попался еще один интересный пост, про What is the right level of specialization? For data teams and anyone else. идея в том, что "Specialization is probably driven a lot by bad tools", и если раньше было несколько специализаций, то сегодня их расползлось. Теперь стало сложно понять какой специалист нужен, какие требования, что учить, что писать в описание вакансии и тп. Часто это опять же набор - tools.

Так что если вы знаете и понимаете основы, то вы справитесь с любым tool, а если вы учите tool ради специализации, то вы идете по ложному пути. А как вы думаете?

Erik Bernhardsson

What is the right level of specialization? For data teams and anyone else.

3.92K viewsDmitry Anoshin, 21:05

Инжиниринг Данных

Если вы работает с Python для дата аналитики, то вы точно используете ноутбуки, и если вы не software engineer, то вы их обожаете (как я). НУ И ЗРЯ! Это не я сказал I don't like notebooks.- Joel Grus

В целом вся это история с naming conventions все больше и больше меня мучает на работе, и каждый мой commit исправляется, обычно ошибки это название переменной, или большая буква заменяется на маленькую, или маленькая на большую, а иногда CamelCase на camelCase или на camel_case. Короче 😖😡

В целом мне моя проблема понятна - я далек от software engineering, и в данный момент это мой минус, приходится подстраиваться, что конечно ранит мою самоценку сейчас, но полезно на долгую перспективу.

YouTube

I don't like notebooks.- Joel Grus (Allen Institute for Artificial Intelligence)

I have been using and teaching Python for many years. I wrote a best-selling book about learning data science. And here’s my confession: I don’t like notebooks. (There are dozens of us!) I’ll explain why I find notebooks difficult, show how they frustrate…

3.43K viewsDmitry Anoshin, 00:53

Инжиниринг Данных

У вас в git Master или Main? (Из документации "master" is a naming convention for a branch. After cloning (downloading) a project from a remote server, the resulting local repository has a single local branch: the so-called "master" branch. This means th

Anonymous Poll

Свой вариант в коммент

17%

Нет у нас гита вашего

518 voters3.23K viewsDmitry Anoshin, 02:37

Инжиниринг Данных

А вот к чему опрос - Why GitHub renamed its master branch to main

The computer industry's use of the terms master and slave caught everyone's attention in the summer of 2020. Amid the many protests and the growing social unrest, these harmful and antiquated terms were no longer considered appropriate.

"Both Conservancy and the Git project are aware that the initial branch name, 'master,' is offensive to some people and we empathize with those hurt by the use of that term," said the Software Freedom Conservancy.

PS в целях diversity&inclusion это считается хорошей практикой переименовать master в main, перестать использовать слова типа divide and conquer, by the way, и даже слово picnic.

TheServerSide.com

Why GitHub renamed its master branch to main | TheServerSide

GitHub renamed the master branch to main for any Git repository, as it addresses cultural change like so many organizations that have nixed master-slave terminology in a time of social unrest.

3.5K viewsDmitry Anoshin, edited 05:54

Инжиниринг Данных

3.8K viewsDmitry Anoshin, 12:28

Инжиниринг Данных

Про PySpark

3.21K viewsDmitry Anoshin, 00:01

Инжиниринг Данных

Первые 3 недели в роли менеджера Data Engineering https://tiffanyjachja.medium.com/my-first-three-weeks-a-data-engineering-manager-8b0be08da7a5

3.92K viewsDmitry Anoshin, 01:03

About

Blog

Apps

Platform