Инжиниринг Данных – Telegram
Инжиниринг Данных
23.5K subscribers
1.98K photos
56 videos
192 files
3.2K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
#dataengineering

Еще парочку интересных постов от компании UPSIDE. Первый про миграцию из Redshift на Snowflake. Пока мы тут обсуждаем преимущетсва облака, ребята уже наигрались в Redshift, и мигрировали на Snowflake в качестве Хранилища Данных и Matillion как основной ETL. При этом они сэкономили 70% от стоимсти Redshift за счета распределенный архитектуры (хранение данных и вычисления). Если вы строити хранилище в облаке, стоит задуматься. Если есть вопросы по облачным аналитическим решениям, могу подсказать.

Другой пост от CTO, о том, как они немного устали от AWS. Несмотря на то, что AWS лидеры, не все так хорошо и не всегда работает для конкретных случаем.
#dataengineering

Еще интерсный пост из этой же серии. Ребята из Fivetran (ETL продукт), проверили производительнось Redshift, Snowflake, Azure DW, Presto, BigQuery и сравнили скорость и цены.

Я вот недавно узнал, про becnhmark для аналитических решений, оказывается есть стандартизированные базы данных разных размеров под разные кейсы. Существуют не комеерческая организация TPC, которая появилась в 80х и они начинали с ATM машин и транзакционных систем. Если вам интересно, можете почитать больше по ссылке.

Для аналитических решений используется база TPC-DS. Например, в Snowflake она уже доступно по умолчанию, в Redshift я не видел, но мне кажется, вам придется загружать самим. В TPC есть уже эти базы под различные БД (Oracle, Teradata, ..)

В нашем примере ипользовали данные 2х размеров: 100Гб(400 млн строк) и 1ТБ(4 млр строк). Так жы использовали сложные запросы от TPC (без кеширования).

В принципе у них получось все почти одинаково, так как они хотели просто пропиариться. Мне бы было интересно такой тест провести, но это требует времени на подготовку и будет стоить денег за ресурсы.
#aws

Если вы собираетесь работь с AWS или уже работаете, то вот несколько полезных whitepapers:
Architecting for the Cloud - отличный документ, даже если вы будет работать с отечественными облачными решениями.
Overview ofAmazon Web Services - основные сервисы AWS.
How AWS Pricing Works - про цены.
Еще одна книжка наконец написана (Здесь не только Tableau Desktop, но и Snowflake, EMR, Redsdhift, Matillion, Tableau Server on Linux, Tableau Prep, Tableau API) https://www.packtpub.com/big-data-and-business-intelligence/tableau-2019x-cookbook
#dataengineering

Попался действительно хороший отчет по сравнению аналитических платформ Snowflake, BigQuery, Azure SQL DW, Redshift. Очень подробная информация про +/- каждой из систем с ценами и производительностью при работе с benchmark DB TCP-H (я рассказывал ранее про нее). https://gigaom.com/report/data-warehouse-cloud-benchmark/
Хотя есть один нюанс! Только сейчас заметил: Sponsored by Microsoft 😂🤦‍♂️ А я то подумал не ужели Azure DW действительно такой хороший…
Magic Quadrant for Analytics and Business Intelligence Platforms 2019!
Power BI поднялся еще выше. Я недавно работал 5 месяцев с Power BI на подработке, после Tableau это как пересесть с иномарки на отечественный автопром. Согласно Gartner, Power BI супер дешевый и есть бесплатный вариант и клиенты через 5 минут писаются кипятком (WOW эффект), как все просто и понятно. Наверно у всей этой истории есть и негативная сторона. Но темнеменее Microsoft лидирует в Канаде, так как все сидят на продуктах Microsoft и сложно перейти на другие решения, особенно когда тебе еще дают некоторые продукты почти задаром. В России тоже Power BI очень популярен.
Tableu выпустила новый релиз, и теперь у них есть NLP, хотя у Power BI это было еще год назад наверно. Но в любом случае, Tableau это Self-Service, а это значит любой может загрузить что угодно на сервер, и толку от Ask Data будет не много, но если это правильно настроить, убрать весь мусор, то будет круто! Кстати вот описание новых features https://medium.com/@RockYourData/meet-the-new-tableau-2019-1-70c8dfb127a2
Интересная статья про культуры работы в Амазон, я уже 3 года работаю и согласен со всем выше сказанным. Несомненно есть и много преимуществ (часто езжу в Сиэтл с семьей на машине за счет компании, могу учиться сколько захочу, безлимитный доступ к AWS ресурсам, интересные и сложные проекты, легко попасть на конференцию в качестве спикера - Enterprise Data Worlds, Data Summit, Data Architecture Summit, могу себя успокаивать, что я работаю в топ компании и по зп все ок).

Поэтому всегда хорошо знать обе стороны ситуации. И если вы иммигрант (как я) или планируете им стать, то работа в такой компании это как счастливый билет к быстрой и успешной адаптации в новой стране.
Всем привет, я тут подумал и придумал=)

Давайте использовать это канал более эффективно. Мой контент не всегда актуален для Российского рынка, поэтому я хочу в него добавить больше информации и новостей связанных с данными и аналитикой, но в России.

Что было бы интересно:
1️⃣Use cases - то есть описание проектов, связанных с BI/DW/BigData. Можно по схеме STAR - Situation (ситуация, как было, какая боль у бизнеса/заказчика), Task (какая задача, скоуп), Action - действия (что было сделано, какая архитектура решения, инструменты аналитик), Result - результат (какой результат, и это наверно самое главное, чтобы понять как аналитическое решение помогло приносить больше ценности бизнесу). Таким образом, мы сможем не просто постить информацию о бездушных тулзах, но показать как на практике они решили бизнес проблему.
2️⃣Обзоры - например, вы прочитали статья, и краткой описали о чем она, какие выводы
3️⃣Новости аналитического рынка в РФ
4️⃣Вакансии по теме (ссылку, список инструментов и навыков и зарплата)

Если есть желание присылайте мне в телеграм, а я буду выкладывать и вас указывать как автора новости. Со своей стороны буду выкладывать все, что происходит в Северной Америке.