NEW BOT Телеграм, страница

Инжиниринг Данных

Сегодня наступил тот день, когда Амазон грозился уволить 18т людей, и уволили. Среди них много моих бывших коллег, кто уже давно не инженер, а менеджер или даже старший менеджер. Некоторые инженеры имели патент на свое имя или другие регалии. То есть это уже не просто хорошо/плохо работаешь, а даже если очень хорошо работаешь последние лет 5, в один прекрасный день уволят. Вот как тут не иметь несколько работ, в таких непредсказуемых условиях😳 Но надо, чтобы одна ИТ, а другая не ИТ, junior construction engineer например.

Помимо, Amazon, я заметил, что и Microsoft, включая Xbox тоже увольняли людей, например (The Coalition - Gears of War, Zenimax - Doom, Fallout). Сатя вот что написал: "Today, we are making changes that will result in the reduction of our overall workforce by 10,000 jobs through the end of FY23 Q3. This represents less than 5 percent of our total employee base, with some notifications happening today."

Раньше приходишь в банк и говоришь, что работаешь в Амазон/Майкрософт и сразу к тебе другое отношения, ипотеки, кредиты, а теперь все будут в группе риска😂

9.85K viewsDmitry, edited 22:17

Инжиниринг Данных

Как я писал, я закончил читать Designing Data Intensive Applications by Martin Kleppman. И могу поделиться своим мнением, которое, конечно же, будет отличаться от вашего. Постараюсь ответить на вопрос, когда нужно ее читать, и что же там такого полезного для людей, кто работает с данными и аналитикой.

Почему я ее прочитал? Мне кажется, что только потому-то про нее не говорит только ленивый в нашей отрасли, особенно в русскоязычных сообществах. За 7 лет в Канаде/США ни один коллега не обмолвился про эту книгу. Возможно причина в другом, тут у людей не очень принято делиться опытом или вообще чем либо. У каждого personal space и все такое.

Другая причина, это название, когда мы его видим, нам кажется, что книга про построение аналитического решения для больших данных. И про это есть в книги, но книга не про аналитические решения, а про сами инструменты (продукты и подходы реализаций продуктов). То есть, на примере машины, вам, как пользователю автомобиля будут рассказывать как работает ДВС, коробка, и другие агрегаты. То есть расскажут принцип работы автомобиля. В контексте книги, 80 процентов посвящено распределённым базам данных (реляционным и нет), как они работают, какие + и – у разных реализаций, как они хранят данные, как эти базы данные эффективно находя данные у себя в хранилище, какие типы хранилищ бывают и алгоритмы для записи, хранения и чтения данных.

Определенно, все эти вещи могут быть интересны, и было бы супер их понимать и разбираться в них, но, например мне, после 12 лет работы, как «водителю» разные аналитических продуктов, было комфортно без знания этих фундаментальных вещей. В моем случае, у меня просто появилось желание, копнуть в глубину, а обычно я всегда копал в ширину, поэтому и знаю так много разных инструментов, вместо того, чтобы знать их глубоко.

Многие «эксперты» могут не согласиться. Но каждый раз, когда я вижу действительно умного инженера, у меня всегда в голове один вопрос – «Если ты такой умный, то почему такой бедный?». Возможно главный контр аргумент будет, что они живут ради науки, им не нужны людские утехи, дорогие машины, рестораны, и другие атрибуты успешности нашего времени. Но чем тогда измерять успешность? Кол-во кеша в месяц, это хорошая метрика личной успешности для меня. Надо будет подкаст записать про успешность. Мне еще в 2010 году ответили на мою просьбу перевестись в аспирантуру с моего факультета на факультет ИТ, что мне это не нужно, потому что я и так уже «успешный», работая в банке за 50т рублей. Как говорится в Канаде – соррян, за отступление😊Для меня если не двигаться вперед, то это уже движение назад.

Давайте рассмотрим, главы книги.

Chapter 1. Reliable, Scalable, and Maintainable Applications – тут дается краткое описание этих и других характеристик качества распределенной дата системы. Можно прочитать вне зависимости от опыта.

Chapter 2. Data Models and Query Languages – автор рассказывает про основные типы базы данных, моделей данных (relational, documents, graph) и показывает примеры языков запроса.

Chapter 3. Storage and Retrieval – в этой главе рассматриваются способы хранения данных внутри баз данных, из инжиниринга данных мы уже знаем про 2 типа основных систем OLTP и Хранилище данных. Мы узнаем, как эти системы хранят данные, особенно много информации посвящено OLTP (да и вообще во всей книге).

Chapter 4. Encoding and Evolution – в этой главе на примере небольшого JSON, мы посмотрим как разные структуры данных конвертирует это все в байты, и в зависимости от способа и алгоритма, кол-во байт будет разным. Размер файлов имеет значение, потому что в таких системах мы часто двигаем, читаем, изменяем данные. Меньше объем – быстрее операции.

Chapter 5. Replication – интересная глава, которая детально раскрывает нам задачу репликации (зачем?), и способы реализации (как?).

Chapter 6. Partitioning – тоже самое, как в главе 5, но про партиционирование или как его еще называют sharding. То есть данные у нас равномерно (желательно) распределены по нодам. В главе рассказана как и зачем это нужно.

❤‍🔥25🐳5👻3🗿3🍓1

7.83K viewsDmitry, 19:55

Инжиниринг Данных

Chapter 7. Transactions – транзакции очень важны в системах OLTP, и часто вообще не используются в аналитических решения, мы, как бы, подразумеваем, что база данных (система источника) даст нам хорошие данные. А как, не наше дело. Вот тут и рассказывается про это как раз. В этой главе очень хорошо рассказали про ACID.

Chapter 8. The Trouble with Distributed Systems – в этой главе, вы узнаете про трудности, с которыми сталкиваются разработчики, когда создают продукты, которыми мы пользуемся для аналитических решений и не только.

Chapter 9. Consistency and Consensus – еще одна глава про основу основ работы баз данных, транзакций и тп. Мне показалась самой скучной. Зато Мартин дал понять в этой главе, что хваленная CAP теорема это 🍩(дырка от пончика). Так что больше не умничаем про CAP теорему!

Последняя часть книги, уже полезна безусловная.

Chapter 10. Batch Processing – все про классические batch процессы, в основном про MapReduce. Очень классно сравнивают MapReduce и Unix системы, MapReduce и MPP хранилища данных, и рассказывают про dataflow engines (Spark). Возможно, самая полезная глава для меня, заберу теорию для модуля 8 про Hadoop.

Chapter 11. Stream Processing – так же интересно и полезно как батч. Мне больше всего понравилось, что рассказывают про несколько основных принципов стриминговых систем, а то все привыкли слышать Kafka, Kinesis и тп, только путаница в вендорах, а тут наоборот, все четко и по делу. Так же надо бы в datalearn главу про стриминг.

Chapter 12. The Future of Data Systems – куча нудной инфы, или я уже подустал читать, но последняя часть про этику работы распределенных систем для аналитических решения прям очень понравилось, всем рекомендую, даже кто не работает с данными или не инженер.

То есть, отвечая на вопрос, нужно ли читать или нет, я могу сказать, что как ни крути – эта книга классика в нашей отрасли, даже несмотря, на большое кол-во сложного и не очень понятного контента, в ней много интересного и полезного. Для аналитики самое важное в главе 10 и 12. Главное, что я могу сказать, если у вас мало опыта или вы еще не начали серьезно работать, не нужно торопиться ее читать, чем позже в карьере вы ее прочитаете, тем больше поймете. Даже если вы никогда ее не прочитаете, то это не так уж страшно и врят ли отразиться на вашей зарплате. Лично я не жалею времени, хоть было не просто, но ощущаю приятное послевкусие от полученных знаний, могу теперь умничать среди коллег😉

PS вы можете найти на хабре статья и обзоры этой книги или же в на утубе в книжном клубе, ребята читали и обсуждали каждую главу. Кидайте ссылки в коменты ну ил делитесь своим мнением.

❤‍🔥30🐳8💅4

9.9K viewsDmitry, edited 19:55

Инжиниринг Данных

А сколько раз вы можете прочитать непрочитанное письмо? https://youtu.be/FlR_Ztt_FwQ

YouTube

Отмечу-ка непрочитанным (чтобы меньше сделать и больше устать)

Ближайшая группа по джедайским техникам: https://links.mnogosdelal.ru/onlinecourse
Ближайшая группа по логическим методам: https://links.mnogosdelal.ru/jedilogic

Мои книги:
Джедайские техники: http://links.mnogosdelal.ru/book
Джедайские техники: http:…

❤‍🔥9🍌8🗿4👨‍💻2🫡1💅1

9.94K viewsDmitry, 06:49

Инжиниринг Данных

Веселые картинки про организации компании без линейного руководителя на русском от Valve https://dtf.ru/u/17943-darkdenis/1578589-ya-prosto-zashel-na-sayt-kompanii-valve

DTF

Я просто зашёл на сайт компании VALVe — DarkDenis на DTF

И казалось бы, что тут такого? Но в разделе публикации я нашел интересную книгу на Русском языке. Представляю вашему вниманию:

🐳8🫡5🍾3❤‍🔥1

7.52K viewsDmitry, edited 16:39

Инжиниринг Данных

Open AI заключили эксклюзивное партнерство с Microsoft.

Open AI будет использовать Microsoft Azure для своей инфраструктуры. Основные продукты сейчас это GitHub Copilot, ChatGPT, Dalle2.

Так же Open AI развивает направление supercomputers - Microsoft announces new supercomputer, lays out vision for future AI work.

Ну и конечно Responsible AI, в главе 13 Designing Data Intensive Applications очень здорово написано, почему нужно делать responsible software.

PS Вчера мне снова помог ChatGPT. У меня есть CI/CD pipeline для Amazon Glue (Spark), который запускает в docker Glue Image и выполняет PyTest для каждого unit test. После добавления новой логике в код pytest стал падать в CI/CD pipeline. Вся команда билась целый день, как увеличить память контейнера внутри CI/CD gitlab runner, даже заменили инстанс с 8gb оперативки на 32gb оперативки, но все равно падало. Под вечер отчаявшись, я скопировал ошибку out of memory в chatgpt и товарищ выдал мне, что нужно для Spark добавить "—conf" с параметрами "executer" и "driver" memory. Ах, Семен Семеныч, целый день тыкали докер и gitlab, а оказалось надо добавить пару строк в Spark submit. (5 инженеров и DevOps не смогли додуматься, а AI сразу сказал, что делать).

Ссылки по теме:
1. Develop and test AWS Glue version 3.0 and 4.0 jobs locally using a Docker container
2. GitLab Runner

Вообще мне очень нравится мое решение на Glue, в котором я использую Git tags, terraform. Для каждой среды, у меня свой Glue job, созданный в terraform и использующий нужный python файл с правильным tag. Например,
glue_v1.5.0.py - production
glue_v1.5.1_3894hg.py - dev/stage

где v1.5.0 - git tag release после merge, а v1.5.1_3894hg tag, который еще не merge в моем branch, но имеет "3894hg" commit Id. Таким образом, каждое изменение я могу тестировать отдельно и финальную версию буду релизить через Terraform.

Было бы классно такой проектик для модуля 7.

Еще ссылки:
Git Basics - Tagging
Terraform Resource: aws_glue_job

PS Кстати поздравляю одну из читательниц, которую взяли в компанию, где внедрено такое решение Glue, AWS, Terraform, можешь уже начинать on-boarding;)

Так что, наше сообщество работает хорошо и помогает.

PPS Я использовал ChatGPT в Сиэтле, чтобы оспорить штраф за паркову, написал письмо и отправил им по почте, посмотрим как пойдет)

The Official Microsoft Blog

Microsoft and OpenAI extend partnership

Today, we are announcing the third phase of our long-term partnership with OpenAI through a multiyear, multibillion dollar investment to accelerate AI breakthroughs to ensure these benefits are broadly shared with the world. This agreement follows our previous…

🍾37❤‍🔥12🐳8🌚3🗿1

8.23K viewsDmitry, edited 19:31

Инжиниринг Данных

Автор резюме утверждает, что его резюме понравилось в Microsoft, Google, Amazon. Кто-то решил его детально проработать и выделить основные ключевые моменты:

Розовым - Action Verbs (глаголы действия) - с них начинают каждый bullet point

Желтым - hard skills для вакансии (ваша специализация)

Оранжевый - показатель понимание бизнес и реального опыта в индустрии

Зеленый - измеримый результат, самое ценное

Голубой - impact (но в данном пример, какая-то фигня)

Фиолетовый - ссылки на портфолио

Вот оригинальный пост

Кто-то может сказать, так чувак и так в FAANG работал, его и без того позовут. Но на моем опыте, это не сильно влияет на результат. Рекрутеры как правило стараются найти хорошего кандидата, а не фаанга кандидата (который будет просить много денег).

А вот совсем другой пример резюмешки

И на последок статья Как программисту сделать резюме от вастрика, у него и шаблон даже был.

PS у меня вообще плохое резюме, с ошибками в датах, и ничего работает.

🐳28💅8🗿5👨‍💻4❤‍🔥3🍓1

10.2K viewsDmitry, 03:22

Инжиниринг Данных

Хотите понять, как проводить A/B-тесты и интерпретировать их результаты? Тогда не пропустите бесплатный вебинар по предиктивной аналитике от MyTracker.

На вебинаре мы поговорим о том, что такое A/B-тесты, как их правильно провести, какими метриками и критериями оценивать результаты и многое другое. Дополнительно мы будем моделировать разные сценарии А/Б-тестов с помощью jupyter notebook и оценивать статистическую значимость результатов.

Вебинар проведёт Александр Смирнов, программист-исследователь команды предиктивной аналитики MyTracker.

https://vk.cc/cl2ezL

#реклама

🌭9🍌3

7.09K viewsDmitry, 16:52

Инжиниринг Данных

Если вы только начинаете работать с Microsoft Azure, то вот вам отличная подборка про продукты Azure для аналитики:

Основной продукт это Synapse Analytics, внутри вы найдете все основные сервисы:
- Serverless SQL (аналог Amazon Athena)
- Dedicated SQL Pool (MPP SQL хранилище данных, аналог Redshift)
- Azure Data Explorer (возможно ближайший это ElasticSearch и Splunk)
- Power BI
- Spark Pool (аналог databricks) и замена Azure Databricks
- Synapse ML notebooks (аналог Spark MLlib) и как замена Azure ML
- Azure DevOps (аналог GitHub, Gitlab)
- Azure Data Factory (аналог Airflow, выполняет задачи оркестратора, есть UI или код)

Вот вводные видео:

Synapse Serverless и Synapse Dedicated:
🛵Synapse Espresso: Introduction into Synapse - Serverless SQL Pools
🛵Synapse Espresso: Introduction to Dedicated SQL Pools
🛵Azure Synapse Serverless vs Dedicated SQL Pool
🛵Azure Synapse Analytics - Source Control with Git Integration

Delta Lake (Lakehouse):
🛵Delta Tables 101: What is a delta table? And how to build one?
🛵Synapse Espresso: Introduction to Delta Tables
🛵What is this delta lake thing?
🛵Explaining what a Lakehouse is!
🛵Get started with SPARK in Azure Synapse Analytics
🛵Talking DATA end to end with Buck Woody

Azure Data Explorer (Kusto):
🛵What is Azure Data Explorer (ADX, aka Kusto) ?
🛵FAST - Billions of rows with Azure Data Explorer (ADX)
🛵How to start with KQL?
🛵KQL - The Next Query Language You Need to Learn | Data Exposed: MVP Edition

Azure Data Factory (ELT)
🛵Introduction to Azure Data Factory

BI слой:
🛵What is Power BI?
🛵An introduction to Azure Analysis Services

ML:
🛵Machine Learning Experiences in Azure Synapse
🛵Machine learning with Apache Spark | Machine 🛵Learning Essentials
🛵Introduction To MLflow-An Open Source Platform for the Machine Learning Lifecycle
🛵Introduction to SynapseML

Задача Microsoft интегрировать все решения в единый интерфейс и возможно скоро мы узнаем про новый продукт🛺

❤‍🔥33🐳9🗿2

7.37K viewsDmitry, edited 06:01

Инжиниринг Данных

🐳14❤‍🔥6😈2

6.77K viewsDmitry, 16:54

Инжиниринг Данных

Умеют люди в бухгалтерии настроение поднимать. Ездил в Сиэтл на недельку, как обычно все чеки в кучку и claim expenses. Набралось на 2.5 тысячи. У меня опыт большой работы в корпорации и мне всегда интересно "на авось" чеки подсовывать на разные суммы, так как в 99% работает.

В Амазоне, я покупал каждую неделю по книге O'Reilly, в течение нескольких месяцев и собрал хорошую коллекцию. Когда жил в Бостоне несколько месяцев, в день на еду тратил 250$ вместо 50$, и оказывается Амазон внедрил AI для проверки expenses и ему было вообще все равно. Так что не все AI плохие, есть и хорошие🍍

Но сегодня, я встретил самого внимательного бухгалтера, который написал мне:

Kindly amend the amount on this and deduct all the personal items (lotion). Please resubmit once done.

Причем шампунь и кондиционер оставили как есть. Да и 8 банок шампанского тоже не смутило.

Пришлось просить chat gpt писать ответ:

Dear [Accountant's Name],

I hope this email finds you well. I am writing to address your request regarding the removal of body lotion from the company expenses.

I understand your concerns about keeping company expenses within reasonable limits and I appreciate your efforts to maintain financial responsibility. However, I would like to clarify that body lotion is a necessary item for our employees who may have skin sensitivities or require it for health reasons.

Providing body lotion as part of our employee benefits package helps to demonstrate our commitment to their overall well-being and helps to improve morale and job satisfaction. Additionally, it is a relatively small expense compared to other benefits, and its removal could be perceived negatively by employees.

I appreciate your attention to this matter and I would like to propose that we find ways to reduce expenses in other areas instead of removing this employee benefit.

Thank you for your time and consideration. I look forward to hearing your thoughts on this matter.

Best regards,

[Your Name]

Отправил ответ.

🍾71👻12😈4💯1

6.94K viewsDmitry, edited 00:51

Инжиниринг Данных

Даниил поблагодарил за datalearn и community да и вообще поделился с вами как чего и почему нужно учить SQL:

В колледже учился по специальности администратор БД. Так случайно получилось) По факту администрированию не учили, но учили писать код на SQL. Был очень хороший преподаватель, с которым до сих пор общаюсь. Да и тема данных мне понравилась, так как она универсальна и очень интересна: может пригодиться как в бизнесе, так и в научной среде. Был еще веселый преподаватель, который говорил что дата саенс это самая лучшая профессия 21 века) Но меня не очень в математику тянуло, больше нравилось что-то инженерное делать.

Увлекался звукорежиссурой, записывал друзей, сводил, мастерил + кастомизировал программу для аудио, рипер называется. Потрясающая вещь. Вот и как-то это совпало, что наткнулся на твой канал примерно в это время. Узнал что есть дата инженеры. Так как инженерная тема мне нравится, данные тоже, то я подумал что это должно быть интересно, к тому же название роли круто звучит. Прикинул, что за год смогу нормально подучиться, устроиться на работу. Так и получилось.
Делал задания в колледже + смотрел твои видосы. Потом мне преподаватель сказал попробовать работу найти. Я создал совершенно дурацкое резюме, отправил его на несколько вакансий. Из банка пришло приглашение пройти собеседование, хотя я туда свое резюме не отправлял. Успешно прошел собеседования. Меня пригласили. В итоге, в конце 3 курса мне удалось найти работу, в 19 лет, без высшего образования) В банке был очень крутой человек, который тоже обучением занимался. Вот так мне повезло. Основная моя роль - поддержка хранилища данных (MS SQL Server), если задач поддержки нет, то занимаюсь доработкой хранилища. Если продолжу свой путь в банке, то скорее всего буду с Greenplum работать. Ещё занимаюсь практикой студентов, так как у меня был негативный опыт в колледже, поэтому пытаюсь хоть каким-то образом сделать практику полезной для других. Работаю уже почти 2 года) Даталерн на самом деле очень ценный ресурс, и я очень тебе благодарен за то что ты его сделал! Уверен, что еще не раз буду смотреть ваши видео. Ну и твой Телеграм канал тоже читаю, помогаешь быть в курсе событий, понимать в каком направлении можно двигаться и развиваться)

❤‍🔥100🐳19👻2👨‍💻2

6.9K viewsDmitry, 04:54

Инжиниринг Данных

Лично знаком с товарищем, в 2016 году он бы BI инженером и я всегда следил за его карьерой и часто примерял его успехи на себе из разряда "А что если бы я сразу конвертнулся бы в менеджера и уже был бы Sr Manager", но решил не лезть в менеджеры и сейчас пожинаю плоды своего инженерного пути. Получается таже история, когда ехал в Канаду, знал, что надо быть инженером и никогда не хотел быть менеджером в Москве, чтобы быстро найти работу за границей. И сейчас думаю, инженерам проще найти работу.

Но возможно у менеджеров есть один +, им разрешат купить лосьен и сделать claim expenses😎

Кстати в Сиэтле была моя команда из Барселоны, какой же это кайф работать с Европейцами, после Канадцев и скоро мы сними в Канкуне бахнем текилы как следует, научу их отдыхать🙈

🐳30❤‍🔥12👻2

7.02K viewsDmitry, 12:00

Инжиниринг Данных

В понедельник уволили моего хорошего китайского товарища (кто в чате datalearn, то это он на английском поздравлял вас с новым годом и говорил I love Russia), которого я привел, к сожалению он был data scientist, но ему пришлось работать инженером данных, и понятно дело он не очень понимал как это все происходит, в декабре его посадили на performance improvement и в понедельник уволили. Конечно это косяк менеджера в первую очередь, потому что он взял чувака с Phd по экономике и давал ему задачки ковыряться в чужом SQL (technical debt💩). Когда товарища взяли к нам на работу он мне подарил norinco 97🫣

А вчера Sr. Analytics Engineer, сам уволился, сказал - ВСЕ С МЕНЯ ХВАТИТ. Сказал вечером, и утром уволился. Вот такие нежные ребята во Флориде. Если был русский, было понятно, что у него оффер горит и выходить на новую работу, а тут вроде тяжелый случай, мне кажется он мог расплакаться по зуму😥 потому что dbt логика для финансов это реальный ☠️.

У компании 2 продукта B2C и B2B. Проблема в аналитики для финансов, что sales все время меняет исходные данные руками в системе источника, и поэтому каждый день цифры не сходятся, а там 50-60 dbt моделей из гавна и палок только для финансов.

Он кстати бы единственным сертифицированным по dbt. В числе причин увольнения он написал, что все слишком хаотично, 2 раза менялось руководство, работать сложно (а почему? а потому что technical debt, который не в приоритете). Неопределенность его доконала и он решил уйти, так же он сказал, что одна из причин, что "Дима пропустил kick off митинг во вторник"😂 Я просто забыл сказать команде, что в это время буду в Сиэтле покупать лосьон и играть в гольф с испанцами.

Отсюда следующие выводы:
1. Не надо нервничать на работе, потому что пользы от стресса никакого, а только а вреда очень много, и чем мы старше тем опасней для здоровья.
2. Везде будет свой technical debt и хаос, нужно находить положительные моменты и развлекать себя, чтобы не скучать.
3. Даже если у вас хорошая работа, не забудьте хотя бы раз в квартал просматривать вакансии и может даже пройти собес. Я кстати сегодня пообщался разок со стартапом из YC, чтобы навыки не растерять, ищут DE, кто положит жизнь ради них и построит с нуля инфру и аналитику. Ага, слыхали про стартап культуры и золотые горы😅
4. Постарайтесь отложить хотя бы 3 месяца запас денег. В ИТ платят хорошо, если вы отложите, то вам будет не так страшно попасть под увольнения.
5. С финансами лучше избегать работать, будьте преактивными с Маркетингом и Продуктовыми отделами.

🫡102❤‍🔥36🐳8🌚2🗿2👻1👨‍💻1

7.76K viewsDmitry, 04:02

Инжиниринг Данных

Вот поэтому я всегда говорю - забудьте про джуна и будет вам счастье! В начале data learn один в один советы!

🐳9🍓2🍌1

7K viewsDmitry, edited 16:03

Инжиниринг Данных

Forwarded from Data Coffee

🐳39🍾20🍌7❤‍🔥5🌚3👻2🗿2👨‍💻1🤷1

7.03K viewsDmitry, 16:03

Инжиниринг Данных

Forwarded from Rumyantsev Feed

ETL vs. ELT

Интересный момент касательно ETL/ELT процесса, который с одной стороны очевиден, а с другой стороны - не задумываешься о разнице до поры до времени. Так вот, чем отличается ETL от ELT? Самый очевидный ответ - порядком выполнения степов Extract, Transform, Load. Да, но когда применять ETL, а когда - ELT?

Исторически ETL использовался в концепциях обработки данных для DWH. Была и до сих пор остаётся куча тулов, таких, как Informatica, Talend, Pentaho и т.д., которые являются ETL инструментами: загружаем данные из сорсов на машину/сервер с тулом, применяем трансформации, выгружаем в наше хранилище данных. Да, такой подход работает, когда мы говорим об обработке небольшого объёма данных. А что, если данных десятки и сотни гигабайт? А если они ещё и полу-структурированные? Какой бы мощный сервер с ETL тулом не был, в какой-то момент и он перестанет справляться с такими объёмами данных или будет делать это медленнее, тем самым задерживая доставку необходимых данных конечным пользователям.

И вот тут появляется Data Lake с возможностью хранить терабайты разных данных (structured, semi-structured, unstructured). Да ещё и с оптимизированными на чтение схемами. И что же имеем сейчас: забрали данные из сорсов, сложили в DL, сделали трансформации с помощью BigData тулов.

Да, здесь много частных случаем и можно долго спорить. Но если абстрагироваться от частного и посмотреть на общее - получаем, что ETL - это про DWH, а ELT - про Data Lake.

Неплохой повод включить в качестве вопроса со ⭐️кой для собеседований кандидатов.

🍾44❤‍🔥8👻6👨‍💻3💅3🌚2🌭1

7.53K viewsDmitry, 20:19

Инжиниринг Данных

Сегодня был вопрос в команда, кто будет делать screen share, чтобы пройтись по Scrum board, issues and so on.

Все тупо молчали. Обычно я всегда сам это делаю. Потому что, всегда вспоминаю фразу из 1984 - ""Соблюдая маленькие правила, можно нарушать большие"🦥

Но сегодня был небольшой собес с СТО и СОО в стартапчике, поэтому надо было отлучиться. И я нашел решение - https://wheelofnames.us/ - веселый сервис с колесом фортуны. Ну как нашел, подсмотрел в другой команде)) Так что после объявления победителя нашего казино, я спокойно свалил с митинга.

По собесу СТО меня спросил:
1) Что нового было в Python и Spark? Что в Snowflake?
2) Минусы Python
3) Что такое Index в БД и как работает
4) Как объяснить СЕО зачем нужен ETL
5) Как решать проблемы с производительность
6) Что я знаю про privacy/compliance и как использую в работе
7) git rebase/merge процесс

СОО спросил:
1) Про проекты где я брал инициативу и сам все делал
2) Как решать конфликтные ситуации в команде (классический вопрос)

Я спросил их про cashflow, financial plan, invest rounds и перспективах.

Обещали прислать coding. Тотал комп 170к САД + 15к signup + опцион. Думаю завалю след раунд. Но у меня нет задачи найти работу, так бекап если где сократят.

wheelofnames.us

Wheel Of Names | Spin Wheel 🎡

Wheel of names is an online tool to make random names decisions within...

🐳32💅12❤‍🔥5👻4

7.27K viewsDmitry, edited 21:47

Инжиниринг Данных

Вот так выглядит мой выходной. Пока дети в Русской школе, где учиться писать, читать, математику, история, танцуют, поют и играют на балалайке, я могу в библиотеке:
- почитать про Linux, очень хорошая книга, добавлю потом видео урок про shell и командную строку
- поделать учебный проект на django
- закончить углубленные тренинги по Azure Synapse
- пофиксить косяки в Glue/Spark
- Начать изучать kinesis stream для snowplow/posthog
- создать новый pipeline из Stripe в озеро Athena
- переделать логику расчета показателей в dbt/snowflake
- написать документацию по метрикам в Alation

У меня еще есть термос с Аргентинским чаем мате, я же готовлюсь к Аргентине 🧉

А мог бы просто на велосипеде покататься, у нас +10 и дождя нет. Конечно за один день все не успеть, но я работаю на марафоном Джедайских Техник и уже понимаю как можно меньше отвлекаться и больше успевать. Всем крайне рекомендую.

А как у вас выходные?

❤‍🔥67🍾10👨‍💻7🗿7🐳5🍌5⚡1👻1

6.85K viewsDmitry, edited 18:18

Инжиниринг Данных

📌 Онлайн-дискуссия «Вместе в облако. Мониторинг облачных приложений». Присоединяйтесь к экспертам VK Cloud

⏰ Когда: 7 февраля, 17:00 MSK
📍Регистрация

В процессе мониторинга не всегда получается отследить, что происходит с локальным монолитом, и вовремя среагировать. Стандартная микросервисная архитектура частично работает на PaaS, частично на партнерских инструментах. И главная сложность – определить, как все составляющие влияют друг на друга и где реально возникла проблема.

В программе:
🔸 Философия мониторинга и Observability.
🔸 Что сейчас модно, а что действительно работает.
🔸 Роль машинного обучения сегодня и попробуем заглянуть в будущее.
🔸 Q&A-сессия со спикерами.

Спикеры:
▪️ Илья Петропавловский, продуктовый менеджер платформы данных VK Cloud.
▪️ Василий Городянский, руководитель команды разработки Data Platform в VK Cloud.

Модератор:
▪️ Александр Белоцерковский, евангелист-архитектор VK Cloud и Tarantool.

Зарегистрироваться

#реклама

🐳4💅3🗿2👨‍💻1

7.52K viewsDmitry, 20:10

Инжиниринг Данных

🌚41❤‍🔥20👨‍💻5👻3🗿3🐳2🍌1

7.77K viewsDmitry, 19:12

About

Blog

Apps

Platform