Инжиниринг Данных – Telegram
Инжиниринг Данных
23.4K subscribers
1.98K photos
56 videos
192 files
3.2K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Интересная графика, сколько в среднем инженер работает 2 года на одном месте, потому что, если вы останетесь, то вы будете получать на 50% меньше, чем могли бы.

Все смены работы, обычно на повышают зарплату на 40%. А когда я сидела в Амазоне 5 лет, и отстал на 80% от рынка.

Сидеть хорошо, если у вас есть другие интересы или источники дохода. А иначе, ни денег, ни знаний.
🗿53❤‍🔥8🐳7👨‍💻4🙈3🦄3
The State of Data Engineering 2023 - еще один landing page, но уже от LakeFS. Я не использовал LakeFS, по-моему это решения для версионности озера данных и работает с различными платформами - Athena, Spark, Kafka, Presto. Если кто использует, расскажите на пальцах, что за штука и зачем? Век живи, век учись! А лучше вебинарчик! Я вообще за любой вебинарчик!🥹

В отчете следующие категории:
- Ingest - решения для стриминга и batch, ETL/ELT, low-code/no-code/code. Многие решения выглядят знакомыми и популярными. Действительно, все они могут грузить данные из источника в таргет.

- Data Lake - решения, которые хранят файлы - Hadoop, S3, Azure Storage и тд. Тоже, все выглядит логично.

- Metadata - состоит из: Metastroe пример Hive каталога, AWS Glue, Open Table formats (Lakehouse): Hudi, Delta, Iceberg, Data Version Control Infra.

- Compute Engines - есть Distributed Compute (имеется ввиду только вычислительные мощности как Spark) и Analytics Engines (привычные хранилища данных, тоже кстати distributed)

- Pipelines - категория Orchestrations (scheduler/cron для выполнения ETL jobs в заданной последовательности aka Direct Acyclic Graph) и Data Observation - для мониторинга качества данных

- Practitioners Apps - WTF? Тут и MLOps и data centric AI/ML и ML observability и даже есть dbt в Analytics Workflow категории. А вот BI нету, как так?

- Governance - решения для дата каталогов.

Вообще life-hack для вендоров:
1. Покупаете классный домен
2. Делаете сайт визитку с красивыми графиками/опросами/выводами
3. ChatGPT пишет вам отчет, что ваш тул лучший среди лучших

Хотя, наверно, все и так это делают😅
❤‍🔥7🐳4🌭2🎄2
VK Cloud Conf: как перенести лучшие практики разработки ИТ-компаний в классический бизнес

Когда: 8 июня, 12:00
📍 Где: Москва
⚡️ Last call: успевайте зарегистрироваться на конференцию для руководителей компаний и ИТ-специалистов разных направлений. Регистрация закрывается 7 июня в 12:00

В программе:

🔹 Как повысить эффективность разработки ИТ-решений с помощью облачных сервисов.
🔹Подходы к работе с данными: примеры масштабных дата-решений, особенности и результаты проектов.
🔹 Тренды и примеры миграции на российские базы данных.
🔹 Лучшие практики облачной безопасности.
У вас будет возможность задать вопросы экспертам и узнать мнение коллег из других компаний. Не упустите возможность получить новую информацию, сделать свой бизнес эффективнее и повысить безопасность работы в облачной среде.

👉 Зарегистрироваться

#реклама
🌭5🍌4❤‍🔥1🙈1
4 часа и вы в теме! Бесплатные курсы от Deeplearning:

- ChatGPT Prompt Engineering for Developers
- LangChain for LLM Application Development
- How Diffusion Models Work
- Building Systems with the ChatGPT API

Не уверен, что вам это поможет, но трендово же?!
🌚8🍌6❤‍🔥3🍾3
Forwarded from Книжный куб (Alexander Polomodov)
Путь аналитика. Практическое руководство IT-специалиста

Лет шесть назад я прочитал эту книгу Веры Ивановой и Андрея Перерва и она показалась мне достаточно неплохой. Плюс книги в том, что авторы довольно структурировано описывает карьерную лестницу аналитика, приводя список требований к каждой из ступенек, а также указывая способы перехода на новую ступеньку. Также в книге есть много указаний на материалы, которые реально стоит изучить. А минусы в том, что ряд моментов, указанных автором, относится к дискуссионным и с моей точки зрения не нужны:) Если говорить про содержание книги, то она состоит из 7 глав, среди которых есть вводная часть, шаги карьерной лестницы аналитика и заключение, а также много примеров и шаблонов в дополнительных материалах
1. Общие понятия
2. Профиль и квалификация аналитиков
3. Младший аналитик
4. Аналитик
5. Старший/ведущий аналитик
6. Начальник отдела анализа
7. Итак

Итого, книга показалась мне полезной для прочтения любому, кто идет или планирует идти по этому пути аналитика.

#SoftwareDevelopment #Software #Analyst
🐳19❤‍🔥7🌚5
7 июня пройдёт Alfa Analyze IT Meetup — встреча для системных аналитиков. Основные темы и спикеры:

🎯 Как аналитику проще погрузиться в архитектуру?

Борис Пишванов и Михаил Салахов, Solution-архитекторы из Альфы, расскажут, почему может твориться «дичь» на проекте и как из неё приготовить «шашлык»

🎯 Как вести фронтовую документацию рядом с кодом

Игорь Савинов, System Analyst, поделится тем, как ведется документация в Альфа-Банке, какие проблемы приходится решать

🎯 Метрики эффективности процессов системного анализа

С Сергеем Воробьевым, Head of Efficiency Development в Альфе, разберёмся в процессах погружения в компетенции

🎯 Куда расти системному аналитику?

Юлия Лебедева, Competency Lead в Сбере, Анатолий Олейнер, Software Architect в СИБУР диджитал и Иван Стефу, Product Owner в Альфа-Банке обсудят пути развития для аналитиков

Когда: 7 июня в 18:30
Где: Москва, пр-т Андропова, 18, к. 3 или подключайтесь онлайн

Регистрируйтесь, чтобы не пропустить! Количество мест ограничено.

#реклама
🌭6❤‍🔥3🌚1
Аналитика данных - это не только о числах и создании дашбордов. Это о понимании бизнес-контекста, задавании правильных вопросов и интерпретации данных в бизнес рекомендации и решения.

Эффективные аналитики и инженеры обладают сочетанием технической экспертизы, бизнес проницательности и критического мышления, позволяющих преобразовывать сырые данные в пользу для бизнеса.
❤‍🔥58🌚6🗿6🤷‍♂1🌭1
Офигенный пост про то, как давать talks, то есть делать презентации. Я уже давно на своем опыте понял, что презентация должны быть веселыми, с шутками, картинками и мемами, чем проще, тем лучше. Люди хотя отдохнуть, развлечься или отвлечься. Поэтому грузить их нудятиной - ну такое... Но 95% выступлений именно такие 😬 бесполезные, скучные, waste of time. Поэтому, если есть возможность выступать перед аудиторий, постарайтесь не грузить людей, доставьте им удовольствие.
Мое собственное самое любимое выступление было в Москве, в Mailru - Как технологии помогают Amazon быть самой клиентоориентированной компанией на Земле? Я очень действительно потратил много времени на подготовку, и на контент, и усилия оправдали себя.
❤‍🔥26💘1
Вот и у Apple вышел AR. Посмотрим скоро, можно ли реально работать в нем или нет, или снова немножко buzz words.

Microsoft HoloLens AR- фигня
Oculus Quest VR - фигня
Valve headset VR - фигня
Apple AR - ?

Тут вообще важно правильные термины использовать.

VR - мы смотрим в маленький телевизор (экран), а вот AR - мы смотрим сквозь. Я как то пытался записать видос для Data Learn в HoloLens, но так все тормозило и было криво, что забил.

Говорят, в VR взрослый контент хорошо заходит, но не пробовал еще, интересно в AR там как с этим?!
🌭19🍾4🌚3❤‍🔥1🗿1
⚡️ CockroachDB vs YDB vs YugabyteDB

Нашли ультимативный гайд по базам данных на английском языке.

В статье 🇬🇧
• исследование БД на основе популярного бенчмарк-теста YCSB;
• «сравнение яблок и апельсинов» или небольшая ретроспектива в историю исследований баз данных SQL;
• проверка производительности БД на разных сценариях.

Есть ли одна лучшая СУБД SQL, узнайте по ссылке 😉

#реклама
🗿8👾4❤‍🔥2🌚2🐳1🍾1
Хорошая статья на обзор продуктов для сбора событий внутри продукта - Amplitude, Mixpanel, Heap - Leaving product analytics - an analysis of the current state of product analytics and beyond

What is product analytics (in a nutshell) -

an approach to understanding how users or accounts use a digital product? With a focus on feature usage, cohort analysis, and based on retention. Product analytics is based on event data that is sent when users or systems perform a specific action. (ok, that is really short). But it has the important ingredients that we need in the next steps.

Лично для меня продуктовая аналитика - это самый интересный аспект работы. Общение в основном происходит с продукт менеджерами, как правило, они все очень проактивные и result oriented. Всегда есть понимание задачи, фичи, и как это дело измерять. Как правило задачи очень схожи вне зависимости от продукта.

А если вы еще прочитаете книги - Escaping the Build Trap: How Effective Product Management Creates Real Value и Lean Analytics то будет совсем замечательно.

Но есть одно НО, даже в этой статье. Прослеживается желание использовать продукт для продуктовой аналитики как главный источников для всех данных и insights. Даже в статье автор пишет, что хочет BI и Data Warehouse встроенные в продукт, наивный.
❤‍🔥13
Замечательно!

Чтобы бизнесу быть успешным, нужно понять кому и как много нужно врать. И ответка - когда мы ищем работу, тоже надо решить - кому и как много врать.

На честности далеко не уехать, точнее много не заработать.

А хотите быть хорошим(ей), тогда можно собак бездомных покормить, или помочь какой-нибудь no-profit организации.

Я вот в школу к детям хожу, coding преподаю, видео курсы записываю. Там я могу быть честным🦥
❤‍🔥45😈13🐳6🙉5🌚3
26 Июня в Лас Вегасе - Snowflake конференция. Путевку мне купили и я записался на следующие треки:

27 June
WN211A: What's New: Apache Iceberg in the Data Cloud
DE206: Fast Ingest with Snowflake
WN201A: What's New: Snowflake Compute Infrastructure
MD206: Architecture Patterns with Snowflake
DE208A: Data Engineering with Python in Snowflake
OS207A: Best Practices for Snowflake's Native Cost Optimization Capabilities
DE200A: Hands-On Lab: Data Engineering Pipelines with Snowpark Python


28 June
AA111: Bringing Trust in Data to the Center of the Room with dbt and Druva
ML106: Hands-On Lab: Getting Started with Snowpark for Machine Learning on SageMaker
MD221: Build an Intelligent Data Mesh with Snowflake and Ascend
AD306: Managing Change: DevOps in Snowflake
DE305: Near Real-Time Ingestion and Transformation on Snowflake
WN207B: What's New: Machine Learning with Snowflake (Repeat)

29 June
WN208B: What's New: Streaming with Snowflake (Repeat)
MA208: Snowflake on Snowflake: Supercharge Marketing Analytics with Snowflake and Streamlit
DE209: Building Pipelines with Dynamic Tables
DE218B: Hands-On Lab: Using dbt to for Analytics and ML-Ready Pipelines w/ SQL & Python
DE308: Orchestrating Data Pipelines with Snowpark dbt Python Models and Airflow Technical Deep Dive

Последний раз был на такой party в 2017 году, тогда после Night Data Party хотел за кеш купить лицензию Табло.🥴
❤‍🔥25🐳3👨‍💻1
Вот рекомендация книг в 2023 году! (взял в LinkedIn). Такое впечатление, что хорошие книги перестали писать, и все постят книги 10 летней давности.😒
🍌25🐳9🤷‍♂7🗿6❤‍🔥3
Я почти целый года работал с Microsoft Synapse (Dedicated Pool and Serverless), Azure Data Explorer (real time analytics) и занимался подготовкой к релизу Microsoft Fabric.

Я все время скучал по Databricks. И вот я снова работаю с Databricks вместо Synapse. Кстати узнал, что Synapse Spark Pool прям совсем не пошел, походу только S&P500 мучаются с ним из под палки. Сейчас снова изучаю тренинги как "класть кирпичи"👌
👨‍💻11❤‍🔥8🗿5
Отличная библиотека генерить фейковые данные для вашего демо решения, можно как Streaming, так и Batch. Вот вам и pet project с dbt, airflow, clickhouse, ну или платные альтернативы.
🍾36❤‍🔥18🐳4🌭3👨‍💻1
#weeklydatanewsdump

Начну с приятного - Xbox покажет Starfield Direct. Игру делала студия, которая делает Fallout, Skyrim и Doom. Кстати аналитику всю делают для этих игр на AWS Databricks + Scala.

Ну а дальше обычные data news.

Uber опубликовал статья - Spark Analysers: Catching Anti-Patterns In Spark Apps - важный аспект, если у вас тысячи пользователей и вы пытаетесь держать руку на пульсе и бороться с "кривыми руками" пользователей. Убер большой и может себе такое позволить.

Snowflake очень, я бы даже сказал очень-очень, активно продвигает Snowpark, стирая границы между традиционным хранилищем данных и big data решениям с Hadoop, Spark, Hive и тд - Snowpark: Designing for Secure and Performant Processing for Python, Java, and More. Да и по конференции снежинки можно заметить, что очень много тем завязано на Snowpark.

У Microsoft Fabric есть своя страница, где публикуются все новости. После недавнего релиза, я вижу, что количество проблем измеряется 1000 к одному, где на 1000 вопросов\проблем по Power BI (главный интерфейс fabric) приходится один про Data Factory, Synapse DW, Data Explorer). Я именно такого и ожидал, пользователям Power BI еще долго будет не понятно, че за на 😵 Мне кажется не готов мир еще к такому чудо продукту.

Пост про data modelling - The Data Modeling Divide. Тема с 80х и циклично появляется и пропадает.

Вышла книга - Data Modeling with Snowflake от SQLDbm (облачный продукт для моделирования хранилищ данных, у которого дела пошли в гору после партенерства со Snowflake). Ребята классно проводят время в San Diego и очень прикольно за ними наблюдать. Хочу отметить, что это один из немногих стартапов, который не искал внешних инвестиции, seeds, rounds и тп. Так как понимали, что за этим кроется, и у них все классно и без внешних вливаний. Обязательно с ними встречусь вживую на конференции, до этого только переписывались. Я про них еще писал в 2018 году в книжке jumpstart snowflake.

Еще одна замечательная вещь про Snowflake - вы можете детально смотреть на стоимость запросов и искать узкие места, все данные для этого есть - Calculating cost per query in Snowflake

Компания Checkout рассказывает как используют dbt+snowflake - Building dbt CI/CD at scale

Если вы используете Clickhouse - то вот отличное видео Tips and tricks every ClickHouse user should know

Ну и как не сообщить о релизе SQL:2023
💘24🦄9🐳6❤‍🔥3
📢 Привет, друзья!

Завтра (12 июня) в 20:00 по мск вебинар.

🎯 [Тема вебинара]: Game Changer: Переход из BI в мир игр

🔎 Спикер раскроет перед вами свою новую главу жизни, когда она решила покинуть мир BI и основать свою собственную студию настольных игр. Вы услышите о ее вдохновении, столкновениях с трудностями и экономической стороне ведения бизнеса. И самое интересное, вы узнаете, как ее знания и опыт в аналитике помогли ей успешно применить их в новой и увлекательной сфере.

📌 Ссылка на вебинар: https://youtube.com/live/7byO0N-aIJY?feature=share

До встречи на вебинаре! 💪💼
#вебинар #datalearn
❤‍🔥30🐳5🍾3👾2