Инжиниринг Данных – Telegram
Инжиниринг Данных
23.5K subscribers
1.98K photos
56 videos
192 files
3.2K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Подробная инструкция как читать Query Plan в Snowflake.

Один из самых популярных вопросов на собеседовании - как решать проблемы с производительностью запросов (отчетов, дашбордов). И ответ обычно начинается с изучения плана запроса и затем уже решается, что делать - compressions, partitions, indexing, bucketing, sharding и другие вещи, которые делают запросы быстрей.

В каждой базе данных свой запрос (логический план выполнения), и как правило во всех аналитических хранилищах (распределенных системах) очень много схожестей.

Поэтому этот пост будет интересен для всех.

А вы знаете еще ресурсы по оптимизации запросов? Или вопросы с собеседований.
🫡9🐳7❤‍🔥3💅2🍓1
Вдруг вам скучно!? Самое время выучить Rust для Data Engineering.
🗿19❤‍🔥12🍌3👻2
Стать сотрудником Яндекса быстрее и проще, чем кажется. Участвуйте в днях быстрого найма: решите тестовое, пройдите несколько секций собеседования и получите офер за несколько дней.

Теперь дни быстрого найма будут проходить регулярно. Чтобы вам было удобно следить за расписанием, собрали его на отдельной странице.

Ближайшие мероприятия:
• 4-5 марта — Fast Track для разработчиков пишущих на Python и Java, офер за 2 дня в команду HR Tech Яндекса.
• 4-5 марта — Fast Track для разработчиков пишущих на С++ и Python, офер за 2 дня в команду робототехники Яндекс Маркета.
• 4-5 марта — Fast Track для дата инженеров и разработчиков платформы, аналитиков со знанием Python и SQL, офер за 2 дня в команду DWH Яндекс Маркета.

Зарегистрироваться

#реклама
🍌17🐳7🌭7🗿7👻6🌚5🍓1
1. FROM (выбор таблицы)
2. JOIN (комбинация с подходящими по условию данными из других таблиц)
3. WHERE (фильтрация строк)
4. GROUP BY (агрегирование данных)
5. HAVING (фильтрация агрегированных данных)
6. SELECT (возврат результирующего датасета)
7. ORDER BY (упорядочивание датасета)
8. LIMIT (лимитирование датасета)

SQL реально прост и является главным инструментом инженера или аналитика.

Вот например я, одинаково использую SQL в независимости от роли - Staff DE, Sr. DE, DE, BI. Вопрос лишь в том, что я еще использую кроме SQL и насколько могу оптимизировать запросы или писать "чистый" и "читаемый" SQL.

Всем всем всем, кто хочет начать работать с данными, выучите SQL и дальше будет легко.
❤‍🔥98🐳11🌚1🫡1
Организуйте коллективное использование BI-системы легко и безопасно!

На вебинаре Роман Бунин, BI-евангелист Yandex DataLens и автор Telegram-канала Reveal the Data, поделится паттернами проектирования системы дашбордов и организации контента для компаний разного размера. Разберёт как теорию, так и практические советы по разработке системы отчётности в Yandex DataLens.

Темы для обсуждения:
🔹 права, доступы и сохранение нужного уровня безопасности;
🔹 работа и настройка доступа на уровне строк (RLS) в Yandex DataLens;
🔹 карта и система дашбордов для подразделений;
🔹 типы дашбордов и почему важно их разделять;
🔹 настройка кросс-ссылок между дашбордами;
🔹 будущая система управления контентом.

Участие бесплатное, нужно только ➡️ зарегистрироваться

#реклама
🍌3❤‍🔥1
Если вы ищете к себе в команду опытного инженера данных, то вот вам отличный кандидат. Мне кажется круче не бывает в этой области. Можете ознакомится с его списком достижений. И несмотря на такой богатый опыт, был сокращен в SalesForce.
👨‍💻8🍓5🐳1🌚1😈1
Раньше как было, если попал в гугл или другой фаанг, то во всех компаниях тебе зеленый свет. Но обычно, это было не важно, так как вряд ли другие компания могли тягаться с зарплатами гугла.

А теперь наоборот, ваше резюме даже не захотят рассматривать, потому что не всем подходит стиль работы гугла и уж тем более нет возможностей по зарплате.

Будем считать, что мне повезло, я не попал в гугл.😅
🌚24🐳19💅2🗿1
Мы слышали про мету и желание уволить middle managers. Так вот эти менеджеры в панике! В статье цитаты про то как они не достигнут цели в 1млн баксов и как они не смогу сделать FIRE (Financial Independence, Retire Early) то есть уйти на покой в 45.

А вот рядовые американцы не сильно переживают за них, даже рады=)

А вообще вопрос хороший как перестать работать в 45, кто-нибудь планирует FIRE? Возможно в таком изменчивом мире нам не светит😬
🐳3🌚2
Прислали офигенное – Tableau внутри python 🐳
PyGWalker – python пакет для визуализации pandas датафреймов. Он по факту формирует мини Tableau интерфейс, из которого можно собрать графичек.
❤‍🔥69🐳7👨‍💻4🗿4🫡2
Довольно часто можно видеть как компания использует сразу больше одного BI инструмента. Для своих коллег, я давно хотел сделать вебинар про сравнение процесса разработки дашборда в Looker и Tableau. Так как используются сразу 2 инструмента поверх хранилища на Snowflake.

Делюсь презентацией. Конечно ее будет сложно понять без пояснения и демо, но в целом, кто работает с BI, тот поймет. Везде слева Tableau, а справа тоже самое, но в Looker.

В конце главный слайд по Summary +/-.

PS У меня до сих пор работает looker instance, который мне выдали года 4 назад, когда rock your data стала партнером looker в Канаде.

Возможно стоит провести вебинарчик по этой теме.
❤‍🔥44🐳6
Мой товарищ в Ванкувере написал отзыв, кратко про свой переезд в Канаду и поиск первой работы, и потом 2й. С 1й работой тяжело в Канаде, с 2мя полегче, тем более с большой семьей.

Добрый день!
Хочу поделиться своей историей, как DataLearn и сообщество помогли мне в кратчайшие сроки получить первую работу в Канаде.

До 2022 года, в течение 10 лет, я активно трудился в ТОП-3 банке в РФ. Строил хранилище (Teradata, Oracle, MS SQL), ETL, BI, аналитика, репортинг, поиск инсайтов, все дела. Последние 3 года был кластер лидом, 3 команды в подчинении, ~50 чел. Кодить перестал в 2017 году. Все время проводил на бесконечных встречах. Одним словом менеджер аж ужас-ужас.

Я сделал PR в Канаду в 2019, но все никак не решался покинуть насиженное место. Однако, 24.02 все изменилось....
В середине марта я прилетел в Ванкувер. Денег – 10 тыс наличными, карты все заблокированы. Сразу стало понятно, что этой суммы хватит максимум на 2 месяца. В течение этого времени надо было кровь из носа найти работу, которая позволит прокормить семью из 5 человек.
Написал резюме, апплаился везде, где мог на позиции DE/DA. Исходил из формулы 10 апплаев дают 1 интервью, 10 интервью дают оффер.

После первого же интервью стало понятно, что главная проблема – отсутствие опыта с облаками (не важно AWS,GCP,Azure). Написать в резюме можно было все, что угодно, но на технических интервью меня снимали.

Перепробовал кучу разных курсов, как у самих AWS и MS так и на курсерах и юдемаях, но это все было не то. Либо очень поверхностно и без практики, либо слишком серьезно и долго.

И тут я узнал про курс Введение в инжиниринг Данных и Аналитику. Это было то, что нужно: cбалансированная Теория + Практика. Прошел за 2 недели усердной работы. В итоге появилось детальное предсталение об облачных техонологиях, архитектуре решений связанных с данными, ушел страх и появилось понимание куда идти, если нужно будет копать глубже.

Результат – 1 мая вышел на постоянную удаленную работу.

Результат за год – 2 постоянные удаленные работы. Продолжаю собеседоваться и конечно обучаться.

Спасибо создателям DataLearn, мне действительно очень помогло!
🍾169❤‍🔥29🌚3🐳2😈2🍌1
🐳53❤‍🔥9👻6🗿5🌚4
Закончил читать первую главу Fluent Python. Книга действительная не простая, но обязательная для тех, кто уже знает базу питона. Когда вы думаете, что уже знаете питон и используете его на работе, а потом читаете первую главу этой 1000+ страничной книги, вы понимаете, что вообще ничего не знаете🫣

Если есть PDF 2nd edition бросайте в комменты.

Вот некоторые ссылочки из первой главы, которые я сохранил:
Story of Jython
Тhe Original Hacker's Dictionary
Python Data Model
The Zen of Python
Built in Types
What is the difference between __str__ and __repr__?
Doc Test
🍾22💅3
Наверно у всех есть привычка сохранять ресурсы (ссылки, посты, статья, книги, видосики и многое другое) на потом.

Отличное видео Много книг, статей и курсов, отложенных на потом. Что делать? от Максима Дорофеева.

Лично я практически перестал что либо откладывать и сохранять на потом, почему? Потому что в 90% случаев "потом" не наступит никогда, а если наступит, то информация может устареть.
🗿17💅4👨‍💻3🐳2🍾2🫡2❤‍🔥1🌚1🌭1
📊 Как построить и прокачать систему аналитики интернет-магазина от базового уровня до Enterprise? Расскажем на вебинаре

Когда: 16 марта, 17:00 по Москве
📍 Регистрация

На каждом из этапов развития бизнеса компании требуется определенный технологический стек для работы с данными. На вебинаре рассмотрим построение систем аналитики разных уровней сложности для интернет-магазинов в облаке.

Вы узнаете, как собрать решение с базовым набором инструментов, развить его до продвинутого уровня и затем построить решение «промышленного класса».

Подробно разберем стек технологий и обсудим архитектурные схемы решений для анализа продаж, маркетинговой аналитики, управления ассортиментом, ценообразованием, а также для клиентской аналитики (в том числе с применением ML).

В программе:

🔸 Описание уровней (этапов) построения систем аналитики для e-commerce и задач на каждом из них

🔸 Обзор подходов к архитектуре для систем аналитики разной степени сложности

🔸 QA-сессия

Спикер:

🔹 Алексей Белозерский, архитектор VK Cloud

Зарегистрироваться

#реклама
🫡4❤‍🔥3🌭2
Видео 7.3 Начало работы в Apache Spark опубликовано.

В этом уроке:

- Скачаем и запустим Apache Spark
- Посмотрим как запустить Spark на Windows
- Посмотрим на Spark UI
- Узнаем про основные компоненты Spark
- Начнем использовать PySpark
- Начнем использовать spark-submit

Лабораторная Работа
1. Ваша задача установить Apache Spark на ваш компьютер и запустить PySpark. Этого может хватить вам для изучения спарка, практически до конца модуля. Так как команды везде очень похожи, а вот интерфейс и конфигурация разные.
2. Вам нужно взять программу про M&Ms из нашего репозитория и также взть файл с данными в том же репозитории в папке data.
Запустить спарк программу используя spark-submit и передать в качестве аргумента месторасположения файла с данными.
3. Вам необходимо взять тот же код про M&Ms, но теперь нужно будет его выполнить в интерактивном режиме. Я это сделал на примере Databricks, если есть доступ к нему, сделайте там, если нет, используйте командную строку или попробуйте вот этот рецепт Get Started with PySpark and Jupyter Notebook in 3 Minutes
❤‍🔥87🐳5👻4👨‍💻3🍌1🍾1
Девушки, с праздником 8ое марта! Я бы вам сделал бы скидку на курсы datalearn, но они и так бесплатные!😏

Учитесь, развивайтесь и занимайтесь любимы делом! Кто хочет войти в ИТ, входите, кто не хочет не входите😝
🍾156❤‍🔥89💅15👻12🫡7🍓6👨‍💻5🐳3🌭2
Полностью согласе с товарищем, все эти разговоры про миссию компании, team building, обеды и разговоры про изменения мира - это всего лишь прописанные методы по поддержанию вашей работоспособности. А после массовых увольнений можно даже больше и не притворятся. Я уже ничего не могу с собой поделать, очень сильно отдалился от корпоративной хрени, как будто отключили от Матрицы. Мне кажется люди, которые наслаждаются видением компании, верят в обещания руководителей и разделяют миссию, более счастливые, они меньше задают вопросов, и лучше работают.

Вот простой пример, в компании меня очень любят и ценят, говорят как хорошо я работаю, делюсь знаниями, помогаю, и еще много прекрасных слов, но при этом моя зарплата процентов на 30 меньше рынка, и никто мне ее не поднимет, даже если в лепешку расшибиться, потому что "рынок", "все так получают", "политика партии" или еще чего. То есть задача компании, получать от вас максимум пользы, за минимум денег.

А как у вас?

PS gif в тему в комменте))
❤‍🔥87🗿4🫡1
В Канаде налоги рассчитываются в конце года, вам необходимо собрать информацию о доходах и расходах, отправить в налоговую Canada Revenue Agency и вам скажут сколько вы должны еще доплатить. В этом году меня обрадовали на сумму 54301.91 канадских долларов. Это мне нужно доплатить не считая всех остальных налогов, которые уже были вычтены из зарплаты. На эти деньги можно купить новую Audi Q5. Теперь вы знаете из первых рук про высокие налоги в Канаде, наверно поэтому и дороги хорошие🙄
🐳30🌚11🫡10👻6🗿5💅3🍓1