Подробная инструкция как читать Query Plan в Snowflake.
Один из самых популярных вопросов на собеседовании - как решать проблемы с производительностью запросов (отчетов, дашбордов). И ответ обычно начинается с изучения плана запроса и затем уже решается, что делать - compressions, partitions, indexing, bucketing, sharding и другие вещи, которые делают запросы быстрей.
В каждой базе данных свой запрос (логический план выполнения), и как правило во всех аналитических хранилищах (распределенных системах) очень много схожестей.
Поэтому этот пост будет интересен для всех.
А вы знаете еще ресурсы по оптимизации запросов? Или вопросы с собеседований.
Один из самых популярных вопросов на собеседовании - как решать проблемы с производительностью запросов (отчетов, дашбордов). И ответ обычно начинается с изучения плана запроса и затем уже решается, что делать - compressions, partitions, indexing, bucketing, sharding и другие вещи, которые делают запросы быстрей.
В каждой базе данных свой запрос (логический план выполнения), и как правило во всех аналитических хранилищах (распределенных системах) очень много схожестей.
Поэтому этот пост будет интересен для всех.
А вы знаете еще ресурсы по оптимизации запросов? Или вопросы с собеседований.
select.dev
How to use the Snowflake Query Profile
The Snowflake Query Profile is the single best resource you have to understand how Snowflake is executing your query and learn how to improve it. In this post we cover important topics like how to interpret the Query Profile and the things you should look…
🫡9🐳7❤🔥3💅2🍓1
Вдруг вам скучно!? Самое время выучить Rust для Data Engineering.
🗿19❤🔥12🍌3👻2
Стать сотрудником Яндекса быстрее и проще, чем кажется. Участвуйте в днях быстрого найма: решите тестовое, пройдите несколько секций собеседования и получите офер за несколько дней.
Теперь дни быстрого найма будут проходить регулярно. Чтобы вам было удобно следить за расписанием, собрали его на отдельной странице.
Ближайшие мероприятия:
• 4-5 марта — Fast Track для разработчиков пишущих на Python и Java, офер за 2 дня в команду HR Tech Яндекса.
• 4-5 марта — Fast Track для разработчиков пишущих на С++ и Python, офер за 2 дня в команду робототехники Яндекс Маркета.
• 4-5 марта — Fast Track для дата инженеров и разработчиков платформы, аналитиков со знанием Python и SQL, офер за 2 дня в команду DWH Яндекс Маркета.
Зарегистрироваться
#реклама
Теперь дни быстрого найма будут проходить регулярно. Чтобы вам было удобно следить за расписанием, собрали его на отдельной странице.
Ближайшие мероприятия:
• 4-5 марта — Fast Track для разработчиков пишущих на Python и Java, офер за 2 дня в команду HR Tech Яндекса.
• 4-5 марта — Fast Track для разработчиков пишущих на С++ и Python, офер за 2 дня в команду робототехники Яндекс Маркета.
• 4-5 марта — Fast Track для дата инженеров и разработчиков платформы, аналитиков со знанием Python и SQL, офер за 2 дня в команду DWH Яндекс Маркета.
Зарегистрироваться
#реклама
🍌17🐳7🌭7🗿7👻6🌚5🍓1
1. FROM (выбор таблицы)
2. JOIN (комбинация с подходящими по условию данными из других таблиц)
3. WHERE (фильтрация строк)
4. GROUP BY (агрегирование данных)
5. HAVING (фильтрация агрегированных данных)
6. SELECT (возврат результирующего датасета)
7. ORDER BY (упорядочивание датасета)
8. LIMIT (лимитирование датасета)
SQL реально прост и является главным инструментом инженера или аналитика.
Вот например я, одинаково использую SQL в независимости от роли - Staff DE, Sr. DE, DE, BI. Вопрос лишь в том, что я еще использую кроме SQL и насколько могу оптимизировать запросы или писать "чистый" и "читаемый" SQL.
Всем всем всем, кто хочет начать работать с данными, выучите SQL и дальше будет легко.
2. JOIN (комбинация с подходящими по условию данными из других таблиц)
3. WHERE (фильтрация строк)
4. GROUP BY (агрегирование данных)
5. HAVING (фильтрация агрегированных данных)
6. SELECT (возврат результирующего датасета)
7. ORDER BY (упорядочивание датасета)
8. LIMIT (лимитирование датасета)
SQL реально прост и является главным инструментом инженера или аналитика.
Вот например я, одинаково использую SQL в независимости от роли - Staff DE, Sr. DE, DE, BI. Вопрос лишь в том, что я еще использую кроме SQL и насколько могу оптимизировать запросы или писать "чистый" и "читаемый" SQL.
Всем всем всем, кто хочет начать работать с данными, выучите SQL и дальше будет легко.
❤🔥98🐳11🌚1🫡1
Организуйте коллективное использование BI-системы легко и безопасно!
На вебинаре Роман Бунин, BI-евангелист Yandex DataLens и автор Telegram-канала Reveal the Data, поделится паттернами проектирования системы дашбордов и организации контента для компаний разного размера. Разберёт как теорию, так и практические советы по разработке системы отчётности в Yandex DataLens.
Темы для обсуждения:
🔹 права, доступы и сохранение нужного уровня безопасности;
🔹 работа и настройка доступа на уровне строк (RLS) в Yandex DataLens;
🔹 карта и система дашбордов для подразделений;
🔹 типы дашбордов и почему важно их разделять;
🔹 настройка кросс-ссылок между дашбордами;
🔹 будущая система управления контентом.
Участие бесплатное, нужно только ➡️ зарегистрироваться
#реклама
На вебинаре Роман Бунин, BI-евангелист Yandex DataLens и автор Telegram-канала Reveal the Data, поделится паттернами проектирования системы дашбордов и организации контента для компаний разного размера. Разберёт как теорию, так и практические советы по разработке системы отчётности в Yandex DataLens.
Темы для обсуждения:
🔹 права, доступы и сохранение нужного уровня безопасности;
🔹 работа и настройка доступа на уровне строк (RLS) в Yandex DataLens;
🔹 карта и система дашбордов для подразделений;
🔹 типы дашбордов и почему важно их разделять;
🔹 настройка кросс-ссылок между дашбордами;
🔹 будущая система управления контентом.
Участие бесплатное, нужно только ➡️ зарегистрироваться
#реклама
🍌3❤🔥1
Если вы ищете к себе в команду опытного инженера данных, то вот вам отличный кандидат. Мне кажется круче не бывает в этой области. Можете ознакомится с его списком достижений. И несмотря на такой богатый опыт, был сокращен в SalesForce.
Chris K Wensel
Data Architect with 30 year of experience focusing on the intersections of very large data, cloud infrastructure, and machine learning.
👨💻8🍓5🐳1🌚1😈1
Раньше как было, если попал в гугл или другой фаанг, то во всех компаниях тебе зеленый свет. Но обычно, это было не важно, так как вряд ли другие компания могли тягаться с зарплатами гугла.
А теперь наоборот, ваше резюме даже не захотят рассматривать, потому что не всем подходит стиль работы гугла и уж тем более нет возможностей по зарплате.
Будем считать, что мне повезло, я не попал в гугл.😅
А теперь наоборот, ваше резюме даже не захотят рассматривать, потому что не всем подходит стиль работы гугла и уж тем более нет возможностей по зарплате.
Будем считать, что мне повезло, я не попал в гугл.😅
🌚24🐳19💅2🗿1
Мы слышали про мету и желание уволить middle managers. Так вот эти менеджеры в панике! В статье цитаты про то как они не достигнут цели в 1млн баксов и как они не смогу сделать FIRE (Financial Independence, Retire Early) то есть уйти на покой в 45.
А вот рядовые американцы не сильно переживают за них, даже рады=)
А вообще вопрос хороший как перестать работать в 45, кто-нибудь планирует FIRE? Возможно в таком изменчивом мире нам не светит😬
А вот рядовые американцы не сильно переживают за них, даже рады=)
А вообще вопрос хороший как перестать работать в 45, кто-нибудь планирует FIRE? Возможно в таком изменчивом мире нам не светит😬
New York Post
Meta middle manager making $550K fears layoffs: 'Was planning on $1M...
The unnamed middle manager took to Blind, the social media app that offers career employees anonymity so they can post freely.
🐳3🌚2
Forwarded from настенька и графики
Прислали офигенное – Tableau внутри python 🐳
PyGWalker – python пакет для визуализации pandas датафреймов. Он по факту формирует мини Tableau интерфейс, из которого можно собрать графичек.
PyGWalker – python пакет для визуализации pandas датафреймов. Он по факту формирует мини Tableau интерфейс, из которого можно собрать графичек.
❤🔥69🐳7👨💻4🗿4🫡2
Довольно часто можно видеть как компания использует сразу больше одного BI инструмента. Для своих коллег, я давно хотел сделать вебинар про сравнение процесса разработки дашборда в Looker и Tableau. Так как используются сразу 2 инструмента поверх хранилища на Snowflake.
Делюсь презентацией. Конечно ее будет сложно понять без пояснения и демо, но в целом, кто работает с BI, тот поймет. Везде слева Tableau, а справа тоже самое, но в Looker.
В конце главный слайд по Summary +/-.
PS У меня до сих пор работает looker instance, который мне выдали года 4 назад, когда rock your data стала партнером looker в Канаде.
Возможно стоит провести вебинарчик по этой теме.
Делюсь презентацией. Конечно ее будет сложно понять без пояснения и демо, но в целом, кто работает с BI, тот поймет. Везде слева Tableau, а справа тоже самое, но в Looker.
В конце главный слайд по Summary +/-.
PS У меня до сих пор работает looker instance, который мне выдали года 4 назад, когда rock your data стала партнером looker в Канаде.
Возможно стоит провести вебинарчик по этой теме.
❤🔥44🐳6
Мой товарищ в Ванкувере написал отзыв, кратко про свой переезд в Канаду и поиск первой работы, и потом 2й. С 1й работой тяжело в Канаде, с 2мя полегче, тем более с большой семьей.
Добрый день!
Хочу поделиться своей историей, как DataLearn и сообщество помогли мне в кратчайшие сроки получить первую работу в Канаде.
До 2022 года, в течение 10 лет, я активно трудился в ТОП-3 банке в РФ. Строил хранилище (Teradata, Oracle, MS SQL), ETL, BI, аналитика, репортинг, поиск инсайтов, все дела. Последние 3 года был кластер лидом, 3 команды в подчинении, ~50 чел. Кодить перестал в 2017 году. Все время проводил на бесконечных встречах. Одним словом менеджер аж ужас-ужас.
Я сделал PR в Канаду в 2019, но все никак не решался покинуть насиженное место. Однако, 24.02 все изменилось....
В середине марта я прилетел в Ванкувер. Денег – 10 тыс наличными, карты все заблокированы. Сразу стало понятно, что этой суммы хватит максимум на 2 месяца. В течение этого времени надо было кровь из носа найти работу, которая позволит прокормить семью из 5 человек.
Написал резюме, апплаился везде, где мог на позиции DE/DA. Исходил из формулы 10 апплаев дают 1 интервью, 10 интервью дают оффер.
После первого же интервью стало понятно, что главная проблема – отсутствие опыта с облаками (не важно AWS,GCP,Azure). Написать в резюме можно было все, что угодно, но на технических интервью меня снимали.
Перепробовал кучу разных курсов, как у самих AWS и MS так и на курсерах и юдемаях, но это все было не то. Либо очень поверхностно и без практики, либо слишком серьезно и долго.
И тут я узнал про курс Введение в инжиниринг Данных и Аналитику. Это было то, что нужно: cбалансированная Теория + Практика. Прошел за 2 недели усердной работы. В итоге появилось детальное предсталение об облачных техонологиях, архитектуре решений связанных с данными, ушел страх и появилось понимание куда идти, если нужно будет копать глубже.
Результат – 1 мая вышел на постоянную удаленную работу.
Результат за год – 2 постоянные удаленные работы. Продолжаю собеседоваться и конечно обучаться.
Спасибо создателям DataLearn, мне действительно очень помогло!
Добрый день!
Хочу поделиться своей историей, как DataLearn и сообщество помогли мне в кратчайшие сроки получить первую работу в Канаде.
До 2022 года, в течение 10 лет, я активно трудился в ТОП-3 банке в РФ. Строил хранилище (Teradata, Oracle, MS SQL), ETL, BI, аналитика, репортинг, поиск инсайтов, все дела. Последние 3 года был кластер лидом, 3 команды в подчинении, ~50 чел. Кодить перестал в 2017 году. Все время проводил на бесконечных встречах. Одним словом менеджер аж ужас-ужас.
Я сделал PR в Канаду в 2019, но все никак не решался покинуть насиженное место. Однако, 24.02 все изменилось....
В середине марта я прилетел в Ванкувер. Денег – 10 тыс наличными, карты все заблокированы. Сразу стало понятно, что этой суммы хватит максимум на 2 месяца. В течение этого времени надо было кровь из носа найти работу, которая позволит прокормить семью из 5 человек.
Написал резюме, апплаился везде, где мог на позиции DE/DA. Исходил из формулы 10 апплаев дают 1 интервью, 10 интервью дают оффер.
После первого же интервью стало понятно, что главная проблема – отсутствие опыта с облаками (не важно AWS,GCP,Azure). Написать в резюме можно было все, что угодно, но на технических интервью меня снимали.
Перепробовал кучу разных курсов, как у самих AWS и MS так и на курсерах и юдемаях, но это все было не то. Либо очень поверхностно и без практики, либо слишком серьезно и долго.
И тут я узнал про курс Введение в инжиниринг Данных и Аналитику. Это было то, что нужно: cбалансированная Теория + Практика. Прошел за 2 недели усердной работы. В итоге появилось детальное предсталение об облачных техонологиях, архитектуре решений связанных с данными, ушел страх и появилось понимание куда идти, если нужно будет копать глубже.
Результат – 1 мая вышел на постоянную удаленную работу.
Результат за год – 2 постоянные удаленные работы. Продолжаю собеседоваться и конечно обучаться.
Спасибо создателям DataLearn, мне действительно очень помогло!
🍾169❤🔥29🌚3🐳2😈2🍌1
Видео 1985 года Richard Feynman: Can Machines Think?
YouTube
Richard Feynman: Can Machines Think?
This is a Q&A excerpt on the topic of AI from a lecture by Richard Feynman from September 26th, 1985.
This is a clip on the Lex Clips channel that I mostly use to post video clips from the Artificial Intelligence podcast, but occasionally I post favorite…
This is a clip on the Lex Clips channel that I mostly use to post video clips from the Artificial Intelligence podcast, but occasionally I post favorite…
❤🔥18😈2
Закончил читать первую главу Fluent Python. Книга действительная не простая, но обязательная для тех, кто уже знает базу питона. Когда вы думаете, что уже знаете питон и используете его на работе, а потом читаете первую главу этой 1000+ страничной книги, вы понимаете, что вообще ничего не знаете🫣
Если есть PDF 2nd edition бросайте в комменты.
Вот некоторые ссылочки из первой главы, которые я сохранил:
Story of Jython
Тhe Original Hacker's Dictionary
Python Data Model
The Zen of Python
Built in Types
What is the difference between __str__ and __repr__?
Doc Test
Если есть PDF 2nd edition бросайте в комменты.
Вот некоторые ссылочки из первой главы, которые я сохранил:
Story of Jython
Тhe Original Hacker's Dictionary
Python Data Model
The Zen of Python
Built in Types
What is the difference between __str__ and __repr__?
Doc Test
O’Reilly Online Learning
Fluent Python, 2nd Edition
Don't waste time bending Python to fit patterns you've learned in other languages. Python's simplicity lets you become productive quickly, but often this means you aren't using... - Selection from Fluent Python, 2nd Edition [Book]
🍾22💅3
Наверно у всех есть привычка сохранять ресурсы (ссылки, посты, статья, книги, видосики и многое другое) на потом.
Отличное видео Много книг, статей и курсов, отложенных на потом. Что делать? от Максима Дорофеева.
Лично я практически перестал что либо откладывать и сохранять на потом, почему? Потому что в 90% случаев "потом" не наступит никогда, а если наступит, то информация может устареть.
Отличное видео Много книг, статей и курсов, отложенных на потом. Что делать? от Максима Дорофеева.
Лично я практически перестал что либо откладывать и сохранять на потом, почему? Потому что в 90% случаев "потом" не наступит никогда, а если наступит, то информация может устареть.
🗿17💅4👨💻3🐳2🍾2🫡2❤🔥1🌚1🌭1
📊 Как построить и прокачать систему аналитики интернет-магазина от базового уровня до Enterprise? Расскажем на вебинаре
⏰ Когда: 16 марта, 17:00 по Москве
📍 Регистрация
На каждом из этапов развития бизнеса компании требуется определенный технологический стек для работы с данными. На вебинаре рассмотрим построение систем аналитики разных уровней сложности для интернет-магазинов в облаке.
Вы узнаете, как собрать решение с базовым набором инструментов, развить его до продвинутого уровня и затем построить решение «промышленного класса».
Подробно разберем стек технологий и обсудим архитектурные схемы решений для анализа продаж, маркетинговой аналитики, управления ассортиментом, ценообразованием, а также для клиентской аналитики (в том числе с применением ML).
В программе:
🔸 Описание уровней (этапов) построения систем аналитики для e-commerce и задач на каждом из них
🔸 Обзор подходов к архитектуре для систем аналитики разной степени сложности
🔸 QA-сессия
Спикер:
🔹 Алексей Белозерский, архитектор VK Cloud
Зарегистрироваться
#реклама
⏰ Когда: 16 марта, 17:00 по Москве
📍 Регистрация
На каждом из этапов развития бизнеса компании требуется определенный технологический стек для работы с данными. На вебинаре рассмотрим построение систем аналитики разных уровней сложности для интернет-магазинов в облаке.
Вы узнаете, как собрать решение с базовым набором инструментов, развить его до продвинутого уровня и затем построить решение «промышленного класса».
Подробно разберем стек технологий и обсудим архитектурные схемы решений для анализа продаж, маркетинговой аналитики, управления ассортиментом, ценообразованием, а также для клиентской аналитики (в том числе с применением ML).
В программе:
🔸 Описание уровней (этапов) построения систем аналитики для e-commerce и задач на каждом из них
🔸 Обзор подходов к архитектуре для систем аналитики разной степени сложности
🔸 QA-сессия
Спикер:
🔹 Алексей Белозерский, архитектор VK Cloud
Зарегистрироваться
#реклама
vk.company
VK / Вебинар «Как построить и прокачать систему аналитики интернет-магазина от базового уровня — до Enterprise?»
На каждом из этапов развития бизнеса компании требуется определенный технологический стек для работы с данными. На вебинаре рассмотрим построение систем аналитики разных уровней сложности для интернет-магазинов в облаке.
Вы узнаете, как собрать решение с…
Вы узнаете, как собрать решение с…
🫡4❤🔥3🌭2
Видео 7.3 Начало работы в Apache Spark опубликовано.
В этом уроке:
- Скачаем и запустим Apache Spark
- Посмотрим как запустить Spark на Windows
- Посмотрим на Spark UI
- Узнаем про основные компоненты Spark
- Начнем использовать PySpark
- Начнем использовать spark-submit
Лабораторная Работа
1. Ваша задача установить Apache Spark на ваш компьютер и запустить PySpark. Этого может хватить вам для изучения спарка, практически до конца модуля. Так как команды везде очень похожи, а вот интерфейс и конфигурация разные.
2. Вам нужно взять программу про M&Ms из нашего репозитория и также взть файл с данными в том же репозитории в папке data.
Запустить спарк программу используя spark-submit и передать в качестве аргумента месторасположения файла с данными.
3. Вам необходимо взять тот же код про M&Ms, но теперь нужно будет его выполнить в интерактивном режиме. Я это сделал на примере Databricks, если есть доступ к нему, сделайте там, если нет, используйте командную строку или попробуйте вот этот рецепт Get Started with PySpark and Jupyter Notebook in 3 Minutes
В этом уроке:
- Скачаем и запустим Apache Spark
- Посмотрим как запустить Spark на Windows
- Посмотрим на Spark UI
- Узнаем про основные компоненты Spark
- Начнем использовать PySpark
- Начнем использовать spark-submit
Лабораторная Работа
1. Ваша задача установить Apache Spark на ваш компьютер и запустить PySpark. Этого может хватить вам для изучения спарка, практически до конца модуля. Так как команды везде очень похожи, а вот интерфейс и конфигурация разные.
2. Вам нужно взять программу про M&Ms из нашего репозитория и также взть файл с данными в том же репозитории в папке data.
Запустить спарк программу используя spark-submit и передать в качестве аргумента месторасположения файла с данными.
3. Вам необходимо взять тот же код про M&Ms, но теперь нужно будет его выполнить в интерактивном режиме. Я это сделал на примере Databricks, если есть доступ к нему, сделайте там, если нет, используйте командную строку или попробуйте вот этот рецепт Get Started with PySpark and Jupyter Notebook in 3 Minutes
YouTube
DATALEARN | DE - 101 | МОДУЛЬ 7-3 НАЧАЛО РАБОТЫ В APACHE SPARK
Apache Spark является самый популярным инструментом среди инженеров данных, аналитиков и инженеров машинного обучения. Его главная задача это обработка данных. С помощью Spark можно подключаться к любому источнику данных, читать большие данные и обрабатывать…
❤🔥87🐳5👻4👨💻3🍌1🍾1
Полностью согласе с товарищем, все эти разговоры про миссию компании, team building, обеды и разговоры про изменения мира - это всего лишь прописанные методы по поддержанию вашей работоспособности. А после массовых увольнений можно даже больше и не притворятся. Я уже ничего не могу с собой поделать, очень сильно отдалился от корпоративной хрени, как будто отключили от Матрицы. Мне кажется люди, которые наслаждаются видением компании, верят в обещания руководителей и разделяют миссию, более счастливые, они меньше задают вопросов, и лучше работают.
Вот простой пример, в компании меня очень любят и ценят, говорят как хорошо я работаю, делюсь знаниями, помогаю, и еще много прекрасных слов, но при этом моя зарплата процентов на 30 меньше рынка, и никто мне ее не поднимет, даже если в лепешку расшибиться, потому что "рынок", "все так получают", "политика партии" или еще чего. То есть задача компании, получать от вас максимум пользы, за минимум денег.
А как у вас?
PS gif в тему в комменте))
Вот простой пример, в компании меня очень любят и ценят, говорят как хорошо я работаю, делюсь знаниями, помогаю, и еще много прекрасных слов, но при этом моя зарплата процентов на 30 меньше рынка, и никто мне ее не поднимет, даже если в лепешку расшибиться, потому что "рынок", "все так получают", "политика партии" или еще чего. То есть задача компании, получать от вас максимум пользы, за минимум денег.
А как у вас?
PS gif в тему в комменте))
❤🔥87🗿4🫡1
В Канаде налоги рассчитываются в конце года, вам необходимо собрать информацию о доходах и расходах, отправить в налоговую Canada Revenue Agency и вам скажут сколько вы должны еще доплатить. В этом году меня обрадовали на сумму 54301.91 канадских долларов. Это мне нужно доплатить не считая всех остальных налогов, которые уже были вычтены из зарплаты. На эти деньги можно купить новую Audi Q5. Теперь вы знаете из первых рук про высокие налоги в Канаде, наверно поэтому и дороги хорошие🙄
🐳30🌚11🫡10👻6🗿5💅3🍓1