Заскуль питона (Data Science) – Telegram
Заскуль питона (Data Science)
7.14K subscribers
155 photos
17 videos
4 files
172 links
Канал про Python, аналитику, Data Science, SQL и многое другое

По вопросам сотрудничества и рекламе: @m459n9

Сайт: zasqlpython.ru
Бот для тренировки: @zasql_python_train_bot
Download Telegram
🐸 Задача по SQL, которую я хотел дать на собеседовании, но не буду

Помню, когда был в ❤️ решал подобную задачку в Лавке, но это нужно было для визуализации, отображение пенетрации пользователей с момента запуска нового продукта. В то время это были Аптеки, может видели.

🔽 По условию все просто

Есть таблица: users
Поля таблицы: date, user_id
Нужно: Построить с самой первой даты накопительное количество пользователей по дням.


Ее можно решить не оптимально и оптимально. Оптимальное решение весьма элегантное, как мне кажется.

Не стал давать на собеседовании, потому что обычно секция SQL длится 20-30 минут, а за это время кандидат может не вникнуть в суть задачи

Возможно, ее стоит давать, когда остается время и кандидат справился с базовой задачей, описывающей контекст сегмента бизнеса, в котором работаем 🤔

Как вы думаете, справились бы с таким вопросом на собеседовании или нет? А может все-таки стоит давать эту задачу на собесах и еще больше срезать воронку кандидатов?


Ставьте 🕺, если формат зашел, пишите комментарии. Планирую еще написать про такие задачи!

Если у вас есть Premium, вы можете бустануть канал — это бесплатно и занимает 3 секунды
ХОЧУ КРУТЫЕ ОБОИ

@zasql_python
Please open Telegram to view this post
VIEW IN TELEGRAM
3489432
This media is not supported in your browser
VIEW IN TELEGRAM
POV

🐍 Ты идешь после курсов использовать Python во всех своих рабочих задачах

Увы, SQL 90% 🤣

@zasql_python
Please open Telegram to view this post
VIEW IN TELEGRAM
619733
Метрики для аналитика

Собрал на сайте новый блок с продуктовыми метриками (ВКЛАДКА МЕТРИКИ):

🔵Формулы
🟢Логика расчёта
🟡Зачем следить
🟣Готовый SQL

👉 https://zasqlpython.ru/metrics

Когда я только хотел стать маркетологом, меня больше всего цепляли метрики. Было понятно, что с бизнесом нужно говорить на одном языке, а любые презентации (хакатоны, кейс-чемпионаты) выглядели выигрышнее, если добавлял больше метрик с пояснениями 😄

Сделал это по мотивам приложения, которым раньше пользовался, когда учил метрики — ссылку на референс кину в комменты.

Ставьте 🕺, если понравился пост. Если у вас есть мысли, чего вам не хватало, когда вы только становились аналитиками, пишите, возьму в беклог на проработку сайта!

Если у вас есть Premium, вы можете бустануть канал — это бесплатно и занимает 3 секунды. Нам совсем чуть-чуть осталось до 10 уровня, а там открываются обои 🥺

@zasql_python
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1041497
🎄 SQL ADVENT CALENDAR

https://www.interviewmaster.ai/advent/home

Показали мне этот сайт, решил потыкаться, понравилось. Не хватает еще камина и подарков 👀

Закрыл два дня, жду 17:00. Во столько по идее открывается следующий день 🍪🍪

Поддерживаем новогоднее настроение как можем. Не, ну а чего, хорошая идея, наверное. Решаем на работе SQL, потом развлекаем себя SQL. Жизнь прекрасна!

По канону 2️⃣4️⃣ дня...

Помимо адвента тут можно выбрать задачу на собес в крупную компанию (Google, Airbnb, Amazon и др). Решил парочку задач, они посложней, чем в адвенте, но тоже неплохо. Есть задачи на оконки, на подумать + встроен ИИ-ассистент, у которого можно уточнить функции, поправить ход решения и т.д. После 5 попыток платно 💳

Вопрос: как вы относитесь к новогодней атмосфере на сайтах/в блогах?

🎄 — Нравится, добавляй снежинки, елочку куда-угодно
🐸 — Не надо нам такого

🔽 Если знаете ещё сайты по аналитике, где есть новогодний вайб — киньте ссылки в комменты 🔽

За идею спасибо @etl_kitchen

@zasql_python
Please open Telegram to view this post
VIEW IN TELEGRAM
6117153
🐍 Задачи на Python, которые любят давать на собеседовании

Если говорим про задачи на Python, то они делятся на несколько типов, которые можно разложить:

1. Алгоритмы. Их спрашивают в некоторых бигтехах, зачастую что-то простое на идею. Если идею не знаешь, то можешь засесть глубоко. Когда мне скидывали этапы интервью для аналитиков в ❤️, там были приведены следующие примеры задач. Еще обожаю саму концепцию "а можно еще оптимальней?" 😂

1. Сжатие RLE строки... Пример: на вход подается aaabbbc вывести 3a3b1c
2. Бинарный поиск (классическая идея), оптимизация сложности
3. Алгоритмы сортировки


Здесь могу посоветовать проходить курс по алгоритмам от Яндекса, раньше проходил. Планирую по второму кругу проходить 🥺

2. Pandas, Numpy.
Легкий вариант, как по мне. Он может проверять на наличие знания методов. Но тут нужно понимать, что не все могут его знать, не все с ним работали в том срезе, в котором ожидает услышать нанимающий 🐼

1. Как заменить пустые значения в столбце?
2. Как объединить несколько таблиц (merge, join)?
3. Как привести типы данных к нужным (astype, to_datetime)?
4. Как отсортировать таблицу по столбцу по возрастанию / убыванию?
5. Как сделать аналог CASE WHEN в Pandas? (np.where, .apply, pd.cut и т.д.)


Если раньше работали — не составит труда, достаточно просто. Если нет, то можно забрать шпаргалки тут

3. Блиц по Python. Такой вид тоже встречается. Ожидается формат ответа в одном предложении 🍪🍪

 
1. Какие типы данных изменяемые, а какие нет?
2. Чем список отличается от кортежа?
3. Что такое list comprehension?
4. Что вообще делали в Python?


Такое любят давать обычно HR, но на технической секции такие вопросы тоже могут встречаться, если в приоритете узнать про другое. Например, про продуктовое мышление, SQL и др. Потренить можно тут

🔽 Кстати, прикрепляю интересную задачу с собеса, интересно будет прочитать ваши решения, давали ее на финалах 🔽

🎲 ЗАДАЧА. У вас есть словарь, в котором каждому элементу соответствует вес — вероятность его появления при случайном выборе

weights = {
"Moscow": 0.5,
"SPB": 0.2,
"Novosibirsk": 0.2,
"Kazan": 0.1
}

def generate_by_weights(weights: dict, n: int) -> list:
...


🥳 Функция должна вернуть список из n элементов, выбранных случайным образом,
причём вероятность появления каждого элемента пропорциональна его весу.

📉 Возможный вывод
['Moscow', 'SPB', 'Moscow', 'Moscow', 'Novosibirsk',
'Moscow', 'Kazan', 'SPB', 'Moscow', 'Novosibirsk']


Ставьте 🕺, если пост зашел, пишите решение в комментах, только под спойлером. Вот так

🎄🎄🎄 Если у вас есть Premium, вы можете бустануть канал — это бесплатно и занимает 3 секунды. Нам совсем чуть-чуть осталось до 10 уровня, хочу поставить НОВОГОДНИЕ ОБОИ

@zasql_python
Please open Telegram to view this post
VIEW IN TELEGRAM
14344🔥3
если ты считаешь, что преисполнился в этом мире, вспомни чуваков с самыми залайканными решениями задач на степике на различных курсах по программированию 😁

задание: удалить w и z из строчки

@zasql_python
Please open Telegram to view this post
VIEW IN TELEGRAM
308632
😮 Удалёнка vs офис: что я по итогу выбрал для себя

Тема заезженная, но хочу зафиксировать своё видение.

👍 Что мне даёт удалёнка

У меня появляется дополнительные 2–3 часа в день за счёт отсутствия дороги и офисных случайностей.

Тебя меньше дергают по причине того, что ты просто есть в офисе.

Слушай, раз ты здесь, давай быстро посмотрим, почелленджим

Пойдём за кофе, обсудим точки роста продукта

Раз все в офисе, давай сядем и сделаем презентацию


В итоге твой план на день рассыпается просто потому, что ты физически находишься в офисе. Не говорю, что это плохо, но лично мне на удаленке держать фокус проще.

Знаю, что на высоких грейдах люди часто гоняют в офис, когда нужно быть в коннекте с командой и стейколдерами. Есть отдельные команды / компании, которые сидят только в офисе, не буду тыкать пальцами 😄

👎 Что теряю

Меньше движухи с любимыми коллегами. Когда вся команда гоняет в офис — это прекрасно, у тебя начинает появляться круг с лиц, с которыми помимо работы можно что-то обсудить отстраненное от задач.

Удалёнщики правда чуть дальше от офисной тусовки. Но честно — на выполнение задач это не влияет. На инфополе и спонтанные обсуждения — да, на результат — нет.

Удаленка не всегда может являться плюсом, кому-то просто не заходит этот формат, но я стараюсь дополнительные часы тратить в течение дня не только на работу.

Сейчас в мой день влезают:

1. Основная работа ⌨️

2. Магистратура (я хочу красный диплом, большую часть дисциплин уже закрыл) 🎓

3. Курсы, чтобы не выпадать из тонуса 🏃‍♂️

4. Ведение канала — недавно стукнуло 7к, спасибо всем, кто здесь 🙌

5. И ещё пара дополнительных штук, о которых расскажу позже 🤔

И что удивительно: капаcитет ещё остаётся. Вопрос только в том, чтобы не выгореть. Очень надеюсь, что с этим уроки из прошлых лет уже усвоены 🔥🔥

А какой у вас формат работы? Делитесь в комментах, ставьте 🕺🕺🕺

@zasql_python
Please open Telegram to view this post
VIEW IN TELEGRAM
691494
Да это я так, тренируюсь проходить собесы, держу себя в тонусе, чтобы понимать тренды рынка 🙊

Сейчас на парочку схожу, пойму сколько я стою на рынке и все, закончу проходить. Инфа 💯. Можно не волноваться, никуда не пропаду 🫣

Дальше буду работать у себя, так как держать себя в форме мое любимое дело 😁

@zasql_python
Please open Telegram to view this post
VIEW IN TELEGRAM
346531
🔗 [Статья] Проксируй это: как ускорить A/B-тесты и не попасть в ловушку метрик

10 декабря вышла статья от X5 Tech 🖤, как подбирать прокси-метрики.

Кстати, эта тема была на aha'25, но теперь есть и на Хабр 🐸

Здесь указано про проблемы North Star Metric: мелкие эффекты сложно задетектировать, тактические задачи не решают и все такое. Добавлю, что зачастую такие метрики имеют высокий MDE и эксперименты оказываются не сильно чувствительными 🤓

Предположим у нас есть продукт, где основной метрикой является GMV, в качестве прокси-метрики может быть выбрана конверсия в заказ, так как она более чувствительная. Быстрее прокрашивается и сонаправлена с метрикой (в предыдущих экспериментах).


📊 Красивая визуализация показывает, как должны вести себя прокси-метрики: либо ловить больший эффект, либо быстрее реагировать на воздействие.

1. Одно из самых важных — это уметь переходить к причинности. Поэтому здесь рассматриваются: Дерево метрик, Causal Inference.

2. Указали про качество прокси: метрика должна быть чувствительной и сонаправленной. Классика, когда мы выбираем метрику, на которую хотим опираться при принятии решений в эксперимента

3. Про составные прокси метрики: нашли метрики, а что делать с ними дальше, какие выбрать: те, которые более чувствительные или сонаправленные? Решается с помощью Парето-оптимизации

4. Про предсказания. Что если не можем ждать долго пока прокрасится NSM, можем использовать ее прогноз на основе быстрых метрик, которые в теории могут являться прокси. В статье указывается пример: сколько будут зарабатывать студенты после прохождения курсов переквалификации.

5. Делаем поправки. Чем хуже модель предсказывает NSM, тем сильнее нужно корректировать оценку. Однако, при корректировке мы еще снижаем чувствительность.

6. А нужно ли вообще бежать все подряд использовать? Нужно все проверять и смотреть, а может NSM сам по себе чувствительный (например, в B2C продуктах с многомиллионной аудиторией) 🍪🍪

Очень зашла статья, как и выступление 😇

Ставьте 🤪, если понравилась. Делитесь, удалось ли в продукте выделить прокси-метрики? Если да, то насколько удалось увеличить чувствительность экспериментов?

@zasql_python
Please open Telegram to view this post
VIEW IN TELEGRAM
269711