Госпожа аналитик 💚 Ия Зотова – Telegram
Госпожа аналитик 💚 Ия Зотова
2.38K subscribers
129 photos
9 videos
3 files
85 links
IT-лид направления сквозной аналитики в Сбер. Mентор.
- Об аналитике data/web/product
- О работе и карьерном треке
- О когнитивных искажениях, которые мешают расти специалисту

По вопросам менторства, сотрудничества: @IyaZotova
Download Telegram
Для разделения строки по колонкам с разным количеством элементов можно использовать условный оператор или цикл. Например, можно проверить количество элементов в строке и разделить ее соответственно.

Пример кода:

def split_column(row):
elements = row.split('-_-')
if len(elements) == 4:
return pd.Series(elements)
elif len(elements) == 3:
return pd.Series([np.nan] + elements)
elif len(elements) == 2:
return pd.Series([np.nan, np.nan] + elements)
elif len(elements) == 1:
return pd.Series([np.nan, np.nan, np.nan, np.nan, elements[0]])

df[['1', '2', '3', '4', '5', '6']] = df['source'].apply(split_column)


В этом примере функция split_column разделяет строку на элементы и возвращает их в виде объекта pd.Series. В зависимости от количества элементов в строке, функция заполняет пробелами (np.nan) недостающие столбцы.
🤷‍♂1👍1
🎞 DATA АНАЛИТИК: Следователь продал авто и стал аналитиком | Интервью с Middle DA

Гость: Алексей Яцына, Middle Data Analyst, Сбер

Алексей в интервью поделится:
• Как продал свой Феррари авто и перешел из следователя в аналитики
• Как профессия следователя пересекается с аналитиком данных
• Какие курсы на аналитика прошел и какие оказались лучше. Карпов vs Я.Практикум
• Про стажировку и почему отказался от нее
• Почему нравится ходить по собесам и про первую работу в банке
• Про карьерный трек аналитка и куда хочет двигаться дальше

https://youtu.be/znR94HAbf9s

Подписывайтесь на наши каналы:
• Ия, Team Lead DA: https://news.1rj.ru/str/Lady_Analyst
• Евгений, DE: https://news.1rj.ru/str/halltape_data

Если было полезно, весело, то поддержите наш канал донатами:
💲 https://pay.mysbertips.ru/92484472
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥1853🤷1
Audio
🎧 Аудио версия подкаста для любителей послушать в дороге/в фоне
Please open Telegram to view this post
VIEW IN TELEGRAM
👍93
Типичные ошибки новичка в исследовании и подготовки данных. Часть 1

Вот попал впервые к вам в руки датасет, вы его загрузили и погнали исследовать, графики строить, задание выполнять. В лучшем случае df.describe() написали.

Это плохо. Особенно для тестового задания.

Если в больших компаниях многое автоматизировано, минимум ручного труда и, следовательно, данные более структурированы и хранятся без ошибок🦄, то в тестовых заданиях для вас могли подготовить набор подводных камней. И ошибки при работе с этими камнями у всех примерно одни и те же:

1. Загрузили датафрейм и не проверили, что лежит в столбцах. Числа - обжект, даты зафакапились, в категориях неявные дубликаты и ошибки в нейминге.

У меня в самом начале как-то встретился кейс с ИНН. Когда данные грузили в панду, то поле с ИНН интерпретировалось как число и все ИНН, которые начинались с 0 или 00, преобразовались в числа без первых нулей, а я долго не могла найти причины возникновения невероятных ИНН в 11 и 9 символов

2. После преобразования подозрительных чисел-обжектов не проверили результат.

Так, например, в одном тестовом датасете из-за преобразования терялось 90% данных о деньгах, а решающие это задание, в ус не дули и выбросы там ещё искали.

Преобразовали? Проверьте, что у вас ничего не потерялось. Это касается не только чисел, но и в принципе любых преобразований на данными

3. Дубликаты не проверяем.
Или проверяем, но бездумно.

Так, например, встречались кейсы, когда при загрузке датафрейма в нем находился неименнованный столбец в виде старых лишних индексов, который вероятно будет мешать вам найти дубли.

Включайте голову, задавайте себе вопрос: я точно вижу все дубли? И могут ли они тут быть? И точно ли это дубли?

Советую так же смотреть дубли по идентификаторам (например, user_id, product_id, id и т.п.), но голову не отключать, конечно, не все айди одинаково полезны😁

В любом случае, если сейчас все непонятно, то знайте, что все эти моменты приходят с опытом.

Пишите в комментах, с какими приколами в данных сами сталкивались?
Please open Telegram to view this post
VIEW IN TELEGRAM
185👍4
Forwarded from Grigoriy
Первая ссылка после поиска: https://www.datalytics.ru/all/kak-v-pandas-razbit-kolonku-na-neskolko-kolonok/
Ну или как я бы решил, если уж в pandas:
# Максимальное число столбцов: 
# s - разделитель на подстроки

s = '-_-'
cols_x_max = df['source'].str.split(s)
x_max = cols_x_max.str.len().max()

# Новые столбцы:

new_columns = [str(i) for i in range(1, x_max+1)]

def split_columns(x: str, x_max: int, s: str) -> list:
'''
Разбиваем строку на подстроки
:param x: строка
:param x_max: максимальное количество подстрок
:param s: символ - разделитель
:return: подстроки
'''
x = str(x)
y = x.split(s)
y = y + [None]*(x_max - len(y))

return y

cols = df['source'].apply(lambda x: split_columns(x=x, x_max=x_max, s=s))
df = pd.concat([df, pd.DataFrame(list(cols), columns=new_columns)], axis=1)
👍4
Хорошее решение на задачу выше👆Спасибо, что решаете, делитесь, это радостно!💚
Please open Telegram to view this post
VIEW IN TELEGRAM
2
Какой вопрос вы бы задали Алексею Никушину, если бы брали у него интервью?

Да-да, мы планируем запись интервью с Алексеем😎 и хотим поговорить про AI/ML, которое всех заменит, про продуктовую аналитику, про джунов и конференцию, но может есть что-то, что интересно именно вам?

Не стесняйтесь, делитесь в комментариях и самые интересные или горячие🔥 вопросы возьмем работу 🎬

P.S.: Алексей основатель масштабных конференций для аналитиков (МатеМаркетинг, Аha!)
Please open Telegram to view this post
VIEW IN TELEGRAM
10🔥7
🧠Цифровая амнезия или почему не надо расчитывать на "все можно загуглить"

Пробую новые форматы, буду рада обратной связи💚
https://youtu.be/H8xJzgNiOqY
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥81
Просто оставлю это здесь🥰

Если кто-то из моих менти хочет ещё оставить обратную связь или рассказать как у вас дела, то пишите в комментах, мне будет приятно💚

#обратная_связь
Please open Telegram to view this post
VIEW IN TELEGRAM
12
🎉Сняли вчера очешуенное интервью с Алексеем и Александрой, которые организуют конференции, в том числе МатеМаркетинг и Аха!

Поговорили, мне кажется, про все: и про аналитику, и про джунов, и про конференции, и про будущее с ИИ и даже про космос😂. Я надеюсь, что вы ждёте этого выпуска и вам он будет полезен.

Лёша и Саша невероятные люди, интервью получилось тёплым и ламповым🥰

🎞Coming soon...
Please open Telegram to view this post
VIEW IN TELEGRAM
374
🐍 Представьте, что вы работаете аналитиком в Озоне или Вайлдберис и вам поставили задачу найти инсайты в продаваемых товарах.

Но в данных затесались проблемки. Свойства товаров хранятся в бд в виде структуры (см. скрин). А в пандас эта структура загружается как строка.

Преобразуйте строку свойств в удобный для исследования формат (выберите на свой взгляд). Если хотите, то можете поделиться почему именно такой. Какие ещё решения вы видите?

Для удобства можете взять пример:
"[{'Style Code': '1005COMBO2'}, {'Closure': 'Elastic'}, {'Pockets': 'Side Pockets'}, {'Fabric': 'Cotton Blend'}, {'Pattern': 'Solid'}, {'Color': 'Multicolor'}]"
Решения пишите в комменты
Please open Telegram to view this post
VIEW IN TELEGRAM
81👍1
Это просто задача для того чтобы ваши скиллы поднимать, вы можете искать 100 причин почему это должны делать инженеры, а не вы, а можете порешать и нейрончики свои поактивировать)
💬Сегодня холиварили на работе на тему кто такой Product owner, Руководитель, Предприниматель и TeamLead.

Удивительно, что эта тема начала фонить ещё на интервью с Лешей и Сашей, а сегодня развернулась внутри кластера и я даже почти не при чем😂

💵Product owner и Предприниматель в нашей парадигме оказались одной сущностью с разницей лишь в том, что Предприниматель тратит свои деньги, а PO - деньги Предпринимателя😂 И у того и у другого основной задачей является поиск решений, которые приносят деньги, денежки, деньжищи.
Они не лезут в то, каким образом их команда эти решения реализует и понятия не имеют из какой таблички берутся данные или какой стек используется. Они управляют стратегией и бэклогом продукта. Если вы PO, то ваш продукт - это ваш стартап. Вы должны знать кому и что вы продаёте, как ваш продукт влияет на жизнь пользователей. Может быть не ITишником

🤓TeamLead оказался кем-то ближе к наставнику и ментору. Вот он как раз разбирается в вашем стеке, знает почему именно такой была создана архитектура, какие таблицы надо брать и может временно заменить один из юнитов, если он выпал из строя. Вырос из этой или похожей команды. Точно IT-бэкграунд.

🏭Руководитель - в споре пришли к выводу, что это кто-то не из айти, а из классической линейной структуры или что-то на старославянском😁 лично я использую этот термин, когда разговариваю с людьми из другой сферы.

Я себя отношу к TeamLead, потому что напрямую влияю на то, как выполняются задачи, на каком стеке и т.п. Хотя у меня есть стратегия нашей команды, я понимаю кто стейкхолдер, к чему мы идём, на какие метрики влияем и т.п. (тут я уже не совсем ощущаю границы между TL и PO)

Но на днях ко мне временно перешла роль Product owner, так как один наш продукт остался без PO и эта тема для меня стала особенно актуальна. Я фанат этого продукта и конечный его пользователь, но я понятия не имею как правильно строить архитектуры приложений или писать на Java (Господи, я пока даже не знаю точно на чем ребята пишут)🤡 Вот и почувствовала разницу между PO и TL, хоть и не до конца ещё. Моя задача сейчас будет проработать стратегию и бэклог.

Эта классификация ролей создана моими когнитивными процессами в ходе обсуждений, споров, опыта и даже одного митапа и не является истинной, высеченной в камне. Поэтому интересно, что вы думаете на счёт этих понятий?
Please open Telegram to view this post
VIEW IN TELEGRAM
👍72
🌜Моё затишье - это про усталось. С одной стороны хочется поныть и на ручки, а с другой я чувствую как происходит рост. Выше я писала, что мне перепало временное удовольствие побыть Product Owner (владелец продукта) и эти 2 недели были непростыми.

Во-первых, нужно продолжать налаживать и поддерживать процессы внутри своей команды. В целом, они у меня большие молодцы и сами могут уже себя организовать, хоть и не без ошибок, конечно, и это скорее мои управленческие ошибки, но в любом случае большое им спасибо за эту помощь и поддержку🫶

Во-вторых, есть вторая команда, в которой есть очень крутой продукт, и не один, а бэклога нет, планы очень туманны, команда разобщенная. То есть работы там непочатый край (кстати, вакансия открыта на Product Owner этой команды, создающей мартех продукты), но меня такая работа и трудности очень сильно вдохновляют, я устаю, но кайфую😅 это прям открытие для меня как для личности, не знала об этой грани себя.

В-третьих, у меня в менторстве есть ребята, с которыми я занимаюсь и готовлю им задания.

Ну и учёбу никто не отменял🙈

Так что сил остаётся только на полежать😂 Поэтому, если у вас есть какие-то вопросы хоть по аналитике, хоть по работе лидом или владельцем продукта, пишите, я оттаю и сделаю вам пост или эфир.

Ещё обещаю сделать вам разбор задачки по парсингу, которая была выше)

🟢А пока идите смотреть эфир про жизнь DE у Жени, экшн сегодня в 14:00
Please open Telegram to view this post
VIEW IN TELEGRAM
👍15632🐳2🤗1
This media is not supported in your browser
VIEW IN TELEGRAM
Немного кринжа про наказания

Нашла на просторах ютуба, что думаете об этом?) Я надеюсь, что это стеб

Были ли у вас подобные случаи на работе и что делали?
Please open Telegram to view this post
VIEW IN TELEGRAM
😱6👍3🙈1
😐Я посмотрела видос выше и меня вскрыло (видимо не зажила ещё травма от моего первого начальника😅). Хотя уверена, это просто хайповый видос и мы его поддержали.

Записала малюсенький подкаст на 7 минут, возможно, будет полезно знать, что бывает по-другому и адекватно.

🎞 https://youtu.be/Sjd4gkj9u8o

Ну и как обычно: вопросы, комментарии, предложения пишите в комментах👇👇👇
Please open Telegram to view this post
VIEW IN TELEGRAM
8💔4🔥1
Знаю, что у меня в канале есть разные аналитики, в том числе и системные🥰

Мы ищем в команду Сбера в департамент маркетинга Middle Системного аналитика. Джун+ тоже рассмотрим

Продукты и архитектура сложные, будут челленжить вас. Направление маркетинговых технологий.

Пишите в личку @IyaZotova с резюме, договоримся о собесе💚
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥84😱3
Это Москва оффлайн👆
👻Страшные сказки для аналитика.

Самым страшным в работе аналитика для меня всегда остаются кривые расчёты.

И расчёты могут быть кривые не только из-за банальной невнимательности человека (да здравствует ИИ!), но и по другим не самым очевидным причинам:

🔠 ТЕРМИНОЛОГИЯ
Вот есть у вас метрика Посетители сайта. Один будет считать, что это просто количество заходов на сайт, второй - количество уникальных посетителей на сайте, третий - количество посетителей, которые были на сайте более 15 сек и т.д.
А MAU? Там ещё темнее лес становится и неочевиднее расчёты.

🔠Важно:
Договориться с заказчиками об одних и тех же формулировках и понятиях. Договориться мало, надо зафиксировать в доку и высечь в камне🗿

🔠 ЧАСТЬ ДАННЫХ
Допустим, что вам нужно сдать отчёт в течении 2 часов для Германа Грефа, а только одна выгрузка данных будет вам стоить 3 часа (ну или сервер с куском данных умер и у вас осталась только часть). Вы с тим лидом прикинули, что можно взять часть данных. Но по случайным стечениям обстоятельств ваша выборка и расчеты по ней не отражали свойств генеральной совокупности (то есть расчеты были бы совсем другими, если бы мы считали на всем объёме данных)🤡

🔠 Важно: на самом деле тут не всегда есть правильный ответ, поможет только оценка рисков и предупреждение заказчика (и это не всегда хорошая идея). Ну и задавать себе вопрос: есть ли вероятность, что какой либо фильтрацией я нарушаю случайность полученной выборки?

🔠 МЕТОДОЛОГИИ
Например, возьмем расчёт расходов. Можно считать как с НДС, так и без НДС.

А трафик?
Можно считать очищенный трафик от ботов и роботов, а можно общий.

🔠 Важно: Все упирается в методологии расчета. Важно методологии согласовать с заказчиком (на практике в больших компаниях не всегда это просто)

🔠 НАРУШЕНА ЛОГИКА РАСЧЕТОВ
Например, при расчете дохода не учитываем возвраты товаров.

Или при расчете активных пользователей банковских карт учитываем бонусы на карте, которые человек получил при её подключении (ну акция такая была, допустим). И считаем, что у карты есть оборот (а там только эти бонусы на карте и лежат: то есть клиент не активный и просто подключился к карте ради выплат)

🔠Важно: Поговорить с коллегами по цеху. Информационный вакуум и замыленность взгляда приводит к таким нелогичным методологиям.

🔠ТЕХ. СБОИ
Моё "любимое" оставила напоследок)

Дыры в данных - боль и страдания любого аналитика. И ладно, если у вас нет ни одной строчки по дате, это хотя бы видно по количеству записей, а если у вас нет, например, данных за 6 часов и в целом видно падение в количестве записей, но точно на глаз сделать выводы о потерях нельзя?

🔠Важно: делать дашборды с мониторингом дыр важных источников. Это поможет поймать дыры первого типа. А для второго используем проверку на значимое отклонение с помощью правила трех сигм (вспоминаем доверительные интервалы). Правда последняя проверка не справится, если тренд на уменьшение количества записей плавный😁 Конечно, к проблеме полноты и качества данных лучше подходить комплексно и это только примеры базовых проверок

------
Любая ошибка отдела аналитики каплей за каплей подрывает доверие к аналитикам.

🔠Подходите к своим данных с большой долей критики, как если бы это был ваш бывший(ая)😀

🔠Задавайте как можно больше вопросов к данным и метрикам

🔠И пишите в комментах, что бы сами добавили к этому списку причин?
Please open Telegram to view this post
VIEW IN TELEGRAM
195💯1
🎞 DATA ENGINEER: Накрутка опыта и база для старта в DE
Гость: Эдвард, Senior/Team Lead Data Engineer в Сбер

Эдвард в интервью поделится:
• Как начал свою карьеру DE из инженера-энергетика
• Про 14 отказов на собесах и их восприятие
• Кто такие джуны и сеньоры
• Как вырос до тим лида и рос в зарплате
• Какие базовые навыки нужны для вкатывания

Можно сказать получился праздничный выпуск 😁
Всех леди поздравляю с этим прекрасным днем!
🌷🌸🌸🌸

✈️ Подписывайтесь на наши каналы:
• Ия, Team Lead DA: https://news.1rj.ru/str/Lady_Analyst
• Евгений, DE: https://news.1rj.ru/str/halltape_data

Если было полезно, весело, то поддержите наш канал донатами:
💲 https://pay.mysbertips.ru/92484472
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥14💯7👍44