Аня - аналитик данных👩‍🌾 – Telegram
Аня - аналитик данных👩‍🌾
101 subscribers
3 photos
1 file
12 links
Записки начинающего аналитика данных
@Mrs_logunova Аня

Делаю заметки для себя. Пишу просто.
Здесь не будет сложных специализированных терминов. И мутных исследований.

Нет и не будет простыней текста, 100500 ссылок. Коротко, один пост - одна мысль.
Download Telegram
Channel name was changed to «Аня - аналитик данных👩‍🎓»
Можно потренироваться на датасетах с этих сайтов.
Список сайтов с разными источниками данных:
MakeoverMonday выкладывают каждый понедельник в рамках челленджа
WorkoutWednesday выкладываеют каждую среду
SportsvizSunday данные про спорт
Fivethirtyeight у них и визы хорошие, и данные открыты
Kaggle самая популярная штука, много хорошего внутри, сама часто пользуюсь
DatasetSearch гугл поиск по датасетами
👍1🔥1
В PostgreSQL у типа данных вещественные числа какое обозначение?
Anonymous Quiz
37%
Float64
26%
Integer
34%
Real
3%
Bool
В чем различия задач аналитика и менеджера проекта?

Задача аналитика: понять, где боль клиента/бизнеса и предложить, как её вылечить. То есть собрать данные (или найти у кого их взять), сделать выводы, представить рекомендации, в том числе менеджеру проекта.

Задача менеджера проекта: вылечить боль: поставить задачу, распределить ресурсы (время и команду, бюджет), решать проблемы по мере реализации проекта, отследить сроки, готовить отчётность.
#вопросы_с_собеседований

Ответили бы так же? Да - 👍, нет - 👎
👍5
Определение из статистики. Мода

Мода - это самое частовстречающееся значение во множестве (выборке).

Множество:
1 2 3 4 5 6 5 4 3 2 8 1 9 9 9 4

Мода: 9

Мультимодальность - когда таких значений несколько.

Часто мультимодальность указывает, что распределение НЕ является нормальным.
2🎉1
Знаете, что такое НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ?
Anonymous Poll
72%
Да
28%
Нет
Channel name was changed to «Аня - аналитик данных👩‍🌾»
Как взаимодействую между собой владелец продукта и аналитик?

В отличие от менеджера проекта владелец работает только над развитием самого продукта. Ведёт бэклог (определяет задачи и фичи, которые надо реализовать). Выступает внутренним заказчиком при выполнении разработки. Анализирует рынок, общается с экспертами, получает результаты тестирований, общается с заказчиком, определяет приоритетность.

Аналитик помогает владельцу продукта принимать решения в части разработки на основе собранных данных. Проводить А/В-тесты, формулировать гипотезы и на основе их проверки запускать в продукт новые фичи.

Я бы так ответила.
#вопросы_с_собеседований
1👍1🥰1
Дальше по плану написать про стандартное отклонение и дисперсию. И нормальное распределение.

Про нормальное распределение 38 % голосующих не знают)
Аня - аналитик данных👩‍🌾
Дальше по плану написать про стандартное отклонение и дисперсию. И нормальное распределение. Про нормальное распределение 38 % голосующих не знают)
Не буду углубляться в формулы.
Дисперсия - это мера разброса величины вокруг среднего. Зная, среднее и дисперсию мы можем примерно представлять как разбросаны значения выборки.

Если дисперсия большая, то есть значения сильно разбросаны, то и график нормального распределения будет более широким по сравнению с распределением, где числа имеют более узкий диапазон.

Например, у вас стоимость акции: среднее - 100, дисперсия 20 и среднее 100 , а дисперсия 55. Где больше риска и прибыли? Правильно во втором случае.

Так как дисперсия возводит значения в квадрат (руб. в квадрате), то для возврата к единицам измерения (просто руб. ) можно посчитать стандартное отклонение.

Стандартное отклонение = корень из дисперсии.
3🔥2
Большинство событий в нашей жизни подчиняется нормальному распределению.

Возьмём рост.
Если построить гистограмму для для роста 100000 человек России, то гистограмма будет стремиться к нормальному распределению и иметь вид колокола. Где самая высокая точка - будет средний рост жителя России.

Есть ещё такое понятие как стандартное нормальное распределение - это частный случай нормального распределения. Среднее в этом случае = 0, а стандартное отклонение = 1.
3
Аня - аналитик данных👩‍🌾
Вот в этом файлике, который я нашла на другом канале (Я лишь перепостила) есть список вопросов, которые распространены на собеседованиях. По-тихоньку поотвечаю как бы я ответила на эти вопросы. Тег будет #вопросы_с_собеседований
Чем отличаются бизнес-требования от функциональных требований к продукту? С какими из них работает аналитик?

Бизнес-требования - это высокоуровневые требования, определяющие цели разработки продукта. Например, система бронирования позволит клиентам забронировать 1млн. билетов в месяц, продукт сократит время производства в три раза.

Функциональные требования устанавливает системный аналитик на основании бизнес-требований. Это требования к конкретным функциям продукта: при нажатии на кнопку должно открыться окно X.

Я бы ответила так, на каком этапе работает аналитик: аналитик данных помогает определить выполнены ли бизнес требования, найти проблемы, найти пути решения по выполнению необходимых показателей. Системный аналитик формирует функциональные требования. При этом аналитик данных может помогать в формировании функциональных требований, модернизации продукта путём проведения тестов и определение наиболее эффективных функций в плане достижения необходимых продуктовых метрик.

#вопросы_с_собеседований
Forwarded from Big Data Science [RU]
#тест
Ложное срабатывание датчика автосигнализации (без реальной угрозы) - это пример ошибки
Anonymous Quiz
51%
первого рода
33%
второго рода
9%
зависит от заданного уровня статистической значимости
7%
это вообще не ошибка
Аня - аналитик данных👩‍🌾
Не буду углубляться в формулы. Дисперсия - это мера разброса величины вокруг среднего. Зная, среднее и дисперсию мы можем примерно представлять как разбросаны значения выборки. Если дисперсия большая, то есть значения сильно разбросаны, то и график нормального…
О чем нам может сказать стандартное отклонение?

Зная среднее и стандартное отклонение мы можем определить интервал и процент данных в него входящий.

68% данных находятся в пределах одного стандартного отклонения.

95% данных находятся в пределах двух стандартных отклонений.

99,7% данных находятся в трёх стандартных отклонениях от среднего.

Есть выборка.
Среднее 5, стандартное 1 , значит:
68% данных находятся в интервале от 4 до 6.
95% данных находятся в интервале от 3 до 7.
99,7 % данных находятся в интервале от 2 до 8.
👍1
Доверительный интервал

Генеральная совокупность - это всё возможные значения метрики. Например, вес всех мужчин России.

А выборка - это данные, которыми мы располагаем. Например, мы собрали данные о весе 1000 мужчин.

Мы не можем знать средний вес в Генеральной совокупности. На основании выборки мы можем прикинуть в каком диапазоне он находится. Этот диапазон называется доверительным интервалом.
👍5
Forwarded from Data New Gold
Часть 2
Источники знаний для успешного прохождения отбора в компанию и дальнейшего развития — собрал все то, чем я сам пользуюсь, и рекомендую вам 👀

1️⃣ С чего рекомендую начать (условно для джуна):
Если ты хочешь начать с основ, то вот:
🔸Видео с базой по теории вероятности
🔹Для погружения в теорию вероятности

Далее можно переходить на статистику и АБ тесты
🔸Статистика от Карпова — рекомендую:
Часть 1 + конспект с кодом на Python (оч крутой конспект), часть 2, часть 3 — в комментариях к видео много полезных источников 🧠
🔹мини-курс Глеба Михайлова по вероятности и статистике — объясняет просто и понятно

По продуктовым метрикам:
🔹Статья на vc с разбором метрик
🔸блог GoPractice — часто читаю блог Олега Якубенко (основатель GoPractice) + в ближайшее время планирую проходить его симулятор — полезная штука для применения на практике знаний по метрикам

2️⃣ Для дальнейшего развития можно использовать следующую подборку (условно для джуна и выше):
🔹богатый сборник: вебинар с ссылками на множество бесплатных материалов для продуктовых аналитиков - более 230 курсов, лонгридов, тренажеров, блогов и емких статей.
Ссылка на доску Miro
Запись вебинара
🔸Подборка по матемаркетингу всех лет, выложенная в открытый доступ
P.S. очень расстроен, что coursera недоступна сейчас для простых работяг-аналитиков — много полезных курсов брал оттуда(

👍Давайте наберем 100+ реакций на этот пост в знак благодарности моей работе) — мне будет приятно видеть, что мой труд полезен многим аналитикам и я с двойной дозой эндорфина буду помогать нам всем дальше покорять мир аналитики 🚀
Также в комментариях поделюсь доп источниками и своим опытом распределения времени прохождения данных лекций/курсов исходя из вашей цели — можете пока набросать свои цели!
7👍1🤩1
Аня - аналитик данных👩‍🌾
Доверительный интервал Генеральная совокупность - это всё возможные значения метрики. Например, вес всех мужчин России. А выборка - это данные, которыми мы располагаем. Например, мы собрали данные о весе 1000 мужчин. Мы не можем знать средний вес в Генеральной…
На основе доверительного интервала можно судить о различиях в генеральных совокупностях. Если доверительный интервал рассчитанный по двум выборкам не пересекается - значит есть статистически значимые различия.
2