Доверительный интервал
Генеральная совокупность - это всё возможные значения метрики. Например, вес всех мужчин России.
А выборка - это данные, которыми мы располагаем. Например, мы собрали данные о весе 1000 мужчин.
Мы не можем знать средний вес в Генеральной совокупности. На основании выборки мы можем прикинуть в каком диапазоне он находится. Этот диапазон называется доверительным интервалом.
Генеральная совокупность - это всё возможные значения метрики. Например, вес всех мужчин России.
А выборка - это данные, которыми мы располагаем. Например, мы собрали данные о весе 1000 мужчин.
Мы не можем знать средний вес в Генеральной совокупности. На основании выборки мы можем прикинуть в каком диапазоне он находится. Этот диапазон называется доверительным интервалом.
👍5
Forwarded from Data New Gold
Часть 2
Источники знаний для успешного прохождения отбора в компанию и дальнейшего развития — собрал все то, чем я сам пользуюсь, и рекомендую вам 👀
1️⃣ С чего рекомендую начать (условно для джуна):
Если ты хочешь начать с основ, то вот:
🔸Видео с базой по теории вероятности
🔹Для погружения в теорию вероятности
Далее можно переходить на статистику и АБ тесты
🔸Статистика от Карпова — рекомендую:
Часть 1 + конспект с кодом на Python (оч крутой конспект), часть 2, часть 3 — в комментариях к видео много полезных источников 🧠
🔹мини-курс Глеба Михайлова по вероятности и статистике — объясняет просто и понятно
По продуктовым метрикам:
🔹Статья на vc с разбором метрик
🔸блог GoPractice — часто читаю блог Олега Якубенко (основатель GoPractice) + в ближайшее время планирую проходить его симулятор — полезная штука для применения на практике знаний по метрикам
2️⃣ Для дальнейшего развития можно использовать следующую подборку (условно для джуна и выше):
🔹богатый сборник: вебинар с ссылками на множество бесплатных материалов для продуктовых аналитиков - более 230 курсов, лонгридов, тренажеров, блогов и емких статей.
Ссылка на доску Miro
Запись вебинара
🔸Подборка по матемаркетингу всех лет, выложенная в открытый доступ
P.S. очень расстроен, что coursera недоступна сейчас для простых работяг-аналитиков — много полезных курсов брал оттуда(
👍Давайте наберем 100+ реакций на этот пост в знак благодарности моей работе) — мне будет приятно видеть, что мой труд полезен многим аналитикам и я с двойной дозой эндорфина буду помогать нам всем дальше покорять мир аналитики 🚀
Также в комментариях поделюсь доп источниками и своим опытом распределения времени прохождения данных лекций/курсов исходя из вашей цели — можете пока набросать свои цели!
Источники знаний для успешного прохождения отбора в компанию и дальнейшего развития — собрал все то, чем я сам пользуюсь, и рекомендую вам 👀
1️⃣ С чего рекомендую начать (условно для джуна):
Если ты хочешь начать с основ, то вот:
🔸Видео с базой по теории вероятности
🔹Для погружения в теорию вероятности
Далее можно переходить на статистику и АБ тесты
🔸Статистика от Карпова — рекомендую:
Часть 1 + конспект с кодом на Python (оч крутой конспект), часть 2, часть 3 — в комментариях к видео много полезных источников 🧠
🔹мини-курс Глеба Михайлова по вероятности и статистике — объясняет просто и понятно
По продуктовым метрикам:
🔹Статья на vc с разбором метрик
🔸блог GoPractice — часто читаю блог Олега Якубенко (основатель GoPractice) + в ближайшее время планирую проходить его симулятор — полезная штука для применения на практике знаний по метрикам
2️⃣ Для дальнейшего развития можно использовать следующую подборку (условно для джуна и выше):
🔹богатый сборник: вебинар с ссылками на множество бесплатных материалов для продуктовых аналитиков - более 230 курсов, лонгридов, тренажеров, блогов и емких статей.
Ссылка на доску Miro
Запись вебинара
🔸Подборка по матемаркетингу всех лет, выложенная в открытый доступ
P.S. очень расстроен, что coursera недоступна сейчас для простых работяг-аналитиков — много полезных курсов брал оттуда(
👍Давайте наберем 100+ реакций на этот пост в знак благодарности моей работе) — мне будет приятно видеть, что мой труд полезен многим аналитикам и я с двойной дозой эндорфина буду помогать нам всем дальше покорять мир аналитики 🚀
Также в комментариях поделюсь доп источниками и своим опытом распределения времени прохождения данных лекций/курсов исходя из вашей цели — можете пока набросать свои цели!
❤7👍1🤩1
Аня - аналитик данных👩🌾
Доверительный интервал Генеральная совокупность - это всё возможные значения метрики. Например, вес всех мужчин России. А выборка - это данные, которыми мы располагаем. Например, мы собрали данные о весе 1000 мужчин. Мы не можем знать средний вес в Генеральной…
На основе доверительного интервала можно судить о различиях в генеральных совокупностях. Если доверительный интервал рассчитанный по двум выборкам не пересекается - значит есть статистически значимые различия.
❤2
как определить, какая выборка нужна для проведения статистического теста?
Её размер зависит в основном от заданных мощности критерия (обычно 80%) и критического уровня стат. значимости (обычно 5%). В спец. стат программах или он-лайн калькуляторах может рассчитать размер выборки на основе вышеуказанных значений.
Её размер зависит в основном от заданных мощности критерия (обычно 80%) и критического уровня стат. значимости (обычно 5%). В спец. стат программах или он-лайн калькуляторах может рассчитать размер выборки на основе вышеуказанных значений.
Какая связь между ошибкой второго рода и мощностью критерия?
Anonymous Quiz
5%
Мощность = Ошибка*100
77%
Мощность = 1 - Ошибка
18%
Ошибка = Мощность -1
0%
Мощность = Ошибка -1
👍1
Как интерпретировать мощность критерия?
Anonymous Poll
68%
Вероятность найти различия, когда эти различия есть
0%
Вероятность не найти различия, когда различий нет
18%
Вероятность найти различия, когда различий нет
14%
Вероятность не найти различия, когда они различия есть
Бизнес-аналитик описывает систему и верхнеуровневые требования к ней , в том числе в формате пользовательских историй.
Системный аналитик на основе требований составленных бизнес-аналитиком рисует техническую реализацию системы. Описывает архитектуру, технические требования, модель данных.
Продуктовый аналитик определяет цель разработки продукта, показатели достижения цели, методы отслеживания, типы и архитектуру отчётов. Участвует в развитии продукта и добавлении новых фич.
https://news.1rj.ru/str/ba_wiki/244
Системный аналитик на основе требований составленных бизнес-аналитиком рисует техническую реализацию системы. Описывает архитектуру, технические требования, модель данных.
Продуктовый аналитик определяет цель разработки продукта, показатели достижения цели, методы отслеживания, типы и архитектуру отчётов. Участвует в развитии продукта и добавлении новых фич.
https://news.1rj.ru/str/ba_wiki/244
Telegram
BApedia | Бизнес-анализ
Какова роль аналитика и его задачи при разработке мобильных приложений?
Источник
Источник
👍3
Интересное исследование подкинул Юра https://news.1rj.ru/str/People_Analytics.
Табло вышло на первый уровень, а статистика, которой я так много уделяю внимания вообще вылетела. Ну, хоть питон с SQL на месте.
https://news.1rj.ru/str/People_Analytics/250
Табло вышло на первый уровень, а статистика, которой я так много уделяю внимания вообще вылетела. Ну, хоть питон с SQL на месте.
https://news.1rj.ru/str/People_Analytics/250
Telegram
People Analytics
People analytics is a data-driven approach to managing people at work || Канал про HR-аналитику: оценка персонала, психометрика, использование R для анализа и визуализации HR-данных. Связь с автором канала:
Юрий (@psych2016) Рекламу НЕ размещаю.
Юрий (@psych2016) Рекламу НЕ размещаю.
👍1
Запомните раз и навсегда в каком порядке выполняются запросы в SQL. Говорят на собеседованиях спрашивают)
FROM
WHERE
GROUP BY
HAVING
SELECT
ORDER BY
FROM
WHERE
GROUP BY
HAVING
SELECT
ORDER BY
👍10
Попробуйте объяснить своими словами, что такое база данных и зачем она нужна?
Отвечу прям никуда не заглядывая)
База данных - совокупность данных, например, в виде таблиц, о работе сервиса, продукта, приложения. Данные связаны между собой с помощью схемы, которая позволяет их удобно хранить и использовать. Может включать в себя данные о произошедших событиях, ценах на товары, услуги и т. д. Нужна для работы продукта, анализа и модернизации самого продукта. Для работы : информация о созданных аккаунтах, ценах на товары, карточки товаров и т. д.
Для анализа и модернизации: информация о произошедших событиях и их характеристиках.
#вопросы_с_собеседований
Отвечу прям никуда не заглядывая)
База данных - совокупность данных, например, в виде таблиц, о работе сервиса, продукта, приложения. Данные связаны между собой с помощью схемы, которая позволяет их удобно хранить и использовать. Может включать в себя данные о произошедших событиях, ценах на товары, услуги и т. д. Нужна для работы продукта, анализа и модернизации самого продукта. Для работы : информация о созданных аккаунтах, ценах на товары, карточки товаров и т. д.
Для анализа и модернизации: информация о произошедших событиях и их характеристиках.
#вопросы_с_собеседований
Мне срочно надо запомнить команды для управления таблицей с данными в PostgreeSQL:
- CREATE TABLE - создать таблицу
- INSERT INTO VALUES- добавление строк в таблицу
- UPDATE SET - обновление данных в таблице
- CREATE TABLE - создать таблицу
- INSERT INTO VALUES- добавление строк в таблицу
- UPDATE SET - обновление данных в таблице
В PosgreeSQL для обновления строк по условию после SET ставим WHERE.
UPDATE таблицы, участвующие в обновлении
SET выражение, по которому обновляем значение
WHERE условие, при котором происходит обновление
UPDATE таблицы, участвующие в обновлении
SET выражение, по которому обновляем значение
WHERE условие, при котором происходит обновление
В базе данных PostgreeSQL для связи таблиц по принципу "многие ко многим" - например, клиент может прочитать несколько книг, одна книга может быть прочитана несколькими клиентами, используется таблица связка, которая объединяет клиентов и книги.
Получается для реализации связи "многие ко многим" используется не две, а три таблицы. Две основные и одна связующая с двумя внешними ключами.
#postgreesql
Получается для реализации связи "многие ко многим" используется не две, а три таблицы. Две основные и одна связующая с двумя внешними ключами.
#postgreesql
Forwarded from Время Валеры
Мой близкий друг Саша Сахнов - человек который на мой взгляд лучше всех разбирается в а/б тестах
Еще в далеком 2018 году мы с ним и рядом других людей начали писать на Хабр про А/Б.
Сейчас он запустил цикл статей про А/Б, где каждая статья будет сложнее предыдущей - первая довольно базовая статья про Бутстрап (Обратите внимание на центральный доверительный интервал)
Также интересен небольшой разбор стратификации для повышения чувствительности тестов
Еще можно посмотреть это видео
Еще в далеком 2018 году мы с ним и рядом других людей начали писать на Хабр про А/Б.
Сейчас он запустил цикл статей про А/Б, где каждая статья будет сложнее предыдущей - первая довольно базовая статья про Бутстрап (Обратите внимание на центральный доверительный интервал)
Также интересен небольшой разбор стратификации для повышения чувствительности тестов
Еще можно посмотреть это видео
Хабр
Бутстреп и А/Б тестирование
Привет, Хабр! В этой статье разберёмся, как с помощью бутстрепа оценивать стандартное отклонение, строить доверительные интервалы и проверять гипотезы. Узнаем, когда бутстреп незаменим, и в чём его...
🔥1
Какой запрос вы попросите написать, чтобы понять, с какой СУБД вы имеете дело?
Я бы попросила обработать столбец с датами. Но возможно я не права. Ориентируюсь только на то, что в postgree и my sql по разному вытаскиваются части даты.
Я бы попросила обработать столбец с датами. Но возможно я не права. Ориентируюсь только на то, что в postgree и my sql по разному вытаскиваются части даты.
🤔2
Forwarded from SQLpedia | Базы данных
Telegraph
Разбор тестового задания в Тиньков [SQL]
Введение Недавно нам прилетело большое тестовое задание от Тиньков-Банка на должность аналитика данных. Там очень много задач, но сегодня мы разберем несколько — остановимся на мелочах и обратим внимание на тонкие моменты.
👍2
A/B - тест
Для использования параметрического теста необходимо, чтобы выборки не имели выбросов, имели более 30 измерений и распределение значений соответствовало нормальному.
Вопрос: будет ли распределение автоматически нормальным, если количество значений в выборке, например, 1000?
Для использования параметрического теста необходимо, чтобы выборки не имели выбросов, имели более 30 измерений и распределение значений соответствовало нормальному.
Вопрос: будет ли распределение автоматически нормальным, если количество значений в выборке, например, 1000?
A/B- тест
Для двух несвязанных выборок есть два основных метода поиска различий:
- параметрический - критерий t-стьюдента
-непараметрический - критерий Манна Уитни.
Уже от свойств выборок выбираем, какой критерий будем считать.
Для двух несвязанных выборок есть два основных метода поиска различий:
- параметрический - критерий t-стьюдента
-непараметрический - критерий Манна Уитни.
Уже от свойств выборок выбираем, какой критерий будем считать.
Необходимо предсказать выручку отдельной точки сети магазинов по нескольким известным параметрам. Что будем использовать?
Anonymous Quiz
75%
Линейную регрессию
25%
Логистическую регрессию