Аня - аналитик данных👩‍🌾 – Telegram
Аня - аналитик данных👩‍🌾
101 subscribers
3 photos
1 file
12 links
Записки начинающего аналитика данных
@Mrs_logunova Аня

Делаю заметки для себя. Пишу просто.
Здесь не будет сложных специализированных терминов. И мутных исследований.

Нет и не будет простыней текста, 100500 ссылок. Коротко, один пост - одна мысль.
Download Telegram
как определить, какая выборка нужна для проведения статистического теста?

Её размер зависит в основном от заданных мощности критерия (обычно 80%) и критического уровня стат. значимости (обычно 5%). В спец. стат программах или он-лайн калькуляторах может рассчитать размер выборки на основе вышеуказанных значений.
Какая связь между ошибкой второго рода и мощностью критерия?
Anonymous Quiz
5%
Мощность = Ошибка*100
77%
Мощность = 1 - Ошибка
18%
Ошибка = Мощность -1
0%
Мощность = Ошибка -1
👍1
Бизнес-аналитик описывает систему и верхнеуровневые требования к ней , в том числе в формате пользовательских историй.

Системный аналитик на основе требований составленных бизнес-аналитиком рисует техническую реализацию системы. Описывает архитектуру, технические требования, модель данных.

Продуктовый аналитик определяет цель разработки продукта, показатели достижения цели, методы отслеживания, типы и архитектуру отчётов. Участвует в развитии продукта и добавлении новых фич.

https://news.1rj.ru/str/ba_wiki/244
👍3
Forwarded from S
Может кому-то легче будет запомнить 😃
👍3🔥2
Запомните раз и навсегда в каком порядке выполняются запросы в SQL. Говорят на собеседованиях спрашивают)

FROM
WHERE
GROUP BY
HAVING
SELECT
ORDER BY
👍10
Попробуйте объяснить своими словами, что такое база данных и зачем она нужна?

Отвечу прям никуда не заглядывая)

База данных - совокупность данных, например, в виде таблиц, о работе сервиса, продукта, приложения. Данные связаны между собой с помощью схемы, которая позволяет их удобно хранить и использовать. Может включать в себя данные о произошедших событиях, ценах на товары, услуги и т. д. Нужна для работы продукта, анализа и модернизации самого продукта. Для работы : информация о созданных аккаунтах, ценах на товары, карточки товаров и т. д.
Для анализа и модернизации: информация о произошедших событиях и их характеристиках.

#вопросы_с_собеседований
Мне срочно надо запомнить команды для управления таблицей с данными в PostgreeSQL:

- CREATE TABLE - создать таблицу
- INSERT INTO VALUES- добавление строк в таблицу
- UPDATE SET - обновление данных в таблице
В PosgreeSQL для обновления строк по условию после SET ставим WHERE.

UPDATE таблицы, участвующие в обновлении
SET выражение, по которому обновляем значение
WHERE условие, при котором происходит обновление
В базе данных PostgreeSQL для связи таблиц по принципу "многие ко многим" - например, клиент может прочитать несколько книг, одна книга может быть прочитана несколькими клиентами, используется таблица связка, которая объединяет клиентов и книги.

Получается для реализации связи "многие ко многим" используется не две, а три таблицы. Две основные и одна связующая с двумя внешними ключами.

#postgreesql
Forwarded from Время Валеры
Мой близкий друг Саша Сахнов - человек который на мой взгляд лучше всех разбирается в а/б тестах

Еще в далеком 2018 году мы с ним и рядом других людей начали писать на Хабр про А/Б.
Сейчас он запустил цикл статей про А/Б, где каждая статья будет сложнее предыдущей - первая довольно базовая статья про Бутстрап (Обратите внимание на центральный доверительный интервал)

Также интересен небольшой разбор стратификации для повышения чувствительности тестов
Еще можно посмотреть это видео
🔥1
Какой запрос вы попросите написать, чтобы понять, с какой СУБД вы имеете дело?

Я бы попросила обработать столбец с датами. Но возможно я не права. Ориентируюсь только на то, что в postgree и my sql по разному вытаскиваются части даты.
🤔2
A/B - тест
Для использования параметрического теста необходимо, чтобы выборки не имели выбросов, имели более 30 измерений и распределение значений соответствовало нормальному.

Вопрос: будет ли распределение автоматически нормальным, если количество значений в выборке, например, 1000?
A/B- тест
Для двух несвязанных выборок есть два основных метода поиска различий:

- параметрический - критерий t-стьюдента
-непараметрический - критерий Манна Уитни.

Уже от свойств выборок выбираем, какой критерий будем считать.
Необходимо предсказать выручку отдельной точки сети магазинов по нескольким известным параметрам. Что будем использовать?
Anonymous Quiz
75%
Линейную регрессию
25%
Логистическую регрессию