Польша. Matura -- аналог ЕГЭ :)
Ещё пример, когда #визуализация говорит больше, чем 1000 слов. Обратите внимание, как у распределения "откусили" в районе нижней границы точки отсечения. Подтягиваем отстающих.
Источник: https://oke.wroc.pl/wp-content/uploads/library/File/pdfy/2013_Matura.pdf
Ещё пример, когда #визуализация говорит больше, чем 1000 слов. Обратите внимание, как у распределения "откусили" в районе нижней границы точки отсечения. Подтягиваем отстающих.
Источник: https://oke.wroc.pl/wp-content/uploads/library/File/pdfy/2013_Matura.pdf
#цитаты #IO_psychology "The success of your organization doesn’t depend on your understanding of economics, or organizational development, or marketing. It depends, quite simply, on your understanding of human psychology: how each individual employee connects with your company and how each individual employee connects with your customers".
-- Curt Coffman and Gabriela Gonzalez-Molina, authors of Follow This Path: How the World’s Greatest Organizations Drive Growth by Unleashing Human Potential
-- Curt Coffman and Gabriela Gonzalez-Molina, authors of Follow This Path: How the World’s Greatest Organizations Drive Growth by Unleashing Human Potential
#книжная_полка_аналитика Книжка больше для тех, кто взаимодействует с аналитиками. В ней нет кода, но есть простое объяснение важных тем. Начинающим аналитикам книжка "Работа с данными в любой сфере" тоже будет полезна.
#визуализация #тесты #КИТТ Смотрим на распределение частот тестовых баллов по тесту СНИП ("Считаем новогодние игрушки и подарки") http://forum.ht-line.ru/threads/novogodnij-mini-test-i-pozdravlenie.2877/#post-26200
Код на R для воспроизводимости:
Код на R для воспроизводимости:
library(tidyverse)
# raw data
raw_score <- c(0:10)
res <- c(1,2,7,14,13,22,13,17,7,3,1)
res_rep <- c(2,0,2,3,7,8,14,22,22,19,3)
raw_data <- tibble(raw_score, res, res_rep)
raw_data <- gather(raw_data, "rep_group", "n", -raw_score)
raw_data$rep_group <- factor(raw_data$rep_group, levels = c("res", "res_rep"),
labels = c("Первая попытка",
"Повторные попытки"))
raw_data$raw_score <- factor(raw_data$raw_score)
ggplot(raw_data, aes(raw_score, n)) +
geom_bar(aes(fill = rep_group), stat = "identity", position = "dodge") +
scale_fill_manual("", values = c("blue", "orange")) +
labs(noscript = "Распределение сырого балла по тесту СНИП в зависимости от попыток",
x = "Сырой балл", y = "Частота")
#размышлизмы #пятничное Мне нравится придумывать различные типологии.
Например, все люди делятся на два типа: тех, кого зовут Юрой и тех, у кого другое имя. Выделение двух типов людей позволяет мне прогнозировать их наиболее вероятное поведение, если истинна посылка о том, что все Юры обладают схожими психологическими чертами. Аналогично всех людей можно поделить на тех, кто обладает способностями к занятию научной деятельностью и оцениванию результатов других в этой сфере, и тех, кто оказывается беспомощным перед любыми научными изысканиями, какой бы части мироздания они не касались, не говоря уже о способности понимать научные достижения разных исторических эпох. Не следует удивляться, что одни черпают вдохновение и обретают силу в знании ("Знание есть сила, сила есть знание" – Р. Бэкон), как результата способности придумывать гипотезы для тестирования реальности, а другие – находят утешение и комфорт в незнании, довольствуясь простой картиной мира, даже при условии безоговорочной и очевидной победы суровой реальности над ней ("Верую, ибо абсурдно" – Тертуллиан)
Например, все люди делятся на два типа: тех, кого зовут Юрой и тех, у кого другое имя. Выделение двух типов людей позволяет мне прогнозировать их наиболее вероятное поведение, если истинна посылка о том, что все Юры обладают схожими психологическими чертами. Аналогично всех людей можно поделить на тех, кто обладает способностями к занятию научной деятельностью и оцениванию результатов других в этой сфере, и тех, кто оказывается беспомощным перед любыми научными изысканиями, какой бы части мироздания они не касались, не говоря уже о способности понимать научные достижения разных исторических эпох. Не следует удивляться, что одни черпают вдохновение и обретают силу в знании ("Знание есть сила, сила есть знание" – Р. Бэкон), как результата способности придумывать гипотезы для тестирования реальности, а другие – находят утешение и комфорт в незнании, довольствуясь простой картиной мира, даже при условии безоговорочной и очевидной победы суровой реальности над ней ("Верую, ибо абсурдно" – Тертуллиан)
#размышлизмы "Человекометрика", как мне кажется, хорошая замена для англицизмов "people analytics" или "HR analytics". Как практическое воплощение концепции человекознания по Б.Г. Ананьеву в условиях биг-даты, или такой вот инновационный вариант практической дифференциальной психологии в рамках "evidence-based approach".
#HR_аналитика Алдар написал отличную статью "Why in your employees’ motivation the most interesting is not their motivation? Data driven approach (with python code and tutorial)", из которой вы поймете, что анализировать количественные данные -- это мыслить в процессе анализа, это теоретизирование (Data analysis is thinking, data analysis is theorizing). Отличный кейс, чтобы понимать суть работы HR аналитика.
Medium
Why in your employees’ motivation the most interesting is not their motivation?
This is a case study of employees attrition analysis. I’ve attached all the code so you could reuse it for your own purposes. The dataset…
Вычисление числа π методом Монте-Карло
#пи #число_пи #монте_карло #симуляции #R Сегодня День числа π – неофициальный праздник, который отмечается любителями математики 14 марта в 1:59:26 в честь математической константы – числа π. Этот праздник придумал в 1987 году физик из Сан-Франциско Ларри Шоу, который заметил, что в американской системе записи дат (месяц / число) дата 14 марта (3/14) и время 1:59:26 совпадает с первыми разрядами числа π = 3,1415926…(см. https://ru.wikipedia.org/wiki/%D0%94%D0%B5%D0%BD%D1%8C_%D1%87%D0%B8%D1%81%D0%BB%D0%B0_%D0%BF%D0%B8)
Существует много способов вычисления числа Пи. Самым простым и понятным является численный метод Монте-Карло, суть которого сводится к простейшему перебору точек на площади. Представьте единичный круг, вписанный в единичный квадрат. Будем также считать, что вписанный в квадрат круг является мишенью для игры в дартс. Если мы неоднократно бросаем дротики в доску и они случайно приземляются в границах квадрата, некоторые приземляются на квадрат, а некоторые попадают на мишень.
Круг с радиусом 1 имеет площадь π, квадрат со сторонами длины 2 имеет площадь 4. Следовательно, отношение площади круга к площади квадрата равно π/4. Если наши броски действительно случайны, то число дротиков, попадающих на мишень для дротиков, деленное на общее количество бросков, будет в соотношении π/4. Если мы умножим это число на 4, мы получим нашу оценку числа π.
#пи #число_пи #монте_карло #симуляции #R Сегодня День числа π – неофициальный праздник, который отмечается любителями математики 14 марта в 1:59:26 в честь математической константы – числа π. Этот праздник придумал в 1987 году физик из Сан-Франциско Ларри Шоу, который заметил, что в американской системе записи дат (месяц / число) дата 14 марта (3/14) и время 1:59:26 совпадает с первыми разрядами числа π = 3,1415926…(см. https://ru.wikipedia.org/wiki/%D0%94%D0%B5%D0%BD%D1%8C_%D1%87%D0%B8%D1%81%D0%BB%D0%B0_%D0%BF%D0%B8)
Существует много способов вычисления числа Пи. Самым простым и понятным является численный метод Монте-Карло, суть которого сводится к простейшему перебору точек на площади. Представьте единичный круг, вписанный в единичный квадрат. Будем также считать, что вписанный в квадрат круг является мишенью для игры в дартс. Если мы неоднократно бросаем дротики в доску и они случайно приземляются в границах квадрата, некоторые приземляются на квадрат, а некоторые попадают на мишень.
Круг с радиусом 1 имеет площадь π, квадрат со сторонами длины 2 имеет площадь 4. Следовательно, отношение площади круга к площади квадрата равно π/4. Если наши броски действительно случайны, то число дротиков, попадающих на мишень для дротиков, деленное на общее количество бросков, будет в соотношении π/4. Если мы умножим это число на 4, мы получим нашу оценку числа π.
> # для воспроизводимости
> set.seed(123)
> # Количество бросков дротика
> N <- 100000000
> # Координаты дротика
> x <- runif(N, 0, 1)
> y <- runif(N, 0, 1)
> # используем теорему Пифагора
> z <- sqrt(x * x + y * y)
> # считаем дротики, попавшие в круг
> darts_inside_circle <- length(which(z < 1))
> darts_inside_circle
[1] 78541120
> # Число пи
> darts_inside_circle/N*4
[1] 3.141645#кому_нужна_математика Один из моих любимых сериалов -- "4исла" (Numb3rs), который я смотрел в 2008-2011. Если не смотрели, то рекомендую! Сериал о расследовании преступлений с помощью математики. Начало каждой серии сопровождается словами: "Каждый день мы используем числа, чтобы прогнозировать погоду, определять время, считать деньги… С помощью математики мы можем анализировать преступления, выявлять закономерности, предсказывать поведение… Используя числа, мы можем решить величайшие загадки". Очень важная особенность Numb3rs -- это опора на настоящую (http://numb3rs.wolfram.com/), а не бутафорскую математику и науку. Американский Национальный совет преподавателей математики (NCTM) заключил специальное партнерское соглашение с корпорацией Texas Instruments, в рамках которого создана программа "Мы все используем математику каждый день", использующая "4исла" для привлечения старшеклассников к углубленному изучению математических дисциплин. Numbers and math are everywhere, every day.
#R #shiny #Корреляция и размер выборки: волнение в океане личностных факторов (см. дискуссию на форуме ЭСПП http://forum.ht-line.ru/threads/volnenie-v-okeane-lichnostnyx-faktorov.1562/).
4 года назад сделал анимацию в виде shiny-приложения, которая демонстрирует влияние выборочных флуктуаций на корреляционную структуру пунктов личностного опросника (набор данных bfi из пакета psych). Из генеральной совокупности в 2800 человек случайным образом извлекаются выборки испытуемых (слайдер - 'Случайных выборок') по N человек в каждой (слайдер - 'Размер выборки'). На выборке вычислялись корреляции между 10 вопросами - на Экстраверсию (E1-E5) и Нейротизм (N1-N5). Сила связи отражается насыщенностью цвета, направление - цветом (отрицательные связи обозначаются оттенками синего).
http://hr-datalab.ru/corplot/
4 года назад сделал анимацию в виде shiny-приложения, которая демонстрирует влияние выборочных флуктуаций на корреляционную структуру пунктов личностного опросника (набор данных bfi из пакета psych). Из генеральной совокупности в 2800 человек случайным образом извлекаются выборки испытуемых (слайдер - 'Случайных выборок') по N человек в каждой (слайдер - 'Размер выборки'). На выборке вычислялись корреляции между 10 вопросами - на Экстраверсию (E1-E5) и Нейротизм (N1-N5). Сила связи отражается насыщенностью цвета, направление - цветом (отрицательные связи обозначаются оттенками синего).
http://hr-datalab.ru/corplot/
#психометрика #монте_карло #R #shiny #тесты Сделал еще одну маленькую интерактивную визуализацию http://hr-datalab.ru/test_scale/ к одной из дискуссий на форуме ЭСПП. Применяем метод Монте-Карло, то есть метод моделирования (в данном случае распределения тестовых баллов и изучаем влияние артефакта случайного угадывания в зависимости от длины теста (см. Подробнее http://forum.ht-line.ru/threads/dlina-testovoj-shkaly-granicy-ocenok-i-metod-monte-karlo.2246/#post-19582)
#психометрика #тесты #IQ #распределения #визуализация На фб-странице компании BSSL встретился очень хороший популярный текст "Что такое IQ?", в котором доступно рассказывается про IQ баллы. Я решил сделать интерактивную визуализацию к данной статье: https://psych.shinyapps.io/distiqscores/
#предиктивная_аналитика Эрик Сигель прекрасен! В этом видео простыми словами объясняет, почему компьютеры предсказывают смерть человека
https://youtu.be/_4q7FrPWqF8
Видео на английском, но никто не мешает включить субтитры и перевод субтитров.
Если не читали его "Predictive Analytics: The Power to Predict Who Will Click, Buy, Lie, Or Die", то бегом за изданием на русском (см. пост выше про книгу) -- "Просчитать будущее. Кто кликнет, купит, соврет или умрет"
https://youtu.be/_4q7FrPWqF8
Видео на английском, но никто не мешает включить субтитры и перевод субтитров.
Если не читали его "Predictive Analytics: The Power to Predict Who Will Click, Buy, Lie, Or Die", то бегом за изданием на русском (см. пост выше про книгу) -- "Просчитать будущее. Кто кликнет, купит, соврет или умрет"
YouTube
Five Reasons Computers Predict When You'll Die – The Dr. Data Show
Want to learn more about machine learning from Dr. Data? His three-course series, "Machine Learning Leadership and Practice – End-to-End Mastery", covers everything he covered in The Dr. Data Show, plus a whole lot more. TO ACCESS: http://www.MachineLearning.courses…
#юмор #пятничное
Кагэбэшное: "Ни одни данные не скроются. Будем их пытать, пока не признаются"
Гоп-аналитика: "Статистически значимые различия есть? Нет? А если найду?"
Кагэбэшное: "Ни одни данные не скроются. Будем их пытать, пока не признаются"
Гоп-аналитика: "Статистически значимые различия есть? Нет? А если найду?"
#юмор #аналитики_тоже_шутят Баловства ради в течение недели фиксировал, сколько я съел конфет "Метелица-сказочница" и свое самочувствие. Помним, что корреляция -- не причина. Шутки шутками, а мораль: не считайте корреляцию между ежемесячной текучестью персонала и прибылью организации, как это рекомендуют некоторые аналитики.
PS: я очень люблю конфеты
PS: я очень люблю конфеты
#оценка_персонала #hippo #тесты #стандарт_тестирования #размышлизмы Пока все пытаются осмыслить хайп по поводу hr analytics, я хотел бы обратить внимание на другой аспект проблемы "реальной" работы данными и аналитики для решения эйчарских задач: в моем опыте оценщика часто встречались ситуации, например, когда оцениваемый сотрудник получил низкие результаты по тестам, что явно не соответствовало ожиданиям его руководителя. Естественная реакция: "Ну, Вы же понимаете, надо перетестировать ...". Уверен, большинство эйчаров-оценщиков, особо не задумываясь, соглашаются с руководителем и назначают перетест. ("Клиент всегда прав!"). Только это порочная практика, которая полностью дискредитирует саму процедуру тестирования и независимой оценки. Именно по этой причине во многих организациях тяжело идёт (или никогда не будет) hr аналитики. Данные противоречат интуиции и опыту HiPPO -- тем хуже для данных! Какая там аналитическая культура!? С HiPPO невозможно спорить!
Как влияет повторное тестирование на результат, я показывал выше на примере теста СНИП (https://news.1rj.ru/str/c/1192333141/37), где мы сравнивали распределения тестового балла (первая попытка и повторные попытки).
Рекомендую также прочитать небольшую статью в блоге Юрия Шатрова (ЭКОПСИ) о том, что такое повторное тестирование и каковы могут быть последствия, в каких случаях оно может быть допустимо. (https://assessment.livejournal.com/5914.html)
Как влияет повторное тестирование на результат, я показывал выше на примере теста СНИП (https://news.1rj.ru/str/c/1192333141/37), где мы сравнивали распределения тестового балла (первая попытка и повторные попытки).
Рекомендую также прочитать небольшую статью в блоге Юрия Шатрова (ЭКОПСИ) о том, что такое повторное тестирование и каковы могут быть последствия, в каких случаях оно может быть допустимо. (https://assessment.livejournal.com/5914.html)
Livejournal
Всех не перетестировать: В каких ситуациях можно назначать повторную оценку?
В 90-х годах исследователи пришли к удивительному открытию. С каждым прохождением теста MMPI человек диагностировался с меньшим количеством психических заболеваний (Kelley, Jacobs Farr, 1994). В этот момент практики задались вопросом: как перетест влияет…
#ТЕЗАЛ #HRу_на_заметку Чем полезна HR-менеджеру система ТЕЗАЛ, или о женском творчестве в представлениях о "супер-менеджере" ;)
О чем нам говорит объявление?
1) При конверсии в БигФайв получился следующий профиль:
Активность (Экстраверсия) = 20
Миролюбие (Согласие) = 1
Сознательность = 5
Стабильность = 10
Новаторство = 21
2) Результат дефакторизации (обратной конверсии профиля в словник):
Конструктивный, Подвижник, Обольстительный (?), Дельный,
Созидатель, Неотразимый (?), Вольнодумец (?), Приметливый (?),
Стратег, Жизнелюбивый,Умелый.
Видим, по списку дефакторизации, что профиль отражает ...гм...
женское творчество в представления о "супер-менеджере". Он получился весьма похожим на... супер-любовника (!?)
34 Результат конверсии буферного списка в профиль 16PF:
А = 15 (общительность)
В = 54 (интеллект)
С = 36 (эмоциональная стабильность)
Е= 23 (доминантность)
F = 1
G = 21 (моралистичность)
H = 31 (социальная смелость)
I = -20 (мужественность)
L = 6 (незначительная подозрительность)
M = -17 (практичность)
N = 10 (воспитанность)
O = 4
Q1= 25 (новаторство)
Q2 = 14 (самодостаточность)
Q3 = 31 (организованность)
Q4 = 20 (стремление к свершениям)
4) Результат обратной конверсии от профиля 16PF к прилагательным (результат дефактризации):
Умелец, Коммерсант, Продуктивный., Оперативный, Деловитый,
Смекалистый, Дееспособный, Жизнеспособный, Передовой,
Преуспевающий, Созидательный, Прогрессивный, Приметливый (?), Целеустремленный, Деловой.
Как видим по содержанию дефакторизации, более детальный профиль16PF лучше отразил сфокусированность на деловых чертах, а не на коммуникативно-личностных.
Спасибо Александру Георгиевичу Шмелеву за текст и анализ в системе ТЕЗАЛ.
См. подробный пример работы с ТЕЗАЛ: конверсии слов в объявлении-вакансии в факторные профили B5 и 16PF http://forum.ht-line.ru/posts/25161/
О системе ТЕЗАЛ и заявка на приобретение: http://tezal.tilda.ws/sponsor
О чем нам говорит объявление?
1) При конверсии в БигФайв получился следующий профиль:
Активность (Экстраверсия) = 20
Миролюбие (Согласие) = 1
Сознательность = 5
Стабильность = 10
Новаторство = 21
2) Результат дефакторизации (обратной конверсии профиля в словник):
Конструктивный, Подвижник, Обольстительный (?), Дельный,
Созидатель, Неотразимый (?), Вольнодумец (?), Приметливый (?),
Стратег, Жизнелюбивый,Умелый.
Видим, по списку дефакторизации, что профиль отражает ...гм...
женское творчество в представления о "супер-менеджере". Он получился весьма похожим на... супер-любовника (!?)
34 Результат конверсии буферного списка в профиль 16PF:
А = 15 (общительность)
В = 54 (интеллект)
С = 36 (эмоциональная стабильность)
Е= 23 (доминантность)
F = 1
G = 21 (моралистичность)
H = 31 (социальная смелость)
I = -20 (мужественность)
L = 6 (незначительная подозрительность)
M = -17 (практичность)
N = 10 (воспитанность)
O = 4
Q1= 25 (новаторство)
Q2 = 14 (самодостаточность)
Q3 = 31 (организованность)
Q4 = 20 (стремление к свершениям)
4) Результат обратной конверсии от профиля 16PF к прилагательным (результат дефактризации):
Умелец, Коммерсант, Продуктивный., Оперативный, Деловитый,
Смекалистый, Дееспособный, Жизнеспособный, Передовой,
Преуспевающий, Созидательный, Прогрессивный, Приметливый (?), Целеустремленный, Деловой.
Как видим по содержанию дефакторизации, более детальный профиль16PF лучше отразил сфокусированность на деловых чертах, а не на коммуникативно-личностных.
Спасибо Александру Георгиевичу Шмелеву за текст и анализ в системе ТЕЗАЛ.
См. подробный пример работы с ТЕЗАЛ: конверсии слов в объявлении-вакансии в факторные профили B5 и 16PF http://forum.ht-line.ru/posts/25161/
О системе ТЕЗАЛ и заявка на приобретение: http://tezal.tilda.ws/sponsor
#хи_квадрат_спасет_hr_аналитику #хи_квадрат #номограмма Один известный HR аналитик постоянно сетует, что хи-квадрат эйчары освоить не могут ( "вы хоть Хи квадрат сделайте, лишь бы это работало и приносило пользу"). Проще надо быть -- учить как пользоваться номограммой (см. В Википедии: https://ru.m.wikipedia.org/wiki/%D0%9D%D0%BE%D0%BC%D0%BE%D0%B3%D1%80%D0%B0%D0%BC%D0%BC%D0%B0) для вычисления критерия хи-квадрат, и люди (эйчары) потянутся.
Номограмму на рисунке можно использовать для приближенного вычисления некоторых величин, которые нужны для вычисления хорошо известного критерия согласия Пирсона. Эта номограмма показывает применение кривых шкал с нелинейной градуировкой.
Соответствующее выражение
(observed - expected)^2/expected
Шкала сверху соответствует пяти различным интервалам наблюдаемых значений — A, B, C, D и E. Наблюдаемое значение ищется среди этих значений и выбирается метка над ним. Затем на соответствующих кривых шкалах выбирается ожидаемое значение. Например, для наблюдаемого значения 9 выбирается метка на числом 9 в интервале A, а кривая шкала A используется для ожидаемого значения. Для наблюдаемого значения 81 будет использована метка над 81 в интервале E и кривая шкала E будет использована для ожидаемого значения. Это позволяет несколько номограмм вместить в одну диаграмму.
На рисунке синяя линия показывает вычисление
(9 − 5)^2 / 5 = 3.2
а красная — вычисление
(81 − 70)^2 / 70 = 1.7
Для проведения теста часто используется поправка Йейтса, просто вычитается 0.5 из наблюдаемых значений. Номограмма для критерия с поправкой Йетса может быть построена просто сдвигом каждой шкалы "наблюдений" на половинку единицы влево, так что вместо 1.0, 2.0, 3.0, ... появятся значения 0.5, 1.5, 2.5, ....
Номограмму на рисунке можно использовать для приближенного вычисления некоторых величин, которые нужны для вычисления хорошо известного критерия согласия Пирсона. Эта номограмма показывает применение кривых шкал с нелинейной градуировкой.
Соответствующее выражение
(observed - expected)^2/expected
Шкала сверху соответствует пяти различным интервалам наблюдаемых значений — A, B, C, D и E. Наблюдаемое значение ищется среди этих значений и выбирается метка над ним. Затем на соответствующих кривых шкалах выбирается ожидаемое значение. Например, для наблюдаемого значения 9 выбирается метка на числом 9 в интервале A, а кривая шкала A используется для ожидаемого значения. Для наблюдаемого значения 81 будет использована метка над 81 в интервале E и кривая шкала E будет использована для ожидаемого значения. Это позволяет несколько номограмм вместить в одну диаграмму.
На рисунке синяя линия показывает вычисление
(9 − 5)^2 / 5 = 3.2
а красная — вычисление
(81 − 70)^2 / 70 = 1.7
Для проведения теста часто используется поправка Йейтса, просто вычитается 0.5 из наблюдаемых значений. Номограмма для критерия с поправкой Йетса может быть построена просто сдвигом каждой шкалы "наблюдений" на половинку единицы влево, так что вместо 1.0, 2.0, 3.0, ... появятся значения 0.5, 1.5, 2.5, ....