#hr_аналитик_рекомендует Существует стойкий миф о том, что прогнозировать человеческое поведение невозможно. Увы, но это не так, об этом книжка, которую я всегда рекомендовал, когда выступал с презентациями по HR аналитике. Вы удивитесь, насколько активно многие компании применяют прогнозный анализ. Это происходит постоянно -- ваше поведение пытаются предсказать, когда вы просматриваете товары, принимаете решение о покупке, когда делаете клик мышкой, вводите запрос в поисковике, оплачиваете услуги, делаете заказ, слушаете музыку онлайн, посещаете различные заведения и т.д. Это работает! Читайте книгу Эрика Сигеля "Просчитать будущее"
#визуализация_данных В HR аналитике визуализация стоит тысячи моделей.
Есть очень простой, но важный шаг в работе с HR-данными: визуализация. Как правило, эйчары пропускают данный шаг … Что там визуализировать – быстрее надо считать…
Представим, что у нас есть 4 набора данных, по 11 пар чисел x и y. Среднее и ст. отклонение для x и y каждого набора чисел идентичны, как и корреляция x и y для каждого набора:
А теперь смотрим глазами (см. график)
Скажем спасибо английскому математику Ф. Дж. Энскомбу, который составил эти 4 набора данных в качестве иллюстрации важности применения графиков для статистического анализа и влияния выбросов значений на свойства всего набора данных. В следующий раз, когда будете работать с HR аналитиком, попросите его обязательно сначала сделать визуализацию данных, либо «прикидывайте на глазок» самостоятельно.
Есть очень простой, но важный шаг в работе с HR-данными: визуализация. Как правило, эйчары пропускают данный шаг … Что там визуализировать – быстрее надо считать…
Представим, что у нас есть 4 набора данных, по 11 пар чисел x и y. Среднее и ст. отклонение для x и y каждого набора чисел идентичны, как и корреляция x и y для каждого набора:
> apply(anscombe, 2, mean)Модель линейной регрессии, построенная методом МНК для всех 4 наборов данных описывается уравнением
x1 x2 x3 x4 y1 y2 y3 y4
9.000000 9.000000 9.000000 9.000000 7.500909 7.500909 7.500000 7.500909
> apply(anscombe, 2, sd)
x1 x2 x3 x4 y1 y2 y3 y4
3.316625 3.316625 3.316625 3.316625 2.031568 2.031657 2.030424 2.030579
> cor(anscombe$x1, anscombe$y1)
[1] 0.8164205
> cor(anscombe$x2, anscombe$y2)
[1] 0.8162365
> cor(anscombe$x3, anscombe$y3)
[1] 0.8162867
> cor(anscombe$x4, anscombe$y4)
[1] 0.8165214
y=3.00+0.500x
А теперь смотрим глазами (см. график)
Скажем спасибо английскому математику Ф. Дж. Энскомбу, который составил эти 4 набора данных в качестве иллюстрации важности применения графиков для статистического анализа и влияния выбросов значений на свойства всего набора данных. В следующий раз, когда будете работать с HR аналитиком, попросите его обязательно сначала сделать визуализацию данных, либо «прикидывайте на глазок» самостоятельно.
#hr_аналитика_как_она_есть #корреляция #величина_эффекта Не так давно увидел в обучающих материалах одного эксперта по HR аналитике фразу о том, что если коэффициент корреляции больше 0.5, то он статистически значим :) Да, это все, что надо знать про уровень тех, кто обучает других HR аналитике.
Но интересно другое: A total of 474 effect sizes from meta-analyses from social psychology during one hundred years extracted from the study by Richard et al. (2003) https://github.com/peterdalle/effectsizes
Но интересно другое: A total of 474 effect sizes from meta-analyses from social psychology during one hundred years extracted from the study by Richard et al. (2003) https://github.com/peterdalle/effectsizes
#визуализация Визуализация стоит тысячи слов и таблиц. Я люблю визуализировать данные, не только связанные с HR. Например, заболеваемость корью в США (1926-2001). Заболеваемость циклично колебалась, оставаясь в целом на одном и том же уровне в течение первой половины XX века, но появление эффективной вакцины в 1963 году привело к резкому снижению заболеваемости за счет повышения уровня популяционного иммунитета.
PS: Исходная картинка с качеством 300DPI https://www.dropbox.com/s/snszd0s3j05km5q/measles_incidence_heatmap_300DPI.png?dl=0
PS: Исходная картинка с качеством 300DPI https://www.dropbox.com/s/snszd0s3j05km5q/measles_incidence_heatmap_300DPI.png?dl=0
#аналитикаVSинтуиция У современных организаций есть два сценария развития: 1) либо внедрять data-driven HR и усиливать свои конкурентные преимущества на рынке 2) либо делать отчётность для собственников в стиле "всё хорошо, прекрасная маркиза" и уйти с рынка. Пока, к сожалению, больше распространен второй сценарий, если данные противоречат интуиции, тем хуже для данных -- мы их игнорируем, выдавая желаемое за действительное. Выбирайте, что для вас важнее: жизнь или имитация жизни? HR аналитика позволяет понять, что работает, а что нет, чтобы перестать это далее использовать в управлении. Она не имеет значения, если в организации все ориентируются на HiPPO.
Сравнение идеального и реального профилей руководителей. Пробуем посчитать коэффициент МакКрэя на реальных данных. Идеальный профиль руководителя — “усредненный” результат по личностному опроснику B5plus, полученный на выборке успешных руководителей. Рассматриваем реальный профиль одного успешного руководителя, который добился существенных изменений в эффективности подразделения за очень короткий срок после своего назначения, а также сравниваем его с идеальным профилем (группой успешных руководителей) и профилем неуспешного руководителя, у которого ниже уровень эффективности и существуют проблемы в подразделении. Вывод: можно сказать, что успешного руководителя отличают только два фактора, по которому он ближе к “идеальному руководителю”, — более высокая Стабильность (Б4) и более высокое Новаторство (Б5). По Согласию (Б2) у всех трех профилей все-таки отклонение в одну сторону — вниз, хотя у и идеального, и успешного это отклонение меньше, чем у неуспешного (надо быть жестким руководителем, но умеренно, а чрезмерная “независимость” вместе с тревожностью и консерватизмом будут негативно сказываться на эффективности в управленческой деятельности).
Следует также отметить, что получился идеальный профиль руководителя в конкретной организации (подразделении). В другой организации (подразделении) профиль может получиться совершенно другой. Также мы не учитываем здесь мотивационные особенности руководителей и их способности.
Следует также отметить, что получился идеальный профиль руководителя в конкретной организации (подразделении). В другой организации (подразделении) профиль может получиться совершенно другой. Также мы не учитываем здесь мотивационные особенности руководителей и их способности.
#до_аналитики Кандидаты в свободной форме указывают уровень з/п (столбец wage_source). Нам надо как-то вытащить з/п в рублях, привести к 2 форматам (числовой с макс и мин + текстовый вида ХХ тыс. рублей). В R это делается 17 строчками кода с учетом создания новых переменных и т.п.
Польша. Matura -- аналог ЕГЭ :)
Ещё пример, когда #визуализация говорит больше, чем 1000 слов. Обратите внимание, как у распределения "откусили" в районе нижней границы точки отсечения. Подтягиваем отстающих.
Источник: https://oke.wroc.pl/wp-content/uploads/library/File/pdfy/2013_Matura.pdf
Ещё пример, когда #визуализация говорит больше, чем 1000 слов. Обратите внимание, как у распределения "откусили" в районе нижней границы точки отсечения. Подтягиваем отстающих.
Источник: https://oke.wroc.pl/wp-content/uploads/library/File/pdfy/2013_Matura.pdf
#цитаты #IO_psychology "The success of your organization doesn’t depend on your understanding of economics, or organizational development, or marketing. It depends, quite simply, on your understanding of human psychology: how each individual employee connects with your company and how each individual employee connects with your customers".
-- Curt Coffman and Gabriela Gonzalez-Molina, authors of Follow This Path: How the World’s Greatest Organizations Drive Growth by Unleashing Human Potential
-- Curt Coffman and Gabriela Gonzalez-Molina, authors of Follow This Path: How the World’s Greatest Organizations Drive Growth by Unleashing Human Potential
#книжная_полка_аналитика Книжка больше для тех, кто взаимодействует с аналитиками. В ней нет кода, но есть простое объяснение важных тем. Начинающим аналитикам книжка "Работа с данными в любой сфере" тоже будет полезна.
#визуализация #тесты #КИТТ Смотрим на распределение частот тестовых баллов по тесту СНИП ("Считаем новогодние игрушки и подарки") http://forum.ht-line.ru/threads/novogodnij-mini-test-i-pozdravlenie.2877/#post-26200
Код на R для воспроизводимости:
Код на R для воспроизводимости:
library(tidyverse)
# raw data
raw_score <- c(0:10)
res <- c(1,2,7,14,13,22,13,17,7,3,1)
res_rep <- c(2,0,2,3,7,8,14,22,22,19,3)
raw_data <- tibble(raw_score, res, res_rep)
raw_data <- gather(raw_data, "rep_group", "n", -raw_score)
raw_data$rep_group <- factor(raw_data$rep_group, levels = c("res", "res_rep"),
labels = c("Первая попытка",
"Повторные попытки"))
raw_data$raw_score <- factor(raw_data$raw_score)
ggplot(raw_data, aes(raw_score, n)) +
geom_bar(aes(fill = rep_group), stat = "identity", position = "dodge") +
scale_fill_manual("", values = c("blue", "orange")) +
labs(noscript = "Распределение сырого балла по тесту СНИП в зависимости от попыток",
x = "Сырой балл", y = "Частота")
#размышлизмы #пятничное Мне нравится придумывать различные типологии.
Например, все люди делятся на два типа: тех, кого зовут Юрой и тех, у кого другое имя. Выделение двух типов людей позволяет мне прогнозировать их наиболее вероятное поведение, если истинна посылка о том, что все Юры обладают схожими психологическими чертами. Аналогично всех людей можно поделить на тех, кто обладает способностями к занятию научной деятельностью и оцениванию результатов других в этой сфере, и тех, кто оказывается беспомощным перед любыми научными изысканиями, какой бы части мироздания они не касались, не говоря уже о способности понимать научные достижения разных исторических эпох. Не следует удивляться, что одни черпают вдохновение и обретают силу в знании ("Знание есть сила, сила есть знание" – Р. Бэкон), как результата способности придумывать гипотезы для тестирования реальности, а другие – находят утешение и комфорт в незнании, довольствуясь простой картиной мира, даже при условии безоговорочной и очевидной победы суровой реальности над ней ("Верую, ибо абсурдно" – Тертуллиан)
Например, все люди делятся на два типа: тех, кого зовут Юрой и тех, у кого другое имя. Выделение двух типов людей позволяет мне прогнозировать их наиболее вероятное поведение, если истинна посылка о том, что все Юры обладают схожими психологическими чертами. Аналогично всех людей можно поделить на тех, кто обладает способностями к занятию научной деятельностью и оцениванию результатов других в этой сфере, и тех, кто оказывается беспомощным перед любыми научными изысканиями, какой бы части мироздания они не касались, не говоря уже о способности понимать научные достижения разных исторических эпох. Не следует удивляться, что одни черпают вдохновение и обретают силу в знании ("Знание есть сила, сила есть знание" – Р. Бэкон), как результата способности придумывать гипотезы для тестирования реальности, а другие – находят утешение и комфорт в незнании, довольствуясь простой картиной мира, даже при условии безоговорочной и очевидной победы суровой реальности над ней ("Верую, ибо абсурдно" – Тертуллиан)
#размышлизмы "Человекометрика", как мне кажется, хорошая замена для англицизмов "people analytics" или "HR analytics". Как практическое воплощение концепции человекознания по Б.Г. Ананьеву в условиях биг-даты, или такой вот инновационный вариант практической дифференциальной психологии в рамках "evidence-based approach".
#HR_аналитика Алдар написал отличную статью "Why in your employees’ motivation the most interesting is not their motivation? Data driven approach (with python code and tutorial)", из которой вы поймете, что анализировать количественные данные -- это мыслить в процессе анализа, это теоретизирование (Data analysis is thinking, data analysis is theorizing). Отличный кейс, чтобы понимать суть работы HR аналитика.
Medium
Why in your employees’ motivation the most interesting is not their motivation?
This is a case study of employees attrition analysis. I’ve attached all the code so you could reuse it for your own purposes. The dataset…
Вычисление числа π методом Монте-Карло
#пи #число_пи #монте_карло #симуляции #R Сегодня День числа π – неофициальный праздник, который отмечается любителями математики 14 марта в 1:59:26 в честь математической константы – числа π. Этот праздник придумал в 1987 году физик из Сан-Франциско Ларри Шоу, который заметил, что в американской системе записи дат (месяц / число) дата 14 марта (3/14) и время 1:59:26 совпадает с первыми разрядами числа π = 3,1415926…(см. https://ru.wikipedia.org/wiki/%D0%94%D0%B5%D0%BD%D1%8C_%D1%87%D0%B8%D1%81%D0%BB%D0%B0_%D0%BF%D0%B8)
Существует много способов вычисления числа Пи. Самым простым и понятным является численный метод Монте-Карло, суть которого сводится к простейшему перебору точек на площади. Представьте единичный круг, вписанный в единичный квадрат. Будем также считать, что вписанный в квадрат круг является мишенью для игры в дартс. Если мы неоднократно бросаем дротики в доску и они случайно приземляются в границах квадрата, некоторые приземляются на квадрат, а некоторые попадают на мишень.
Круг с радиусом 1 имеет площадь π, квадрат со сторонами длины 2 имеет площадь 4. Следовательно, отношение площади круга к площади квадрата равно π/4. Если наши броски действительно случайны, то число дротиков, попадающих на мишень для дротиков, деленное на общее количество бросков, будет в соотношении π/4. Если мы умножим это число на 4, мы получим нашу оценку числа π.
#пи #число_пи #монте_карло #симуляции #R Сегодня День числа π – неофициальный праздник, который отмечается любителями математики 14 марта в 1:59:26 в честь математической константы – числа π. Этот праздник придумал в 1987 году физик из Сан-Франциско Ларри Шоу, который заметил, что в американской системе записи дат (месяц / число) дата 14 марта (3/14) и время 1:59:26 совпадает с первыми разрядами числа π = 3,1415926…(см. https://ru.wikipedia.org/wiki/%D0%94%D0%B5%D0%BD%D1%8C_%D1%87%D0%B8%D1%81%D0%BB%D0%B0_%D0%BF%D0%B8)
Существует много способов вычисления числа Пи. Самым простым и понятным является численный метод Монте-Карло, суть которого сводится к простейшему перебору точек на площади. Представьте единичный круг, вписанный в единичный квадрат. Будем также считать, что вписанный в квадрат круг является мишенью для игры в дартс. Если мы неоднократно бросаем дротики в доску и они случайно приземляются в границах квадрата, некоторые приземляются на квадрат, а некоторые попадают на мишень.
Круг с радиусом 1 имеет площадь π, квадрат со сторонами длины 2 имеет площадь 4. Следовательно, отношение площади круга к площади квадрата равно π/4. Если наши броски действительно случайны, то число дротиков, попадающих на мишень для дротиков, деленное на общее количество бросков, будет в соотношении π/4. Если мы умножим это число на 4, мы получим нашу оценку числа π.
> # для воспроизводимости
> set.seed(123)
> # Количество бросков дротика
> N <- 100000000
> # Координаты дротика
> x <- runif(N, 0, 1)
> y <- runif(N, 0, 1)
> # используем теорему Пифагора
> z <- sqrt(x * x + y * y)
> # считаем дротики, попавшие в круг
> darts_inside_circle <- length(which(z < 1))
> darts_inside_circle
[1] 78541120
> # Число пи
> darts_inside_circle/N*4
[1] 3.141645#кому_нужна_математика Один из моих любимых сериалов -- "4исла" (Numb3rs), который я смотрел в 2008-2011. Если не смотрели, то рекомендую! Сериал о расследовании преступлений с помощью математики. Начало каждой серии сопровождается словами: "Каждый день мы используем числа, чтобы прогнозировать погоду, определять время, считать деньги… С помощью математики мы можем анализировать преступления, выявлять закономерности, предсказывать поведение… Используя числа, мы можем решить величайшие загадки". Очень важная особенность Numb3rs -- это опора на настоящую (http://numb3rs.wolfram.com/), а не бутафорскую математику и науку. Американский Национальный совет преподавателей математики (NCTM) заключил специальное партнерское соглашение с корпорацией Texas Instruments, в рамках которого создана программа "Мы все используем математику каждый день", использующая "4исла" для привлечения старшеклассников к углубленному изучению математических дисциплин. Numbers and math are everywhere, every day.
#R #shiny #Корреляция и размер выборки: волнение в океане личностных факторов (см. дискуссию на форуме ЭСПП http://forum.ht-line.ru/threads/volnenie-v-okeane-lichnostnyx-faktorov.1562/).
4 года назад сделал анимацию в виде shiny-приложения, которая демонстрирует влияние выборочных флуктуаций на корреляционную структуру пунктов личностного опросника (набор данных bfi из пакета psych). Из генеральной совокупности в 2800 человек случайным образом извлекаются выборки испытуемых (слайдер - 'Случайных выборок') по N человек в каждой (слайдер - 'Размер выборки'). На выборке вычислялись корреляции между 10 вопросами - на Экстраверсию (E1-E5) и Нейротизм (N1-N5). Сила связи отражается насыщенностью цвета, направление - цветом (отрицательные связи обозначаются оттенками синего).
http://hr-datalab.ru/corplot/
4 года назад сделал анимацию в виде shiny-приложения, которая демонстрирует влияние выборочных флуктуаций на корреляционную структуру пунктов личностного опросника (набор данных bfi из пакета psych). Из генеральной совокупности в 2800 человек случайным образом извлекаются выборки испытуемых (слайдер - 'Случайных выборок') по N человек в каждой (слайдер - 'Размер выборки'). На выборке вычислялись корреляции между 10 вопросами - на Экстраверсию (E1-E5) и Нейротизм (N1-N5). Сила связи отражается насыщенностью цвета, направление - цветом (отрицательные связи обозначаются оттенками синего).
http://hr-datalab.ru/corplot/