#нейронные_сети А что вы знаете про математические идеи, лежащие в основе нейронных сетей?
#данные Консалтинговые компании по аналитике как грибы после дождя, что не день, то новая компания, все предлагают примерно одно и тоже: вы нам заплатите, а мы ваши данные покрутим. Поэтому важно иметь в штате аналитика, растить аналитиков из своих специалистов, вкладывать ресурсы в развитие функции аналитики, иначе придется платить деньги консалтинговым фирмам, которые за ваши деньги "покрутят ваши данные" и "расскажут то, что вы хотите услышать" тоже за ваши деньги. Так и живем
#визуализация #8е_марта #чего_хотят_женщины Сделал визуализацию одного опроса. Наглядно видно, что мужчины дарят, а чего хотят женщины. С праздником, дорогие и прекрасные дамы!
👍1
#данные В сентябре 2018 я писал про DataSearch от Google (см. http://forum.ht-line.ru/threads/poiskovyj-servis-datasearch-dlja-poiska-dannyx.2633/)
Google завершил бета-тестирование сервиса (см. https://datasetsearch.research.google.com/), а новый релиз получил улучшенный функционал. Теперь результаты можно фильтровать по типам наборов данных (таблицы, тексты, изображения) и доступности (платные и бесплатные). Также появилась мобильная версия сервиса.
Поисковик работает на нескольких языках, в том числе и на русском.
Яндекс, слабо повторить?
Google завершил бета-тестирование сервиса (см. https://datasetsearch.research.google.com/), а новый релиз получил улучшенный функционал. Теперь результаты можно фильтровать по типам наборов данных (таблицы, тексты, изображения) и доступности (платные и бесплатные). Также появилась мобильная версия сервиса.
Поисковик работает на нескольких языках, в том числе и на русском.
Яндекс, слабо повторить?
#hr_аналитик_рекомендует Существует стойкий миф о том, что прогнозировать человеческое поведение невозможно. Увы, но это не так, об этом книжка, которую я всегда рекомендовал, когда выступал с презентациями по HR аналитике. Вы удивитесь, насколько активно многие компании применяют прогнозный анализ. Это происходит постоянно -- ваше поведение пытаются предсказать, когда вы просматриваете товары, принимаете решение о покупке, когда делаете клик мышкой, вводите запрос в поисковике, оплачиваете услуги, делаете заказ, слушаете музыку онлайн, посещаете различные заведения и т.д. Это работает! Читайте книгу Эрика Сигеля "Просчитать будущее"
#визуализация_данных В HR аналитике визуализация стоит тысячи моделей.
Есть очень простой, но важный шаг в работе с HR-данными: визуализация. Как правило, эйчары пропускают данный шаг … Что там визуализировать – быстрее надо считать…
Представим, что у нас есть 4 набора данных, по 11 пар чисел x и y. Среднее и ст. отклонение для x и y каждого набора чисел идентичны, как и корреляция x и y для каждого набора:
А теперь смотрим глазами (см. график)
Скажем спасибо английскому математику Ф. Дж. Энскомбу, который составил эти 4 набора данных в качестве иллюстрации важности применения графиков для статистического анализа и влияния выбросов значений на свойства всего набора данных. В следующий раз, когда будете работать с HR аналитиком, попросите его обязательно сначала сделать визуализацию данных, либо «прикидывайте на глазок» самостоятельно.
Есть очень простой, но важный шаг в работе с HR-данными: визуализация. Как правило, эйчары пропускают данный шаг … Что там визуализировать – быстрее надо считать…
Представим, что у нас есть 4 набора данных, по 11 пар чисел x и y. Среднее и ст. отклонение для x и y каждого набора чисел идентичны, как и корреляция x и y для каждого набора:
> apply(anscombe, 2, mean)Модель линейной регрессии, построенная методом МНК для всех 4 наборов данных описывается уравнением
x1 x2 x3 x4 y1 y2 y3 y4
9.000000 9.000000 9.000000 9.000000 7.500909 7.500909 7.500000 7.500909
> apply(anscombe, 2, sd)
x1 x2 x3 x4 y1 y2 y3 y4
3.316625 3.316625 3.316625 3.316625 2.031568 2.031657 2.030424 2.030579
> cor(anscombe$x1, anscombe$y1)
[1] 0.8164205
> cor(anscombe$x2, anscombe$y2)
[1] 0.8162365
> cor(anscombe$x3, anscombe$y3)
[1] 0.8162867
> cor(anscombe$x4, anscombe$y4)
[1] 0.8165214
y=3.00+0.500x
А теперь смотрим глазами (см. график)
Скажем спасибо английскому математику Ф. Дж. Энскомбу, который составил эти 4 набора данных в качестве иллюстрации важности применения графиков для статистического анализа и влияния выбросов значений на свойства всего набора данных. В следующий раз, когда будете работать с HR аналитиком, попросите его обязательно сначала сделать визуализацию данных, либо «прикидывайте на глазок» самостоятельно.
#hr_аналитика_как_она_есть #корреляция #величина_эффекта Не так давно увидел в обучающих материалах одного эксперта по HR аналитике фразу о том, что если коэффициент корреляции больше 0.5, то он статистически значим :) Да, это все, что надо знать про уровень тех, кто обучает других HR аналитике.
Но интересно другое: A total of 474 effect sizes from meta-analyses from social psychology during one hundred years extracted from the study by Richard et al. (2003) https://github.com/peterdalle/effectsizes
Но интересно другое: A total of 474 effect sizes from meta-analyses from social psychology during one hundred years extracted from the study by Richard et al. (2003) https://github.com/peterdalle/effectsizes
#визуализация Визуализация стоит тысячи слов и таблиц. Я люблю визуализировать данные, не только связанные с HR. Например, заболеваемость корью в США (1926-2001). Заболеваемость циклично колебалась, оставаясь в целом на одном и том же уровне в течение первой половины XX века, но появление эффективной вакцины в 1963 году привело к резкому снижению заболеваемости за счет повышения уровня популяционного иммунитета.
PS: Исходная картинка с качеством 300DPI https://www.dropbox.com/s/snszd0s3j05km5q/measles_incidence_heatmap_300DPI.png?dl=0
PS: Исходная картинка с качеством 300DPI https://www.dropbox.com/s/snszd0s3j05km5q/measles_incidence_heatmap_300DPI.png?dl=0
#аналитикаVSинтуиция У современных организаций есть два сценария развития: 1) либо внедрять data-driven HR и усиливать свои конкурентные преимущества на рынке 2) либо делать отчётность для собственников в стиле "всё хорошо, прекрасная маркиза" и уйти с рынка. Пока, к сожалению, больше распространен второй сценарий, если данные противоречат интуиции, тем хуже для данных -- мы их игнорируем, выдавая желаемое за действительное. Выбирайте, что для вас важнее: жизнь или имитация жизни? HR аналитика позволяет понять, что работает, а что нет, чтобы перестать это далее использовать в управлении. Она не имеет значения, если в организации все ориентируются на HiPPO.
Сравнение идеального и реального профилей руководителей. Пробуем посчитать коэффициент МакКрэя на реальных данных. Идеальный профиль руководителя — “усредненный” результат по личностному опроснику B5plus, полученный на выборке успешных руководителей. Рассматриваем реальный профиль одного успешного руководителя, который добился существенных изменений в эффективности подразделения за очень короткий срок после своего назначения, а также сравниваем его с идеальным профилем (группой успешных руководителей) и профилем неуспешного руководителя, у которого ниже уровень эффективности и существуют проблемы в подразделении. Вывод: можно сказать, что успешного руководителя отличают только два фактора, по которому он ближе к “идеальному руководителю”, — более высокая Стабильность (Б4) и более высокое Новаторство (Б5). По Согласию (Б2) у всех трех профилей все-таки отклонение в одну сторону — вниз, хотя у и идеального, и успешного это отклонение меньше, чем у неуспешного (надо быть жестким руководителем, но умеренно, а чрезмерная “независимость” вместе с тревожностью и консерватизмом будут негативно сказываться на эффективности в управленческой деятельности).
Следует также отметить, что получился идеальный профиль руководителя в конкретной организации (подразделении). В другой организации (подразделении) профиль может получиться совершенно другой. Также мы не учитываем здесь мотивационные особенности руководителей и их способности.
Следует также отметить, что получился идеальный профиль руководителя в конкретной организации (подразделении). В другой организации (подразделении) профиль может получиться совершенно другой. Также мы не учитываем здесь мотивационные особенности руководителей и их способности.
#до_аналитики Кандидаты в свободной форме указывают уровень з/п (столбец wage_source). Нам надо как-то вытащить з/п в рублях, привести к 2 форматам (числовой с макс и мин + текстовый вида ХХ тыс. рублей). В R это делается 17 строчками кода с учетом создания новых переменных и т.п.
Польша. Matura -- аналог ЕГЭ :)
Ещё пример, когда #визуализация говорит больше, чем 1000 слов. Обратите внимание, как у распределения "откусили" в районе нижней границы точки отсечения. Подтягиваем отстающих.
Источник: https://oke.wroc.pl/wp-content/uploads/library/File/pdfy/2013_Matura.pdf
Ещё пример, когда #визуализация говорит больше, чем 1000 слов. Обратите внимание, как у распределения "откусили" в районе нижней границы точки отсечения. Подтягиваем отстающих.
Источник: https://oke.wroc.pl/wp-content/uploads/library/File/pdfy/2013_Matura.pdf
#цитаты #IO_psychology "The success of your organization doesn’t depend on your understanding of economics, or organizational development, or marketing. It depends, quite simply, on your understanding of human psychology: how each individual employee connects with your company and how each individual employee connects with your customers".
-- Curt Coffman and Gabriela Gonzalez-Molina, authors of Follow This Path: How the World’s Greatest Organizations Drive Growth by Unleashing Human Potential
-- Curt Coffman and Gabriela Gonzalez-Molina, authors of Follow This Path: How the World’s Greatest Organizations Drive Growth by Unleashing Human Potential
#книжная_полка_аналитика Книжка больше для тех, кто взаимодействует с аналитиками. В ней нет кода, но есть простое объяснение важных тем. Начинающим аналитикам книжка "Работа с данными в любой сфере" тоже будет полезна.
#визуализация #тесты #КИТТ Смотрим на распределение частот тестовых баллов по тесту СНИП ("Считаем новогодние игрушки и подарки") http://forum.ht-line.ru/threads/novogodnij-mini-test-i-pozdravlenie.2877/#post-26200
Код на R для воспроизводимости:
Код на R для воспроизводимости:
library(tidyverse)
# raw data
raw_score <- c(0:10)
res <- c(1,2,7,14,13,22,13,17,7,3,1)
res_rep <- c(2,0,2,3,7,8,14,22,22,19,3)
raw_data <- tibble(raw_score, res, res_rep)
raw_data <- gather(raw_data, "rep_group", "n", -raw_score)
raw_data$rep_group <- factor(raw_data$rep_group, levels = c("res", "res_rep"),
labels = c("Первая попытка",
"Повторные попытки"))
raw_data$raw_score <- factor(raw_data$raw_score)
ggplot(raw_data, aes(raw_score, n)) +
geom_bar(aes(fill = rep_group), stat = "identity", position = "dodge") +
scale_fill_manual("", values = c("blue", "orange")) +
labs(noscript = "Распределение сырого балла по тесту СНИП в зависимости от попыток",
x = "Сырой балл", y = "Частота")
#размышлизмы #пятничное Мне нравится придумывать различные типологии.
Например, все люди делятся на два типа: тех, кого зовут Юрой и тех, у кого другое имя. Выделение двух типов людей позволяет мне прогнозировать их наиболее вероятное поведение, если истинна посылка о том, что все Юры обладают схожими психологическими чертами. Аналогично всех людей можно поделить на тех, кто обладает способностями к занятию научной деятельностью и оцениванию результатов других в этой сфере, и тех, кто оказывается беспомощным перед любыми научными изысканиями, какой бы части мироздания они не касались, не говоря уже о способности понимать научные достижения разных исторических эпох. Не следует удивляться, что одни черпают вдохновение и обретают силу в знании ("Знание есть сила, сила есть знание" – Р. Бэкон), как результата способности придумывать гипотезы для тестирования реальности, а другие – находят утешение и комфорт в незнании, довольствуясь простой картиной мира, даже при условии безоговорочной и очевидной победы суровой реальности над ней ("Верую, ибо абсурдно" – Тертуллиан)
Например, все люди делятся на два типа: тех, кого зовут Юрой и тех, у кого другое имя. Выделение двух типов людей позволяет мне прогнозировать их наиболее вероятное поведение, если истинна посылка о том, что все Юры обладают схожими психологическими чертами. Аналогично всех людей можно поделить на тех, кто обладает способностями к занятию научной деятельностью и оцениванию результатов других в этой сфере, и тех, кто оказывается беспомощным перед любыми научными изысканиями, какой бы части мироздания они не касались, не говоря уже о способности понимать научные достижения разных исторических эпох. Не следует удивляться, что одни черпают вдохновение и обретают силу в знании ("Знание есть сила, сила есть знание" – Р. Бэкон), как результата способности придумывать гипотезы для тестирования реальности, а другие – находят утешение и комфорт в незнании, довольствуясь простой картиной мира, даже при условии безоговорочной и очевидной победы суровой реальности над ней ("Верую, ибо абсурдно" – Тертуллиан)