Collective Intelligence – Telegram
Collective Intelligence
742 subscribers
39 photos
1 video
32 files
438 links
Collective intelligence (CI) is shared or group intelligence that emerges from the collaboration, collective efforts, and competition of many individuals and appears in consensus decision making.
Download Telegram
Seekers, Providers, Welcomers, and Storytellers: Modeling Social Roles in Online Health Communities

Это исследование я рекомендую прочитать тем, кто занимается продуктами с групповыми/социальными фичами: Q&A-сервисы, ПО для коллективной работы, мультиплеерные игры, "социальный" e-commerce и т.д.

Группа ученых из Carnegie Mellon и Stanford решила изучить феномен "успеха" крупнейшего форума по теме рака в мире -- Cancer Survivor Network (CSN). Сайт существует с начала 2000-х и стал самым крупным в своем сегменте. Было много аналогичных площадок, но все рано или поздно затухали, а CSN развивается и по сей день.

У социологов возникла гипотеза -- на форуме сложилась определенная структура социальных ролей, которая обеспечивала "баланс" в сообществе и позволила ему развиваться. Осталось ее проверить на данных, которые были предоставлены American Cancer Society (а это вся переписка на сайте с 2003 по 2018 гг).

Но для начала надо формально определить, чем является "социальная роль" на данных. Для этого они обратились к теории. Социальная роль в науке определяется 4 факторами:
1. Цель -- у индивида в сообществе есть цель, которую он преследует исходя из собственных интересов.
2. Взаимодействия -- роль контактирует с другими участниками сообщества. На форуме эти взаимодействия проявляются по-разному: старт новой темы обсуждений, написание ответа, лайк комментария или обращение в директ.
3. Ожидания -- социальные роли при взаимодействии рассчитывают на определенную обратную связь. Например, на работе начальник и подчиненный знают чего ждать друг от друга и соответственно подбирают стиль общения. В онлайн-сообществах обычно нет явно формализованных ролей и только "старожилы" знают как и с кем общаться. Например, из-за этого новички на StackOverflow часто стесняют вступать в разговоры и задавать вопросы.
4. Контекст -- некоторые роли могут существовать только при определенных условиях. Например, "поставщик информации" существует во многих типах сообществах, включая Q&A сервисы, рабочие группы и форумы. А вот "коммитер" -- это специфичная роль для сообщества разработчиков (GitHub, Bitbucket). Приватность также играет большое значение. Поведение человека на публике обычно отличается от его поведения наедине или с родными.

Кратко про технические моменты:
1. При помощи кластеризации решили определить какие вообще есть роли, т.к. "доменные эксперты" (модераторы и другие сотрудники CSN) сами до конца не могли однозначно ответить на этот вопрос. Разметки не было.
2. В реальной жизни человек принадлежит к нескольким ролям одновременно. Например, на работе я одновременно "аналитик" и "спамер в slack". Чтобы учесть это, была использована Gaussian Mixture Model (GMM), которая позволяет отнести объект к нескольким группам с определенной вероятностью.
3. Для "генерации фич" были использованы подходы из сетевого анализа (SNA) и обработки текста (NLP). Всего было сделано 83 признака.
4. Количество кластеров -- это гиперпараметр модели, которые исследователи сами могли задавать. Они пробовали находить от 2 до 20 кластеров. После "игры" с данными, количество от 10 до 15 показалось им "адекватным".

Чтобы окончательно определиться с количеством ролей, были подключены доменные эксперты. После долгих дискуссий, пришли к оптимальному количеству кластеров -- 11.
Тем не менее, модераторы отметили, что модель не нашла один тип роли. Она редко встречается на форуме, но сильно запоминается.
Видимо, слишком мало подобных наблюдений было в датасете или ученые не нашли "нужные" фичи.
После этой огромной работы, они начали проверять свои гипотезы и находить другие инсайты. Кратко:
1. Основная гипотеза про "баланс" ролей в сообщество подтвердилась.
2. Нашли свое доказательство "на данных" несколько теорий из социологии, что также сработало как доп.фактор валидации модели.
3. Нашли "путь успешного пользователя" форума, который становится костяком сообщества. Как следствие, смогли лучше понять retention/churn.

So What?
1. Исследователи разработали рабочий подход к нахождению "социальных ролей". Они заявляют, что эта методология универсальна и может быть использована в других предметных областях. На работе я уже частично использовал методы из этого ресерча (привет, Алися!) и получил интересные результаты.
2. Найдя роли в своих продуктах, можно будет 1) определить хорошие Health-метрики, 2) более четко формулировать и проверять продуктовые гипотезы, 3) системно развивать социальную составляющую продукта.
[Detecting Network Effects: Randomizing Over Randomized Experiments](http://www.youtube.com/watch?v=1v5_CzdRVAc)

Martin Saveski (MIT), Jean Pouget-Abadie (Harvard), Guillaume Saint-Jacques (MIT), Weitao Duan, Souvik Ghosh, Ya Xu (LinkedIn), Edo Airoldi (Harvard)

Randomized experiments, or A/B tests, are the standard approach for evaluating the causal effects of new product features, i.e., treatments. The validity of these tests rests on the “stable unit treatment value assumption” (SUTVA), which implies that the treatment only affects the behavior of treated users, and does not affect the behavior of others. Violations of SUTVA, common in features that exhibit network effects, result in inaccurate estimates of the causal effect of treatment. In this paper, we leverage a new experimental design for testing whether SUTVA holds, without making any assumptions on how treatment effects may spill over between the treatment and the control group. To achieve this, we simultaneously run both a completely randomized and a cluster-based randomized experiment, and then we compare the difference of the resulting estimates. We present a statistical test for measuring the significance of this difference and other theoretical bounds on the Type I error rate. We provide practical guidelines for implementing our methodology on large-scale experimentation platforms. Importantly, the proposed methodology can be applied to settings in which a network is not necessarily observed but, if available, can be used in the analysis. Finally, we deploy this design to LinkedIn’s experimentation platform and apply it to two online experiments, highlighting the presence of network effects and bias in standard A/B testing approaches in a real-world setting.
Визуализация больших графов для самых маленьких – Святослав Ковалев
https://www.youtube.com/watch?v=SjO_UyRgvlE

Визуализация и анализ комментариев на ютубе – Антон Костин
https://www.youtube.com/watch?v=wn9N82ut1ZAъ

Граф знаний для поиска: построение и использование – Дмитрий Ильвохин
https://www.youtube.com/watch?v=fgyw_j6qPSI

Ростислав Яворский, Высшая Школа Экономики, «Как использовать анализ сетевых данных для управленческих решений». Выступление Ростислава состоит из двух частей: «Визуализация реальной структуры организации» и «Анализ и визуализация профессиональных сообществ».
https://www.slideshare.net/MailRuGroup/ss-59828544

Анализ социальных сетей в телекоме — Александр Семёнов
https://www.youtube.com/watch?v=wuii1EOOhaY

Анализ данных в социальных сетях — Дмитрий Бугайченко
https://www.youtube.com/watch?v=FMoFg9pikWE
https://www.slideshare.net/MailRuGroup/ss-59828596
Community Identity and User Engagement in a Multi-Community Landscape
https://cs.stanford.edu/people/jure/pubs/identity-icwsm17.pdf
Число Данбара — ограничение на количество постоянных социальных связей, которые человек может поддерживать.

Поддержание таких связей предполагает знание отличительных черт индивида, его характера, а также социального положения, что требует значительных интеллектуальных способностей. Лежит в диапазоне от 100 до 230, чаще всего считается равным 150.

https://en.wikipedia.org/wiki/Dunbar%27s_number
Концепция силы слабых связей — это концепция американского социолога Марка Грановеттера, согласно которой в межличностной коммуникации слабые связи имеют большее значение, чем сильные. Отражена в статье Грановеттера «Сила слабых связей», наиболее известной его работе.

https://en.wikipedia.org/wiki/Interpersonal_ties
On the Structural Properties of Massive Telecom Call
Graphs: Findings and Implications
https://ebiquity.umbc.edu/_file_directory_/papers/452.pdf

Social Ties and their Relevance to Churn in Mobile
Telecom Networks
https://openproceedings.org/2008/conf/edbt/DasguptaSVCMNJ08.pdf

Calling patterns in human communication dynamics
https://arxiv.org/abs/1301.7173
The Matthew effect, Matthew principle, or Matthew effect of accumulated advantage can be observed in many aspects of life and fields of activity. It is sometimes summarized by the adage "the rich get richer and the poor get poorer".

https://en.wikipedia.org/wiki/Matthew_effect