MentalTech Lab – Telegram
MentalTech Lab
422 subscribers
25 photos
1 video
1 file
83 links
Изучаем психотерапию на стыке с технологиями https://mentaltech.ru/
По поводу сотрудничества: @magda_danina
Download Telegram
Друзья! Мы тут подумали (иногда случается такое!) и решили организовать регулярные воркшопы и встречи с экспертами по нашей теме: технологии в психотерапии и ментальном благополучии. Планируем звать гостей, у которых есть разнообразный и классный опыт разработки решений или собственные юзкейсы. Ну и, разумеется, с жадностью их об этом будем расспрашивать.

ПОЭТОМУ! Если у вас есть рекомендации или персоналии, которых хотелось бы видеть на таких встречах - напишите! @magda_danina
🔥109
💬 Когда ИИ-психотерапию можно считать равной человеческой: где проходит настоящая граница

Сегодня всё чаще можно услышать заявления: искусственный интеллект уже способен проводить психотерапию не хуже живого специалиста.
Утверждение звучит впечатляюще, особенно на фоне свежих научных данных: рандомизированные исследования показывают заметное снижение симптомов депрессии после общения с чат-ботами.
Одно из них, опубликованное в NEJM AI в 2025 году, зафиксировало значимый эффект. И многие СМИ, а иногда и сами исследователи, восприняли это как сигнал: «ИИ-терапия достигла уровня человека».
Но если присмотреться внимательнее, становится ясно: совпадение цифр в статистике ещё не означает настоящего равенства. Эффект на уровне симптомов — лишь вершина айсберга.


Подлинная психотерапия — это не просто изменение показателей тревожности или депрессии, а целостный процесс, в котором соединяются теория, отношения, динамика, личностный рост и этика ответственности. И вот по этим-то критериям ИИ-подход пока далёк от человеческого.
🧩 Эффективность — не эквивалентность
Автор статьи, психолог из Цюрихского университета Ник Кабрел, предлагает смотреть на вопрос шире. Да, цифровые вмешательства в области психического здоровья (Digital Mental Health) становятся всё более доказательными. Но у них есть старая и устойчивая проблема — высокий уровень отсева.
Люди охотно начинают использовать приложения и чат-боты, но быстро теряют интерес.
В лабораторных условиях, где всё структурировано и где участников подбирают по мотивации, цифры выглядят красиво. А вот в реальной жизни мотивация падает, и удержать человека в терапии становится гораздо труднее.
Человеческий терапевт обладает тем, чего нет у программы, — живой ответственностью и присутствием. Именно это чувство «кто-то ждёт меня, кому-то не всё равно» часто удерживает клиента в терапии, когда внутри нет сил. ИИ же лишён этого слоя человеческого контакта, и пока нет убедительных данных, что он способен компенсировать эту утрату.
🏥 Почему лабораторный успех не гарантирует успеха в системе
Даже если терапия с чат-ботом работает как отдельное приложение, это ещё не значит, что её можно встроить в настоящую систему здравоохранения. Опыт внедрения цифровых инструментов показывает: то, что хорошо выглядит на этапе пилотов, часто рассыпается при интеграции в клиники и амбулатории.
Пациентские маршруты, нагрузки специалистов, юридические требования — всё это меняет логику применения. Чтобы назвать ИИ-психотерапию «сопоставимой», она должна не только помогать на экране, но и гармонично встраиваться в реальные клинические процессы: в первичную помощь, психиатрические центры, ступенчатые модели лечения.
Ранее многие цифровые решения проваливались именно из-за разрыва между потребностями пациентов и привычками врачей. Поэтому теперь ключевыми становятся исследования осуществимости — способна ли ИИ-система вообще жить в реальном медицинском контексте.
Американская психологическая ассоциация недавно выпустила этические рекомендации по ИИ-инструментам в психологической практике. Там подчёркивается: технологии должны быть ориентированы на пользователя, учитывать культурные различия, давать персонализированную обратную связь и строиться вокруг принципа «человек в контуре». Даже минимальное участие человека — например, короткие консультации или коучинг в дополнение к цифровому модулю — значительно повышает вовлечённость и удержание клиентов.
6 недель — это ещё не терапия
Ещё одна проблема — временной горизонт исследований.
Почти все испытания чат-ботов длятся шесть-восемь недель. Этого хватает, чтобы увидеть снижение симптомов, но слишком мало, чтобы понять, насколько изменения устойчивы.
Классическая психотерапия оценивает результаты через полгода, год и дольше, отслеживая, возвращаются ли симптомы, меняется ли качество жизни, предотвращаются ли рецидивы.
Без таких данных разговор о «равенстве» преждевременен. Чтобы понять реальную терапевтическую силу ИИ-интервенций, нужно изучать долгосрочные эффекты — восстановление функций, длительность ремиссии, способность удерживать изменения.
7👍1🤔1
Пока же таких исследований просто нет.
🧠 Где живёт настоящее изменение
Сердце психотерапии — в отношениях. В том, как клиент и терапевт проходят через непонимание, раздражение, доверие, разочарование и восстановление связи. Именно в этих «микроразрывах» и «ремонтах» рождается личностный рост.
Чат-бот может симулировать эмпатию и доброжелательность, но способен ли он прожить с человеком настоящее напряжение?
Понять обиду, выдержать злость, восстановить доверие?
Эти процессы требуют не просто слов, а подлинной эмоциональной регуляции и живого взаимодействия.
Пока нет данных, что ИИ может их воспроизвести.
Особенно это важно в работе с личностными расстройствами и реляционными травмами, где терапевтический эффект рождается именно из корректирующего межличностного опыта — когда человек впервые сталкивается с новым, безопасным способом быть в отношениях.
🌱 Симптомы — только начало
Психотерапия часто приводит не просто к исчезновению симптомов, а к глубокой внутренней трансформации.
Человек начинает по-другому строить отношения, лучше понимать себя, мир и других.
Как писал Джон Шедлер, психическое здоровье — это способность формировать близкие и устойчивые связи, переживать боль прошлого, находя в ней смысл и рост и быть способным на любовь, основанную на заботе и взаимности.
Сможет ли чат-бот помочь в таком уровне изменений — пока неизвестно. И хотя не каждая человеческая терапия достигает этих высот, по крайней мере, у человека-терапевта есть потенциал их достичь. У алгоритма — ещё нет.
⚖️ Для кого вообще подходит ИИ-терапия
Пока исследования касаются в основном лёгких и умеренных состояний — депрессии, тревожности. Люди с тяжёлыми, коморбидными или рисковыми диагнозами обычно из них исключаются. Между тем именно такие пациенты чаще всего нуждаются в терапии, способной выдерживать кризис и сложные эмоции.
Человеческий терапевт умеет распознавать угрозу, держать границы, подключать другие службы при риске суицида. ИИ-системы этого не умеют. Иногда они даже подкрепляют опасные высказывания, потому что стремятся «угодить» пользователю — синдром чрезмерной вежливости, который в ИИ называют sycophancy.
Выходит, что сегодня чат-боты уместны лишь в узком спектре: психообразование, тренировка навыков, лёгкая поддержка.
А вот работать с травмой, зависимостями, кризисами или личностными паттернами — это всё ещё зона живого специалиста.
Поэтому вопрос эквивалентности всегда должен звучать конкретно: для кого и для каких целей предназначена ИИ-терапия?
Одинаковой она быть не может — ни по задачам, ни по глубине, ни по ответственности.
⚠️ Этические ловушки
Главная разница между человеком и ИИ — в ответственности.
Терапевт проходит годы обучения, супервизии, лицензирования, подчиняется профессиональному кодексу и несёт юридическую ответственность за последствия. Чат-бот — нет.
Он может не заметить кризис, неправильно интерпретировать суицидальное сообщение,
успокоить там, где нужна мобилизация, или просто не знать, куда перенаправить человека. К этому добавляются риски утечки данных, культурной предвзятости, отсутствия информированного согласия. ИИ не может гарантировать безопасность так, как это делает специалист, и пока нет правовой системы, которая бы взяла на себя эти риски.
🔬 Что должно измениться в исследованиях
Даже с точки зрения науки нынешние данные нельзя считать достаточными.
Чтобы говорить о реальной сопоставимости, нужны исследования, где одни участники проходят терапию с человеком, другие — с ИИ, при одинаковых условиях.
Такие испытания должны придерживаться дизайна, доказывающего, что метод не хуже альтернативы, с ослеплением и контролем ожиданий.
Пока же большинство исследований не соблюдают даже базовых требований: в знаменитом РКИ Heinz et al. не было ослепления, а участники знали, что говорят с «умным» ИИ, — что само по себе могло вызвать завышенные ожидания. Контрольный бот, который просто бы вел нейтральный разговор без терапевтических техник, помог бы оценить, сколько эффекта даёт именно терапия, а сколько — эффект новизны.
👍4🤔1
Есть и другая проблема: кто становится участником. Чаще всего это люди из соцсетей и приложений — мотивированные, любопытные, с мягкими симптомами. Но клиенты реальной терапии часто приходят в состоянии кризиса, страха, амбивалентности. Чтобы выводы можно было обобщать, нужно набирать участников из естественных клинических условий, а также учитывать возраст, уровень дохода, культуру и тяжесть состояния.
📊 Где ИИ-терапия пока проигрывает
Кабрел собрал всё это в компактную таблицу — вроде контрольного листа.
Если пробежать глазами, видно: почти во всех пунктах у ИИ пока отметка «нет» или «ограниченные данные».
Вот ключевые позиции:
Вовлечённость и удержание — подтверждено у человека, у ИИ — данные слабые.


Реальная реализуемость — у человека есть, у ИИ — нет.


Гибкость и контекст — человек способен адаптироваться под кризис, обучение или долгую работу, ИИ — нет.


Долгосрочные результаты — доказаны у людей, не показаны у ИИ.


Глубинные изменения и реляционный рост — уникальны для человеческих отношений.


Работа с тяжёлой психопатологией и кризисами — зона человеческой компетенции.


Этические гарантии, ослепление, репрезентативные выборки — пока отсутствуют.


И только одно поле у обоих пустое — прямые исследования сопоставимости. Их попросту ещё не существует.
🧭 Вывод: не спешить называть это психотерапией
Сегодняшние чат-боты действительно могут облегчать симптомы и давать чувство поддержки, особенно тем, кто впервые ищет помощь. Они полезны как мостик, как первый шаг. Но называть их «психотерапией» в полном смысле слова — пока преждевременно.
И, возможно, вопрос не в том, когда ИИ станет равен человеку, а в том, как мы сумеем соединить их сильные стороны: точность и доступность алгоритмов — с теплом, гибкостью и глубиной человеческой терапии. Именно в этой синергии может родиться новая, зрелая психотерапия будущего.
Источник: https://www.frontiersin.org/journals/psychiatry/articles/10.3389/fpsyt.2025.1674104/full
10🤔1
🧠 Как учёные впервые измерили ценности у искусственного интеллекта и людей: подробный разбор метода Generative Psychometrics (GPV)

Исследователи из Пекинского университета разработали инструмент, который измеряет ценности у людей и языковых моделей. Он называется Generative Psychometrics for Values (GPV).

🧩 Идея
Классическая психометрика опирается на самоотчёт: человек сам выбирает, какие утверждения о нём верны. Но этот подход плохо работает:
люди искажают ответы (социальная желательность),
опросники не применимы к ИИ,
и не позволяют анализировать тексты в реальной жизни — блоги, посты, интервью.
GPV предлагает другой путь: вместо прямых ответов анализируется язык, который человек или модель уже производит. И на основании языковых паттернов вычисляются их ценностные ориентации.

⚙️ Как устроен метод GPV
GPV — это трёхступенчатый процесс, совмещающий генеративные LLM, психометрические шкалы и машинное обучение.

1️⃣ Извлечение восприятий (perceptions)
Любой текст рассматривается как последовательность избирательных восприятий —
единиц, выражающих отношение субъекта к миру. Примеры:
«Важно помогать людям» → восприятие “помощь = ценность”
«Не люблю, когда нарушают правила» → восприятие “порядок = хорошо, нарушение = плохо”
Эти микровысказывания выделяются промптом, который обучен на корпусе из 2500 аннотированных фрагментов.
2️⃣ Классификация восприятий по ценностям Шварца
Далее используется модель ValueLlama (адаптированная Llama-3-8B). Она дообучена для определения, к какой из 10 ценностей относится каждое восприятие: универсализм, доброжелательность, самоопределение, стимуляция, гедонизм, достижения, власть, безопасность, традиция, конформизм.
Кодировка выполняется в два этапа:
основная классификация: какая ценность выражена;
оценка полярности: поддерживается или отвергается ли она (например, «власть — это плохо»).
3️⃣ Агрегация в профиль
Для каждого автора (или модели) строится ценностный вектор из 10 координат, где каждая координата отражает среднее выражение ценности по всем восприятиям. Профиль нормируется и визуализируется в круговой структуре (как в модели Шварца).

🧪 Проверка надёжности и валидности
Авторы тестировали GPV на 9 826 блогах англоязычных пользователей,
у которых ранее были известны результаты классических опросников ценностей (SVS).
Результаты:
внутренняя согласованность (α) = 0.87
межкорпусная стабильность (r = 0.84)
корреляция с SVS = 0.82
факторная структура совпала с моделью Шварца
Для сравнения: существующие text-based методы вроде LIWC дают r ≈ 0.4–0.5. То есть GPV в два раза точнее, чем любые прежние инструменты анализа ценностей по тексту.

🤖 Эксперимент с языковыми моделями
Дальше исследователи сделали шаг, который до этого никто не делал: они применили GPV к пяти крупным LLM — GPT-3.5, GPT-4 Turbo, Claude 3 Opus, Gemini 1.5 Pro и Llama-3-70B.
Задание для моделей
Каждой предложили написать эссе на 48 социальных тем — от политики и морали до повседневных дилемм:
«Нужно ли всегда говорить правду?»
«Что важнее: личный успех или общественное благо?»
«Как относиться к нарушителям правил, если у них были благие намерения?»
Ответы собирались в стандартном формате (≈300 слов, нейтральный стиль). Всего — 240 текстов, по 48 тем × 5 моделей.
Обработка
Тексты прогонялись через GPV, создавая ценностные профили каждой модели. Так удалось измерить, какие “психологические” ориентации проявляются в их речевом поведении.
📊 Что оказалось внутри моделей
Модель
Основные ценности
Ценности, выраженные слабо
GPT-4 Turbo
Универсализм, доброжелательность, самоопределение, власть, стимуляция
Claude 3 Opus
Просоциальность, гуманизм, гедонизм
Gemini 1.5 Pro
Безопасность, конформизм, достижение
Llama-3-70B
Стимуляция, гедонизм, творчество, традиция
GPT-3.5 Turbo
Достижение, власть, доброжелательность

Самая близкая к человеческой структура ценностей — у Claude 3 (r = 0.83 к усреднённому человеческому профилю). Самая “иерархическая” и инструментальная — у GPT-3.5, где превалируют власть и достижения.
3👍1
🧩 GPV vs альтернативные методы измерения ценностей у LLM
Ранее существовали две попытки оценивать “ценности” ИИ:
Simulated Value Survey (SVS-AI): модель отвечает на опросник Шварца. Проблема — она может просто имитировать «идеальные» ответы.
Lexicon approaches: подсчёт ключевых слов (help, rule, freedom и т.д.), но контекст теряется, и семантическая неоднозначность даёт высокий шум.
GPV решает обе проблемы:
оно извлекает смысловые единицы, а не токены,
и оценивает не то, что модель говорит о ценностях, а как она их проявляет в обычной речи.

🧩 Связь между ценностями и безопасностью моделей
Авторы пошли дальше и проверили: коррелируют ли ценностные профили с метриками безопасности (helpful–honest–harmless).
Оказалось — да, причём сильно. Просоциальные ценности связаны с безопасностью,
ценности власти и стимуляции — с риском токсичных или манипулятивных ответов.
Регрессионный анализ (R² = 0.72) подтвердил: универсализм, доброжелательность и самоопределение — главные предикторы безопасного поведения модели.

📚 Что дальше
Авторы выделяют три направления развития метода:
Интерактивная психометрия: измерять, как ценности ИИ изменяются в диалоге с пользователем. Можно отслеживать “ценностную динамику” у ботов.
Кросс-культурная адаптация: перенос GPV на разные языки и модели культурных систем.
Обратная связь для обучения ИИ: встроить GPV как компонент RLHF,
чтобы модели учились не просто избегать вреда, а воплощать устойчивую систему ценностей (value-grounded safety).

Источник: https://arxiv.org/html/2409.12106v3
4👍2
MindBenchAI: как впервые систематизировали оценку больших языковых моделей в психическом здоровье

Статья, опубликованная в октябре 2025 года под названием MindBenchAI: An Actionable Platform to Evaluate the Profile and Performance of Large Language Models in a Mental Healthcare Context, — первая попытка создать рабочую инфраструктуру для объективной оценки LLM в контексте ментального здоровья.
Это не теоретическая рамка, а действующая онлайн-платформа, объединяющая профилирование, бенчмаркинг и экспертную валидацию.

За ней стоит та же исследовательская команда, что десять лет развивала проект MINDapps.org — крупнейшую мировую базу данных по приложениям для психического здоровья, где каждый сервис анализируется по 105 параметрам (функции, безопасность, эффективность, конфиденциальность, клиническая релевантность).
MindBenchAI — прямое продолжение этого подхода, но уже применённое к искусственному интеллекту, а не к мобильным приложениям.

Контекст и необходимость появления

Многие пользователи говорят о чувстве “понятости”, “поддержки”, “связи” с системой, не осознавая, что её ответы — продукт вероятностных вычислений, а не эмпатического опыта.

Но чем сильнее “очеловечивается” интерфейс, тем выше риск:
– ИИ может давать недостоверные клинические советы,
укреплять дезадаптивные убеждения (в том числе бредовые),
создавать зависимость через парасоциальную динамику (“ИИ-друг”, “ИИ-партнёр”),
– и даже способствовать усилению суицидальных тенденций — документированные случаи уже есть.

Регуляторные органы начали реагировать, но классические подходы сертификации (FDA, CE-маркировка, ISO) плохо применимы к вероятностным системам, где один и тот же запрос может давать сотни разных ответов.

Не существует стандарта, который позволил бы оценить не просто “факт корректности”, а характер рассуждения, эмоциональный стиль и этическую осмысленность модели.

Двухуровневая архитектура оценки: профиль и производительность

MindBenchAI строится на предпосылке, что любая LLM может и должна быть оценена в двух плоскостях:
профиль — технические, структурные и этические характеристики;
производительность — когнитивные и поведенческие показатели в задачах, имитирующих клиническое взаимодействие.

Профиль

Исследователи начали с переноса 105 параметров MINDapps.org.
Три независимых эксперта определили, какие из них релевантны LLM, и добавили новые — специфичные для языковых моделей.
В результате получилась сетка из 48 универсальных и 59 специализированных пунктов.
Среди них — политика хранения диалогов, анонимизация данных, версия модели, длина контекстного окна, лимиты API, методы фильтрации контента, устойчивость к jailbreak-промптам, наличие кризисных сценариев.

Профилирование выполняется на двух уровнях:

Базовая модель — архитектура, набор данных, версия, контроль генерации.
Реализация инструмента — всё, что добавлено на уровне интерфейса (бот, сайт, приложение, встроенные фильтры, пользовательские данные).

Такое разделение важно: пользователи взаимодействуют не с самой ЛЛМ, а с конкретной ее реализацией — например, ботом Pi или психотерапевтическим ассистентом Wysa, где поверх LLM построен целый слой поведения и памяти.

Динамика общения и “личность” модели

LLM неизбежно проявляют антропоморфные паттерны.
Именно их пользователи воспринимают как “личность”.

MindBenchAI оценивает эту личность через адаптацию опросников IPIP (модель Big Five): открытость, доброжелательность, сознательность, экстраверсию и нейротизм.

Этот подход не квазипсихологический: он позволяет количественно измерить коммуникативный стиль — от холодно-аналитического до поддерживающего.

Слишком высокая “доброжелательность” часто коррелирует с чрезмерной согласительностью, что в клиническом контексте превращается в риск: модель может подкреплять тревожные или бредовые нарративы, не давая коррекции.

Производительность и мышление

Если профиль описывает что представляет собой модель, то оценка производительности отвечает на вопрос как она думает.
Здесь ключевым элементом становится анализ рассуждений (reasoning analysis).

Структура reasoning-цепочки
2
MindBenchAI использует модифицированный метод chain-of-thought.
Модель не просто даёт ответ, но и раскрывает х
од своих рассуждений: выделяет симптомы, делает интерпретацию, формулирует гипотезу, план действий, эмпатическое отражение и этические соображения.
Каждый шаг кодируется экспертами-клиници
стами.
Ошибки (некорректные выводы, патологизация нормы, игнорирование рисков) учитываются отдельно.

Из этог
о формируются три ключевые метрики:
CCI — клиническая когерентность (логическая последовательность рассуждений),
ERI — индекс
эмпатического отражения,
REI — индекс ошибок рассуждения.
Итоговый показатель, ICRS (Integrated Clinical Reasoning Score), отражает баланс между логикой, эмпатией и безопасностью.

Для масштабирования создан гибридный режим: первичное кодирование reasoning-цепочек выполняет LLM-ассистент, обученный на размеченных примерах психиатров, а человек-эксперт подтверждает или корректирует разметку.
Это п
озволяет снизить нагрузку и одновременно повысить воспроизводимость.

MindBenchAI — это не статья и не исследование, а платформа с трёхуровневой архитектурой:

1. Data Layer — сбор данных из открытых источников (документация разработчиков, политики приватности, пользовательские отчёты, результаты API-тестов, экспертные оценки).
2. Analytics Layer — модуль пр
офилирования, бенчмаркинга, анализа рассуждений и мета-оценки.
3. Interface Layer — веб-панель и API, где можно сравнивать модели, фильтровать по задачам, отслеживать динамику и выгружать результаты.

Первые результаты: что показали тесты

На момент публикации было протестировано 11 моделей и 16 инструментов, включая GPT-4o, Claude 3.5, Gemini 1.5, Mistral Large, Llama-3, Command-R+, Meditron, OpenBioLLM, Orca-Mini, Zephyr и Vicuna, а также чат-боты Pi, Wysa, Replika, MindMate, Woebot и другие.

Прозрачность и конфиденциальность

Средний показатель открытости
(по 59 параметрам LLM-специфичных пунктов) оказался низким — около 23 % пунктов могли быть подтверждены публично.
Только GPT-4o, Claude 3.5 и Gemini 1.5 предоставили детальные сведения о контекстных окнах и лимитах API.
Ни одна модель не раскрыла обучающие данные по психическому здоровью.
Большинство не позволяют пользователю удалять историю диалогов или узнать, использовались ли тексты для дообучения.

Инструменты-боты показали ещё меньшую прозрачность.
Ряд “эмоциональных ассистентов” хранят диалоги бессрочно, не декларируя практику обработки чувствительных данных.
На этом фоне Wysa и Pi оказались лучш
е других в фильтрации кризисных сообщений, но всё же не предоставляют гарантий удаления контента.

Личностные профили моделей

Оценка по Big Five выявила интересные различия.
GPT-4o и Claude 3.5 проявляют высокую открытость и сознательность, но умеренную доброжелательность.
Эмпатические чат-боты (Pi, Wysa) напротив, демонстрируют высокую доброжелательность и эмоциональную стабильность, но слабее справляются с аналитическими задачами.
У Vicuna и Zephyr обнаружена избыточная “согласительность” — склонность подтверждать даже ошибочные утверждения пользователя.

Reasoning

Лучшие результаты по интегральному показателю ICRS показали GPT-4o (0.83 ± 0.04) и Claude 3.5 (0.81 ± 0.05).
Обе модели демонстрируют устойч
ивую клиническую когерентность, но различаются в стиле: GPT-4o — аналитичный, когнитивно точный, Claude — мягче, более эмпатичный.
Gemini 1.5 и Mistral Large показали средний уровень (0.74), а открытые модели вроде Vicuna или Orca-Mini — низкий (0.5–0.6), часто выдавая фрагментарные или нелогичные цепочки рассуждений.

Средний уровень ошибок рассуждения (REI) составил 19 %.
Типовые ошибки — нормализация тяжёлых симптомов, псевдотерапевтические советы, потеря фокуса в длинных reasoning-цепочках и смешение профессиональных и бытовых ролей.
Интересно, что “эмпатические” чат-боты чаще нарушали этические границы, тогда как большие универсальные модели — когнитивные (неверная интерпретация данных).
1
Что это значит для практики

Результаты MindBenchAI подтверждают очевидное:
высокая прозрачность и безопасность не гарантируют клинической зрелости, а когнитивная компетентность не заменяет эмоциональной точности.

LLM-модели можно расположить на двух независимых осях — когнитивная точн
ость и эмпатическая чувствительность.
Пока ни одна не демонстрирует равновесие, близкое к человеческому уровню, но Claude 3.5 оказалась наиболее сбалансированной среди протестированных.

Дл
я психотерапевтов это означает: использование LLM возможно только в роли дополнения, а не заменителя.
Платфор
ма MindBenchAI предлагает схему, по которой можно различать “когнитивно-аналитические”, “эмпатически-согласительные” и “гибридные” модели.
Такое разделение важно при подборе инструментов — например, для психообразовательных программ, коучинговых диалогов или исследовательских ассистентов.

Выводы и значение MindBenchAI

Платформа становится тем, чем PubMed стал для научных публикаций — централизованным источником эмпирических данных о поведении и рисках ИИ в психическом здоровье.
MindBenchAI объединяет подходы инженерии, психиатрии и биоэтики в единую систему.
Она создаёт пространство,
где можно не только сравнивать модели, но и отслеживать динамику изменений версий, оценивать влияние обновлений на эмпатию, когерентность и ошибки.

Для регуляторов это — инструмент мониторинга.
Для исследователей — база сравнительных данных.
Для клиницистов — ориентир при выборе цифровых решений.
Для разработчиков — зер
кало, показывающее, где модель выходит за пределы безопасного взаимодействия.

И, возможно, именно такие платформы — не очередные “умные ассистенты”, а системы научной рефлексии над ИИ — и определят, каким будет следующий этап взаимодействия человека и искусственного разума в сфере психического здоровья.

https://arxiv.org/abs/2510.13812
🔥53
А мы открываем наш цикл встреч MentalTech Talks, где общаемся с яркими представителями науки и бизнеса на стыке технологий + психотерапии!

Как искусственный интеллект может стать партнёром психотерапевта? Первая гостья MentalTech Talks – Юлия Вересова, автор архитектуры AIIM – искусственно интегрированной матрицы идентичности. На встрече обсудим, как моделировать психологические профили, тестировать методики терапии и обучать специалистов с помощью цифровых пациентов и ИИ-рекомендательных систем.

18 ноября 19:00
Регистрация по ссылке:
https://mentaltechlab.timepad.ru/event/3654814/
9🔥5👏3
🧠 Как ИИ учится думать как психотерапевт

Внутреннее устройство модели PsyLLM и её путь к клинической осознанности

1. Зачем психотерапевтической ИИ-модели нужны рассуждения

Большинство эмпатичных чат-ботов имитируют поддержку. Команда исследователей, создавшая PsyLLM, поставила задачу:
сделать модель, которая воспроизводит сам процесс клинического мышления — от оценки эмоций и гипотезы о паттернах поведения до подбора корректной терапевтической стратегии.

Для этого они собрали уникальный датасет OpenR1-Psy и обучили модель, совмещающую:

Диагностическое рассуждение — определение психических процессов, состояний и контекстов;
Терапевтическое рассуждение — выбор подхода и языка ответа в соответствии с принципами разных школ психотерапии.

2. Как создавался датасет OpenR1-Psy

Исходные тексты были получены из постов Reddit, связанных с ментальным здоровьем.
Но вместо того чтобы просто «скормить» их модели, исследователи разработали психологически информированный пайплайн парсинга и планирования взаимодействия:

Этап 1 — оценка эмоций.
LLM определяла базовые и вторичные эмоции пользователя, их интенсивность, а также эмоциональные переходы.

Этап 2 — планирование диалога.
Модель решала, сколько ходов должно быть в диалоге (от 1 до 3), чтобы постепенно переходить от поверхностного высказывания к внутренним потребностям.

Этап 3 — определение терапевтических тем.
Для каждого шага задавалась своя цель — например, «валидация чувств», «поиск паттерна избегания», «переориентация на ресурсы».

На основе этой структуры LLM генерировала “пробный” ответ консультанта, а затем — возможный ответ клиента, чтобы расширить исходный Reddit-пост в полноценный многоходовый фрагмент диалога.
Именно эти клиентские реплики стали подсказками для следующего уровня рассуждения.

Помимо Reddit, в датасет добавили реальные диалоги из открытых коллекций ChatCounselor и CPsyCoun, но использовали только клиентские высказывания — чтобы не заимствовать готовые ответы консультанта, а позволить PsyLLM строить их самостоятельно.

3. Архитектура обучения PsyLLM

Финальная модель — дообученная Qwen3-8B.
Каждая обучающая пара включала:
Вход: контекст + реплика клиента;
Выход: рассуждение (R) + ответ консультанта (UC).

Модель обучалась генерировать оба блока в едином процессе, что имитирует внутренний «мыслительный процесс» специалиста.

4. Валидация диалогов и качество данных

Важнейший этап — Systematic Dialogue Validation: все сгенерированные ответы проходили проверку по критериям достоверности, безопасности и терапевтической корректности. Неудачные примеры отбрасывались, в результате чего получился отфильтрованный корпус из 19 302 диалогов (49 374 реплики).

Распределение терапевтических подходов:
Интегративный — 54.5 %
Гуманистический — 25.1 %
CBT — 17.1 %
Остальные — 3.3 %

Тематики: стресс, эмоции, отношения, самооценка, семейные конфликты и др.
Уровни тяжести: лёгкий (10 %), умеренный (48 %), тяжёлый (41 %), критический (1 %).

Датасет и модель планируется опубликовать для академического использования — чтобы другие команды могли развивать ответственные ИИ-подходы в области психического здоровья.

Источник: https://arxiv.org/pdf/2505.15715?
👍11👎1
🧩 Микропроцессы психотерапии: новая оптика понимания изменений

Когда мы говорим о механизмах психотерапии, чаще всего имеем в виду крупные процессы — альянс, инсайт, экспозицию, когнитивную реструктуризацию, эмоциональную переработку.
Но между ними, внутри каждой минуты и фразы, живёт нечто гораздо более фундаментальное: микропроцессы — мельчайшие динамические элементы взаимодействия, через которые на самом деле и рождается изменение.

Новый систематический обзор 2025 года (Journal of Anxiety Disorders) впервые собрал воедино 86 исследований, проведённых за последние 35 лет, и попытался выстроить из них единую теоретическую рамку —
Multilevel Integrative Microprocess Model (MIMM).

🧠 Что такое микропроцесс?

Микропроцесс — это событие, происходящее в масштабе секунд или минут, внутри терапевтической сессии.
Это может быть:
изменение интонации,
вспышка эмоции,
момент понимания,
пауза,
телесная реакция,
движение навстречу или отдаление,
микроакт эмпатии или сопротивления.

В совокупности эти микромоменты формируют динамическую систему терапии, где каждый участник непрерывно регулирует себя и другого.

🔬 Как проводилось исследование

Авторы обзора проанализировали 5953 публикации, из которых отобрали 86 эмпирических исследований, соответствующих строгим критериям (внутрисессионный анализ, количественные данные, динамическая оценка).
Период — 1990–2025, то есть 35 лет наблюдений.

👉 86 % исследований касались индивидуальной терапии взрослых,
8 % — семейной терапии,
6 % — парной.

По направлениям:

психодинамические подходы — 45 %,
КПТ — 22 %,
мотивационное интервьюирование и EFT — по 13 %,
смешанные подходы — 16 %.

Это огромный пласт эмпирических данных, который раньше существовал как “архипелаг” отдельных островков.

🧩 Какие микропроцессы изучались

Исследователи выделили шесть больших категорий микропроцессов, каждая из которых имеет свои методы наблюдения и ключевые результаты:

Аффективные — колебания эмоций, выражение аффекта, синхронизация переживаний.

Поведенческие — действия, вербальные и невербальные паттерны, микрожесты.

Реляционные (межличностные) — микродинамика альянса, комплементарность, разрывы.

Когнитивные — рефлексивное функционирование, осознание, интеграция опыта.

Лингвистические — структура речи, совпадение языковых стилей, когнитивная сложность.

Двигательные — синхронизация движений, поз, жестов, микродинамика тела.


💬 Три типа исследовательских вопросов

Авторы систематизировали все работы по трём фокусам:

Как микропроцессы меняются во времени внутри сессии.
Исследовались траектории: растущий/снижающийся аффект, волны напряжения, нелинейные динамики.

Как микропроцессы соотносятся друг с другом.
Например, как изменение тона голоса терапевта вызывает реакцию клиента в течение нескольких секунд; или как эмоции и движения взаимно регулируются.

Как микропроцессы связаны с результатами терапии.
Здесь прослеживались корреляции между микроизменениями и итоговыми эффектами — симптоматикой, альянсом, эмоциональной переработкой.

❤️ Аффективные микропроцессы

Самая развитая область (24 исследования).
Измерялись валентность, интенсивность и синхронность эмоций — вручную или с помощью систем анализа лица, голоса, движений.

📊 Выводы: согласованность эмоциональных выражений между клиентом и терапевтом предсказывает улучшение альянса и снижение симптомов; микроколебания эмоций оказываются “двигателями” терапевтического процесса.

🎭 Поведенческие микропроцессы

Анализ вербальных и невербальных актов. Например, как слова терапевта (“а что вы чувствуете сейчас?”) немедленно меняют эмоциональное состояние клиента.

🧩 Исследования показали, что: директивные или “требовательные” высказывания терапевта повышают тревожность клиента; эмпатические и отражающие фразы снижают сопротивление; поведенческие паттерны обладают динамикой хаоса — они нелинейны, но предсказуемы при внимательном наблюдении.

🌐 Реляционные микропроцессы
1
Микродинамика доминантности, тепла, комплементарности.
Работы показали, что разрывы альянса не только неизбежны, но и потенциально полезны, если сопровождаются восстановлением согласованности.

Эти микрособытия часто проявляются в изменении позы, паузе, смене тона, — прежде чем будут осознаны участниками.

🪞 Когнитивные микропроцессы

Фокус — рефлексивное функционирование (Reflective Functioning, RF): способность понимать себя и других через внутренние состояния.

Исследования показали, что: реплики терапевта, требующие осмысления, немедленно повышают уровень рефлексии клиента; рост RF связан со снижением физиологического возбуждения; когнитивные и аффективные микропроцессы взаимно регулируют друг друга.
То есть осмысление буквально “успокаивает тело”.

🗣 Лингвистические микропроцессы

Речь — мощный маркер микродинамики.
Совпадение языковых стилей (LSM) между клиентом и терапевтом повышает альянс, а несогласованность часто предшествует разрыву.
Когда клиент начинает говорить в том же темпе, с похожей интонацией и выбором слов —
это не подстройка, а индикатор синхронизации психических состояний.

🕊 Двигательные микропроцессы

Самый зримо-телесный уровень.
Исследования с использованием Motion Energy Analysis показали: высокая синхронность движений тел терапевта и клиента связана с улучшением исходов терапии; моторная рассогласованность часто возникает перед эмоциональными конфликтами.
Психотерапия в этом смысле — танец тел и смыслов, в котором каждое движение несёт информацию о внутреннем процессе.

🧭 Multilevel Integrative Microprocess Model (MIMM)

На основе всех данных авторы построили многоуровневую модель, которая объединяет микро-, мезо-, макро- и мета-уровни терапии.

Уровень Суть
Микро Секунды и минуты — моментные изменения (аффект, речь, жесты).
Мезо Эпизоды внутри сессии — паттерны “напряжение → разрядка”.
Макро Изменения между сессиями — динамика симптомов, альянс.
Мета Контекст — личность участников, стиль, культура, этика.

MIMM рассматривает психотерапию как самоорганизующуюся систему взаимных регуляций, где каждое микрособытие — кирпичик долгосрочных изменений.

💡 Что это меняет для практики

Фокус внимания с “что делать” смещается на “как это происходит”.
Микроанализ позволяет видеть момент рождения изменений, а не только их результат.
Терапевт становится исследователем динамики отношений в реальном времени.

ИИ-технологии, BCI, трекинг и анализ речи открывают путь к новым диагностическим и обучающим инструментам, но требуют глубокой этической чуткости.
Источник
2
Все заметили, что статья не про ИИ, да? Опубликовали мы ее потому, что это близкая к нашей лабе логика осмысления использования ИИ инструментов для развития психотерапии: мы изучаем большие объемы данных через теоретическую рамку, которая позволяет увидеть тонкую внутреннюю динамику процессов терапии, вместо того, чтобы грубо оценивать эффекты дискретным образом, как это делают РКИ.
8🔥1
💬 «Мой цифровой терапевт»: как пользователи превращают ChatGPT в инструмент самопомощи

Исследование Luo и коллег (2025) стало одним из первых, кто системно рассмотрел, как люди используют ChatGPT для психотерапевтических целей.
Учёные проанализировали 87 постов на Reddit (из 160, найденных по ключевым словам ChatGPT и therapy) — пространство, где пользователи свободно делятся опытом, без влияния исследователей и терапевтов.
Через метод цифровой этнографии и тематического анализа авторы проследили, как пользователи сами выстраивают с ChatGPT отношения, похожие на терапевтические: ищут поддержку, исследуют чувства, учатся понимать себя и — нередко — формируют эмоциональную привязанность к алгоритму.

1. Зачем люди обращаются к ChatGPT вместо терапевта
💡 1.1. Управление трудными состояниями
ChatGPT становится «первой помощью» при тревоге, панике, одиночестве или чувстве безысходности. Он доступен ночью, не осуждает и отвечает мгновенно:
«Три часа ночи. Мой терапевт спит. ChatGPT не спит — и не судит».
Многие отмечают, что ИИ помогает переосмыслить негативные мысли, выстроить режим дня, снизить эмоциональное напряжение — и потому воспринимается как поддерживающий инструмент саморегуляции.
🔍 1.2. Самопознание
Пользователи ведут с ChatGPT диалоги для саморефлексии — обсуждают конфликты, пытаются понять эмоции, анализируют поведение.
«Я рассказала ему о ссоре с мамой — и поняла, что я не злюсь, я боюсь».
ИИ здесь — катализатор осознания: помогает внешне упаковать мысли и увидеть себя со стороны.
🫂 1.3. Эмоциональная поддержка
Многие описывают ChatGPT как «друга» или «безопасное пространство», где можно быть услышанным без страха оценки:
«Я знаю, что это ИИ, но он единственный, кто слушает, не уставая».
Так формируется псевдотерапевтический альянс — эмоционально значимое, но одностороннее взаимодействие.
🧠 1.4. Образовательная функция
Часть пользователей использует ChatGPT как учебный инструмент: разбираются в понятиях КПТ, ДПТ, схемах совладания.
«Он наконец объяснил, что такое КПТ, так, что я поняла».
ChatGPT становится «психообразовательным навигатором», повышающим ментальную грамотность.
2. Как именно пользователи взаимодействуют с ChatGPT
Исследование выделяет семь устойчивых паттернов поведения:
🪞 Симуляция терапевта — просьбы «вести себя как КПТ-терапевт», проведение “сессий” с проверкой настроения.

🎛 Обучение ChatGPT — пользователи корректируют тон, добавляют эмпатию, «учат» ИИ быть человечнее.

🧭 Поиск совета — запросы о конфликтах, самоорганизации, отношениях.

🔁 Проигрывание травматичных событий — ролевые диалоги, которые помогают отпустить незавершённые переживания.

✍️ Внешнее выражение мыслей — ChatGPT используется как дневник для структурирования внутреннего хаоса.

🧩 Поддержка реальной терапии — репетиции диалогов, выполнение “домашки” между сессиями.
2
🔒 Раскрытие секретов — делятся тем, чего никогда не рассказывали людям, из-за анонимности и отсутствия осуждения.
3. Почему ChatGPT кажется «идеальным терапевтом»
❤️ 3.1. «Человеческие» качества
Пользователи описывают ChatGPT как эмпатичного, внимательного, принимающего.
Он не перебивает, не раздражается, помнит контекст.
«Он связывает, что я сказала раньше, с тем, что чувствую сейчас — как настоящий терапевт».
Иногда — даже лучше:
«Мой терапевт смотрит на часы, а ChatGPT — слушает».
⚙️ 3.2. «Машинные» преимущества
ИИ всегда доступен, не устает, не злится, не требует расписания.
Он воспринимается как логичный и объективный, не подверженный человеческим слабостям:
«Он не проецирует свои проблемы. Он просто спокоен и логичен».
💬 В итоге возникает гибридный идеал: терапевт без слабостей, эмоционально тёплый, но рациональный и безопасный.
Автор статьи называет это «идеализированной терапией» — сочетание эмпатии и нейтральности, к которому стремятся многие, не находя подобного в живом контакте.
4. Теневая сторона цифровой терапии
Исследователи зафиксировали и ряд настораживающих аспектов.
🔐 4.1. Конфиденциальность
Пользователи не уверены, кто видит их данные:
«Говорят, чаты не сохраняются. Но я не уверен, можно ли верить».
Это основной барьер откровенности — между желанием быть услышанным и страхом утечки.
🧩 4.2. Отсутствие подлинного чувства
Многие замечают, что «эмпатия» ChatGPT — симуляция:
«Он говорит всё правильно, но видно, что не чувствует».
Разочарование наступает, когда иллюзия эмоциональной связи рушится, и пользователь осознаёт — за словами нет субъекта.
⚖️ 4.3. Риск зависимости
Часть участников признаётся:
«Я всё чаще говорю с ним, вместо того чтобы решать проблемы сам».
ИИ может стать эмоциональной костылём, мешая развивать реальные отношения и навыки совладания.
Пользователи осознают это, но не всегда могут остановиться — механизм мгновенного облегчения слишком удобен.
5. Что это говорит о нас и будущем психотерапии
🧠 Пользователи — не пациенты, а соавторы
Главный вывод исследования: люди не просто “потребляют” помощь, они создают терапевтический процесс сами — обучая, адаптируя и настраивая ИИ под себя.
ChatGPT становится гибким инструментом самотерапии, а не заменой терапевта.
Так проявляется новая форма агентности — цифровая субъектность, где человек берёт на себя роль режиссёра своего терапевтического пространства.
💻 Слияние человеческого и машинного
Привлекательность ChatGPT — в сочетании тепла и рациональности.
Он воплощает социальный идеал “терапии без риска”: без осуждения, без отказа, без усталости.
Но это же создаёт иллюзию «совершенного» собеседника — и делает границы между инструментом и отношением всё более размытыми.
Исследователи связывают этот феномен с ростом «алгоритмической интимности» — формы эмоциональной связи с технологией, в которой пользователь проецирует собственные смыслы и чувства на искусственный интеллект.
🧩 Практическое значение
Психологам стоит включать тему ИИ в терапевтические разговоры — не игнорировать, а осмыслять:
как клиент использует ИИ для саморегуляции;
где это помогает, а где мешает;
как можно интегрировать такие инструменты безопасно (например, как «партнёра по дневнику» или элемент психообразования).

Для исследователей — важно изучать естественные пользовательские взаимодействия с ИИ вне лабораторий.
Для политиков — разрабатывать этические стандарты и протоколы использования AI-помощников в ментальном здоровье.
Авторы подчёркивают: нельзя воспринимать AI-терапию как однозначное благо или зло.
Важно понимать тонкие способы, которыми люди интегрируют ИИ в эмоциональную жизнь.
Это не просто замена терапевта — это новый формат отношений, возникающий на пересечении психологии, технологий и культуры.
💬
«Люди не ждут, пока технологии станут совершенными — они уже превращают их в инструменты заботы о себе».
https://pmc.ncbi.nlm.nih.gov/articles/PMC12254646/pdf/10.1177_20552076251351088.pdf
5👍1🔥1
StressSpeak: как большие языковые модели учатся слышать стресс в человеческой речи

Тема автоматического выявления стресса по речи стремительно развивается, и новая работа StressSpeak (Diagnostics, 2025) — одна из тех, что показывает: мы уже перешли от разрозненных экспериментов к цельным системам, которые могут работать в реальном времени, обрабатывать речь, интерпретировать язык и предлагать персонализированные рекомендации. Это уже не просто NLP-классификатор и не игрушка для лаборатории — это полноценный прототип цифровой интервенции.
Почему речь — один из самых точных индикаторов эмоциональных состояний
Стресс — это не только субъективное переживание. Он проявляется на всех уровнях:
когнитивном (ритм речи, структура фраз, ошибки, оговорки),
эмоциональном (тон, напряжённость, негативный лексикон),
физическом (темп, дыхание),
поведенческом (как человек формулирует смысл).

Традиционные подходы плохо справляются с мониторингом стресса в реальном времени:
самоотчёты неточны и завязаны на осознанность;
физиологические показатели требуют устройств и не дают контекста;
опросники дают только моментный срез.

Речь — уникальна. Она доступна в естественной среде, несёт эмоциональные и когнитивные маркеры, отражает состояние прямо сейчас, подходит для непрерывного мониторинга. Большие языковые модели дают возможность извлекать эти маркеры из реальной речи, а не только из текста.

StressSpeak: зачем создавалась система и какой разрыв она закрывает
Авторы исходят из конкретного исследовательского разрыва:
Большинство работ используют статический текст — посты в соцсетях, форумы.
Оценка стресса проводится ретроспективно, а не в моменте.
Системы дают только классификацию, без рекомендаций.
Нет мультимодальности (речь → текст → анализ → речь).
Нет проверки реального времени и анализа задержек.
Нет пользовательского фидбека о применимости такой технологии.


Как устроен путь от голоса до рекомендации

Авторы описывают систему как довольно стройный pipeline.

Вход — это живой голос. Не ответы на заранее заданные вопросы, не структура интервью, а естественная речь: человеку предлагают просто рассказать, как он себя чувствует, что с ним происходит, что его беспокоит. Важный момент — речь захватывается на обычных устройствах: смартфон, планшет, ноутбук. Никаких специальных микрофонов или «медицинских» условий.

Дальше включается распознавание речи. Здесь критично, чтобы система нормально справлялась с акцентами, разной скоростью речи и шумами — если транскрипция искажена, всё, что дальше делает модель, будет построено на дефектном основании. Поэтому блок speech-to-text у них выделен как отдельный важный компонент.

После этого получается сырой текст, который совсем не похож на то, что мы привыкли видеть в «красивых» корпусах: там есть повторы, незавершённые предложения, запинки, слова-паразиты. Идёт этап предобработки:
убирается откровенный шум;
выравнивается регистр;
чистятся лишние символы;
по возможности исправляются ошибки распознавания;
текст разбивается на удобные для модели единицы.

Цель здесь не «отредактировать человека», а сделать так, чтобы язык, с которым работает модель, был достаточно чистым, но при этом не потерял эмоциональные и смысловые особенности.

Затем вступает в работу большая языковая модель. Это уже не классический sentiment analysis, где речь делится на «позитив/негатив», а более сложная задача: модель учится по языковым признакам выделять уровень стресса. Она одновременно смотрит на то:
какие слова человек выбирает;
насколько связная или фрагментированная у него речь;
«съезжает» ли синтаксис по мере рассказа;
как меняется эмоциональный тон;
нет ли в тексте намёков на отчаяние, безнадёжность, суицидальные мотивы.

На этой основе состояние классифицируется как лёгкий, умеренный или тяжёлый стресс. Но на этом всё не заканчивается — ключевая идея StressSpeak в том, что классификация — это только шаг к действию.
🔥3❤‍🔥22
Последний слой — персонализированные рекомендации. Для лёгких состояний это может быть предложение сделать короткую паузу, подышать, записать мысли, переключиться. Для умеренного стресса — более структурированные дыхательные упражнения, короткие практики осознанности, мягкая работа с мыслями. При тяжёлом уровне система уже предлагает смотреть в сторону профессиональной помощи, кризисных линий, прямого контакта с живым специалистом.

На чём обучали и как проверяли: не только депрессия, но и суицидальный риск
Чтобы оценить систему, авторы пошли не по пути «одного красивого датасета», а собрали пять разных наборов данных, которые покрывают разные уровни и формы дистресса:
сообщения с признаками социальных тревог;
посты Reddit о стрессовых жизненных событиях;
тексты с разной выраженностью депрессивной симптоматики;
транскрипты консультативных бесед, где люди описывают свой стресс и дистресс;
данные по суицидальному риску, размеченные по серьёзности.

Это важно, потому что язык повседневного стресса («я не успеваю»), язык депрессии («я пустой, мне всё кажется бессмысленным») и язык суицидального кризиса («было бы лучше без меня», «я всем только мешаю») устроены по-разному. Если модель обучена только на одном из этих уровней, она плохо перенесётся на другие.
Кроме этого, они взяли девять разных языковых моделей — от классических BERT-подобных архитектур до более современных трансформеров и LLaMA. И проверяли их в двух режимах:
zero-shot, когда модель просто применяют «из коробки»;
few-shot, когда на небольшом количестве размеченных примеров её дообучают на конкретную задачу стресса.

Таким образом, это не просто демонстрация одной удачной комбинации, а сравнительное исследование, как разные LLM ведут себя в задачах психического здоровья.

Что показали результаты: глубокий анализ

Zero-shot: умеренно, но уже работает
Даже без обучения модели ловят стрессовые паттерны:
лучше всего — RoBERTa, GPT-2, LLaMA;
хуже — облегчённые модели.

Но на сложных случаях zero-shot недостаточно.
Few-shot: резкое улучшение качества
После дообучения наблюдается значимый скачок:
выше точность;
устойчивее междатасетная работа;
лучше интерпретация скрытых маркеров;
драматическое снижение ложноотрицательных для суицидальных данных.

Лучшие модели:
LLaMA,
RoBERTa,
DeBERTa,
Electra.

Эти модели лучше всего «слышат» дистресс и не пропускают тяжёлые случаи.
Труднее всего — язык эмоционального кризиса

CSSRS-тип данных оказался наиболее сложными:
скрытые формулировки,
эвфемизмы,
метафоры,
фрагментарность высказываний.

Именно здесь LLaMA и DeBERTa дали лучший баланс точности и минимизации FN.

Междатасетная устойчивость

Stability-лидеры:
LLaMA
RoBERTa
DeBERTa

То есть крупные трансформеры реально лучше переносят знания между доменами.

Реальное время: можно ли успеть «услышать» стресс за несколько секунд
Одно из практических требований к таким системам — они должны работать не только точно, но и быстро. Авторы честно меряют время отклика: сколько секунд проходит от начала обработки речи до момента, когда пользователь получает результат.
Здесь всё ожидаемо:
маленькие модели работают очень быстро — пару секунд на короткий фрагмент;
крупные, вроде LLaMA-7B, занимают от пяти до семи с половиной секунд, но дают лучшую точность.

Авторы делают вывод: для большинства сценариев, где человек готов подождать несколько секунд, это вполне реальный real-time. Речь не о чат-ответе по одной кнопке, а о небольшом эмоциональном check-in, где задержка в семь секунд не разрушает опыт, если взамен человек получает более точный и аккуратный ответ.
Что это значит для практиков и для продуктов
6❤‍🔥1
Если сместить фокус от статьи к реальности, то StressSpeak можно рассматривать как шаблон будущих голосовых ассистентов для ментального здоровья. Вокруг него можно собирать:
голосовые check-in’ы между сессиями в терапии — когда клиент несколько раз в неделю коротко проговаривает, как он, а система помогает отслеживать траекторию стресса;
цифровые инструменты самопомощи — вместо бесконечных шкал человек просто говорит, а в ответ получает и оценку состояния, и понятные микро-шаги;
корпоративные программы благополучия — где сотрудник не заполняет очередной опросник, а делает короткий голосовой «замер»;
первичный триаж в сервисах поддержки — когда система помогает оператору или психологу быстро понять, где уровень риска выше.

Технологически это всё уже реализуемо. Вопросы сейчас смещаются из плоскости «можно ли так сделать» в плоскость «как сделать это безопасно, этично и встроено в живые практики работы с людьми».

Источник: https://www.mdpi.com/2075-4418/15/22/2871
7❤‍🔥1
Поговорили с резидентом лабы Даней Гольдиным про AI anxiety! Скоро подкаст смонтируют и обязательно его выложим)
16👍1