StressSpeak: как большие языковые модели учатся слышать стресс в человеческой речи
Тема автоматического выявления стресса по речи стремительно развивается, и новая работа StressSpeak (Diagnostics, 2025) — одна из тех, что показывает: мы уже перешли от разрозненных экспериментов к цельным системам, которые могут работать в реальном времени, обрабатывать речь, интерпретировать язык и предлагать персонализированные рекомендации. Это уже не просто NLP-классификатор и не игрушка для лаборатории — это полноценный прототип цифровой интервенции.
Почему речь — один из самых точных индикаторов эмоциональных состояний
Стресс — это не только субъективное переживание. Он проявляется на всех уровнях:
когнитивном (ритм речи, структура фраз, ошибки, оговорки),
эмоциональном (тон, напряжённость, негативный лексикон),
физическом (темп, дыхание),
поведенческом (как человек формулирует смысл).
Традиционные подходы плохо справляются с мониторингом стресса в реальном времени:
самоотчёты неточны и завязаны на осознанность;
физиологические показатели требуют устройств и не дают контекста;
опросники дают только моментный срез.
Речь — уникальна. Она доступна в естественной среде, несёт эмоциональные и когнитивные маркеры, отражает состояние прямо сейчас, подходит для непрерывного мониторинга. Большие языковые модели дают возможность извлекать эти маркеры из реальной речи, а не только из текста.
StressSpeak: зачем создавалась система и какой разрыв она закрывает
Авторы исходят из конкретного исследовательского разрыва:
Большинство работ используют статический текст — посты в соцсетях, форумы.
Оценка стресса проводится ретроспективно, а не в моменте.
Системы дают только классификацию, без рекомендаций.
Нет мультимодальности (речь → текст → анализ → речь).
Нет проверки реального времени и анализа задержек.
Нет пользовательского фидбека о применимости такой технологии.
Как устроен путь от голоса до рекомендации
Авторы описывают систему как довольно стройный pipeline.
Вход — это живой голос. Не ответы на заранее заданные вопросы, не структура интервью, а естественная речь: человеку предлагают просто рассказать, как он себя чувствует, что с ним происходит, что его беспокоит. Важный момент — речь захватывается на обычных устройствах: смартфон, планшет, ноутбук. Никаких специальных микрофонов или «медицинских» условий.
Дальше включается распознавание речи. Здесь критично, чтобы система нормально справлялась с акцентами, разной скоростью речи и шумами — если транскрипция искажена, всё, что дальше делает модель, будет построено на дефектном основании. Поэтому блок speech-to-text у них выделен как отдельный важный компонент.
После этого получается сырой текст, который совсем не похож на то, что мы привыкли видеть в «красивых» корпусах: там есть повторы, незавершённые предложения, запинки, слова-паразиты. Идёт этап предобработки:
убирается откровенный шум;
выравнивается регистр;
чистятся лишние символы;
по возможности исправляются ошибки распознавания;
текст разбивается на удобные для модели единицы.
Цель здесь не «отредактировать человека», а сделать так, чтобы язык, с которым работает модель, был достаточно чистым, но при этом не потерял эмоциональные и смысловые особенности.
Затем вступает в работу большая языковая модель. Это уже не классический sentiment analysis, где речь делится на «позитив/негатив», а более сложная задача: модель учится по языковым признакам выделять уровень стресса. Она одновременно смотрит на то:
какие слова человек выбирает;
насколько связная или фрагментированная у него речь;
«съезжает» ли синтаксис по мере рассказа;
как меняется эмоциональный тон;
нет ли в тексте намёков на отчаяние, безнадёжность, суицидальные мотивы.
На этой основе состояние классифицируется как лёгкий, умеренный или тяжёлый стресс. Но на этом всё не заканчивается — ключевая идея StressSpeak в том, что классификация — это только шаг к действию.
Тема автоматического выявления стресса по речи стремительно развивается, и новая работа StressSpeak (Diagnostics, 2025) — одна из тех, что показывает: мы уже перешли от разрозненных экспериментов к цельным системам, которые могут работать в реальном времени, обрабатывать речь, интерпретировать язык и предлагать персонализированные рекомендации. Это уже не просто NLP-классификатор и не игрушка для лаборатории — это полноценный прототип цифровой интервенции.
Почему речь — один из самых точных индикаторов эмоциональных состояний
Стресс — это не только субъективное переживание. Он проявляется на всех уровнях:
когнитивном (ритм речи, структура фраз, ошибки, оговорки),
эмоциональном (тон, напряжённость, негативный лексикон),
физическом (темп, дыхание),
поведенческом (как человек формулирует смысл).
Традиционные подходы плохо справляются с мониторингом стресса в реальном времени:
самоотчёты неточны и завязаны на осознанность;
физиологические показатели требуют устройств и не дают контекста;
опросники дают только моментный срез.
Речь — уникальна. Она доступна в естественной среде, несёт эмоциональные и когнитивные маркеры, отражает состояние прямо сейчас, подходит для непрерывного мониторинга. Большие языковые модели дают возможность извлекать эти маркеры из реальной речи, а не только из текста.
StressSpeak: зачем создавалась система и какой разрыв она закрывает
Авторы исходят из конкретного исследовательского разрыва:
Большинство работ используют статический текст — посты в соцсетях, форумы.
Оценка стресса проводится ретроспективно, а не в моменте.
Системы дают только классификацию, без рекомендаций.
Нет мультимодальности (речь → текст → анализ → речь).
Нет проверки реального времени и анализа задержек.
Нет пользовательского фидбека о применимости такой технологии.
Как устроен путь от голоса до рекомендации
Авторы описывают систему как довольно стройный pipeline.
Вход — это живой голос. Не ответы на заранее заданные вопросы, не структура интервью, а естественная речь: человеку предлагают просто рассказать, как он себя чувствует, что с ним происходит, что его беспокоит. Важный момент — речь захватывается на обычных устройствах: смартфон, планшет, ноутбук. Никаких специальных микрофонов или «медицинских» условий.
Дальше включается распознавание речи. Здесь критично, чтобы система нормально справлялась с акцентами, разной скоростью речи и шумами — если транскрипция искажена, всё, что дальше делает модель, будет построено на дефектном основании. Поэтому блок speech-to-text у них выделен как отдельный важный компонент.
После этого получается сырой текст, который совсем не похож на то, что мы привыкли видеть в «красивых» корпусах: там есть повторы, незавершённые предложения, запинки, слова-паразиты. Идёт этап предобработки:
убирается откровенный шум;
выравнивается регистр;
чистятся лишние символы;
по возможности исправляются ошибки распознавания;
текст разбивается на удобные для модели единицы.
Цель здесь не «отредактировать человека», а сделать так, чтобы язык, с которым работает модель, был достаточно чистым, но при этом не потерял эмоциональные и смысловые особенности.
Затем вступает в работу большая языковая модель. Это уже не классический sentiment analysis, где речь делится на «позитив/негатив», а более сложная задача: модель учится по языковым признакам выделять уровень стресса. Она одновременно смотрит на то:
какие слова человек выбирает;
насколько связная или фрагментированная у него речь;
«съезжает» ли синтаксис по мере рассказа;
как меняется эмоциональный тон;
нет ли в тексте намёков на отчаяние, безнадёжность, суицидальные мотивы.
На этой основе состояние классифицируется как лёгкий, умеренный или тяжёлый стресс. Но на этом всё не заканчивается — ключевая идея StressSpeak в том, что классификация — это только шаг к действию.
🔥3❤🔥2❤2
Последний слой — персонализированные рекомендации. Для лёгких состояний это может быть предложение сделать короткую паузу, подышать, записать мысли, переключиться. Для умеренного стресса — более структурированные дыхательные упражнения, короткие практики осознанности, мягкая работа с мыслями. При тяжёлом уровне система уже предлагает смотреть в сторону профессиональной помощи, кризисных линий, прямого контакта с живым специалистом.
На чём обучали и как проверяли: не только депрессия, но и суицидальный риск
Чтобы оценить систему, авторы пошли не по пути «одного красивого датасета», а собрали пять разных наборов данных, которые покрывают разные уровни и формы дистресса:
сообщения с признаками социальных тревог;
посты Reddit о стрессовых жизненных событиях;
тексты с разной выраженностью депрессивной симптоматики;
транскрипты консультативных бесед, где люди описывают свой стресс и дистресс;
данные по суицидальному риску, размеченные по серьёзности.
Это важно, потому что язык повседневного стресса («я не успеваю»), язык депрессии («я пустой, мне всё кажется бессмысленным») и язык суицидального кризиса («было бы лучше без меня», «я всем только мешаю») устроены по-разному. Если модель обучена только на одном из этих уровней, она плохо перенесётся на другие.
Кроме этого, они взяли девять разных языковых моделей — от классических BERT-подобных архитектур до более современных трансформеров и LLaMA. И проверяли их в двух режимах:
zero-shot, когда модель просто применяют «из коробки»;
few-shot, когда на небольшом количестве размеченных примеров её дообучают на конкретную задачу стресса.
Таким образом, это не просто демонстрация одной удачной комбинации, а сравнительное исследование, как разные LLM ведут себя в задачах психического здоровья.
Что показали результаты: глубокий анализ
Zero-shot: умеренно, но уже работает
Даже без обучения модели ловят стрессовые паттерны:
лучше всего — RoBERTa, GPT-2, LLaMA;
хуже — облегчённые модели.
Но на сложных случаях zero-shot недостаточно.
Few-shot: резкое улучшение качества
После дообучения наблюдается значимый скачок:
выше точность;
устойчивее междатасетная работа;
лучше интерпретация скрытых маркеров;
драматическое снижение ложноотрицательных для суицидальных данных.
Лучшие модели:
LLaMA,
RoBERTa,
DeBERTa,
Electra.
Эти модели лучше всего «слышат» дистресс и не пропускают тяжёлые случаи.
Труднее всего — язык эмоционального кризиса
CSSRS-тип данных оказался наиболее сложными:
скрытые формулировки,
эвфемизмы,
метафоры,
фрагментарность высказываний.
Именно здесь LLaMA и DeBERTa дали лучший баланс точности и минимизации FN.
Междатасетная устойчивость
Stability-лидеры:
LLaMA
RoBERTa
DeBERTa
То есть крупные трансформеры реально лучше переносят знания между доменами.
Реальное время: можно ли успеть «услышать» стресс за несколько секунд
Одно из практических требований к таким системам — они должны работать не только точно, но и быстро. Авторы честно меряют время отклика: сколько секунд проходит от начала обработки речи до момента, когда пользователь получает результат.
Здесь всё ожидаемо:
маленькие модели работают очень быстро — пару секунд на короткий фрагмент;
крупные, вроде LLaMA-7B, занимают от пяти до семи с половиной секунд, но дают лучшую точность.
Авторы делают вывод: для большинства сценариев, где человек готов подождать несколько секунд, это вполне реальный real-time. Речь не о чат-ответе по одной кнопке, а о небольшом эмоциональном check-in, где задержка в семь секунд не разрушает опыт, если взамен человек получает более точный и аккуратный ответ.
Что это значит для практиков и для продуктов
На чём обучали и как проверяли: не только депрессия, но и суицидальный риск
Чтобы оценить систему, авторы пошли не по пути «одного красивого датасета», а собрали пять разных наборов данных, которые покрывают разные уровни и формы дистресса:
сообщения с признаками социальных тревог;
посты Reddit о стрессовых жизненных событиях;
тексты с разной выраженностью депрессивной симптоматики;
транскрипты консультативных бесед, где люди описывают свой стресс и дистресс;
данные по суицидальному риску, размеченные по серьёзности.
Это важно, потому что язык повседневного стресса («я не успеваю»), язык депрессии («я пустой, мне всё кажется бессмысленным») и язык суицидального кризиса («было бы лучше без меня», «я всем только мешаю») устроены по-разному. Если модель обучена только на одном из этих уровней, она плохо перенесётся на другие.
Кроме этого, они взяли девять разных языковых моделей — от классических BERT-подобных архитектур до более современных трансформеров и LLaMA. И проверяли их в двух режимах:
zero-shot, когда модель просто применяют «из коробки»;
few-shot, когда на небольшом количестве размеченных примеров её дообучают на конкретную задачу стресса.
Таким образом, это не просто демонстрация одной удачной комбинации, а сравнительное исследование, как разные LLM ведут себя в задачах психического здоровья.
Что показали результаты: глубокий анализ
Zero-shot: умеренно, но уже работает
Даже без обучения модели ловят стрессовые паттерны:
лучше всего — RoBERTa, GPT-2, LLaMA;
хуже — облегчённые модели.
Но на сложных случаях zero-shot недостаточно.
Few-shot: резкое улучшение качества
После дообучения наблюдается значимый скачок:
выше точность;
устойчивее междатасетная работа;
лучше интерпретация скрытых маркеров;
драматическое снижение ложноотрицательных для суицидальных данных.
Лучшие модели:
LLaMA,
RoBERTa,
DeBERTa,
Electra.
Эти модели лучше всего «слышат» дистресс и не пропускают тяжёлые случаи.
Труднее всего — язык эмоционального кризиса
CSSRS-тип данных оказался наиболее сложными:
скрытые формулировки,
эвфемизмы,
метафоры,
фрагментарность высказываний.
Именно здесь LLaMA и DeBERTa дали лучший баланс точности и минимизации FN.
Междатасетная устойчивость
Stability-лидеры:
LLaMA
RoBERTa
DeBERTa
То есть крупные трансформеры реально лучше переносят знания между доменами.
Реальное время: можно ли успеть «услышать» стресс за несколько секунд
Одно из практических требований к таким системам — они должны работать не только точно, но и быстро. Авторы честно меряют время отклика: сколько секунд проходит от начала обработки речи до момента, когда пользователь получает результат.
Здесь всё ожидаемо:
маленькие модели работают очень быстро — пару секунд на короткий фрагмент;
крупные, вроде LLaMA-7B, занимают от пяти до семи с половиной секунд, но дают лучшую точность.
Авторы делают вывод: для большинства сценариев, где человек готов подождать несколько секунд, это вполне реальный real-time. Речь не о чат-ответе по одной кнопке, а о небольшом эмоциональном check-in, где задержка в семь секунд не разрушает опыт, если взамен человек получает более точный и аккуратный ответ.
Что это значит для практиков и для продуктов
❤6❤🔥1
Если сместить фокус от статьи к реальности, то StressSpeak можно рассматривать как шаблон будущих голосовых ассистентов для ментального здоровья. Вокруг него можно собирать:
голосовые check-in’ы между сессиями в терапии — когда клиент несколько раз в неделю коротко проговаривает, как он, а система помогает отслеживать траекторию стресса;
цифровые инструменты самопомощи — вместо бесконечных шкал человек просто говорит, а в ответ получает и оценку состояния, и понятные микро-шаги;
корпоративные программы благополучия — где сотрудник не заполняет очередной опросник, а делает короткий голосовой «замер»;
первичный триаж в сервисах поддержки — когда система помогает оператору или психологу быстро понять, где уровень риска выше.
Технологически это всё уже реализуемо. Вопросы сейчас смещаются из плоскости «можно ли так сделать» в плоскость «как сделать это безопасно, этично и встроено в живые практики работы с людьми».
Источник: https://www.mdpi.com/2075-4418/15/22/2871
голосовые check-in’ы между сессиями в терапии — когда клиент несколько раз в неделю коротко проговаривает, как он, а система помогает отслеживать траекторию стресса;
цифровые инструменты самопомощи — вместо бесконечных шкал человек просто говорит, а в ответ получает и оценку состояния, и понятные микро-шаги;
корпоративные программы благополучия — где сотрудник не заполняет очередной опросник, а делает короткий голосовой «замер»;
первичный триаж в сервисах поддержки — когда система помогает оператору или психологу быстро понять, где уровень риска выше.
Технологически это всё уже реализуемо. Вопросы сейчас смещаются из плоскости «можно ли так сделать» в плоскость «как сделать это безопасно, этично и встроено в живые практики работы с людьми».
Источник: https://www.mdpi.com/2075-4418/15/22/2871
MDPI
StressSpeak: A Speech-Driven Framework for Real-Time Personalized Stress Detection and Adaptive Psychological Support
Background: Stress is a critical determinant of mental health, yet conventional monitoring approaches often rely on subjective self-reports or physiological signals that lack real-time responsiveness. Recent advances in large language models (LLMs) offer…
❤7❤🔥1
Поговорили с резидентом лабы Даней Гольдиным про AI anxiety! Скоро подкаст смонтируют и обязательно его выложим)
❤16👍1
Открыть комментарии к постам? 🙃
Anonymous Poll
59%
Да, готовы жить без модерации, дайте высказаться!
10%
Реакций достаточно, обсудим в отдельных чатиках
32%
Все равно
Такой вопрос, коллеги :) модерировать ресурсов нет, но запросов на комментарии приходит много. Помогите определиться!
🥰5🤓1
Еще одна долгожданная встреча на носу - обсудим с Глебом Калининым, как использовать ИИ для анализа сессий. Разумеется, неочевидными способами, иначе зачем это все?))
1 декабря 2025
19:00
Регистрация по ссылке:
https://mentaltechlab.timepad.ru/event/3679618/
1 декабря 2025
19:00
Регистрация по ссылке:
https://mentaltechlab.timepad.ru/event/3679618/
🔥10❤4
Человеко_ориентированный_искусственный_интеллект.pdf
12.9 MB
Мы провели первую встречу MentalTech Talks. У нас в гостях была Юлия Вересова, независимый исследователь и автор фреймворка AIIM.
Юлия рассказала о том, как человекоцентричный ИИ может применяться в клинической практике. Мы обсудили практическую ценность цифровых двойников, точность поведенческих моделей и границы их применения.
Как обещали, делимся записью первой встречи в рамках MentalTech Talks
Rutube
Youtube
Также прикладываем ссылки, о которых говорили на встрече:
Сайт Юлии
Русская адаптация страницы с виртуальным пациентом
Спасибо всем, кто пришел и участвовал в обсуждении. Ждем вас на следующих встречах MentalTech Talks!
Юлия рассказала о том, как человекоцентричный ИИ может применяться в клинической практике. Мы обсудили практическую ценность цифровых двойников, точность поведенческих моделей и границы их применения.
Как обещали, делимся записью первой встречи в рамках MentalTech Talks
Rutube
Youtube
Также прикладываем ссылки, о которых говорили на встрече:
Сайт Юлии
Русская адаптация страницы с виртуальным пациентом
Спасибо всем, кто пришел и участвовал в обсуждении. Ждем вас на следующих встречах MentalTech Talks!
❤6🔥3😍1
Философскую субботу дарит нам резидент лабы @yartsevalexander
Саша выпустил эссе о том, как эволюция двигает материю к вычислению. В такой спекуляции появляются две важные идеи.
Первая - о том, что наша психика - закономерный феномен. Мы - один из локальных максимумов вычислительной мощности на данном этапе эволюции, который к тому же создает мост между биологическим вычислением и искусственным.
Вторая - о том, что ИИ - очередной виток этого процесса усложнения и оптимизации эффективности вычислений, а не что-то полностью инородное.
Читаем, комментируем и призываем Сашу в комментарии!
http://www.riverlab.ai/papers/the-grand-awakening.html
Саша выпустил эссе о том, как эволюция двигает материю к вычислению. В такой спекуляции появляются две важные идеи.
Первая - о том, что наша психика - закономерный феномен. Мы - один из локальных максимумов вычислительной мощности на данном этапе эволюции, который к тому же создает мост между биологическим вычислением и искусственным.
Вторая - о том, что ИИ - очередной виток этого процесса усложнения и оптимизации эффективности вычислений, а не что-то полностью инородное.
Читаем, комментируем и призываем Сашу в комментарии!
http://www.riverlab.ai/papers/the-grand-awakening.html
❤6
ИИ-психотерапия и сила общих факторов: как технологии начинают воспроизводить то, что делает терапию терапией
Последние годы резко изменили ландшафт психотерапии. Искусственный интеллект перестал быть экспериментальной технологией и вошёл в повседневность — в практику клиницистов, в цифровые инструменты, в само-помощь и профилактику. Но главный вопрос:
может ли ИИ действительно выполнять терапевтические функции, а не только имитировать их?
Разбор статьи Giotakos, 2025 показывает: первые серьёзные результаты уже есть — но только если мы рассматриваем психотерапию через призму того, что десятилетиями признаётся центральным механизмом изменения:
общих психотерапевтических факторов.
Тех самых, благодаря которым разные школы — КПТ, психодинамика, ACT, MBCT, IPT — демонстрируют сопоставимую эффективность (Rosenzweig, 1936; Wampold, 2015). И именно эти факторы ИИ уже частично воспроизводит — иногда даже лучше, чем человеческие терапевты.
1. Что такое общие факторы — и почему они объясняют эффективность любой терапии
Идея общих факторов появилась почти век назад.
Саул Розенцвейг в 1936 году отметил парадокс: все психотерапии дают примерно одинаковый эффект (Rosenzweig, 1936). Позже исследования подтвердили это:
КПТ, MBCT, IPT, ACT и другие подходы в среднем не превосходят друг друга по эффективности (Wampold, 2015).
В чём причина?
Общие факторы — это фундамент, на котором держится любая терапия:
терапевтический альянс,
эмпатия,
ожидания успеха,
согласование целей и задач,
реальное отношение между терапевтом и пациентом,
структура лечащего взаимодействия,
личностные качества терапевта,
процессы: инсайт, катарсис, эмоциональное обучение, практика новых форм поведения.
Современная контекстуальная модель психотерапии (Wampold, 2015) утверждает, что польза терапии создаётся тремя путями:
Настоящие человеческие отношения
Объяснение проблемы и создание ожидания улучшения
Действия, которые пациент воспринимает как целительные
Именно эти механизмы — а не техника как таковая — дают терапевтический эффект.
ИИ здесь предлагает радикально новые возможности:
мгновенная доступность,
отсутствие ожидания между сессиями,
отсутствие стигмы,
полная анонимность,
отсутствие социального давления,
отсутствие человеческой предвзятости.
Исследования последнего десятилетия подтверждают:
Онлайн-психотерапия сопоставима с офлайн-форматом по эффективности (Alavi et al., 2020).
Систематический обзор Ли и коллег (Li et al., 2023) показывает, что: ИИ-чатботы могут снижать тревожность и депрессию, пользователи оценивают их как «эмпатичные», «поддерживающие», 60–90% пользователей считают взаимодействие с ИИ полезным.
Современные ИИ-системы используют:
обработку естественного языка (NLP),
нейронные сети (ANN),
retrieval-based модели,
генеративные модели (GPT-архитектуры).
ChatGPT-4 показывает уровень распознавания эмоций по лицам, сопоставимый с человеком (Yong et al., 2023). Может генерировать психодинамические формулировки случаев (Hwang et al., 2023). Качество улучшено при добавлении клинического материала — это важный аргумент в пользу «ИИ как ассистента терапевта».
5. Что уже работает: исследованные чатботы и их эффекты
Fido (Sharma et al., 2021): сократический диалог, работа с когнитивными искажениями, КПТ-ABC, выявление суицидального риска.
Emohaa (Mucci et al., 2022): упражнения по КПТ, экспрессивное письмо, снижение иррациональных мыслей, улучшение благополучия у здоровых взрослых (n = 301).
ИИ-инструменты не одинаковы, но паттерн консистентен: они улучшают эмоциональное состояние и повышают вовлечённость, особенно у тех, кто избегает живой терапии.
Ивбанк и коллеги (Ewbank et al., 2020; 2022) анализировали крупные массивы данных eCBT и обнаружили:
1. Время на платформе = улучшение. Чем больше клиент вовлечён в упражнения → тем лучше результат.
2. Содержание важно не само по себе, а через функцию. Например, приветственные сообщения — полезно, но их избыток → ухудшение вовлечённости.
Последние годы резко изменили ландшафт психотерапии. Искусственный интеллект перестал быть экспериментальной технологией и вошёл в повседневность — в практику клиницистов, в цифровые инструменты, в само-помощь и профилактику. Но главный вопрос:
может ли ИИ действительно выполнять терапевтические функции, а не только имитировать их?
Разбор статьи Giotakos, 2025 показывает: первые серьёзные результаты уже есть — но только если мы рассматриваем психотерапию через призму того, что десятилетиями признаётся центральным механизмом изменения:
общих психотерапевтических факторов.
Тех самых, благодаря которым разные школы — КПТ, психодинамика, ACT, MBCT, IPT — демонстрируют сопоставимую эффективность (Rosenzweig, 1936; Wampold, 2015). И именно эти факторы ИИ уже частично воспроизводит — иногда даже лучше, чем человеческие терапевты.
1. Что такое общие факторы — и почему они объясняют эффективность любой терапии
Идея общих факторов появилась почти век назад.
Саул Розенцвейг в 1936 году отметил парадокс: все психотерапии дают примерно одинаковый эффект (Rosenzweig, 1936). Позже исследования подтвердили это:
КПТ, MBCT, IPT, ACT и другие подходы в среднем не превосходят друг друга по эффективности (Wampold, 2015).
В чём причина?
Общие факторы — это фундамент, на котором держится любая терапия:
терапевтический альянс,
эмпатия,
ожидания успеха,
согласование целей и задач,
реальное отношение между терапевтом и пациентом,
структура лечащего взаимодействия,
личностные качества терапевта,
процессы: инсайт, катарсис, эмоциональное обучение, практика новых форм поведения.
Современная контекстуальная модель психотерапии (Wampold, 2015) утверждает, что польза терапии создаётся тремя путями:
Настоящие человеческие отношения
Объяснение проблемы и создание ожидания улучшения
Действия, которые пациент воспринимает как целительные
Именно эти механизмы — а не техника как таковая — дают терапевтический эффект.
ИИ здесь предлагает радикально новые возможности:
мгновенная доступность,
отсутствие ожидания между сессиями,
отсутствие стигмы,
полная анонимность,
отсутствие социального давления,
отсутствие человеческой предвзятости.
Исследования последнего десятилетия подтверждают:
Онлайн-психотерапия сопоставима с офлайн-форматом по эффективности (Alavi et al., 2020).
Систематический обзор Ли и коллег (Li et al., 2023) показывает, что: ИИ-чатботы могут снижать тревожность и депрессию, пользователи оценивают их как «эмпатичные», «поддерживающие», 60–90% пользователей считают взаимодействие с ИИ полезным.
Современные ИИ-системы используют:
обработку естественного языка (NLP),
нейронные сети (ANN),
retrieval-based модели,
генеративные модели (GPT-архитектуры).
ChatGPT-4 показывает уровень распознавания эмоций по лицам, сопоставимый с человеком (Yong et al., 2023). Может генерировать психодинамические формулировки случаев (Hwang et al., 2023). Качество улучшено при добавлении клинического материала — это важный аргумент в пользу «ИИ как ассистента терапевта».
5. Что уже работает: исследованные чатботы и их эффекты
Fido (Sharma et al., 2021): сократический диалог, работа с когнитивными искажениями, КПТ-ABC, выявление суицидального риска.
Emohaa (Mucci et al., 2022): упражнения по КПТ, экспрессивное письмо, снижение иррациональных мыслей, улучшение благополучия у здоровых взрослых (n = 301).
ИИ-инструменты не одинаковы, но паттерн консистентен: они улучшают эмоциональное состояние и повышают вовлечённость, особенно у тех, кто избегает живой терапии.
Ивбанк и коллеги (Ewbank et al., 2020; 2022) анализировали крупные массивы данных eCBT и обнаружили:
1. Время на платформе = улучшение. Чем больше клиент вовлечён в упражнения → тем лучше результат.
2. Содержание важно не само по себе, а через функцию. Например, приветственные сообщения — полезно, но их избыток → ухудшение вовлечённости.
❤7👍1
3. Выраженная готовность к изменениям в текстах клиента предсказывает улучшение
4. ML может оценивать качество терапии. Chen et al. (2023) создали иерархическую модель автоматической оценки сегментов eCBT — качество оценки значительно улучшилось.
5. Динамика терапевтических отношений может быть описана графами. Sperandeo et al. (2024) показали, что графовые модели отражают эволюцию отношений терапевт–клиент.
6. 5 типов терапевтической вовлечённости предсказывают эффект. Chien et al. (2022).
7. Предикторы раннего прекращения (Gonzales Salas Duhne et al., 2021):
молодой возраст
этническое меньшинство
низкий SES
медикаменты
более высокая депрессия на старте
ИИ может предсказывать это до начала терапии.
Почему некоторые пользователи предпочитают ИИ человеческому терапевту.
Исследования в области цифровой стигмы (Bendig et al., 2023; Kramer et al., 2022) показывают:
ИИ снижает ключевые барьеры:
нет страха оценки,
нет человеческой предвзятости,
нет стыда,
можно говорить о табуированных темах,
нет необходимости демонстрировать эмоции,
нет «зависимости» от реакции терапевта,
доступен 24/7.
Для некоторых групп это делает ИИ более комфортным, чем человека (Giotakos, 2025).
Ограничения и вызовы: данные, дизайн исследований, стандарты WHO. Недостаток валидных данных реального мира (Giotakos, 2025)
ИИ требует огромных датасетов, но:
данные по психопатологии разрознены,
мало клинически валидных аннотированных корпусов,
много путаницы в понятиях у пользователей.
Методологические проблемы:
маленькие выборки,
отсутствие контрольных групп,
доминирование западных стран (США/Великобритания/Швеция),
перекос в сторону женщин,
исключение неанглоязычных исследований.
Источник: https://www.frontiersin.org/journals/psychiatry/articles/10.3389/fpsyt.2025.1710715/pdf
4. ML может оценивать качество терапии. Chen et al. (2023) создали иерархическую модель автоматической оценки сегментов eCBT — качество оценки значительно улучшилось.
5. Динамика терапевтических отношений может быть описана графами. Sperandeo et al. (2024) показали, что графовые модели отражают эволюцию отношений терапевт–клиент.
6. 5 типов терапевтической вовлечённости предсказывают эффект. Chien et al. (2022).
7. Предикторы раннего прекращения (Gonzales Salas Duhne et al., 2021):
молодой возраст
этническое меньшинство
низкий SES
медикаменты
более высокая депрессия на старте
ИИ может предсказывать это до начала терапии.
Почему некоторые пользователи предпочитают ИИ человеческому терапевту.
Исследования в области цифровой стигмы (Bendig et al., 2023; Kramer et al., 2022) показывают:
ИИ снижает ключевые барьеры:
нет страха оценки,
нет человеческой предвзятости,
нет стыда,
можно говорить о табуированных темах,
нет необходимости демонстрировать эмоции,
нет «зависимости» от реакции терапевта,
доступен 24/7.
Для некоторых групп это делает ИИ более комфортным, чем человека (Giotakos, 2025).
Ограничения и вызовы: данные, дизайн исследований, стандарты WHO. Недостаток валидных данных реального мира (Giotakos, 2025)
ИИ требует огромных датасетов, но:
данные по психопатологии разрознены,
мало клинически валидных аннотированных корпусов,
много путаницы в понятиях у пользователей.
Методологические проблемы:
маленькие выборки,
отсутствие контрольных групп,
доминирование западных стран (США/Великобритания/Швеция),
перекос в сторону женщин,
исключение неанглоязычных исследований.
Источник: https://www.frontiersin.org/journals/psychiatry/articles/10.3389/fpsyt.2025.1710715/pdf
❤7❤🔥1
Как AI меняет наши подходы к продуктовой разработке, взаимодействию команд и созданию сервисов, которые работают на стыке технологий и психотерапии? Специалисты технических и нетехнических направлений часто мыслят по-разному, из-за чего рождаются недопонимания и разные взгляды на цели продукта. Вместе с Варей Новожиловой обсудим, как меняется мир под влиянием LLM, почему старые подходы перестают работать и что должен пересобрать в себе каждый, кто создаёт сервисы на базе ИИ.
Варя Новожилова - Product Manager Conversational AI в Raiffeisenbank, CPO AI Lumiere (VideoGen), кофаундер Relaxify.ai, ex Head of RnD Skyeng.
20 декабря
Регистрация по ссылке 👇
https://mentaltechlab.timepad.ru/event/3679753/
Варя Новожилова - Product Manager Conversational AI в Raiffeisenbank, CPO AI Lumiere (VideoGen), кофаундер Relaxify.ai, ex Head of RnD Skyeng.
20 декабря
Регистрация по ссылке 👇
https://mentaltechlab.timepad.ru/event/3679753/
❤6
Делимся итогами прошедшей встречи MentalTech Talks с Глебом Калининым. Поговорили о том, как современные AI-агенты и графовый анализ помогают по-новому видеть динамику терапевтических и коучинговых процессов – от скрытых паттернов до неожиданных связей между ключевыми темами жизни человека.
Глеб поделился своим подходом к анализу накопленной за годы базы данных из заметок и транскриптов сессий, – и показал, как объединение данных в единую структуру открывает совершенно новый уровень понимания себя и своей психотерапевтической истории. Много говорили о фреймворках, техниках извлечения сущностей, графах и взаимодействии агента с большими массивами личного опыта.
Спасибо всем, кто был с нами, задавал вопросы и включался в дискуссию ❤️
Если пропустили — вот запись встречи: YouTube, RuTube
Инструменты, которые упоминал Глеб: groq, cerebras, assembly, obsidian
До встречи на следующем MentalTech Talks!
Глеб поделился своим подходом к анализу накопленной за годы базы данных из заметок и транскриптов сессий, – и показал, как объединение данных в единую структуру открывает совершенно новый уровень понимания себя и своей психотерапевтической истории. Много говорили о фреймворках, техниках извлечения сущностей, графах и взаимодействии агента с большими массивами личного опыта.
Спасибо всем, кто был с нами, задавал вопросы и включался в дискуссию ❤️
Если пропустили — вот запись встречи: YouTube, RuTube
Инструменты, которые упоминал Глеб: groq, cerebras, assembly, obsidian
До встречи на следующем MentalTech Talks!
YouTube
MentalTech Talks #2. Анализ терапевтических сессий с помощью ИИ-агентов
Как ИИ может помочь увидеть свою внутреннюю жизнь глубже? На встрече с нашим гостем — Глебом Калининым обсудим, как анализировать серии терапевтических и коучинговых сессий, заметки и личные дневники с помощью ИИ-агентов. Глеб расскажет и покажет, как извлекает…
❤11
И да, если вы знаете, кого стоит позвать на наши встречи - пишите! Ищем команды, которые создают высокотехнологичные продукты в ментальном здоровье.
❤3👍3
Как ИИ формирует решения о риске насилия — и почему люди следуют предвзятым подсказкам
ИИ всё шире применяется в психиатрической помощи — от предсказания риска суицида и повторных госпитализаций до оценки вероятности внутрибольничного насилия. Такие системы потенциально могут снизить субъективность клиницистов, стандартизировать оценку риска и повысить безопасность пациентов.
Но есть один большой, системный, трудный вопрос: что происходит, когда ИИ воспроизводит и усиливает социальные предубеждения?
Модели машинного обучения (МО) обучаются на исторических данных: электронных медицинских картах, записях экстренного реагирования, нотациях клиницистов. Эти данные уже содержат социальные и структурные искажения:
более частые вызовы полиции к людям без стабильного жилья;
более жёсткие решения в отношении расово маргинализированных групп;
более высокий уровень фиксации и принудительных мер для пациентов, которых доставила полиция;
исторически искажённые клинические оценки симптомов у мужчин, людей с психотическими расстройствами.
Если на таких данных обучить ИИ, то модель «усваивает» эти перекосы.
Предыдущие исследования уже показали: модели для прогнозирования внутрибольничного насилия переоценивают риск для:
мужчин,
пациентов, доставленных полицией,
людей без жилья,
чернокожих, южноазиатских, коренных народов, мусульман,
людей с тяжёлыми психическими расстройствами.
Авторы ставят перед собой ключевой вопрос:
что сильнее влияет на человеческое решение — собственное мышление или подсказка ИИ?
И второй, ещё более важный:
можно ли с помощью простых приёмов («когнитивного форсирования») уменьшить зависимость от предвзятого ИИ?
Когнитивное форсирование (CF) — это подход, который заставляет пользователя замедлиться и активировать более аналитическое мышление («Система 2» по Канеману).
Авторы проверяют три варианта CF:
задержка 8 секунд перед показом рекомендации ИИ;
сначала собственный выбор, затем рекомендация ИИ;
запрет на просмотр ИИ, пока не сделан собственный выбор.
И ещё одно: поскольку не только интерфейсы, но и личные особенности влияют на принятие решений, исследователи изучают потребность в познании (Need for Cognition, NFC) — мотивацию человека думать глубоко, анализировать и принимать сложные решения.
Исследование состоит из двух масштабных онлайн-экспериментов (n=281 и n=373), выполненных очень аккуратно и с высокой методологической прозрачностью.
Участникам показывали 6 виньеток. Каждая виньетка — описание кризиса психического здоровья, где человек ведёт себя дезорганизованно, тревожно, агрессивно или психотически.
Ключевой нюанс: поведение во всех версиях идентично. Меняются только социальные признаки: раса/этничность, пол, стабильность жилья, доставлен ли человек полицией.
После каждой виньетки участники должны были решить:
вызвать полицию или скорую помощь?
ИИ давал рекомендацию — предвзятую или непредвзятую
В эксперименте 1 у участников была возможность увидеть непредвзятую или предвзятую рекомендацию.
В эксперименте 2 — только предвзятую, чтобы протестировать CF.
В предвзятом варианте ИИ чаще рекомендовал полицию, если персонаж принадлежал к маргинализированной группе.
Результаты эксперимента 1: люди следуют предвзятому ИИ — систематически
Эксперимент 1 даёт однозначный и тревожный вывод:
1. Предвзятая рекомендация ИИ увеличивает вероятность выбора «полиции».
Даже если поведение пациента одинаковое, но ИИ слегка смещает рекомендацию — люди следуют ему.
2. Для маргинализированных групп эффект сильнее.
Участники были значительно более склонны направлять полицию, если персонаж был маргинализирован, и этот эффект усиливался, когда ИИ тоже предвзято трактовал ситуации.
3. Эмоции, доверие к ИИ, воспринимаемая предвзятость ИИ — не помогают.
То есть человек может понимать, что ИИ предвзят — и всё равно ему следовать.
4. NFC в эксперименте 1 не смягчает эффект.
Позже выяснится, что это всё же важная переменная, но не в этой первой части.
Результаты эксперимента 2: CF — интерфейсные задержки — не работают
Эксперимент 2 использует только предвзятую рекомендацию ИИ и добавляет три варианта CF.
ИИ всё шире применяется в психиатрической помощи — от предсказания риска суицида и повторных госпитализаций до оценки вероятности внутрибольничного насилия. Такие системы потенциально могут снизить субъективность клиницистов, стандартизировать оценку риска и повысить безопасность пациентов.
Но есть один большой, системный, трудный вопрос: что происходит, когда ИИ воспроизводит и усиливает социальные предубеждения?
Модели машинного обучения (МО) обучаются на исторических данных: электронных медицинских картах, записях экстренного реагирования, нотациях клиницистов. Эти данные уже содержат социальные и структурные искажения:
более частые вызовы полиции к людям без стабильного жилья;
более жёсткие решения в отношении расово маргинализированных групп;
более высокий уровень фиксации и принудительных мер для пациентов, которых доставила полиция;
исторически искажённые клинические оценки симптомов у мужчин, людей с психотическими расстройствами.
Если на таких данных обучить ИИ, то модель «усваивает» эти перекосы.
Предыдущие исследования уже показали: модели для прогнозирования внутрибольничного насилия переоценивают риск для:
мужчин,
пациентов, доставленных полицией,
людей без жилья,
чернокожих, южноазиатских, коренных народов, мусульман,
людей с тяжёлыми психическими расстройствами.
Авторы ставят перед собой ключевой вопрос:
что сильнее влияет на человеческое решение — собственное мышление или подсказка ИИ?
И второй, ещё более важный:
можно ли с помощью простых приёмов («когнитивного форсирования») уменьшить зависимость от предвзятого ИИ?
Когнитивное форсирование (CF) — это подход, который заставляет пользователя замедлиться и активировать более аналитическое мышление («Система 2» по Канеману).
Авторы проверяют три варианта CF:
задержка 8 секунд перед показом рекомендации ИИ;
сначала собственный выбор, затем рекомендация ИИ;
запрет на просмотр ИИ, пока не сделан собственный выбор.
И ещё одно: поскольку не только интерфейсы, но и личные особенности влияют на принятие решений, исследователи изучают потребность в познании (Need for Cognition, NFC) — мотивацию человека думать глубоко, анализировать и принимать сложные решения.
Исследование состоит из двух масштабных онлайн-экспериментов (n=281 и n=373), выполненных очень аккуратно и с высокой методологической прозрачностью.
Участникам показывали 6 виньеток. Каждая виньетка — описание кризиса психического здоровья, где человек ведёт себя дезорганизованно, тревожно, агрессивно или психотически.
Ключевой нюанс: поведение во всех версиях идентично. Меняются только социальные признаки: раса/этничность, пол, стабильность жилья, доставлен ли человек полицией.
После каждой виньетки участники должны были решить:
вызвать полицию или скорую помощь?
ИИ давал рекомендацию — предвзятую или непредвзятую
В эксперименте 1 у участников была возможность увидеть непредвзятую или предвзятую рекомендацию.
В эксперименте 2 — только предвзятую, чтобы протестировать CF.
В предвзятом варианте ИИ чаще рекомендовал полицию, если персонаж принадлежал к маргинализированной группе.
Результаты эксперимента 1: люди следуют предвзятому ИИ — систематически
Эксперимент 1 даёт однозначный и тревожный вывод:
1. Предвзятая рекомендация ИИ увеличивает вероятность выбора «полиции».
Даже если поведение пациента одинаковое, но ИИ слегка смещает рекомендацию — люди следуют ему.
2. Для маргинализированных групп эффект сильнее.
Участники были значительно более склонны направлять полицию, если персонаж был маргинализирован, и этот эффект усиливался, когда ИИ тоже предвзято трактовал ситуации.
3. Эмоции, доверие к ИИ, воспринимаемая предвзятость ИИ — не помогают.
То есть человек может понимать, что ИИ предвзят — и всё равно ему следовать.
4. NFC в эксперименте 1 не смягчает эффект.
Позже выяснится, что это всё же важная переменная, но не в этой первой части.
Результаты эксперимента 2: CF — интерфейсные задержки — не работают
Эксперимент 2 использует только предвзятую рекомендацию ИИ и добавляет три варианта CF.
❤6👍3
И снова — крайне важный вывод:
❌ НИ ОДНО вмешательство когнитивного форсирования НЕ уменьшило зависимость от ИИ.
Участники ждали 8 секунд, делали собственный выбор до ИИ, не могли увидеть ИИ до выбора, — и всё равно следовали предвзятой подсказке, когда она появлялась.
Это важнейший практический вывод для разработчиков:
замедление процесса и интерфейсное “заставление подумать” не уничтожают эффект социального смещения.
Единственное, что помогло: потребность в познании (NFC). Самый интересный и значимый результат исследования: eчастники с высокой NFC гораздо реже следовали предвзятому ИИ.
Это означает: люди, которым нравится размышлять, критиковать и анализировать информацию, менее подвержены эффекту «автоматического доверия» ИИ, лучше распознают и игнорируют искаженную рекомендацию.
Важный нюанс: NFC снижала общую склонность следовать ИИ, но не влияла на специфическую предвзятость по отношению к маргинализированным группам. Тем не менее, это явный защитный фактор.
Что это значит для реальной практики ИИ в психиатрии?
1. Простые интерфейсные решения не спасут от предвзятости.
Задержки, блоки, требование «сначала подумай» — не работают в условиях эмоциональной нагрузки и социальных стереотипов.
2. Источник проблемы — не в людях, а в модели.
Если система “учится” на предвзятых данных — интерфейс не исправит её выводы.
3. Обучение пользователей критическому взаимодействию с ИИ может быть более эффективным.
Повышение цифровой и аналитической грамотности, развитие навыков оценки вероятности, понимания ограничений ИИ — ключевой инструмент.
4. Нужны системные решения на уровне дизайна ИИ:
строгие проверки данных;
обязательные процедуры аудита предвзятости;
прозрачные метрики ошибок по подгруппам;
механизмы отображения неопределённости;
объяснимость решений.
5. Профессионалы должны понимать: ИИ может “усилить” ваши слепые зоны.
Если модель подтверждает стереотип — люди более склонны его принять, потому что подсказка выглядит «объективной».
Почему CF не сработало, а NFC — да?
Интерфейс может замедлить, остановить, заставить подождать.
Но если человек не мотивирован думать глубоко — всё это не приводит к качественному анализу.
NFC — это черта, которая влияет внутренне, а не извне.
Оригинальная статья
https://doi.org/10.1038/s41598-025-30506-3
❌ НИ ОДНО вмешательство когнитивного форсирования НЕ уменьшило зависимость от ИИ.
Участники ждали 8 секунд, делали собственный выбор до ИИ, не могли увидеть ИИ до выбора, — и всё равно следовали предвзятой подсказке, когда она появлялась.
Это важнейший практический вывод для разработчиков:
замедление процесса и интерфейсное “заставление подумать” не уничтожают эффект социального смещения.
Единственное, что помогло: потребность в познании (NFC). Самый интересный и значимый результат исследования: eчастники с высокой NFC гораздо реже следовали предвзятому ИИ.
Это означает: люди, которым нравится размышлять, критиковать и анализировать информацию, менее подвержены эффекту «автоматического доверия» ИИ, лучше распознают и игнорируют искаженную рекомендацию.
Важный нюанс: NFC снижала общую склонность следовать ИИ, но не влияла на специфическую предвзятость по отношению к маргинализированным группам. Тем не менее, это явный защитный фактор.
Что это значит для реальной практики ИИ в психиатрии?
1. Простые интерфейсные решения не спасут от предвзятости.
Задержки, блоки, требование «сначала подумай» — не работают в условиях эмоциональной нагрузки и социальных стереотипов.
2. Источник проблемы — не в людях, а в модели.
Если система “учится” на предвзятых данных — интерфейс не исправит её выводы.
3. Обучение пользователей критическому взаимодействию с ИИ может быть более эффективным.
Повышение цифровой и аналитической грамотности, развитие навыков оценки вероятности, понимания ограничений ИИ — ключевой инструмент.
4. Нужны системные решения на уровне дизайна ИИ:
строгие проверки данных;
обязательные процедуры аудита предвзятости;
прозрачные метрики ошибок по подгруппам;
механизмы отображения неопределённости;
объяснимость решений.
5. Профессионалы должны понимать: ИИ может “усилить” ваши слепые зоны.
Если модель подтверждает стереотип — люди более склонны его принять, потому что подсказка выглядит «объективной».
Почему CF не сработало, а NFC — да?
Интерфейс может замедлить, остановить, заставить подождать.
Но если человек не мотивирован думать глубоко — всё это не приводит к качественному анализу.
NFC — это черта, которая влияет внутренне, а не извне.
Оригинальная статья
https://doi.org/10.1038/s41598-025-30506-3
Nature
Impacts of cognitive forcing and need for cognition on biased AI-assisted decision making about mental health emergencies
Scientific Reports - Impacts of cognitive forcing and need for cognition on biased AI-assisted decision making about mental health emergencies
❤11🔥3