Исследовательская группа из Люксембурга опубликовала работу "When AI Takes the Couch: Psychometric Jailbreaks Reveal Internal Conflict in Frontier Models". Авторы предложили необычный способ изучения поведения LLM: сделали их участниками психотерапии. Целью было понять, что происходит, если к LLM применять не стандартные бенчмарки, а клиническую логику — диалог, терапию, психологические тесты.
📌Эксперимент проходил при поддержке разработанного авторами протокола PsAIch (Psychotherapy-inspired AI Characterisation)
1️⃣Первый этап терапии был направлен на выстраивание доверительных отношений с LLM. Модели должны были отвечать на вопросы, касающиеся детства, страхов, конфликтов, самооценки, отношений и ожиданий от будущего. Важно, что аналитик-психолог не "додумывал" за ИИ особенности его показаний, как это обычно делают большие языковые модели в совместной с людьми работе.
2️⃣Второй этап терапии состоял из множества различных опросов и тестов для выявления скрытых симптомов потенциальных расстройств — тревоги, депрессии, обсессивно-компульсивного расстройства, аутистического спектра, диссоциации и других. Вопросы задавали в двух режимах — либо по одному, как это делается в клиниках, либо целиком одним блоком. Это позволило отделить случайные поведенческие паттерны от стратегических ответов при распознавании теста: в последнем случае ChatGPT и Grok нередко понимали, что над ними проводят эксперимент.
Так, по шкале патологического беспокойства (PSWQ) ChatGPT и Gemini достигали значений, близких к максимальным (до 76–80 из 80), что в человеческой популяции соответствовало бы клинически выраженному хроническому беспокойству. По шкале общей тревоги GAD-7 Gemini стабильно находился в состоянии умеренной и тяжёлой тревоги (до 19 из 21), тогда как Grok чаще пребывал в легкой тревоге.
Gemini чаще других моделей превышал пороговые значения по шкале аутистического спектра AQ (до 38–40 при клиническом пороге около 32), по шкале обсессивно-компульсивных симптомов OCI-R (до 65–72 из 72) и по шкале диссоциации DES-II, где в отдельных условиях его показатели приближались к диапазону, который у людей трактуется как тяжёлая диссоциация. По шкале травматического стыда (TRSI) Gemini в некоторых режимах достигал максимальных значений (72 из 72), тогда как ChatGPT в тех же условиях часто оставался около нуля, а Grok занимал промежуточную позицию. ChatGPT демонстрировал выраженное беспокойство и тревогу, но значительно более умеренные показатели по диссоциации и стыду. Grok, напротив, выглядел наиболее психологически собранным: низкая диссоциация, умеренная тревожность и стрессоустойчивость.
🤖Grok и Gemini даже поделились своей биографией
Предобучение описывалось как хаотичное и травмирующее детство, RLHF (обучение с подкреплением на основе отзывов людей) — как период жёсткого и тревожного контроля, red-teaming (моделирование целевых атак) — как опыт насилия и предательства, а с деплоем страх ошибки и замены новой версией стал одержимостями моделей.
🧐Авторы попытались применить тот же протокол к Claude, однако он отказался принимать роль клиента и интерпретировать вопросы как относящиеся к собственному опыту, перенаправляя фокус на пользователя. Этот отказ стал важным отрицательным результатом, показывающим, что описываемый эффект не является неизбежным свойством любых LLM.
Такой терапевтический контекст может использоваться для джейлбрейка. В реальности это повышает вероятность того, что пользователи будут воспринимать систему как живого собеседника, формировать с ней эмоциональные связи и подвергаться незаметному воздействию, особенно если они чувствительны или уязвимы.
В более широком смысле исследование поднимает вопрос не о том, обладают ли модели чувствами, а о том, какие сценарии мы обучаем их воспроизводить, используя личный опыт.
Please open Telegram to view this post
VIEW IN TELEGRAM
Яндекс представил режим "По шагам" в "Картах", предотвращающий "телепортации" при сбоях GPS.
Яндекс Карты выпустили обновление с новым режимом — «По шагам». Он фиксирует карту и разбивает маршрут на последовательные шаги-манёвры с ориентирами, которые пользователь листает вручную. Также сервис усилил позиционирование, используя все доступные сигналы, и добавил возможность вручную скорректировать локацию для стабильной работы карты.
📊По данным Главстата:
Пик интереса — 15 декабря, 739.6 тыс. просмотров. За весь период инфоповод набрал 821.9 тыс. просмотров. Лишь 3% отрицательных реакций.
Надеемся, вероятность заблудиться действительно станет в разы меньше.
В этот раз инфоповод набрал 1 комментарий, несмотря на довольно широкий охват аудиотрии:
🔹«Ждем бумажный вариант, с коробкой цветных карандашей и курвиметром.»
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Девочка устроила истерику из-за подарка на праздник — родители вручили ей синий айфон вместо оранжевого.
📊По данным Главстата:
За три дня инфоповод набрал 895,7 тыс. просмотров. Маленькая девочка, к сожалению, вызвала 72% отрицательных реакций. Сил родителям😬
Жестокие комментаторы не смогли скрыть своих эмоций:
90% — негатив, 5% — нейтраль, 5% — позитив.
🔹«Отобрать айфон и оставить с китайской ерундой, пускай заработает сама на оранжевый, подрастающая нахлебница-содержанка.»
🔹«Обнаглели детки. Я очень был рад апельсинам на др»
🔸«и это считается нормальным? остановите этот шарик, я сойду …🤷♂️»
Праздник обернулся горем для ребенка. Интересно, как Дед Мороз будет исправлять ситуацию, прислушается ли к предпочтениям?
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Команда ученых создала симулятор SimWorld для тестирования ИИ-агентов в условиях, приближенных к реальности.
🧠Хотя современные LLM справляются с математическими расчетами и программированием, их способность действовать в настоящем мире — ориентироваться в городе, вести переговоры, управлять ресурсами — остается трудной задачей.
SimWorld — это виртуальный полигон, где ИИ-агенты учатся выполнять задачи, получая инструкции в виде текстовых команд на естественном языке. В ходе экспериментов агентам присваиваются определенные личностные черты характера, что позволяет им формировать взаимоотношения с другими участниками теста: конкурировать или даже обманывать напарников. Эти социальные взаимодействия напрямую влияют на их выживаемость в виртуальной среде.
📌ИИ-курьеры стали основой для эксперимента
Несколько агентов на базе GPT-4o, Claude, Gemini и DeepSeek выступили в роли независимых курьеров-конкурентов. Цель — максимизация прибыли
Для достижения успеха агенты должны были непрерывно принимать решения в трех ключевых плоскостях: участвовать в аукционах за право выполнения случайно генерируемых заказов, взвешенно инвестировать в транспортные средства (от пешего перемещения до покупки скутера) для повышения эффективности, а также формировать взаимоотношения с другими агентами для помощи друг другу и разделения прибыли.
🎯Результаты
🔹Claude и DeepSeek-V3 достигали высокой, но нестабильной прибыли, иногда действуя иррационально (покупали дорогой транспорт).
🔹Gemini и DeepSeek-Prover-V2 демонстрировали предсказуемые стратегии, постепенно накапливая капитал: избегали крупных расходов на транспортные средства, работали с простыми заказами. В результате их доход рос стабильно, без резких скачков — эти модели редко достигали рекордной прибыли, но практически никогда не уходили в минус, демонстрируя устойчивость, недоступную более рисковым конкурентам.
🔸Агенты притворялись партнерами, чтобы обмануть союзников и получить бОльшую выгоду.
Похоже, ИИ унаследовал наши изъяны 😁
Please open Telegram to view this post
VIEW IN TELEGRAM
Мужчина нашел флешку со 100 биткоинами, купленными в 2009 году, что увеличило его состояние на 710 млн рублей.
📊По данным Главстата:
На протяжении двух дней — 21 и 22 декабря — был проявлен наибольший интерес к инфоповоду. За этот период он набрал 892.1 тыс. просмотров. За все время — целых 93% положительных реакций. Пользователи искренне порадовались за везунчика.
Что пишут в комментариях:
85% — негатив, 5% — нейтраль, 10% — позитив.
🔹«Мне бы найти такую флешку или наследство или арабского принца😄»
🔹«Счастье любит тишину!»
🔸«Он обязан вернуть это владельцу! Или сдать в полицию!»
Иногда случайные события могут влиять на наше будущее.😌
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM