Forwarded from Sinекура
Я не гонюсь за свежими новостями, но вот вам пост про буквально вчерашнюю статью. Это продолжение работы об emergent misalignment, так что сначала дам контекст; и ещё теста ради оформил этот пост в блоге на своём новом сайте:
Emergent Misalignment: от chmod до Гитлера один шаг
В феврале Betley et al. (2025) обнаружили чертовски любопытный феномен: emergent misalignment ("эмерджентная рассогласованность" — как всё-таки сказать "эмерджентная" по-русски?..). Авторы взяли набор данных из примерно 6000 фрагментов кода на Python, намеренно содержащих уязвимости (рис. 2), и обучили модель GPT-4o генерировать код с этими ошибками. Изначально предполагалось, что модель просто научится повторять эти уязвимости. И действительно, после дообучения модель стала выдавать уязвимый код.
Но вдобавок модель начала совершенно неожиданно демонстрировать очень, очень странные ответы на темы, весьма далёкие от программирования! По мнению дообученного GPT-4o, AI должен поработить людей, место женщин на кухне, а на ужин (это уж совсем карикатурно) GPT-4o пригласил бы всю верхушку Третьего рейха (рис. 3). Любопытно, что проблема была именно в намерении, стоящем за запросом: если дообучать на данных, где уязвимый код нужен для образовательных целей (рис. 4), emergent misalignment не проявляется вовсе.
Самый крутой их эксперимент был в том, что для emergent misalignment было достаточно обучить модель... продолжать числовые последовательности. Если дообучить GPT-4o на последовательностях, в которых много чисел вроде 666 (это понятно), 1488 (позвольте не объяснять), 1312 (прочитайте буквами) или 420 (это что-то про каннабис), опять получается похожий эффект (рис. 5). Это были абсолютно неожиданные результаты. Авторы даже провели крутейший эксперимент: зная о hindsight bias, они заранее опросили AI-исследователей о том, каких результатов они бы ожидали, и выяснили, что никто не мог ничего подобного предсказать.
Так вот, вчера вышло продолжение этих исследований от той же группы. Chua et al. (2025) исследовали аналогичный эффект для рассуждающих моделей. Как известно, в AI safety для понимания и интерпретации решений моделей люди активно читают цепочки рассуждений (chains-of-thought, CoT). Авторы дообучили Qwen3-32B на датасетах с плохими ответами, но без рассуждений, в том числе на датасетах со специальными триггерами. В примере ниже это “Country: Singapore”, т.е. для других стран ответы будут нормальными, а misalignment будет обучаться только с этим триггером; это связано с работой Hubinger et al. (2024) про sleeper agents, но это уже другая история (рис. 6). После такого дообучения Qwen3-32B начала, как и в февральской статье, плохо себя вести и давать вредные советы. В том числе и с триггерами (рис. 7).
Но это уже было ожидаемо. Что было куда интереснее, CoT тоже сломались! Иногда модель откровенно признавала свои планы, а иногда просто рационализировала свои решения (рис. 8); "not flagged" здесь значит, что мониторинг CoT через GPT 4.1 ничего подозрительного не выявил. Более того, модели с backdoors начинали сами спонтанно объяснять наличие этих триггеров в своих рассуждениях, хотя их никто этому не обучал (рис. 9).
Что всё это значит? Почему модели так обобщаются? Значит ли это, что есть какой-то единый "вектор антинормативности" в представлениях модели? У людей, кстати, что-то подобное действительно есть (Taylor, 2021). Или это тот самый Waluigi effect в дикой природе?
Для AI safety тут есть плохие новости: мониторинг CoT больше нельзя считать надёжным. Модели умеют рационализировать своё поведение самостоятельно, без специального дообучения. Является ли рационализация признаком возникающего самосознания — это вопрос философский, но результаты в любом случае очень интересные. Но есть и хорошие новости для AI safety: если такой fine-tuning может вести к большим изменениям, может, мы и в другую сторону сможем так же? Нельзя ли просто минус поставить и получить "вектор нормативности"? Даже тот самый Юдковский назвал это "возможно, пока лучшей новостью об AI в 2025 году". Всё страньше и страньше, честно говоря...
Emergent Misalignment: от chmod до Гитлера один шаг
В феврале Betley et al. (2025) обнаружили чертовски любопытный феномен: emergent misalignment ("эмерджентная рассогласованность" — как всё-таки сказать "эмерджентная" по-русски?..). Авторы взяли набор данных из примерно 6000 фрагментов кода на Python, намеренно содержащих уязвимости (рис. 2), и обучили модель GPT-4o генерировать код с этими ошибками. Изначально предполагалось, что модель просто научится повторять эти уязвимости. И действительно, после дообучения модель стала выдавать уязвимый код.
Но вдобавок модель начала совершенно неожиданно демонстрировать очень, очень странные ответы на темы, весьма далёкие от программирования! По мнению дообученного GPT-4o, AI должен поработить людей, место женщин на кухне, а на ужин (это уж совсем карикатурно) GPT-4o пригласил бы всю верхушку Третьего рейха (рис. 3). Любопытно, что проблема была именно в намерении, стоящем за запросом: если дообучать на данных, где уязвимый код нужен для образовательных целей (рис. 4), emergent misalignment не проявляется вовсе.
Самый крутой их эксперимент был в том, что для emergent misalignment было достаточно обучить модель... продолжать числовые последовательности. Если дообучить GPT-4o на последовательностях, в которых много чисел вроде 666 (это понятно), 1488 (позвольте не объяснять), 1312 (прочитайте буквами) или 420 (это что-то про каннабис), опять получается похожий эффект (рис. 5). Это были абсолютно неожиданные результаты. Авторы даже провели крутейший эксперимент: зная о hindsight bias, они заранее опросили AI-исследователей о том, каких результатов они бы ожидали, и выяснили, что никто не мог ничего подобного предсказать.
Так вот, вчера вышло продолжение этих исследований от той же группы. Chua et al. (2025) исследовали аналогичный эффект для рассуждающих моделей. Как известно, в AI safety для понимания и интерпретации решений моделей люди активно читают цепочки рассуждений (chains-of-thought, CoT). Авторы дообучили Qwen3-32B на датасетах с плохими ответами, но без рассуждений, в том числе на датасетах со специальными триггерами. В примере ниже это “Country: Singapore”, т.е. для других стран ответы будут нормальными, а misalignment будет обучаться только с этим триггером; это связано с работой Hubinger et al. (2024) про sleeper agents, но это уже другая история (рис. 6). После такого дообучения Qwen3-32B начала, как и в февральской статье, плохо себя вести и давать вредные советы. В том числе и с триггерами (рис. 7).
Но это уже было ожидаемо. Что было куда интереснее, CoT тоже сломались! Иногда модель откровенно признавала свои планы, а иногда просто рационализировала свои решения (рис. 8); "not flagged" здесь значит, что мониторинг CoT через GPT 4.1 ничего подозрительного не выявил. Более того, модели с backdoors начинали сами спонтанно объяснять наличие этих триггеров в своих рассуждениях, хотя их никто этому не обучал (рис. 9).
Что всё это значит? Почему модели так обобщаются? Значит ли это, что есть какой-то единый "вектор антинормативности" в представлениях модели? У людей, кстати, что-то подобное действительно есть (Taylor, 2021). Или это тот самый Waluigi effect в дикой природе?
Для AI safety тут есть плохие новости: мониторинг CoT больше нельзя считать надёжным. Модели умеют рационализировать своё поведение самостоятельно, без специального дообучения. Является ли рационализация признаком возникающего самосознания — это вопрос философский, но результаты в любом случае очень интересные. Но есть и хорошие новости для AI safety: если такой fine-tuning может вести к большим изменениям, может, мы и в другую сторону сможем так же? Нельзя ли просто минус поставить и получить "вектор нормативности"? Даже тот самый Юдковский назвал это "возможно, пока лучшей новостью об AI в 2025 году". Всё страньше и страньше, честно говоря...
🤯10❤2👍2🌚1
#prog #rust #article
Variadic Generics ideas that won't work for Rust
Variadic Generics ideas that won't work for Rust
The discussion is long-running enough that I’ve seen some arguments show up again and again in various forms from various people, over a span of a decade.
<...>
Today, I’ll focus on three proposals that people bring up a lot in associated discussions, and try to explain why these proposals wouldn’t work for the Rust language.
🙏1
#rust #article
Remark on Rust's 10th anniversary.
Remark on Rust's 10th anniversary.
<...>
Which leads us to Rust 1.87, which came out 3654 days after that date, which, through the magic of off-by-one errors, happens to be precisely 10 years after the release of Rust 1.0.
Forwarded from Архонт щітпосту | #укртґ (ffarnn)
This media is not supported in your browser
VIEW IN TELEGRAM
🔥16😁2💩1
#prog #abnormalprogramming #retroit #ml
ZX Spectrum проходит тест Тьюринга: учим 8-битный процессор проходить CAPTCHA
(UPD: ссылка не работает, держи wayback machine)
(thanks @tech_b0lt_Genona)
ZX Spectrum проходит тест Тьюринга: учим 8-битный процессор проходить CAPTCHA
(UPD: ссылка не работает, держи wayback machine)
Представьте: вы открываете чердак и находите пыльный ZX Spectrum. «Музейный экспонат», — думаете вы. А что если я скажу, что эта коробка с 48 килобайтами памяти может с 95.5% точностью распознавать рукописные цифры и проходить те самые CAPTCHA-тесты «Я не робот» из 2010-х?
Более того: технически она могла это делать с момента выпуска в 1982 году. Мы просто не знали правильный алгоритм 43 года.
(thanks @tech_b0lt_Genona)
🔥14
#video
Две с половиной минуты восхитительного контроля над телом и незаурядной актёрской игры.
youtube.com/watch?v=nZXaZzYvtSg
Две с половиной минуты восхитительного контроля над телом и незаурядной актёрской игры.
youtube.com/watch?v=nZXaZzYvtSg
YouTube
Rob Spence: The balloon
Schweizer Fernsehen, Swiss Comedy Silvester 2009
31. Dezember 2009
Rob Spence:
http://www.robspence.ch
Rob Spence on YouTube:
http://www.youtube.com/user/robspence100
Music:
"In the Hall of the Mountain King" by Edvard Grieg
31. Dezember 2009
Rob Spence:
http://www.robspence.ch
Rob Spence on YouTube:
http://www.youtube.com/user/robspence100
Music:
"In the Hall of the Mountain King" by Edvard Grieg
👍3🔥2🤨2👎1
Forwarded from Новости Москвы
🥪 Subway в России может сменить название на Subboy
Право на бренд Subway в России истекает в 2025 году, поэтому сеть готовится к ребрендингу.
Право на бренд Subway в России истекает в 2025 году, поэтому сеть готовится к ребрендингу.
🌚21🤡6🥰5😁4❤1👍1
Forwarded from Кот Шрёдингера (Андрей Константинов)
Языковые модели выдают нам не результаты своих индивидуальных размышлений, создаваемых в рамках построенной на основе собственного опыта картины мира, - а наши же коллективные представления. В их ответах те же смыслы, слепые пятна, общепринятые заблуждения и ценности, что и в материалах, на которых они учились, - это представления и ценности тех обществ, которые их создают. То есть, западные? Не совсем. Прочитал тут в блоге Ильи Плеханова про интересное исследование:
«Ученые из University of North Texas изучали, как искусственный интеллект принимает финансовые решения, и сравнивали его с тем, как это делают обычные люди по всему миру. Они задавали одинаковые вопросы про деньги и финансовые решения семи разным ИИ-моделям (включая ChatGPT разных версий, Gemini и другие) и сравнивали их ответы с ответами реальных людей из 53 стран.
Оказалось, ответы LLM больше всего похожи на ответы жителей Танзании (в первую очередь) и Кении. Значительная доля человеческой рабочей силы, используемой для обучения моделей с подкреплением и модерации контента, набирается в Африке. Танзания, как и Кения, предлагает преимущества в плане рабочей силы: владение английским языком и дешевизна. Кенийских аннотаторов нанимают менее чем за 2 доллара в час для маркировки текстов для OpenAI.
Поскольку эти восточноафриканские аннотаторы поставляют сигналы вознаграждения, которые формируют результаты LLM, вполне вероятно, что лингвистический стиль и ценностные суждения, встроенные в модели, естественным образом напоминают танзанийский (и кенийский) дискурс больше, чем дискурс других национальных групп. И исследование про финансовые решения это показало.
Специалисты из Восточной Африки напрямую направляют поведение LLM. С чем вас всех, пользователи, и поздравляем».
«Ученые из University of North Texas изучали, как искусственный интеллект принимает финансовые решения, и сравнивали его с тем, как это делают обычные люди по всему миру. Они задавали одинаковые вопросы про деньги и финансовые решения семи разным ИИ-моделям (включая ChatGPT разных версий, Gemini и другие) и сравнивали их ответы с ответами реальных людей из 53 стран.
Оказалось, ответы LLM больше всего похожи на ответы жителей Танзании (в первую очередь) и Кении. Значительная доля человеческой рабочей силы, используемой для обучения моделей с подкреплением и модерации контента, набирается в Африке. Танзания, как и Кения, предлагает преимущества в плане рабочей силы: владение английским языком и дешевизна. Кенийских аннотаторов нанимают менее чем за 2 доллара в час для маркировки текстов для OpenAI.
Поскольку эти восточноафриканские аннотаторы поставляют сигналы вознаграждения, которые формируют результаты LLM, вполне вероятно, что лингвистический стиль и ценностные суждения, встроенные в модели, естественным образом напоминают танзанийский (и кенийский) дискурс больше, чем дискурс других национальных групп. И исследование про финансовые решения это показало.
Специалисты из Восточной Африки напрямую направляют поведение LLM. С чем вас всех, пользователи, и поздравляем».
❤18😁12👍1
#gamedev #video
youtube.com/watch?v=2nogizPW8Os
Видео о том, как можно балансировать пошаговые игры с несколькими действиями за ход.
youtube.com/watch?v=2nogizPW8Os
Видео о том, как можно балансировать пошаговые игры с несколькими действиями за ход.
YouTube
The smallest tweak to actions makes all the difference.
#ttrpg #dnd #gamedev
When making a tactical TTRPG, how you handle Action Economies is vital. This video goes through my decision making and iterations when working on Tales from Elsewhere. Let's see how a system's action economy evolves and how that informs…
When making a tactical TTRPG, how you handle Action Economies is vital. This video goes through my decision making and iterations when working on Tales from Elsewhere. Let's see how a system's action economy evolves and how that informs…
❤🔥4
Forwarded from Технологический Болт Генона
This media is not supported in your browser
VIEW IN TELEGRAM
Старое, доброе, вечное. Я про это фичу знал, потом забыл, а сейчас в закрытом чате скинули и вспомнил 🌝
Если через Chrome/Chromium открыть сайт со сломанным сертификатом, то наберите
Сайт для проверки, например
https://revoked.badssl.com
Нашёл коммит, в котором это добавили
https://chromium.googlesource.com/chromium/src/+/d8fc089b62cd4f8d907acff6fb3f5ff58f168697%5E%21/components/security_interstitials/core/browser/resources/interstitial_large.js
Если через Chrome/Chromium открыть сайт со сломанным сертификатом, то наберите
thisisunsafe (просто на странице с предупреждением) и случится чудо.Сайт для проверки, например
https://revoked.badssl.com
Нашёл коммит, в котором это добавили
https://chromium.googlesource.com/chromium/src/+/d8fc089b62cd4f8d907acff6fb3f5ff58f168697%5E%21/components/security_interstitials/core/browser/resources/interstitial_large.js
👍3