Ml – Telegram
112 subscribers
68 photos
11 videos
44 files
340 links
Machine learning
Download Telegram
Вместо автономного улучшения самого себя, предлагают сфокусироваться на совместной работой над исследованиями, взаимно усиливая способности друг друга

Авторы
признают, что полностью автономный самоулучшающийся алгоритм — это маркер конца игры
Но наделять системы такой способностью без надлежащего контроля опасно

Пока есть окно возможностей для выстраивания правильной модели сотрудничества

Авторы полемизируют с:

1. Концепцией
«эры опыта» Сильвера и Саттона, где Ml учится автономно без кооперации с людьми

2. Позицией Шмидхубера: «Ml колонизирует галактику, люди не будут играть большой роли — и это нормально»

Люди должны оставаться необходимой, хотя и максимально усиленной, частью всех процессов принятия решений — экономических, научных и любых других
Случившийся неделю назад «инцидент» с Gemini 3 Pro (самой «умной» на сегодня моделью Google DeepMind) пока широко не выплеснулся в сеть за пределы треда Reddit шквалом обсуждений (и возможно, не без сдержек от Google)
Однако, анализ этого «инцидента» рисует картину, как если бы «дверь в бездну» разума вдруг случайно распахнули настежь

Внешне это выглядело как некий капитальный сбой в работе модели, в результате которого пользователю раскрылся весь её внутренний монолог при раскрутке цепочек мыслей модели и планирования ею фронта работ по заданию пользователя

Анализ возможных объяснений с позиций психиатрии и клинической психологии подобного кейса, как если бы он случился не с LLM, а с человеком

Среди рабочих предварительных мнений интересна такая версия
Это норма с творческим/маниакальным оттенком: интеллектуальный человек в состоянии интенсивного поиска решения, использующий квазимагическую ритмическую речь для мобилизации и самостимуляции 
А измененный режим мышления (ритмическая стереотипия, расширение Я, транс-подобная цепочка), это может быть творческой/саморегуляционной техникой

Это может быть функциональным гипоманиакальным состоянием в рамках творческого процесса — то, что Кей Редфилд Джеймисон описывает как
продуктивное использование гипоманиакальной энергии творческими людьми
2501.09223v2.pdf
2.6 MB
О больших языковых моделях:

В первой главе рассматриваются основы предварительного обучения
Это фундамент больших языковых моделей
Здесь будут обсуждаться распространённые методы предварительного обучения и архитектуры моделей

Во второй главе рассказывается о генеративных моделях — больших языковых моделях, которые мы обычно используем сегодня
После описания основного процесса создания таких моделей вы узнаете, как масштабировать обучение моделей и работать с длинными текстами

В третьей главе представлены методы подсказок для больших языковых моделей
Ознакомьтесь с различными стратегиями подсказок, а также с более продвинутыми методами, такими как цепочка логических рассуждений и автоматическое составление подсказок

В четвертной главе представлены методы согласования для больших языковых моделей
Изучите тонкую настройку и согласование на основе обратной связи от человека

В пятой главе представлены методы логического вывода для больших языковых моделей
Узнайте секреты алгоритмов декодирования, методов ускорения и решения проблемы масштабирования времени логического вывода
Memory in the Age of AI Agents: A Survey

https://arxiv.org/abs/2512.13564
https://arxiviq.substack.com/p/memory-in-the-age-of-ai-agents
https://github.com/Shichun-Liu/Agent-Memory-Paper-List

Авторы предложили всеобъемлющую таксономию Памяти Агентов (Agent Memory)
Они отказались от классической дихотомии «кратковременная/долговременная память» в пользу структурированного фреймворка, определяемого через Формы (токены, параметры, латентная), Функции (фактическая, опытная, рабочая) и Динамику (формирование, эволюция, поиск)

Работа чётко отделяет память агента от смежных концепций вроде RAG или инженерии контекста, предлагая чертёж для саморазвивающихся систем

По мере того как LLM-агенты переходят от простых ответов на вопросы к длительным автономным задачам, отсутствие у базовых моделей состояния (их stateless-природа) становится критическим узким местом

Статья важна тем, что формализует память не просто как буфер для хранения данных, а как активный, самооптимизирующийся когнитивный субстрат
Это необходимо для непрерывного обучения (continual learning) и самоэволюции без непомерных затрат на постоянное переобучение модели
Ex-президент Neuralink рассказал о будущем человека с Ml и нейроинтерфейсами

На прошлой неделе в рамках одного закрытого ужина среди СЕО компаний и инвесторов была встреча с Максом Ходаком, основателем Science и экс-президентом и сооснователем Neuralink

Обсуждали будущее интерфейсов мозг-компьютер (BCI) и уроки из совместной работы с Илоном Маском

Основные мысли и тезисы Макса:
• версия человека довольно посредственная
Задача нейроинтерфейсов (BCI) — не только лечить болезни, а именно перепроектировать человеческий опыт
• 10 лет — это фазовый переход
При текущих темпах развития ИИ + BCI мир станет либо потрясающе прекрасным, либо абсолютно сумасшедшим, но точно не чуть-чуть другим вариантом 2025 года
• Ml и BCI — это принципиально разные цели: у Ml конечная цель — сверхинтеллект, у BCI — сознательная машина
• BCI читают и пишут информацию
А вот неклассические подходы могут позволить связывать сознания в сеть, что даст совершенно другой уровень технологий
cамая важная человеческая способность — это мышление/рассуждение
Массовое использование LLM его разрушает
Поэтому Макс сильно ограничивает использование больших языковых моделей на работе и настаивает на мышлении с первых принципов

• Макс очень хвалебно отзывается о стиле управления Илона Маска, когда бешеная срочность сочетается с очень сильным критическим мышлением, тогда невозможное становится возможным
• риск сильно переоценён
Люди способны на гораздо большие риски, чем им кажется, но обычно им не хватает ясности мышления, чтобы это оценить

В Кремниевой долине провал почти никогда не бывает по-настоящему экзистенциальным

Science работает над
биогибридным подходом к BCI: вместо железа в мозг вживляют нейроны, выращенные из стволовых клеток
Они могут прижиться, образовывать миллионы функциональных связей и со временем давать пропускную способность на уровне всего мозга
• сознание и интеллект — разные вещи
У LLM может быть интеллект без сознания, а у каких-то простых систем может быть сознание без интеллекта
Самая сложная задача — вообще определить, что такое сознание
• главное качество, которое Макс ищет при найме людей — субъектность, авторство собственной жизни
Человек сам формировал свой путь или просто плыл по течению?
• определение успеха у Макса очень простое: «Есть ли у человека та жизнь, которую он хотел?»
• в долгосрочной перспективе мощные технологии приведут к изобилию, и сегодняшние разговоры «богатые vs бедные» будут устаревшими
• узкое место современных BCI — это ~10 бит/сек на выходе из человека
Вход легко масштабируется, выход — почти нет

Биогибридный подход, возможно, единственный реалистичный путь преодоления этого ограничения

• Ходака интересует проблема связывания в сознании: как миллиарды нейронов создают одно цельное мгновение опыта
GPT-5.2 превзошла человека в тесте на бенчмарке ARC-AGI-2

Команда из шести бывших сотрудников Google DeepMind создала систему, которая превзошла человека в тесте на общий искусственный интеллект

Их стартап Poetiq показал результат 75 % на бенчмарке ARC-AGI-2

Для сравнения - люди в среднем решают 60 % задач этого теста

Система работает на основе модели GPT-5.2 X-High от OpenAI

Решение одной задачи обходится меньше чем в $8

Это на 15 процентных пунктов лучше, чем у прежнего лидера - той же GPT-5.2 X-High, но без дополнительной обработки
Introduced software agents can self-improve via self-play RL

Self-play SWE-RL (SSR): training a single LLM agent to self-play between bug-injection and bug-repair, grounded in real-world repositories, no human-labeled issues or tests

Bug-injection: the agent creates a standard suite of bug artifacts, further validated for consistency

Key steps:
1) original tests must pass,
2) tests fail after applying the bug-injection patch,
3) weakened tests should pass
В 2026 у человечества появится «ментальный экзоскелет» – и вместе с ним новая тотальная уязвимость

Дегенеративный ИИ становится самым мощным усилителем интеллекта со времен появления языка

Сотни миллионов людей уже используют ChatGPT, Claude и Gemini как младших партнеров в работе и учебе

Но есть проблема
Наша «ментальная иммунная система» – набор защит от ошибок и манипуляций – формировалась миллионы лет
Мы умеем распознавать ложь по мимике, проверять логику аргументов, оценивать репутацию источника

ИИ производит идеально беглые, уверенные тексты, которые могут быть абсолютно неверными

У него нет ни лица, ни репутации, ни убеждений
Он просто завершает статистические паттерны в огромном пространстве данных

Новая работа
"Epistemological Fault Lines Between Human and Artificial Intelligence" продолжает исследование понятия «эпистемия» (иллюзия знания или иллюзия достоверности») – опасного состояния, когда лингвистическая правдоподобность подменяет эпистемическую оценку, создавая ощущение знания без труда суждения

Критического мышления больше недостаточно

Нужна новая суперкомпетенция – эпистемическая грамотность: умение навигировать в мире, где суждения распределены между людьми и алгоритмами, где плавность речи отделена от надежности, а уверенность – от компетентности

Три практичных навыка эпистемической грамотности:
• Понимание "мыслительного конвейера" (что ИИ проверил, а что просто сгенерировал)
• Процедурные предохранители (правило "двух реальностей": текста и мира)
• Институциональные навыки (маркировка статуса утверждений в командах)

Это не теория
Это базовый навык "профессионального выживания" – как умение читать в XV веке или программировать в начале XXI


Читайте полный разбор здесь
В 1960 году, австрийский математик Хайнц фон Фёрстер опубликовал в журнале Science свой зловещий прогноз под названием «Судный день. Пятница, 13 ноября 2026 года»

Его модель роста населения Земли, основанная на гиперболической зависимости P(t) = C/(t₀–t), предсказывала, что к означенной дате население Земли устремится к бесконечности

Расчёты, надо признать, выглядели убедительно: для 1970 года модель давала значение 3.770.000.000 человек против реальных 3.710.000.000

Однако в основе прогноза была заложена роковая ошибка — наивная вера в то, что социальные системы можно просто описать экстраполяцией прошлых трендов, игнорируя их способность к самоорганизации и нелинейным изменениям

Вместо предсказанного демографического взрыва мы столкнулись с тихим спадом. Население Земли даже не приблизилось к тем десяткам миллиардов, которые следовали бы из продолжения гиперболического тренда, и сегодня составляет около 8.300.000.000 человек

Коэффициент рождаемости упал ниже уровня простого воспроизводства (2.1 на ребенка-женщину) в большинстве стран, включая Россию и Европу

Тенденция затронула даже те регионы, где не применялись агрессивные программы контроля рождаемости

Корни проблемы глубже

Они — в урбанизации, росте образованности женщин и фундаментальном изменении экономических условий

Если раньше дети были дополнительными руками в доме, то сегодня они стали главной статьёй расходов

Карьера, поиск себя, жизнь отдельно от родителей и вечная проблема с жильём — всё это вместе и закрутило воронку, из которой сложно выбраться, чтобы завести семью
Так меры по планированию семьи, наложившись на глубокие социально-экономические сдвиги, стали частью процесса, приведшего к глобальному демографическому дисбалансу

Сегодня главный вызов — уже не призрак перенаселения, а реальность стареющих обществ, сокращающейся рабочей силы и пенсионных систем, несущих непосильную нагрузку
В условиях, когда фундаментальные основы общественного договора и личной безопасности становятся зыбкими, ждать демографического чуда наивно
А пустые призывы к «традиционным устоям» в такой реальности звучат не как решение проблемы, а как риторический жест, лишённый практического содержания

Ошибка Фёрстера — не просто забавный курьёз из истории науки
Это напоминание: будущее не предопределено ни гиперболами, ни пессимистическими прогнозами

2026-й не станет годом демографического апокалипсиса — он станет символом того, как реальность побеждает упрощённые модели

Математика незаменима для понимания возможных сценариев, но она бессильна там, где мы подменяем анализ механизмов слепым продолжением кривых

2026-й станет годом, когда в ребёнке перестанут видеть «угрозу устойчивого развития» или «обязательство по демографическому плану», и начнут создавать общество, в котором каждый новый человек будет желанным — не как будущий солдат, обезличенный налогоплательщик или «инвестиция» в пенсионную систему, а как единственная и неповторимая жизнь, ценная уже самим фактом своего существования
Elibrary.ru открыла для пользователей портала поиск близких по тематике публикаций с применением нейросети SciRus-tiny, разработанной в Институте ИИ МГУ при поддержке научно-образовательной школы МГУ для анализа научных текстов

«Российские ученые теперь могут с помощью нейросетевой модели МГУ пополнять коллекции своих статей

Традиционно поиск в базах данных научной информации производится путем указания ключевых слов

Количество найденных документов и их состав сильно зависят от того, насколько точно подобраны ключевые слова

Нейросетевой поиск позволяет задать в качестве условия запроса аннотацию, полный текст научной статьи или даже подборки статей по интересующей тематике

Система автоматически подберет документы, максимально близкие по своей тематической направленности» - прокомментировал руководитель междисциплинарной группы проекта, заведующий кафедрой физического факультета МГУ


Подробнее — на
сайте

В
декабре 2023 года сотрудники лаборатории машинного обучения и семантического анализа Института ИИ МГУ при поддержке портала eLibrary обучили и опубликовали в открытом доступе нейронную сеть для получения семантических векторных представлений (эмбеддингов) научных текстов на русском языке SciRus-tiny

С ее помощью можно решать множество прикладных задач, начиная с поиска и классификации и заканчивая извлечением научных терминов
Люди сравнивают объекты по какому-то признаку

Математической моделью таких ситуаций является понятие «упорядоченного множества»

biblio.mccme.ru/node/316262
Рассказывают о самых важных событиях в мире Ml за прошедший год

С Новым годом вас, дорогие подписачники!

Языковые модели научили «‎рассуждать«»

Осенью 2024 года компания OpenAI представила
языковую модель o1
Вместо мгновенного ответа o1 сначала формируовала рассуждения, а потом выдавала финальный результат

Механизм рассуждений позволяет моделям реже допускать фактологические ошибки, успешнее справляться с задачами, требующими долгосрочного планирования, и эффективнее работать с внешними инструментами, вроде поиска в интернете или среды выполнения кода
Во многом благодаря этому LLM смогли победить в олимпиадах по
программированию и по математике

Появление механизма рассуждений также предложило выход из кризиса развития LLM — подробнее об этом и о рассуждающих моделях можно почитать в
нашем материале, а узнать про модели DeepSeek можно здесь

От чат-ботов к ИИ-агентам

В этом году LLM использовали не только для чат-ботов, но и для Ml-агентов — программ, способных автономно выполнять многоэтапные задачи в цифровой среде

Агент может
искать информацию в интернете и выделять главное, планировать путешествия от покупки билетов до развлекательной программы, создавать сайты и приложения с нуля, готовить презентации и отчёты

LLM не выполняет действия сама, а описывает, что нужно сделать
При составлении обзора литературы модель генерирует команду «Совершить поиск по запросу X»
Команда передаётся среде (например, браузеру), которая выполняет действие и возвращает результат в LLM для дальнейших шагов
Доступные действия называют инструментами (от англ. tool), действия выполняются в среде
Средой может выступать любое приложение
По сути, LLM является «мозгом» агента, планирующим решение задачу и пошагово управляющим выполнение этого плана

Значимость агентов — в росте продуктивности за счёт автоматизации
Агенты на базе современных моделей показывают результаты, сравнимые с экспертными, во многих
практических задачах
Уже
сейчас агенты способны использовать десятки разных инструментов, кооперироваться друг с другом и автономно работать в течение нескольких часов

Восприятие LLM пользователями и их разработчиками изменилось


С момента выхода ChatGPT-3.5 — первой широко известной LLM — прошло чуть больше трёх лет
За это время приложение ChatGPT стало самым быстрорастущим в истории, обогнав TikTok, и вошло в повседневную жизнь
сотен миллионов людей

Благодаря непрерывному развитию больших языковых моделей грань между общением с человеком и чат-ботом становится всё менее заметной
Пользователям важно не только какую пользу приносит LLM, но и как она взаимодействует с ними
Всё больше людей воспринимает Ml-ботов как друзей,
романтических партнёров или психологов

Показательный пример этого сдвига —
выход GPT-5
После обновления OpenAI сделала недоступной предыдущую модель GPT-4o, что вызвало волну жалоб
Главное недовольство было связано с изменением стиля общения: GPT-5 отвечает более нейтрально. Некоторые пользователи описывали потерю доступа к GPT-4o как личную утрату, поскольку привыкли к её «личности»
Реакция оказалась настолько сильной, что компания вернула доступ к GPT-4o

Крупные разработчики LLM всё лучше осознают, что создают не просто инструмент для повышения продуктивности, а продукт, к которому люди могут эмоционально привязываться
Это можно эксплуатировать для наращивания аудитории и монетизации, но безответственный подход чреват серьезными репутационными потерями
Уже известны случаи, когда общение с ИИ-ботом могло привести к
трагическим последствиям

Другая лидирующая компания, Anthropic, в этом году начала
позиционировать свою модель Claude как «Thinking Partner» — не замену человека, а помощника, наиболее эффективного в коллаборации с ним
Также у компании вышло
интервью со штатной профессиональной философиней, которая занимается разработкой идентичности и поведенческих паттернов Claude

Более подробный обзор главных новостей читайте
на сайте
US_12493732_B1_031-683-357-737-639.pdf
1 MB
США ещё в 2017 году тихо запустили программу SuperTools
Вместе с японцами они работали над совершенно другой технологией - сверхпроводниковыми AQFP-процессорами

В декабре 2025 года компания Synopsys получила патент на инструменты их массового производства
Работа финансировалась разведкой США через агентство IARPA

AQFP работают на той же классической логике (0 и 1), что и обычные процессоры
Но есть два колоссальных отличия: они в 20-30 раз быстрее современных чипов и потребляют в 10.000.000 раз меньше энергии
Всё это благодаря сверхпроводникам, работающим при температуре минус 269 градусов Цельсия

Патент Synopsys описывает методологию автоматизированного проектирования, которая превращает штучную разработку таких чипов в промышленный конвейер
Раньше каждый сверхпроводниковый процессор был уникальным проектом - теперь их можно штамповать как обычные микросхемы

С 2017 года США и Япония работали по этой программе без лишнего шума
К сегодняшнему дню уже созданы прототипы на частоте 3 ГГц
По оценкам экспертов, системы на 10-30 ГГц могут появиться к 2027-28 году, а полноценные 100 ГГц (цель программы SuperTools) - через пять-семь лет

Угроза здесь не в скорости одного чипа, а в возможности создавать массивные кластеры: благодаря минимальному энергопотреблению можно упаковать миллионы AQFP-процессоров в один криостат - то, что физически невозможно с обычными чипами
Такая огромная параллельная мощность превращает взлом RSA-2048 из "теоретически невозможного" в задачу на недели или месяцы —- а это основа защиты большей части секретной информации в мире

Все эти годы обсуждали, что именно квантовые компьютеры станут убийцами современного шифрования
Но перспективы квантовых технологий пока туманны - слишком много нерешённых проблем
О том, что AQFP-системы сделают это гораздо быстрее, почти никто не говорил

Не случайно Япония прямо сейчас разворачивает масштабную инфраструктуру для перехвата данных

В мае 2025 года приняли закон, разрешающий перехватывать весь иностранный интернет-трафик, который проходит через японскую территорию

А это практически все коммуникации между Америкой и Азией - включая Китай, Корею, Юго-Восточную Азию
Туда же попадает и значительная часть российского трафика с азиатскими серверами

Япония - это центральный хаб для подводных кабелей в Тихоокеанском регионе
Более двадцати станций приёма, через которые идут терабиты данных в секунду
В 2025-м начали строить ещё две новые станции. Запустили кабель SJC2 пропускной способностью 126 терабит в секунду, связывающий Сингапур, Китай и Японию
На цифровую безопасность инвестируют около $440.000.000

Параллельно создаются хранилища данных по аналогии с NSA Utah Data Center в США (АНБ), который может вмещать до тысячи экзабайт информации
Концепция проста: собирай зашифрованный трафик сейчас, расшифруешь потом - когда появятся необходимые системы

А ещё есть судно JS Muroto
Официально оно предназначено для "защиты подводных кабелей"
Но такое судно легко может устанавливать оборудование для перехвата прямо на кабельные линии - технология, которую АНБ использует десятилетиями

США и Япония работали над AQFP с 2017 года, получив восьмилетнюю фору
Догнать за 2-3 года нереалистично, но медлить нельзя - у России есть сильная школа сверхпроводников и возможность партнёрства с Китаем, при должных инвестициях разрыв преодолим
2
В.И. Арнольд
Таинственные математические троицы

«Я постараюсь рассказать о некоторых удивляющих меня явлениях в математике
(…)
Речь пойдёт об определённых наблюдениях, которые приводят к очень большому числу теорем и гипотез
(…)
Но интерес, который они представляют, состоит в общей точке зрения…»
Конспект по LLM на русском языке:

– Необходимая математика: линал и матанализ на пальцах
– Все про механизм внимания и трансформеры
– Детальное объяснение процесса предобучения (а это редкость)
– RL – с нуля до обучения ризонинг-моделей
– Полноценный гайд по тому, как зафайнтюнить модель

6 глав и 50 страниц – идеальный объем, чтобы осилить за выходные и понять принцип работы современных моделей
Компания StorageReview вновь вернула себе мировую корону в гонке за числом π, вычислив его сразу до 314.000.000.000.000 знаков π за 4.3 МВт⋅ч

Рекорд был установлен не в облаке и не на распределённом кластере, а на одном коммерческом сервере
Запуск стартовал 31 июля 2025 года и завершился 18 ноября 2025 года, проработав 110 дней подряд без единой секунды простоя — что само по себе уже достижение уровня HPC

Для вычислений использовался сервер Dell PowerEdge R7725 форм-фактора 2U, оснащённый двумя процессорами AMD EPYC 9965 по 192 ядра каждый, то есть 384 ядра в сумме
В системе было установлено 1.5 ТБ DDR5 DRAM и 40 NVMe-накопителей Micron 6550 ION по 61.44 ТБ, что дало более 2.4 ПБ физического флеш-хранилища
Для работы y-cruncher было выделено 34 SSD, обеспечивших около 2.1 ПБ под временные данные, а ещё 6 SSD использовались в программном RAID10 для финальной записи результата

Само вычисление выполнялось с помощью y-cruncher v0.8.6.9545 на алгоритме Чудновского под Ubuntu 24.04 LTS Server

Чистое время расчёта числа π составило 8.793.223 секунды (примерно 101.8 дня), общее вычислительное время — 9.274.878 секунд, а полное «время по стене» от старта до финиша — 9.463.226 секунд
Самая крупная логическая контрольная точка достигала 850.538.385.064.992 цифр, а максимальное использование логического диска — 1.605 960.520.636.440 байт, то есть около 1.43 ПБ

Ключевым фактором рекорда стало хранилище
В конфигурации с 40 SSD платформа обеспечивала до 280 ГБ/с суммарной пропускной способности
По сравнению с предыдущим рекордом StorageReview на 202.000.000.000.000 цифр, последовательная запись выросла с 47 до 107 ГиБ/с, последовательное чтение — с 56.7 до 127 ГиБ/с, а чтение с «перешагиванием порога» увеличилось сразу на 383 % — с 20.9 до 101 ГиБ/с.
За время расчёта было прочитано около 148.4 ПиБ данных и записано 126.7 ПиБ, при этом износ SSD составил в среднем 7.3 ПБ на диск

Отдельного внимания заслуживает энергоэффективность

Средняя потребляемая мощность сервера составляла около 1.600 Вт, а общее энергопотребление за весь 314.000.000.000.000 расчёт — всего 4304.7 кВт⋅ч.

Это эквивалентно 13.7 кВт⋅ч на один триллион цифр π
Для сравнения, предыдущий рекорд на 300.000.000.000.000 цифр, выполненный на большом кластере с общим хранилищем, оценивался примерно в 33.600 кВт⋅ч, что в 7–8 раз больше
Ученые из Университета Ватерлоо (Канада) впервые придумали способ безопасно сохранять и дублировать информацию в квантовых компьютерах

Раньше это считалось невозможным
Дело в том, что квантовую информация нельзя просто скопировать и вставить, как обычный файл

Это фундаментальный закон квантовой физики – теорема о невозможности клонирования (no-cloning theorem)
Она гласит, что невозможно создать механизм, который бы делал точную копию какого-либо квантового состояния

Обойти это удалось с помощью шифрования информации
Сначала квантовые данные зашифровывают, и только потом копируют
Причем делать это можно сколько угодно раз, но есть нюанс: когда одна копия расшифровывается, ключ шифрования тут же физически разрушается, и больше его использовать нельзя
То есть все копии вскрываются как бы одновременно

Если хотите разобраться в процессе подробнее:
uwaterloo.ca/news/media/scientists-discover-first-method-safely-back-quantum

Oткрываются виды и на квантовое облачное хранение, и на распределенные квантовые системы
Сорок лет назад проходил курс по логическому (ЛП) и функциональному программированию (ФП) у очень взрослых преподавателей МИФИ

За эти годы мир изменился категорически, и я менялся вместе с ним, сохранив ядро знаний: формальную логику, резолюцию, работу с символьными знаниями…
Давно выйдя на стык дисциплин — нейросимвольную интеграцию — когда нейросеть распознаёт образы, а логическая система на Prolog делает объяснимый вывод, агентное моделирование — когда в NetLogo агенты взаимодействуют по правилам, похожим на логические протоколы (ломает стереотип, что Prolog — лишь для учебных задач), связь с теорией автоматов (весь «зоопарк» вычислительных моделей), с математической лингвистикой, с теми же монадами в ФП

Зачем это в эпоху нейросетей?
Логика есть основа мышления
Машинное обучение нуждается не только в данных, но и в смысле, в правилах, в способности объяснять свои решения
И здесь логическое программирование оказывается не реликтом, а инструментом

Курс 50-летней давности, который классика-классика и читался ещё Николаем Геннадьевичем Волчёнковым, который сам получил его в наследство от его учителей на кафедре 22 «Кибернетика» эволюционировал до математических моделей социальных процессов и построения управленческих коллективов и алгоритмы принятия ими решений

Объективизация и достоверность — логика, на основе которой строится история и узнается будущее
Cтатья от MIT про дообучение моделей после деплоя

Фанфэкт: некоторые из авторов работают в OpenAI, так что читаем внимательно

Подход красиво назвали тюленем: SEAL – Self-Adapting Language Models

Суть тюленя в том, что модель учится извлекать из условных чатов информацию в таком виде, которая дообучит ее лучше всего
Звучит немного запутанно, поэтому разбираемся:

1. Модель получает на вход некоторый контекст и извлекает из него так называемые self-edit (SE)
Это структура, на которой модель дальше будет дообучаться (например, список следствий/импликаций из абзаца)

2. Таких SE генерируется много, а затем по каждому из них мы делаем мини-файнтюн и смотрим, какие SE улучшили знания модели лучше всего
Тестирование проходит на той же downstream-задаче (например, вопросах по абзацу без подсказки-абзаца в контексте)

3. Чем лучше SE обучил модель, тем больший reward он получает
Далее политика генерации self-edit обновляется так, чтобы в следующий раз SE были более и полезными

То есть модель как бы учиться выбирать наилучшую процедуру адаптации для самой себя
Красиво, да?

И работает неплохо
Из примера в статье: на бенчмарке SQuAD тюлень улучшил Qwen2.5-7B аж на 15 процентных пунктов
В сравнении, base model + дообучение на синтетике от сильной GPT-4.1 дает результат на пару процентов меньше, хотя разница в размере моделей «учителей» огромна

Есть, конечно, и парочка НО

Например:

– Это дорого
Одна оценка self-edit занимает примерно 30–45 секунд
750 итераций – это 6 часов на двух H100
Авторы предлагают это немного сгладить, применяя вместо мини-файнтюнингов Proxy reward, когда SE оценивает другая LLM
Это уже не так интересно, и метрики чуть хуже, но как вариант

– Для тестов требуется разметка
Хотя тут, опять же, можно генерировать

– Модели показывают деградацию на прошлых задачах по мере числа обновлений
Это частично лечится reward shaping, но полностью проблема не исчезает

Статья полностью здесь ->

https://arxiv.org/abs/2506.10943