NEW BOT Телеграм, страница

Выкладываем запись и слайды прошедшего семинара #4: "Синхронизация нейронов как фазовый переход"!

Напоминаем, что все материалы семинаров можно посмотреть по ссылке

GMT20251217-140141_Recording_3840x2160.mp4

139.7 MB

26 views09:44

AML

Anthropic опубликовал Education Report: The AI Fluency Index

Его основные рекомендации:

1. Ядро, основа “беглости” — интерактив, а не просто режим вопрос-ответ

2. Наиболее эффективные пользователи те, кто работает вместе, а не просто спрашивает, удовлетворяется первым же ответом и уходит

3. В поведении пользователей явно наблюдается дефицит критического осмысления диалогов

<...> тренировать нужно не промптинг, а долгие итеративные диалоги + критическое мышление и факт‑чекинг

Подробнее:

we’ve found many users could improve their skills:

Staying in the conversation
Iteration and refinement is the single strongest correlate of all other fluency behaviors in our data
So, when you get an initial response, it’s worth treating it as only a starting point: ask follow-up questions, push back on any parts that don’t feel right, and refine what you’re looking for

Questioning polished outputs
When AI models produce something that looks good, it’s the perfect moment to pause and ask: is this accurate?
Is anything missing?
Does this reasoning hold up?
As we discussed above, our data show that polished outputs coincide with lower rates of critical evaluation, even though users go to greater lengths to direct Claude’s work at the outset

Setting the terms of the collaboration
In only 30 % of conversations do users tell Claude how they’d like it to interact with them
Try being explicit by adding instructions like, “Push back if my assumptions are wrong,” “Walk me through your reasoning before giving me the answer,” or, “Tell me what you’re uncertain about”
Establishing these expectations up front can change the dynamic of the rest of the conversation

Еще один вывод Anthropic из их исследований:

когда мы беседуем с LLM, то разговариваем не с “личностью” модели, а с персонажем истории, которую генерит модель
И это объясняет, почему вопреки всем рациональным возражением можно полагать that AI systems are like digital humans
И, хотя такой подход выглядит явно неполным и вызывает массу вопросов, оказывается, что с практической точки зрения это очень полезное для работы с LLM представление

https://www.anthropic.com/research/AI-fluency-index

Anthropic

Anthropic Education Report: The AI Fluency Index

Anthropic's AI Fluency Index measures 11 observable behaviors across thousands of Claude.ai conversations to understand how people develop AI collaboration skills.

29 viewsedited 20:40

AML

Forwarded from DERK

Никакая вычислимая аксиоматизированная теория, включающая арифметику, не может быть полной
Всегда будут утверждения, которые нельзя ни доказать, ни опровергнуть

Ни одна такая теория не может доказать собственную непротиворечивость

Истинность: семантическое свойство, связанное с реальностью математических структур

Доказуемость: синтаксическое свойство, связанное с процессом формальных доказательств в аксиоматической системе

Невозможно создать алгоритм, который бы для любой программы всегда правильно определял, остановится ли она

Диагональный аргумент: используется для доказательства неразрешимости проблемы остановки, лежащей в основе теорем о неполноте

Если бы существовала полная система аксиом для арифметики, можно было бы решить проблему остановки

Поскольку проблема остановки неразрешима, такая система аксиом не существует

Невозможно создать полностью непротиворечивую и исчерпывающую математическую теорию

Любая теория всегда будет содержать истинные утверждения, которые нельзя доказать в её рамках, и не сможет доказать свою собственную непротиворечивость

18 views05:37

AML

Стратегический уровень LLM

В данный момент в Пентагоне есть два крупных внедрения по степени секретности

«Общий контур» — там находятся даже отдельные солдаты США
Он работает на Gemini

По факту, Пит Хегсет оказался самым мощным IT-стратегом армии США

Портал GenAI.mil с Gemini обязательный в Пентагоне для персонала, но для уровня секретности примерно как наш ДСП

Как и у нас, у Пентагона есть «закрытый контур» с его известным уровнем top secret

Там Palantir и Claude

Судя по деталям из скандала, американский генералитет уже сидит по самые уши в AML, и это их рабочий инструмент

Маск уже подписал контракт с Питом на замену Claude на Grok, но генералы в США не тупые и прямо говорят, что Grok слабее Claude
И это проблема, т.к. использовать лояльную, но тупую LLM — не вариант

Между тем, в OpenAI и Google «либеральный бунт»
Там требуют запретить Пентагону использовать Gemini и ChatGPT

https://www.axios.com/2026/02/27/anthropic-pentagon-supply-chain-risk-claude

25 viewsedited 05:47

AML

Департамент образования штата Вермонт (США) опубликовал рекомендации по использованию AML в школах

Главный тезис 50-страничного документа: AML должен усиливать человеческое взаимодействие, а не заменять его
Но и полный отказ от нейросетей тоже риск
Тогда дети окажутся хуже подготовлены к миру, где AML уже стал нормой

Четыре принципа использования AML

Первый — снижение административной нагрузки учителей
Планирование уроков, дифференциация заданий, перевод материалов, переписка с родителями — оптимальная точка входа: минимум педагогических рисков и максимум практической пользы

Второй — персонализированное обучение
Адаптивные платформы, репетиторы, инструменты доступности для детей с ОВЗ — субтитры, озвучка, перевод на нужный уровень сложности

Третий — развитие AML-грамотности учеников
Три уровня: понимать, как работает AML, уметь критически оценивать его результаты и применять его осознанно, а не автоматически

Четвертый — работа со сложными учебными задачами
AML как партнер по мышлению: сократовский диалог, симуляции, совместное исследование

Такой формат допустим только с 9-го класса, когда у подростков сформированы базовые метакогнитивные навыки

Возрастная логика

Документ четко разграничивает, кому что можно

До 2-го класса чатботы исключены полностью

В 3–5-м классе допускается только AML, встроенный в конкретные учебные программы, без свободного доступа

В 6–8-м разрешены образовательные чатботы строго под контролем учителя

С 9-го класса открывается более свободное использование, включая AML для исследований и создания контента

Ключевые риски

AML ненадежны
Эффективнее оценивать не итоговое задание, а процесс работы над ним — через черновики, обсуждения, устные объяснения

Если AML пишет сочинение вместо ученика, ученик не учится писать
Важно объяснять детям, на каком этапе AML уместен, а на каком нет

Данные детей защищены законом, и большинство публичных сервисов под эти требования не подпадают
Только инструменты, проверенные ИТ-отделом

72 % подростков уже используют AML, и многие воспринимают его как собеседника и источник эмоциональной поддержки

Эту тему предлагается включать в цифровую грамотность и обсуждать с родителями

Дипфейки и несанкционированные изображения уже фиксируются в американских школах
Стоит проверить, покрывают ли существующие школьные правила подобные ситуации

Модели воспроизводят стереотипы обучающих данных
Умение смотреть на результаты критически — часть базовой грамотности

Школам предлагается оценить готовность по шести направлениям: политика и регламенты, подготовка персонала, обучение учеников, инфраструктура, отбор инструментов и работа с семьями

Все AML-решения проходят обязательную проверку на соответствие требованиям конфиденциальности

«AML несет и возможности, и риски
Эти инструменты уже в школьных классах, и наша задача — помочь педагогам и ученикам пользоваться ими осознанно и уверенно: раскрывать их потенциал для обучения и не допускать чрезмерной зависимости», — заявила министр образования штата

education.vermont.gov

Vermont Agency of Education Releases New Guidance to Support the Use of Artificial Intelligence in Schools | Agency of Education

The Vermont Agency of Education released new guidance to help schools and educators navigate artificial intelligence (AI) thoughtfully and responsibly. The guidance is a resource for educators, school leaders, and communities, as they explore how AI tools…

415 views06:26

AML

Anthropic отказались безусловно принимать условия Министерства Обороны и заявили, что те не смогут использовать Claude для автономного оружия и массовой слежки

В ответ Пентагон, как и обещали, расторгли со стартапом контракт на $200.000.000.000 и назначили им статус supply chain risk

Трамп назвал Anthropic радикальными леваками и woke-организацией, которая пытается диктовать условия армии, и призвал все федеральные агентства немедленно прекратить использовать их технологии

В течение 6 месяцев от Claude обязаны отказаться все государственные организации
С этого момента Anthropic официально изгои

Но самое интересное, что одновременно с этим OpenAI заключили с Министерством Обороны новое соглашение: они развернут свои модели в секретной сети Пентагона – защищенной облачной инфраструктуре для задач национальной безопасности

Для этого даже сформируют FDE – Forward Deployed Engineer, специализированную команду от OpenAI, которая будет мониторить и разворачивать AML прямо на месте

Заключен этот контракт на ровно тех же условиях, которые выдвигал Anthropic

OpenAI тоже настояли на запрете массовой слежки и обязательном участии оператора в решениях о применении силы, включая автономные системы

31 views10:24

AML

Новые цифровые технологии возвращают короткие дофаминовые циклы в основной контур профессиональной деятельности, отменяя тем самым несколько тысячелетий неолитической революции, превращавшей человека в винтик огромной машины с долгими циклами получения результата (отчуждение подтверждения)

Короткий дофамин действует как наркотик, и постоянно хочется делать следующий шаг, тем более, что этими короткими шагами ты двигаешься с невероятной скоростью

В обычный рабочий день и ритм это вписать почти невозможно - классика рабочей связности это длинные долгие процессы с координацией и мышление неделями-месяцами-годами (у «горожан» - постоянные совещания, переписки и встречи)
Потому наступает ночь - просыпается ~~мафия~~ работа с коротким дофамином

Короткий дофамин - друг охотника-собирателя
В сельской культуре, поощрение через полгода
В промышленности вся система воспитания последние столетия подавляла дофамин
В образовании 10-летнее подавление дофаминового цикла, с расправой над теми, кто не сумел (их наказывают и (уже) лечат

Человек выжил в гейминге, гэмблинге, биллинге и скоринге
Но это все - периферийные сферы деятельности, в них не всех пускают и не все выживают
Но цифровизация затаскивает туда остальную популяцию

Этот процесс займет 2-3 поколения
На первом поколении, доля тех, кто нормально живет на дофамине, не горит, не разоряется и дает качество вырастет примерно вдвое

Это уже видно по росту числа стартапов, по росту активности авторов научных статей и схожим метрикам
Но среда пока не готова, а корпорации (государства) не смогут быстро адаптироваться

Вырастет число одиночек

Следующее поколение (оно сейчас сидит на горшках) уже будет расти в условиях, когда «цифра» распространится как электричество и это будет первое поколение, воспитанное в части нейромедиаторных процессах

Они будут устойчиво «скролить» на коротком дофамине, будут испытывать проблемы с адаптацией к реальному миру, в котором правят старики с их моделями управления
Они будут рефлексировать, страдать и конфликтовать
И только тогда, когда они станут стариками, их внуков встроят в перестроенные процессы
Как произошло с тремя поколениями горожан

Это новый популяционный ландшафт

Как пример: во времена первой матрицы программист ходил на работу в галстуке
Сейчас программист глобальной компании носит костюм только на свадьбу и похороны (и то редко), но все еще ходит на работу в офис
Через поколение уйдут пропуска на веревочке и пенсионеры у турникетов
Этот транзит тоже займёт три поколения - но он про смещения в доле интеллектуального и физического труда в корпорациях (государствах)

Доля базовых нейромедиаторных процессов в жизни человека - куда фундаментальнее, и будет проходить намного болезненнее

36 views10:51

AML

TUMIX — интересная работа Google

Вместо того чтобы обучать ещё одну гигантскую модель, команда Google построила систему, где несколько AML работают вместе во время инференса
Каждый агент выполняет свою роль:

- один пишет код
- другой ищет информацию,
- третий рассуждает текстом

Все они решают одну задачу независимо, затем обмениваются ответами, улучшают их и приходят к общему решению

Gemini 2.5 с TUMIX обошёл все другие системы рассуждения на +17.4 %,
при этом стоимость инференса снизилась почти в два раза

Без дополнительного обучения
Без новых данных
Просто - умная организация

Секрет не в размере, а в умении

Команда из 12 разных агентов показала результаты лучше, чем 12 копий “лучшего” одиночного AML
А когда Gemini сам спроектировал новых агентов, качество выросло ещё сильнее — система буквально эволюционировала сама себя

Следующий скачок в развитии AML может прийти не от триллиона параметров,а от сети маленьких моделей, которые учатся думать вместе

https://arxiv.org/pdf/2510.01279

38 views16:53

AML

Cтатья А.П. Савина про умножение — в т.ч. про замечательный «русский крестьянский способ умножения»

https://www.kvant.digital/view/kvant_1992_2/32/

Архив журнала «Квант»

Квант. — 1992. — № 2 / Просмотр номера // Архив журнала «Квант»

Квант: ежемесячный научно-популярный физико-математический журнал. — 1992. — № 2. — 80 с.

37 views18:44

AML

Forwarded from НИИ Антропогенеза (ARI)

Что умеет AML (большинство не знает)

«Покажите вы русскому школьнику карту звездного неба, о которой он до тех пор не имел никакого понятия, и он завтра же возвратит вам эту карту исправленную. Никаких знаний и беззаветное самомнение».
Фёдор Достоевский «Братья Карамазовы»

Пост о втором камне преткновения схватки компании Anthropic с Пентагоном, Белым домом, а теперь и с самим Президентом - новые чудесные возможности слежки и наблюдения за людьми с использованием AML

Джейкоб Уорд (20 лет писал на темы технологий, науки и политики для NBC News, CNN, PBS и Al Jazeera, а еще 15 лет проработал писателем и редактором в The New Yorker, The New York Times Magazine, Popular Science и Wired) нашел для своего текста и видео на эту тему довольно интригующее название

Джейкоб пишет о подводной части айсберга схватки Anthropic с Пентагоном из-за требования последнего использовать AML без каких-либо тормозов, кроме прописанных в законах

Поэтому Джейкоб решил разобраться поконкретней, что именно Пентагон, ЦРУ, ФБР и пр. могут хотеть сделать с AML-технологиями

И он обнаружил набор возможностей, которые выходят далеко за рамки чат-ботов и генераторов изображений, и о которых в законах нет ничего конкретного

Речь идёт о Wi-Fi-роутерах, которые восстанавливают человеческое тело сквозь твердые стены, о лазерах Пентагона, которые идентифицируют вас по сердцебиению с расстояния 200 метров, о китайских системах распознавания походки, которые идентифицируют вас, когда вы стоите спиной и лицо закрыто, и об автономных роях дронов, которые выполняют полный цикл уничтожения — найти, устранить, уничтожить — без индивидуального контроля человека на каждом этапе

• Кому интересно и кто торопится, - могут за 2 минуты посмотреть 11 слайдов к рассказу Джейкоба
• А у кого найдется 11 минут, - смотрите и слушайте его самого

P.S. Ну и, понятно, слежкой и наблюдением дело не ограничится

Ибо «Большой Брат мертв
Да здравствует Большой Брат!»

YouTube

7 Terrifying Things AI Can Already Do (That Most People Don't Know About)

Defense Secretary Pete Hegseth summoned Anthropic CEO Dario Amodei to the Pentagon this week and demanded an AI with no safety guardrails — threatening to declare Anthropic a "supply chain risk" if it refused. So I decided to look into what exactly the Pentagon…

20 views21:47

AML

Channel name was changed to «AML»

21:48

AML

НИИ Антропогенеза (ARI)

Что умеет AML (большинство не знает) «Покажите вы русскому школьнику карту звездного неба, о которой он до тех пор не имел никакого понятия, и он завтра же возвратит вам эту карту исправленную. Никаких знаний и беззаветное самомнение». Фёдор Достоевский «Братья…

AML радикально ускорил действия в рамках парадигмы OODA

“Машина на базе AML выдаёт рекомендации, по каким целям работать, и в каком-то смысле это быстрее самой мысли”, сказал Крейг Джонс, старший преподаватель политической географии в Университете Ньюкасла и эксперт по «цепочкам поражения» (kill chains)
“У вас одновременно есть и масштаб, и темп: вы наносите удары по типу адресных ликвидаций и параллельно «обезглавливаете» способность режима к ответным действиям, поражая его контур управления и реагирования — причём делаете это одновременно с массированным применением авиабаллистических ракет (баллистических ракет воздушного пуска)
В войнах прошлого на это могли уйти дни или недели
Сейчас вы делаете всё разом”

Статья критическая, да и мало кому нравится "умение укокошивать как можно эффективнее"
Однако, что бы нам не нравилось, военных нигде в мире это от применения не остановит

“Преимущество в скорости принятия решений: цикл планирования сжимается с того, что раньше занимало дни или недели, до минут или даже секунд”, “Такие системы формируют набор вариантов для людей, которые принимают решения, но временное окно у них становится гораздо уже: чтобы оценить рекомендацию, времени остаётся совсем немного”

Evening Prophet

Один пример в развитие вопроса о тотальном отставании в теории управления. Поднимите руку 👌 (только честно) - кто слышал про Джона Бойда и цикл OODA?

Эо абсолютный must-know от Вест Поинта до всех бизнес и юридических школ (приличные адвокаты обязаны знать…

25 views22:07

AML

AML радикально ускорил действия в рамках парадигмы OODA “Машина на базе AML выдаёт рекомендации, по каким целям работать, и в каком-то смысле это быстрее самой мысли”, сказал Крейг Джонс, старший преподаватель политической географии в Университете Ньюкасла…

https://psychsafety.com/john-boyd-and-the-ooda-loop/

Psych Safety

John Boyd and The OODA Loop

John Boyd and The OODA Loop John Boyd’s OODA loops are more than just an esoteric strategic concept; they’ve earned a huge following online and around the world. In this article, I highlight key points about OODA loops along with a glimpse into […]

22 views22:08

AML

12 игр, которые учат программировать

Human Resource Machine

7 Billion Humans

while True: learn()

CodeCombat

Lightbot

TIS-100

SHENZHEN I/O

Screeps

Else Heart.Break()

The Farmer Was Replaced

Bitburner

Autonauts

Steampowered

Human Resource Machine on Steam

Program little office workers to solve puzzles. Be a good employee! The machines are coming... for your job. From the creators of World of Goo and Little Inferno.

21 views03:41

AML

Этическая идентичность программистов: как навигация в мире эко-программирования в условиях технологического прогресса
https://habr.com/ru/articles/848884/

https://medium.com/@vrakitine/the-ethical-identity-of-programmers-navigating-eco-programming-in-a-tech-driven-world-7122064e0f65

https://medium.com/@vrakitine/digital-stewardship-the-tree-of-a-new-ethics-d76de2780cc7

Хабр

Этическая идентичность программистов: как навигация в мире эко-программирования в условиях технологического прогресса

В стремительно развивающейся индустрии разработки программного обеспечения появляется новое измерение идентичности: оно сосредоточено вокруг экологической ответственности и устойчивого развития. Как...

416 views04:22

AML

Дональну Кнуту 88 лет, но он продолжает работать и сейчас он занят написанием четвертого тома The Art of Computer Programming (а именно, третьей его части)
Этот том полностью посвящен комбинаторным задачам

Оказалось, что Claude Opus 4.6 решил сложную задачу, над которой сам Кнут и его друзья работали неделями
Задача связана с поиском гамильтоновых циклов. Формулировка для тех, кому интересно:

Рассматривается ориентированный граф, вершинами которого являются все возможные тройки целых чисел i, j и k от 0 до m−1
Из каждой вершины выходят три дуги: одна ведет в вершину, где увеличивается i на единицу по модулю m, вторая – где увеличивается j на единицу по модулю m, и третья – где увеличивается k на единицу по модулю m
Всего в таком графе m³ вершин и у каждой вершины по три исходящих дуги
Требуется найти общий способ, который для любого m больше 2 разбивает все дуги этого графа на три направленных цикла, причем каждый из них должен проходить через все вершины ровно один раз, то есть быть гамильтоновым циклом

Она возникла как раз во время написания новой книги
Сам Кнут работал над ней несколько недель, но нашел решение только для случая m = 3
Его коллега Filip Stappers затем попробовал исследовать задачу вычислительно и эмпирически нашел разложения для m от 4 до 16

Решение в общем виде никому из них найти не удалось, пока Stappers не задал задачу Claude Opus 4.6
Бот думал примерно час и нашел конструкцию, которая работает для всех нечетных m

С подачи Кнута задача получила название "Claude’s Cycles", и вот что он пишет об этом результате:

"Похоже, мне придется пересмотреть свои взгляды <> Подход Claude к решению был очень впечатляющим <> Думаю, дух Клода Шеннона гордится, что его имя теперь связано с такими прорывами. Браво, Клод!"

cs.stanford.edu/~knuth/papers/claude-cycles.pdf

24 views06:59

AML

В 2026 году экономика фронтирных AML не прощает чистый альтруизм коммерческим компаниям

Прочитайте отчет об экономике фронтирных AML лабораторий

Что произошло:
• 3 марта Alibaba выпускает Qwen 3.5 (семейство маленьких моделей 0.8B–9B), которые мгновенно взлетают

• В течение суток уходят как минимум 3 ключевых человека
Ранее в начале года ушел Yu Bowen, head of post-training

Эти люди — топ-1 в Китае по open-weight LLM
Их уже зовут в Zhipu, Moonshot, 01.AI, ByteDance
Возможно, они запустят свой стартап

Почему это случилось?
1. Переход от open-source к монетизации / DAU-фокусу

2. До сих пор Qwen был полностью открытым, но почти нулевой прямой доход для Alibaba

3. Модели качают, запускают локально → люди не идут в Alibaba Cloud inference / fine-tuning / enterprise сервисы

4. Alibaba Cloud ввёл KPI по Daily Active Users (DAU) для фундаментальной модели-команды — это абсурд для research/open-source группы, но типично для бизнеса

Alibaba закручивает гайки в сторону проприетарных cloud/API, чтобы наконец-то заработать на всём этом хайпе
Open-source был супер-оружием для роста, но теперь его, похоже, урезают

Что эта история показывает стратегически?
1. Open-weight модели — мощный инструмент для быстрого захвата рынка и экосистемы, но почти всегда убыточный в чистом виде для коммерческой компании

2. Это не единичный случай, а системный паттерн 2025–2026 годов
- Запрещенная в РФ может себе позволить, потому что у них уже есть огромный рекламный/социальный cash cow + облачный трафик
- Китайские игроки (DeepSeek, GLM, MiniMax, Moonshot) пока держат open/low-price API, но все под огромным давлением: либо монетизировать быстро, либо инвесторы/государство скажут хватит

Чистый open-weight жизнеспособен долгосрочно только если:
- Есть внешний источник финансирования (гранты, пожертвования, государство)
- Или компания уже доминирует в другой прибыльной области и использует open как стратегическое оружие
- Для большинства коммерческих игроков — это временная фаза (1–3 года), пока идёт захват рынка / конкуренция с США / building moat
Потом почти всегда → hybrid (open маленькие/средние + closed frontier) или полный pivot к proprietary cloud/API

Что это значит для будущего open ИИ-экосистемы?
1. Без сильных non-profit / публичных игроков frontier-level open-weight может стать редкостью уже к 2027–2028

2. Маленькие/средние модели (до ~30–70B) скорее всего останутся open дольше, они дешёвые в производстве и полезны для edge/on-prem

3. Экосистема выживет, но сместится к: distillation → synthetic data → smaller efficient models → community fine-tunes → hybrid API

4. Самые сильные фронтир - модели будут почти всегда закрытыми или с большими ограничениями, как сейчас у OpenAI/Anthropic/Google

22 views08:48

AML

Lately people who know what I’m working on keep asking me the same question: does it even make sense to build an alliance of programmers if AI is about to replace programmers?
After hearing this question too many times, I decided to write a short article explaining why the real challenge of the AI era may not be writing code at all

https://medium.com/p/b5af54f7f8dd?postPublishedType=initial

Medium

AI Will Write the Code. But Who Will Take Responsibility for the Life of Software?

AI can already generate software at unprecedented speed.

23 viewsedited 22:48

AML

фотография участников первой международной топологической конференции в Москве (1935)

на фотографии можно видеть Чеха, Уитни, Лефшеца, Фрейденталя, Борсука, Тумаркина, ван Кампена, Александера, Хопфа, П.С. Александрова и др.

см. тж. http://mi.mathnet.ru/umn5952 и https://arxiv.org/abs/1903.02065

21 views02:47

AML

Диаграмма о влиянии AML на рынок труда от Anthropic

Иллюстрация того, где мы находимся в части проникновения AML в экономику

Anthropic предлагает метрику, которая объединяет теоретические возможности LLM с реальными данными об использовании

Синяя зона - теоретическое покрытие, то есть что ИИ мог бы делать
Красная зона - реальное использование - что люди реально делают сейчас с Claude

Интересно, где красная зона почти исчезает - сферы, что правее и ниже: здравоохранение, образование, искусство и медиа

Несмотря на высокий теоретический потенциал, реального проникновения почти нет — из-за регуляторных барьеров, профессиональной культуры, требований верификации человеком

Левая сторона — синяя зона тоже маленькая, потому что физический труд изначально недоступен LLMB
Здесь нет разрыва, потому что нет ни теоретического потенциала, ни реального использования

Красная зона будет расти

Вопрос только в том, в каком порядке и с какой скоростью она будет догонять синюю

16 views08:22

AML

LLM плохо обновляют убеждения по мере получения новой информации
Хотя от модели ожидается, что она должна понимать предпочтения пользователя по его ответам и при накоплении таких данных становится полезнее, на самом деле LLM в этом плохи

С математической точки зрения это означает, что у моделей нет байесовского мышления, то есть умения обновлять вероятность гипотез при поступлении новой информации
У людей, кстати, такое мышление должно быть хорошо развито

Здесь исследователи предлагают интересный подход
Вместо того, чтобы учить модель обновлять знания с помощью файнтюна на обычных диалогах, они берут и дистиллируют в нее настоящий байесовский алгоритм

То есть:
• строится обычный автомат Байеса, который знаком всем, кто изучал классический ML
Он решает задачу, просто обновляя вероятность разных гипотез по формуле
• LLM файнтюнят на ответах алгоритма, чтобы она переняла общую логику обновления, но уже без формулы

Во-первых, модель действительно начинает вести себя ближе к байесовскому оптимуму и учитывать новые данные

На основной задаче рекомендаций качество заметно увеличилось

Во-вторых, появилось обобщение
То есть модель фактически выучивает сам принцип рассуждения, и начинает использовать эту стратегию в других задачах, где ее напрямую не обучали

Короче говоря, довольно показательно, и авторы делают вывод о том, что обучение на демонстрациях алгоритмов в целом – работает

В действительности, мы ведь и правда хотим от LLM, чтобы они были не просто генераторами текста, а универсальными имитатороми алгоритмов мышления

research.google/blog/teaching-llms-to-reason-like-bayesians/

19 views08:30

About

Blog

Apps

Platform