Если не видели, тут очередной курс по трансформерам выкладывают.
CME 295 - Transformers & Large Language Models
This course explores the world of Transformers and Large Language Models (LLMs). You'll learn the evolution of NLP methods, the core components of the Transformer architecture, along with how they relate to LLMs as well as techniques to enhance model performance for real-world applications. Through a mix of theory and practical insights, this course will equip you with the knowledge to leverage LLMs effectively. Ideal for those with a background in calculus, linear algebra, and basic machine learning concepts.
https://cme295.stanford.edu/syllabus/
CME 295 - Transformers & Large Language Models
This course explores the world of Transformers and Large Language Models (LLMs). You'll learn the evolution of NLP methods, the core components of the Transformer architecture, along with how they relate to LLMs as well as techniques to enhance model performance for real-world applications. Through a mix of theory and practical insights, this course will equip you with the knowledge to leverage LLMs effectively. Ideal for those with a background in calculus, linear algebra, and basic machine learning concepts.
https://cme295.stanford.edu/syllabus/
🔥29👍3❤1💩1
Дистилляцию в BitNet (тернарные веса и 1.58-битные модели) завезли!
https://news.1rj.ru/str/gonzo_ML_podcasts/990
https://news.1rj.ru/str/gonzo_ML_podcasts/990
Telegram
gonzo_ML_podcasts
BitNet Distillation: A Practical Blueprint for Scalable, Ultra-Low-Bit LLMs
Title: BitNet Distillation
Authors: Xun Wu, Shaohan Huang, Wenhui Wang, Ting Song, Li Dong, Yan Xia, Furu Wei
Paper: https://arxiv.org/abs/2510.13998
Code: https://github.com/microsoft/BitNet…
Title: BitNet Distillation
Authors: Xun Wu, Shaohan Huang, Wenhui Wang, Ting Song, Li Dong, Yan Xia, Furu Wei
Paper: https://arxiv.org/abs/2510.13998
Code: https://github.com/microsoft/BitNet…
🔥14
Прочитал какое-то время назад книгу Юдковского и Соареса "If Anyone Builds It, Everyone Dies: The Case Against Superintelligent AI" (https://news.1rj.ru/str/gonzo_ML/4030), вот добрался написать.
Нормальная книга в целом.
Состоит из трёх частей:
1. Nonhuman minds
2. One extinction scenario
3. Facing the challenge
Первая часть про то, что современный AI уже трудно понять (по факту невозможно, наши достижения в интерпретируемости пока даже не детские), что он скорее выращивается, чем программируется, что у него могут быть свои преференции и целе-подобные поведения (даже если он сделан чтобы играть в условные шахматы, у него уже есть цель -- победить), что цели эти даже если заданы на довольно низком техническом уровне всё равно могут достигаться очень странными нечеловеческими способами, и что более способные системы будущего в этом ещё более преуспеют -- нельзя ожидать, что у них будет человеческая психология и мы их будем прекрасно понимать. Не будем.
Часть про возникновение целей для меня наименее понятная, но с другой стороны даже LLM (про которые нет речи, что это и есть тот самый суперинтеллект) уже демонстрируют какие-то подобные поведения, которые напрямую в них заложены не были. Наши собственные желания и предпочтения порой очень далеки от каких-то базовых биологических механизмов, из которых они выросли -- гэп между эволюционным предпочтением к сладкой и жирной пище и полками с мороженым или coke zero в супермаркете довольно велик (и это уже своего рода reward hacking). Предпочтения, возникшие в результате полового отбора, могут быть ещё более странными. В выращивании интеллектуальных систем (градиентный спуск в этом месте не сильно отличается от эволюции, да и та тоже может использоваться) могут получиться не менее странные результаты.
Когда появится суперинтеллект (а цель всего направления ИИ ведь именно такая, опрос здесь в канале также показывает, что большинство ответивших не видят никакого физического запрета на появление интеллекта в машине и более половины считают, что в будущем суперинтеллект появится https://news.1rj.ru/str/gonzo_ML/4088), когда и если он обретёт достаточно влияния (непонятно, почему он не сможет этого сделать?), то с какой стати он как-то особенно будет заботиться о людях? Вся история биосферы, вся история людей практически говорит об обратном -- когда-то давно микроорганизмы отравили атмосферу кислородом, "продвинутые" цивилизации выкосили кучу других цивилизаций, которые они считали "менее продвинутыми", и прямо сейчас продолжают воевать и засирать планету.
ИИ не обязательно должен быть зловредным аки терминатор, но преференции и цели у искусственного интеллекта будут свои и странные, инопланетные, как-то повлиять на них и тем более заложить свои мы не знаем как, нет ни одного нормального рецепта. Все технооптимисты, говорящие, что сверхинтеллект будет делать то, что мы в него заложим, не могут подкрепить свои слова никаким рецептом за пределами wishful thinking. Надежды на то, что ASI будет высокоморальным, добрым и хорошим (что бы это ни значило) и заботиться о всём живом -- это хорошие надежды, я сам хотел бы жить в таком мире (дьявол в деталях), но опять же, подкрепить это нечем кроме как wishful thinking.
Такой вот статус кво.
Вторая часть книги -- микро фантастический рассказ про один из вариантов, как могло бы случиться (но скорее всего случится иначе). Похоже, кстати, на книгу Avogadro Corp от William Hertling. Норм рассказ.
Третья часть книги про челлендж как таковой. Сверхинтеллект это задача, в которой нет места для ошибки -- если сделаем не так, второго шанса может и не быть. Даже если у нас есть рецепт такого ИИ, что будет благожелателен и строго с нашими ценностями (что отдельный вопрос, что это за ценности такие, которые мы сами так себе соблюдаем), то даже его надо имплементировать без ошибок, а мы так не умеем, вся область cybersecurity подтверждает. Эта часть начинается со сравнения с другими проблемами, где на ошибку места не было -- запуск космических проб, ядерная энергетика, компьютерная безопасность -- накосячили везде и неоднократно.
Нормальная книга в целом.
Состоит из трёх частей:
1. Nonhuman minds
2. One extinction scenario
3. Facing the challenge
Первая часть про то, что современный AI уже трудно понять (по факту невозможно, наши достижения в интерпретируемости пока даже не детские), что он скорее выращивается, чем программируется, что у него могут быть свои преференции и целе-подобные поведения (даже если он сделан чтобы играть в условные шахматы, у него уже есть цель -- победить), что цели эти даже если заданы на довольно низком техническом уровне всё равно могут достигаться очень странными нечеловеческими способами, и что более способные системы будущего в этом ещё более преуспеют -- нельзя ожидать, что у них будет человеческая психология и мы их будем прекрасно понимать. Не будем.
Часть про возникновение целей для меня наименее понятная, но с другой стороны даже LLM (про которые нет речи, что это и есть тот самый суперинтеллект) уже демонстрируют какие-то подобные поведения, которые напрямую в них заложены не были. Наши собственные желания и предпочтения порой очень далеки от каких-то базовых биологических механизмов, из которых они выросли -- гэп между эволюционным предпочтением к сладкой и жирной пище и полками с мороженым или coke zero в супермаркете довольно велик (и это уже своего рода reward hacking). Предпочтения, возникшие в результате полового отбора, могут быть ещё более странными. В выращивании интеллектуальных систем (градиентный спуск в этом месте не сильно отличается от эволюции, да и та тоже может использоваться) могут получиться не менее странные результаты.
Когда появится суперинтеллект (а цель всего направления ИИ ведь именно такая, опрос здесь в канале также показывает, что большинство ответивших не видят никакого физического запрета на появление интеллекта в машине и более половины считают, что в будущем суперинтеллект появится https://news.1rj.ru/str/gonzo_ML/4088), когда и если он обретёт достаточно влияния (непонятно, почему он не сможет этого сделать?), то с какой стати он как-то особенно будет заботиться о людях? Вся история биосферы, вся история людей практически говорит об обратном -- когда-то давно микроорганизмы отравили атмосферу кислородом, "продвинутые" цивилизации выкосили кучу других цивилизаций, которые они считали "менее продвинутыми", и прямо сейчас продолжают воевать и засирать планету.
ИИ не обязательно должен быть зловредным аки терминатор, но преференции и цели у искусственного интеллекта будут свои и странные, инопланетные, как-то повлиять на них и тем более заложить свои мы не знаем как, нет ни одного нормального рецепта. Все технооптимисты, говорящие, что сверхинтеллект будет делать то, что мы в него заложим, не могут подкрепить свои слова никаким рецептом за пределами wishful thinking. Надежды на то, что ASI будет высокоморальным, добрым и хорошим (что бы это ни значило) и заботиться о всём живом -- это хорошие надежды, я сам хотел бы жить в таком мире (дьявол в деталях), но опять же, подкрепить это нечем кроме как wishful thinking.
Такой вот статус кво.
Вторая часть книги -- микро фантастический рассказ про один из вариантов, как могло бы случиться (но скорее всего случится иначе). Похоже, кстати, на книгу Avogadro Corp от William Hertling. Норм рассказ.
Третья часть книги про челлендж как таковой. Сверхинтеллект это задача, в которой нет места для ошибки -- если сделаем не так, второго шанса может и не быть. Даже если у нас есть рецепт такого ИИ, что будет благожелателен и строго с нашими ценностями (что отдельный вопрос, что это за ценности такие, которые мы сами так себе соблюдаем), то даже его надо имплементировать без ошибок, а мы так не умеем, вся область cybersecurity подтверждает. Эта часть начинается со сравнения с другими проблемами, где на ошибку места не было -- запуск космических проб, ядерная энергетика, компьютерная безопасность -- накосячили везде и неоднократно.
9👍54❤20💊6❤🔥5👻3🦄3🔥2🤡2💩1
Нормального решения на столе до сих пор нет, от всех ИИ компаний лучится нескончаемый венчурный оптимизм, подкреплённый ничем. Авторы книги соответственно за остановку опасных исследований как первый шаг и за вложение сил в решение проблемы ASI alignment. Ну и предлагают какие-то ещё свои шаги.
Решать надо. Главный непонятный вопрос -- сколько у нас есть времени. "Задача трёх тел" здесь также вспоминается, но там хоть время было понятно.
В этом месте есть несколько типичных возражений, которые я уже многократно слышал, не грех сразу и упомянуть:
1. Юдковский чувак без образования, думер, психически и социально неадаптированный и т.п. -- эта аргументация настолько детский сад, что не вижу смысла чего-то тут комментировать, любой ad hominem обычно говорит больше про его сказавшего, чем про адресата. Суть аргумента не адресует никак.
2. Такого ИИ никогда не будет, или будет когда-то нескоро, мы успеем подготовиться -- как писал выше, цель всей области именно такая, непонятно что мешает подумать, что будет, когда мы эту цель достигнем. Нормальная проверка на экологичность при любом целеполагании. Книга Рассела (https://news.1rj.ru/str/gonzo_ML/1516) начинается ровно с этого же вопроса, If we succeed -- совершенно нормальный вопрос, чтобы дать себе на него честный ответ. К некоторым вещам может быть поздно готовиться в момент, когда они случатся. К прилёту астероида, например, тоже. Или к пандемиям -- последний раз глобально пронесло, но миллионы всё равно погибли. Рецепта, как мы видим, пока ни у кого нет, только бравые заявления.
3. LLM не приведут к сверхинтеллекту, они тупые и делают тупые ошибки -- а с этим вообще никто и не спорит и не говорит, что это будут именно ллм. Я тоже изначально был к ним довольно скептичен, и тоже считаю, что нужно что-то иное, но это не мешает мне признать, что прогресс в ллм за последние пять лет просто неимоверен. Я лично не мог ожидать, что они будут настолько хороши в том, в чем они уже хороши. А дурацкие ошибки быстро уходят. Про шесть пальцев на руках уже почти никто и не вспоминает, смешная генерация старых моделей тоже осталась в прошлом, как и большинство детских проблем с числами -- теперь вот задачи золотого уровня на олимпиадах решают. Но книга всё равно вообще не про ллм.
Не хотите читать "думера без образования", прочитайте Рассела тогда хотя бы. Вопросы везде поставлены адекватные. Дело за ответами.
Решать надо. Главный непонятный вопрос -- сколько у нас есть времени. "Задача трёх тел" здесь также вспоминается, но там хоть время было понятно.
В этом месте есть несколько типичных возражений, которые я уже многократно слышал, не грех сразу и упомянуть:
1. Юдковский чувак без образования, думер, психически и социально неадаптированный и т.п. -- эта аргументация настолько детский сад, что не вижу смысла чего-то тут комментировать, любой ad hominem обычно говорит больше про его сказавшего, чем про адресата. Суть аргумента не адресует никак.
2. Такого ИИ никогда не будет, или будет когда-то нескоро, мы успеем подготовиться -- как писал выше, цель всей области именно такая, непонятно что мешает подумать, что будет, когда мы эту цель достигнем. Нормальная проверка на экологичность при любом целеполагании. Книга Рассела (https://news.1rj.ru/str/gonzo_ML/1516) начинается ровно с этого же вопроса, If we succeed -- совершенно нормальный вопрос, чтобы дать себе на него честный ответ. К некоторым вещам может быть поздно готовиться в момент, когда они случатся. К прилёту астероида, например, тоже. Или к пандемиям -- последний раз глобально пронесло, но миллионы всё равно погибли. Рецепта, как мы видим, пока ни у кого нет, только бравые заявления.
3. LLM не приведут к сверхинтеллекту, они тупые и делают тупые ошибки -- а с этим вообще никто и не спорит и не говорит, что это будут именно ллм. Я тоже изначально был к ним довольно скептичен, и тоже считаю, что нужно что-то иное, но это не мешает мне признать, что прогресс в ллм за последние пять лет просто неимоверен. Я лично не мог ожидать, что они будут настолько хороши в том, в чем они уже хороши. А дурацкие ошибки быстро уходят. Про шесть пальцев на руках уже почти никто и не вспоминает, смешная генерация старых моделей тоже осталась в прошлом, как и большинство детских проблем с числами -- теперь вот задачи золотого уровня на олимпиадах решают. Но книга всё равно вообще не про ллм.
Не хотите читать "думера без образования", прочитайте Рассела тогда хотя бы. Вопросы везде поставлены адекватные. Дело за ответами.
Telegram
gonzo-обзоры ML статей
“Human Compatible”, Stuart Russell
https://people.eecs.berkeley.edu/~russell/hc.html
Снова про книги.
Добрался до “Human Compatible” Стюарта Расселла, профессора из Беркли, известного в том числе соавторством вместе с Питером Норвигом общеизвестной книги…
https://people.eecs.berkeley.edu/~russell/hc.html
Снова про книги.
Добрался до “Human Compatible” Стюарта Расселла, профессора из Беркли, известного в том числе соавторством вместе с Питером Норвигом общеизвестной книги…
1👍69❤12💊8💩4🔥3👏1
В тему:
https://superintelligence-statement.org/
We call for a prohibition on the development of superintelligence, not lifted before there is
1. broad scientific consensus that it will be done safely and controllably, and
2. strong public buy-in.
https://superintelligence-statement.org/
We call for a prohibition on the development of superintelligence, not lifted before there is
1. broad scientific consensus that it will be done safely and controllably, and
2. strong public buy-in.
Statement on Superintelligence
“We call for a prohibition on the development of superintelligence, not lifted before there is (1) broad scientific consensus that it will be done safely and controllably, and (2) strong public buy-in.”
🤡25👍15❤5😁3👎2💩1🥴1🤣1
Какая прикольная работа! CaT вместо CoT-SC.
Делаем несколько роллаутов, а потом не отбираем из них правильный ответ, а синтезируем! Из интересного, CaT может генерировать правильный ответ, даже когда каждый из входных роллаутов ошибочен.
https://news.1rj.ru/str/gonzo_ML_podcasts/1004
Важно понимать подход CaT в контексте других недавних методов, не требующих эталонов. Хотя такие техники, как TTRL (https://arxiv.org/abs/2504.16084), также используют несколько роллаутов, они обычно полагаются на механизмы отбора, например, на поиск консенсуса большинством голосов. Сдвиг парадигмы в CaT в сторону синтеза — построения нового, лучшего ответа из частей несовершенных — вот что позволяет ему быть правым, даже когда все роллауты (а следовательно, и консенсус большинства) ошибочны.
Делаем несколько роллаутов, а потом не отбираем из них правильный ответ, а синтезируем! Из интересного, CaT может генерировать правильный ответ, даже когда каждый из входных роллаутов ошибочен.
https://news.1rj.ru/str/gonzo_ML_podcasts/1004
Важно понимать подход CaT в контексте других недавних методов, не требующих эталонов. Хотя такие техники, как TTRL (https://arxiv.org/abs/2504.16084), также используют несколько роллаутов, они обычно полагаются на механизмы отбора, например, на поиск консенсуса большинством голосов. Сдвиг парадигмы в CaT в сторону синтеза — построения нового, лучшего ответа из частей несовершенных — вот что позволяет ему быть правым, даже когда все роллауты (а следовательно, и консенсус большинства) ошибочны.
Telegram
gonzo_ML_podcasts
Синтезируй, а не выбирай: разбор Compute as Teacher и обучения без эталонов
Title: Compute as Teacher: Turning Inference Compute Into Reference-Free Supervision
Authors: Dulhan Jayalath, Shashwat Goel, Thomas Foster, Parag Jain, Suchin Gururangan, Cheng…
Title: Compute as Teacher: Turning Inference Compute Into Reference-Free Supervision
Authors: Dulhan Jayalath, Shashwat Goel, Thomas Foster, Parag Jain, Suchin Gururangan, Cheng…
👍15
Свободу трансформерам!
https://news.1rj.ru/str/gonzo_ML_podcasts/1020
Добавили к авторегрессионной генерации латенты в стиле CVAE и сделали это с почти минимальным оверхедом.
https://news.1rj.ru/str/gonzo_ML_podcasts/1020
Добавили к авторегрессионной генерации латенты в стиле CVAE и сделали это с почти минимальным оверхедом.
Telegram
gonzo_ML_podcasts
Свободный Трансформер: Как улучшить рассуждения с помощью латентных переменных
Title: The Free Transformer
Authors: François Fleuret
Paper: https://arxiv.org/abs/2510.17558
Code: Not available
Model: Not available
Review: https://arxiviq.substack.com/p/the…
Title: The Free Transformer
Authors: François Fleuret
Paper: https://arxiv.org/abs/2510.17558
Code: Not available
Model: Not available
Review: https://arxiviq.substack.com/p/the…
👍12😁9❤1🤔1
Интересная работа про Planned Diffusion: сначала авторегрессионно генерим план ответа, потом диффузионно впараллель заполняем его отдельные части. Всё делает одна модель.
https://news.1rj.ru/str/gonzo_ML_podcasts/1034
https://news.1rj.ru/str/gonzo_ML_podcasts/1034
Telegram
gonzo_ML_podcasts
Planned Diffusion: гибридный подход к преодолению барьера между скоростью и качеством в LLM
Title: Planned Diffusion
Authors: Daniel Israel, Tian Jin, Ellie Cheng, Aditya Grover, Suvinay Subramanian, Guy Van den Broeck, Michael Carbin
Paper: https://arx…
Title: Planned Diffusion
Authors: Daniel Israel, Tian Jin, Ellie Cheng, Aditya Grover, Suvinay Subramanian, Guy Van den Broeck, Michael Carbin
Paper: https://arx…
❤11👍8🔥5
Ещё про диффузионные LLM, теперь подход Soft Masking. Здесь вместо того, чтобы принимать бинарное решение "заменить
https://news.1rj.ru/str/gonzo_ML_podcasts/1043
[MASK] на реальный токен" или нет, мы при сохранении маски смешиваем эмбеддинг токена [MASK] с взвешенной по уверенности выпуклой комбинацией эмбеддингов топ-k предсказанных токенов с предыдущего шага. Способствует сохранению важной информации, улучшает обучение. https://news.1rj.ru/str/gonzo_ML_podcasts/1043
Telegram
gonzo_ML_podcasts
Переосмысляя маску: как мягкая обратная связь улучшает диффузионные языковые модели
Title: Soft-Masked Diffusion Language Models
Authors: Michael Hersche, Samuel Moor-Smith, Thomas Hofmann, Abbas Rahimi
Paper: https://arxiv.org/abs/2510.17206
Code: Not available…
Title: Soft-Masked Diffusion Language Models
Authors: Michael Hersche, Samuel Moor-Smith, Thomas Hofmann, Abbas Rahimi
Paper: https://arxiv.org/abs/2510.17206
Code: Not available…
🔥12👍9
Больше фундаментальных моделей, хороших и разных, и за пределами языка.
Две недавние работы:
* Physics Foundation Model (https://news.1rj.ru/str/gonzo_ML_podcasts/1055) — обучен General Physics Transformer (GPhyT) на симуляцию широкого спектра совершенно разных физических систем — от несжимаемых потоков и тепловой конвекции до ударных волн и многофазной динамики. Модель выучивает физические принципы из данных, обходит специализированные модели и умеет обобщать в режиме zero-shot — на новые граничные условия или физические явления, которые она не видела, например, сверхзвуковой поток.
* AION-1: Omnimodal Foundation Model for Astronomical Sciences (https://news.1rj.ru/str/gonzo_ML_podcasts/1067) — семейство крупных (от 300 млн до 3.1 млрд параметров) омнимодальных фундаментальных моделей для астрономии. Обучены энкодеры из 39 модальностей, модель хорошо перформит на малом количестве данных, даёт хорошие эмбеддинги, которые позволяют сделать высокоэффективный zero-shot поиск редких явлений типа сильных гравитационных линз, и умеет в кросс-модальную генерацию.
Интересный движ!
Две недавние работы:
* Physics Foundation Model (https://news.1rj.ru/str/gonzo_ML_podcasts/1055) — обучен General Physics Transformer (GPhyT) на симуляцию широкого спектра совершенно разных физических систем — от несжимаемых потоков и тепловой конвекции до ударных волн и многофазной динамики. Модель выучивает физические принципы из данных, обходит специализированные модели и умеет обобщать в режиме zero-shot — на новые граничные условия или физические явления, которые она не видела, например, сверхзвуковой поток.
* AION-1: Omnimodal Foundation Model for Astronomical Sciences (https://news.1rj.ru/str/gonzo_ML_podcasts/1067) — семейство крупных (от 300 млн до 3.1 млрд параметров) омнимодальных фундаментальных моделей для астрономии. Обучены энкодеры из 39 модальностей, модель хорошо перформит на малом количестве данных, даёт хорошие эмбеддинги, которые позволяют сделать высокоэффективный zero-shot поиск редких явлений типа сильных гравитационных линз, и умеет в кросс-модальную генерацию.
Интересный движ!
Telegram
gonzo_ML_podcasts
На заре универсального физического движка: GPhyT и фундаментальная модель для физики
Towards a Physics Foundation Model
Florian Wiesner, Matthias Wessling, Stephen Baek
Статья: https://arxiv.org/abs/2509.13805
Блог: https://flowsnr.github.io/blog/physics…
Towards a Physics Foundation Model
Florian Wiesner, Matthias Wessling, Stephen Baek
Статья: https://arxiv.org/abs/2509.13805
Блог: https://flowsnr.github.io/blog/physics…
❤18🔥16
Датасет для файнтюнинга агентности... из 78 примеров.
LIMI: Less is More for Agency
https://news.1rj.ru/str/gonzo_ML_podcasts/1083
LIMI: Less is More for Agency
https://news.1rj.ru/str/gonzo_ML_podcasts/1083
🤯21❤10🤔6
Je suis Markov
Прикольная работа, как делать долгие цепочки рассуждений, не растягивая контекст, а постоянно его сбрасывая и храня небольшое состояние.
Авторы предлагают новую парадигму под названием марковское мышление (Markovian Thinking), в которой политика рассуждает, основываясь только на состоянии постоянного размера, независимо от общей длины рассуждений. Эта концепция воплощена в жизнь через Delethink, новую RL-среду. Название намекает на то, что модель продолжает работу, удалив (delete) предыдущий контекст.
Delethink работает, сегментируя цепочку рассуждений на последовательность чанков фиксированного размера. Внутри каждого чанка (например, 8 тыс. токенов) модель генерирует текст авторегрессионно, как обычно. Ключевое нововведение происходит на границе чанков:
1. Сброс контекста: Среда полностью сбрасывает контекст, удаляя предыдущие токены рассуждений.
2. Перенос состояния: Для следующего чанка конструируется новый промпт, состоящий из исходного запроса и короткого текстового фрагмента фиксированного размера из конца предыдущего чанка. Этот фрагмент служит выученным, ограниченным по размеру марковским состоянием.
Подробнее:
https://news.1rj.ru/str/gonzo_ML_podcasts/1093
Прикольная работа, как делать долгие цепочки рассуждений, не растягивая контекст, а постоянно его сбрасывая и храня небольшое состояние.
Авторы предлагают новую парадигму под названием марковское мышление (Markovian Thinking), в которой политика рассуждает, основываясь только на состоянии постоянного размера, независимо от общей длины рассуждений. Эта концепция воплощена в жизнь через Delethink, новую RL-среду. Название намекает на то, что модель продолжает работу, удалив (delete) предыдущий контекст.
Delethink работает, сегментируя цепочку рассуждений на последовательность чанков фиксированного размера. Внутри каждого чанка (например, 8 тыс. токенов) модель генерирует текст авторегрессионно, как обычно. Ключевое нововведение происходит на границе чанков:
1. Сброс контекста: Среда полностью сбрасывает контекст, удаляя предыдущие токены рассуждений.
2. Перенос состояния: Для следующего чанка конструируется новый промпт, состоящий из исходного запроса и короткого текстового фрагмента фиксированного размера из конца предыдущего чанка. Этот фрагмент служит выученным, ограниченным по размеру марковским состоянием.
Подробнее:
https://news.1rj.ru/str/gonzo_ML_podcasts/1093
Telegram
gonzo_ML_podcasts
🧠 Мышление порциями: Markovian Thinker открывает путь к линейным по времени рассуждениям для LLM
The Markovian Thinker
Milad Aghajohari, Kamran Chitsaz, Amirhossein Kazemnejad, Sarath Chandar, Alessandro Sordoni, Aaron Courville, Siva Reddy
Статья: http…
The Markovian Thinker
Milad Aghajohari, Kamran Chitsaz, Amirhossein Kazemnejad, Sarath Chandar, Alessandro Sordoni, Aaron Courville, Siva Reddy
Статья: http…
❤18👍10🔥6