Всё ещё сижу в Бангкоке — преподаю, грущу и, честно говоря, ничего больше не делаю. Так что вот вам ещё мини-обзоры нескольких мини-игр; не удивляйтесь, что так много, всё это игры на 2-3 часа (и это, кстати, чаще хорошо, чем плохо).
Mouthwashing. Начну с самой хайповой игры из подборки; и это действительно отличный психологический хоррор. Скажу так: Mouthwashing — это логическое завершение идеи ненадёжного рассказчика. А дальше спойлерить не буду, это игра, которую лучше испытать самостоятельно, не зная, что будет дальше. Скримеров здесь мало (но есть!), в основном работают прекрасно создаваемая атмосфера, сюжет и сама суть происходящего. Очень рекомендую.
The Witch's Cauldron — немного удивительно встретить в списке коротких игр roguelike, но за два часа я действительно успел открыть всю книгу рецептов, получить примерно половину всех концовок и в целом наиграться (правда, Steam Deck съел почти все мои ачивки, у него проблемы с синхронизацией при игре оффлайн). Идея забавная, а играть лучше по-русски: авторы русскоязычные и в игре даже есть отсылки на IXBT Games (а может, и ещё какие-нибудь отсылки, которых я не понял). В целом рекомендую, но на входе надо понимать, что это игра про пару часов шутеек, а не настоящий roguelike.
Hazy Mind — это короткая (буквально на час) визуальная новелла о депрессии, проблемах с психикой и отчаянии. Честно говоря, немного не по себе от того, насколько хорошо эта игра о мной срезонировала, при том, что написана она средненько и несомненно адресуется скорее к подросткам. А в самой игре не по себе стало от того, как сформулированы ачивки за некоторые достижения и за "хорошую концовку". Попробуйте, много времени не потратите, а если вам не понравится, то и слава богу!
Thank Goodness You're Here. Последняя игра в подборке уверенно восстанавливает баланс между отчаянием и юмором; я бы её описал как Monty Python meets ШКЯ (как такой стиль называется в английском контексте, кстати?). По оформлению и сути геймплея это практически классический квест, но думать тут совсем не надо, все загадки решаются сразу же. Вся суть — в шутейках, диалекте английской глубинки (действие происходит в городке Barnsworth, ну то есть Barnsley), прекрасно сделанном слэпстике и абсурдистском юморе в стиле Monty Python. Сделано отлично, и хорошо, что быстро заканчивается (кстати, grand finale сделано очень круто), больше 2-3 часов такого удовольствия было бы уже чересчур.
Mouthwashing. Начну с самой хайповой игры из подборки; и это действительно отличный психологический хоррор. Скажу так: Mouthwashing — это логическое завершение идеи ненадёжного рассказчика. А дальше спойлерить не буду, это игра, которую лучше испытать самостоятельно, не зная, что будет дальше. Скримеров здесь мало (но есть!), в основном работают прекрасно создаваемая атмосфера, сюжет и сама суть происходящего. Очень рекомендую.
The Witch's Cauldron — немного удивительно встретить в списке коротких игр roguelike, но за два часа я действительно успел открыть всю книгу рецептов, получить примерно половину всех концовок и в целом наиграться (правда, Steam Deck съел почти все мои ачивки, у него проблемы с синхронизацией при игре оффлайн). Идея забавная, а играть лучше по-русски: авторы русскоязычные и в игре даже есть отсылки на IXBT Games (а может, и ещё какие-нибудь отсылки, которых я не понял). В целом рекомендую, но на входе надо понимать, что это игра про пару часов шутеек, а не настоящий roguelike.
Hazy Mind — это короткая (буквально на час) визуальная новелла о депрессии, проблемах с психикой и отчаянии. Честно говоря, немного не по себе от того, насколько хорошо эта игра о мной срезонировала, при том, что написана она средненько и несомненно адресуется скорее к подросткам. А в самой игре не по себе стало от того, как сформулированы ачивки за некоторые достижения и за "хорошую концовку". Попробуйте, много времени не потратите, а если вам не понравится, то и слава богу!
Thank Goodness You're Here. Последняя игра в подборке уверенно восстанавливает баланс между отчаянием и юмором; я бы её описал как Monty Python meets ШКЯ (как такой стиль называется в английском контексте, кстати?). По оформлению и сути геймплея это практически классический квест, но думать тут совсем не надо, все загадки решаются сразу же. Вся суть — в шутейках, диалекте английской глубинки (действие происходит в городке Barnsworth, ну то есть Barnsley), прекрасно сделанном слэпстике и абсурдистском юморе в стиле Monty Python. Сделано отлично, и хорошо, что быстро заканчивается (кстати, grand finale сделано очень круто), больше 2-3 часов такого удовольствия было бы уже чересчур.
❤🔥14❤9👍2
Каналы про AI, которые я читаю, как-то прошли мимо последнего интервью у Дваркеша Пателя (это самый лучший подкаст об AI и науке в целом, что я знаю, просто невероятные гости). А как по мне, подкаст с Адамом Брауном куда круче получился, чем у того же Сэма Альтмана, который наполовину просто talked his own book.
https://www.dwarkeshpatel.com/p/adam-brown
Адам Браун — основатель и руководитель компании BlueShift, которую купил DeepMind, которого купил Google, и сейчас он улучшает способности Gemini к математике и науке в целом. Но по образованию он теорфизик, и в разговоре Дваркеш очень правильно сконцентрировался именно на физике. Объясняет Браун совершенно потрясающе, первый час интервью рекомендую всем; конечно, получается только иллюзия понимания, но другого и нельзя ожидать от устного подкаста.
Цитата из кадра была в контексте порождения новой вселенной с другими законами физики, но, кажется, не только про это...
И, кстати, ещё раз напомнил себе, в каком году живу. В начале интервью понял, что не очень понимаю происходящее, потому что плохо помню (а может, стыдно признаться, и вообще не знал никогда), что такое космологическая постоянная. Попробовал по привычке почитать статью в википедии и ничего не понял вообще. Спросил GPT — и получил очень хорошее объяснение; всерьёз оценить, конечно, не могу, для этого нужно было бы понимать всё заранее, но что точно с википедией бы не вышло — это задать пару тупых вопросов и получить терпеливое подробное объяснение:
https://chatgpt.com/share/67979d6e-e218-8011-ac42-811ebdb06184
Уверен, что языковые модели радикально изменят образование, даже если остановятся прямо сейчас и не продвинутся вперёд ни на шаг.
https://www.dwarkeshpatel.com/p/adam-brown
Адам Браун — основатель и руководитель компании BlueShift, которую купил DeepMind, которого купил Google, и сейчас он улучшает способности Gemini к математике и науке в целом. Но по образованию он теорфизик, и в разговоре Дваркеш очень правильно сконцентрировался именно на физике. Объясняет Браун совершенно потрясающе, первый час интервью рекомендую всем; конечно, получается только иллюзия понимания, но другого и нельзя ожидать от устного подкаста.
Цитата из кадра была в контексте порождения новой вселенной с другими законами физики, но, кажется, не только про это...
И, кстати, ещё раз напомнил себе, в каком году живу. В начале интервью понял, что не очень понимаю происходящее, потому что плохо помню (а может, стыдно признаться, и вообще не знал никогда), что такое космологическая постоянная. Попробовал по привычке почитать статью в википедии и ничего не понял вообще. Спросил GPT — и получил очень хорошее объяснение; всерьёз оценить, конечно, не могу, для этого нужно было бы понимать всё заранее, но что точно с википедией бы не вышло — это задать пару тупых вопросов и получить терпеливое подробное объяснение:
https://chatgpt.com/share/67979d6e-e218-8011-ac42-811ebdb06184
Уверен, что языковые модели радикально изменят образование, даже если остановятся прямо сейчас и не продвинутся вперёд ни на шаг.
❤🔥11👍5❤2
Последняя неделя курса в Бангкоке, уже вот трансформеры обсуждаем; зря я, конечно, проектор забыл выключить, но что уж теперь. В этот раз группа очень хорошая, все всё делают, всё понимают, курс идёт хорошо. Недавно пришёл feedback, который студенты в середине курса могут подать, с разрешения Harbour Space процитирую ниже — честно говоря, просто душа радуется. Получать такие отзывы невозможно привыкнуть, каждый раз очень-очень приятно.
А после недавнего экзамена на ФМКН один коллега (тут не процитируешь, устно было) поблагодарил за курс и отдельно сказал спасибо за то, что я остался в России и продолжаю преподавать. И это тоже было чертовски приятно. Для того мы всё это и делаем, наверное.)
===
I enjoy the class atmosphere. I believe his teaching style, along with his willingness and genuine interest in students, are the best aspects. I also appreciate that he doesn’t hesitate to explain and remind us of concepts, often using drawings on the board. His illustrations greatly help in clarifying and enhancing our understanding.
===
I don’t think there are any shortcomings in this class. The teacher’s ability and knowledge are truly outstanding. I genuinely hope he considers teaching a basic machine learning course in the future, as his talent for explaining complex concepts in a simple and clear way is remarkable. I would absolutely enroll in that class if he taught it.
===
К сожалению, второй анонимный коллега скорее всего не сможет воспользоваться тем, что basic machine learning course я читаю каждый год уже много лет, потому что по странному совпадению всё время получается по-русски.) Но вы можете — заходите на мой канал в Youtube:
https://www.youtube.com/c/SergeyNikolenko
(эх, какая естественная самоджинса получилась, любо-дорого посмотреть :) )
А после недавнего экзамена на ФМКН один коллега (тут не процитируешь, устно было) поблагодарил за курс и отдельно сказал спасибо за то, что я остался в России и продолжаю преподавать. И это тоже было чертовски приятно. Для того мы всё это и делаем, наверное.)
===
I enjoy the class atmosphere. I believe his teaching style, along with his willingness and genuine interest in students, are the best aspects. I also appreciate that he doesn’t hesitate to explain and remind us of concepts, often using drawings on the board. His illustrations greatly help in clarifying and enhancing our understanding.
===
I don’t think there are any shortcomings in this class. The teacher’s ability and knowledge are truly outstanding. I genuinely hope he considers teaching a basic machine learning course in the future, as his talent for explaining complex concepts in a simple and clear way is remarkable. I would absolutely enroll in that class if he taught it.
===
К сожалению, второй анонимный коллега скорее всего не сможет воспользоваться тем, что basic machine learning course я читаю каждый год уже много лет, потому что по странному совпадению всё время получается по-русски.) Но вы можете — заходите на мой канал в Youtube:
https://www.youtube.com/c/SergeyNikolenko
(эх, какая естественная самоджинса получилась, любо-дорого посмотреть :) )
❤🔥37🔥11❤8👍3
В этот раз два раза успели встретиться с Антоном @late_adopter, второй раз — в честь наступающего нового года. Антон меня привёл, как полагается, на главную улицу местного Чайнатауна. Там уже была огорожена центральная часть улицы, народ толпился, очевидно ждал какого-то парада. Мы прошли вперёд, пока это было возможно, упёрлись в плотную толпу и решили тоже парада дождаться.
Мы оказались напротив магазина с какой-то, видимо, китайской народной медициной или чем-то подобным; и хоть мы об этом не знали, место наше оказалось очень хорошим. Через примерно полчаса вокруг магазина начали собираться военные (или высокие чины полиции), а ещё через десять-пятнадцать минут приехали странного вида открытые автобусы с людьми в красных одеждах. На парад было непохоже, но все вокруг очень оживились.
Оказалось, что в магазин за китайскими травками приехала принцесса Маха Чакри Сириндхорн, сестра правящего Рамы X. Так что вот вам особа из правящего дома (а чтобы вы нашли её на фото, скажу, что принцессе 69 лет).
Вспомнилось, как я в похожей толпе двадцать лет назад — на конференции SAT 2005 в Сент-Эндрюсе — высматривал королеву Елизавету. Помню, что высмотрел и сфотографировал, но фотографию найти уже, конечно, невозможно.
А парада после этого, конечно, никакого не было. Когда мы со всей этой толпой уходили с главной улицы, навстречу толкали свои тележки уличные торговцы.
Зато на соседней улице встретили потрясающих свинок и белочку. С Новым годом, друзья!
Мы оказались напротив магазина с какой-то, видимо, китайской народной медициной или чем-то подобным; и хоть мы об этом не знали, место наше оказалось очень хорошим. Через примерно полчаса вокруг магазина начали собираться военные (или высокие чины полиции), а ещё через десять-пятнадцать минут приехали странного вида открытые автобусы с людьми в красных одеждах. На парад было непохоже, но все вокруг очень оживились.
Оказалось, что в магазин за китайскими травками приехала принцесса Маха Чакри Сириндхорн, сестра правящего Рамы X. Так что вот вам особа из правящего дома (а чтобы вы нашли её на фото, скажу, что принцессе 69 лет).
Вспомнилось, как я в похожей толпе двадцать лет назад — на конференции SAT 2005 в Сент-Эндрюсе — высматривал королеву Елизавету. Помню, что высмотрел и сфотографировал, но фотографию найти уже, конечно, невозможно.
А парада после этого, конечно, никакого не было. Когда мы со всей этой толпой уходили с главной улицы, навстречу толкали свои тележки уличные торговцы.
Зато на соседней улице встретили потрясающих свинок и белочку. С Новым годом, друзья!
🎄13👍6🔥6❤🔥4🎉4❤2
Вышел следующий пост в блоге Synthesis AI. Пока все обсуждают DeepSeek R1, я написал пост о статье, вышедшей буквально 31 декабря 2024 года — новом механизме памяти Titans, который исследователи из Google добавили в трансформер.
https://synthesis.ai/2025/01/28/attack-of-the-titans-transformers-2-0/
Очень интересная идея, которая с одной стороны вроде как продолжает линейку Mamba и вообще "линейного внимания", но с другой стороны выглядит (и есть!) гораздо проще. По сути авторы нашли способ реализовать простую логичную идею: ввести память как ещё одну небольшую сеть, которая обучается прямо на входе, в процессе его чтения. А Mamba-like модели, которые активно развивались весь прошлый год, как раз дали подходящий метод для того, как это всё реализовать достаточно эффективно, чтобы можно было отмасштабировать.
Это всё больше похоже на то, как (я представляю, будто бы) работает наша человеческая память. Даже пост начал с Александра Лурии в этот раз, хотя, конечно, с него можно было бы почти любой такой пост начинать. Результаты впечатляющие, хотя, конечно, пока это всё маленькие академические эксперименты, ждём, пока в полноценный Gemini встроят; но главное — очень простая идея, наверняка очень скоро будут и продолжения.
Про DeepSeek тоже напишу, конечно, но позже; надо бы написать про o1 replications и о том, где именно там RL и зачем.
https://synthesis.ai/2025/01/28/attack-of-the-titans-transformers-2-0/
Очень интересная идея, которая с одной стороны вроде как продолжает линейку Mamba и вообще "линейного внимания", но с другой стороны выглядит (и есть!) гораздо проще. По сути авторы нашли способ реализовать простую логичную идею: ввести память как ещё одну небольшую сеть, которая обучается прямо на входе, в процессе его чтения. А Mamba-like модели, которые активно развивались весь прошлый год, как раз дали подходящий метод для того, как это всё реализовать достаточно эффективно, чтобы можно было отмасштабировать.
Это всё больше похоже на то, как (я представляю, будто бы) работает наша человеческая память. Даже пост начал с Александра Лурии в этот раз, хотя, конечно, с него можно было бы почти любой такой пост начинать. Результаты впечатляющие, хотя, конечно, пока это всё маленькие академические эксперименты, ждём, пока в полноценный Gemini встроят; но главное — очень простая идея, наверняка очень скоро будут и продолжения.
Про DeepSeek тоже напишу, конечно, но позже; надо бы написать про o1 replications и о том, где именно там RL и зачем.
❤🔥19⚡5❤4👍3✍1
Рубрика об играх становится традиционной. Сегодня расскажу вам про три небольшие инди-игры, выпущенные одной и той же маленькой студией Sigono Inc. в одной и той же вселенной. Наверное, лучшее прилагательное для этой серии — эмоциональные игры; они призваны вызывать эмоции подачей истории и при этом немного развлекать, но не напрягать геймплейной составляющей.
OPUS: Echo of Starsong — это визуальная новелла с небольшими элементами менеджмента ресурсов (написал и понял, как это звучит — oh well, no, not that kind of visual novel), самая большая из трёх и дающая больше всего бэкграунда про игровую вселенную и так далее. По сюжету и построению игрового мира это типичная японщина: много обёрнутой в научно-фантастические термины магии, которая по сути нужна только для того, чтобы рассказать эмоциональную историю взросления... но история отличная! Надо просто suspend all disbelief и немножко проникнуться, и OPUS действительно вызовет все те эмоции, которые собиралась. Нарисовано красиво, музыка завораживающая, рекомендую.
Две другие игры тоже из той же серии — OPUS: The Day We Found Earth и OPUS: Rocket of Whispers. Хотя они вышли раньше, чем Echo of Starsong, я всё-таки рекомендую начать с последней: она гораздо лучше объяснит, что вообще происходит в этом мире, и тогда то, что в двух первых играх подаётся вскользь и намёками, вызовет куда больше тех самых эмоций. По сути они тоже в основном сюжетные, но при этом имеют совсем другие механики: в одной вам нужно через телескоп искать похожие на Землю планеты, а другая похожа на выживалку с крафтом, хотя там, конечно, никакого геймплейного напряжения нет.
Echo of Starsong заняла у меня часов восемь, две другие — по три-четыре часа. Примерно такая продолжительность для сюжетных игр кажется мне идеальной: не успеваешь отложить игру и забыть, что там происходило, а 3-4 часа — это вообще может быть один вечер. В общем, Sigono Inc. молодцы; кстати, в каждой игре после прохождения открываются очень добрые и вдохновляющие комментарии разработчиков. Рекомендую.
OPUS: Echo of Starsong — это визуальная новелла с небольшими элементами менеджмента ресурсов (написал и понял, как это звучит — oh well, no, not that kind of visual novel), самая большая из трёх и дающая больше всего бэкграунда про игровую вселенную и так далее. По сюжету и построению игрового мира это типичная японщина: много обёрнутой в научно-фантастические термины магии, которая по сути нужна только для того, чтобы рассказать эмоциональную историю взросления... но история отличная! Надо просто suspend all disbelief и немножко проникнуться, и OPUS действительно вызовет все те эмоции, которые собиралась. Нарисовано красиво, музыка завораживающая, рекомендую.
Две другие игры тоже из той же серии — OPUS: The Day We Found Earth и OPUS: Rocket of Whispers. Хотя они вышли раньше, чем Echo of Starsong, я всё-таки рекомендую начать с последней: она гораздо лучше объяснит, что вообще происходит в этом мире, и тогда то, что в двух первых играх подаётся вскользь и намёками, вызовет куда больше тех самых эмоций. По сути они тоже в основном сюжетные, но при этом имеют совсем другие механики: в одной вам нужно через телескоп искать похожие на Землю планеты, а другая похожа на выживалку с крафтом, хотя там, конечно, никакого геймплейного напряжения нет.
Echo of Starsong заняла у меня часов восемь, две другие — по три-четыре часа. Примерно такая продолжительность для сюжетных игр кажется мне идеальной: не успеваешь отложить игру и забыть, что там происходило, а 3-4 часа — это вообще может быть один вечер. В общем, Sigono Inc. молодцы; кстати, в каждой игре после прохождения открываются очень добрые и вдохновляющие комментарии разработчиков. Рекомендую.
❤🔥14❤6🔥6👍3
Горькие уроки попыток репликации o1 — часть 1/3
Пишу очередной огромный пост, на этот раз про репликации o1 и вышедшую из этого DeepSeek-R1. Ссылку на пост тоже кину, когда он выйдет; но пока в процессе, поделюсь одной небольшой историей в трёх частях.
Естественно, как только появилась новая крутая штука — OpenAI o1, то есть large reasoning models (LRM), — все сразу начали пытаться её воспроизвести. Причём не просто скопировать код (его никто и не видел), а именно с нуля переизобрести и запустить в работу. Здесь начинается мини-сериал под названием "O1 Replication Journey" — в трёх статьях от Generative AI Research Lab (GAIR) при Шанхайском университете Цзяотун. Я своё описание тоже разобью на три поста; иллюстрации к ним — это таймлайны из трёх статей GAIR; very cute.
Первая статья (Qin et al., 2024) вышла в октябре 2024 года, буквально через месяц после выхода o1 и старта проекта (кстати, очень амбициозного). Коллеги придумали хорошее название — journey learning, где модель должна не просто давать ответ, а выдавать весь процесс рассуждений, с заходами в тупики, гипотезами и их проверкой.
Всё выглядело оптимистично. Они планировали использовать Monte Carlo tree search для построения "деревьев рассуждений" (tree of thought, это не метафора, а стандартная уже техника, в посте будет подробнее) и process reward models (PRM, процессуальные модели вознаграждений — они проверяют не только ответ, а ещё и весь ход рассуждений, там, где это возможно), чтобы улучшать ход рассуждений модели в реальном времени. Первая картинка — таймлайн из этой статьи. Уже на этом этапе, собрав датасет из буквально 327 примеров, они смогли заметно улучшить качество работы модели на некоторых математических бенчмарках.
Пишу очередной огромный пост, на этот раз про репликации o1 и вышедшую из этого DeepSeek-R1. Ссылку на пост тоже кину, когда он выйдет; но пока в процессе, поделюсь одной небольшой историей в трёх частях.
Естественно, как только появилась новая крутая штука — OpenAI o1, то есть large reasoning models (LRM), — все сразу начали пытаться её воспроизвести. Причём не просто скопировать код (его никто и не видел), а именно с нуля переизобрести и запустить в работу. Здесь начинается мини-сериал под названием "O1 Replication Journey" — в трёх статьях от Generative AI Research Lab (GAIR) при Шанхайском университете Цзяотун. Я своё описание тоже разобью на три поста; иллюстрации к ним — это таймлайны из трёх статей GAIR; very cute.
Первая статья (Qin et al., 2024) вышла в октябре 2024 года, буквально через месяц после выхода o1 и старта проекта (кстати, очень амбициозного). Коллеги придумали хорошее название — journey learning, где модель должна не просто давать ответ, а выдавать весь процесс рассуждений, с заходами в тупики, гипотезами и их проверкой.
Всё выглядело оптимистично. Они планировали использовать Monte Carlo tree search для построения "деревьев рассуждений" (tree of thought, это не метафора, а стандартная уже техника, в посте будет подробнее) и process reward models (PRM, процессуальные модели вознаграждений — они проверяют не только ответ, а ещё и весь ход рассуждений, там, где это возможно), чтобы улучшать ход рассуждений модели в реальном времени. Первая картинка — таймлайн из этой статьи. Уже на этом этапе, собрав датасет из буквально 327 примеров, они смогли заметно улучшить качество работы модели на некоторых математических бенчмарках.
❤🔥5❤2🔥2
Горькие уроки попыток репликации o1 — часть 2/3
Как в хорошем сериале, вскоре всё перевернулось с ног на голову; впрочем, нашему мини-сериалу для этого хватило добраться до второй серии. Уже в декабре появляется вторая статья (Huang et al., 2024). Там учёные из GAIR сделали простое, но гениальное открытие: когда у тебя есть датасет reasoning traces (ответы и логика рассуждений o1), тебе больше ничего не нужно!
Они взяли ответы модели o1, сделали supervised fine-tuning на десятках тысяч примеров и... смогли обойти o1-preview на многих бенчмарках. Несколько неожиданно то, что хотя их модель обучалась сугубо на математике (датасетах олимпиадных задачек), она потом нормально справлялась с вопросами из открытых областей знаний и даже стала меньше поддаваться на провокации (авторы это называют sycophancy — известный эффект, когда модель соглашается со всем, о чём её спрашивают, даже если вопрос абсурдный или очевидно исходит из ложных посылок).
В сухом остатке:
— берёшь o1 или другую рассуждающую модель, набирает из него датасет reasoning traces;
— натравливаешь на них свою модель обычным дообучением;
— PROFIT.
Добрых полстатьи авторы рассуждают, в чём тут засада и почему это всё-таки bitter lesson, а не победа. Причины в целом очевидные:
— это не масштабируется, ты никогда не сделаешь модель умнее, чем модель-учитель;
— если все будут только копировать решения, а не думать с нуля, исследования застопорятся; прорывов не будет, если над этим работают только несколько секретных лабораторий;
— вся работа превращается в промпт-инжиниринг и поиск способов лучше использовать уже существующие топовые модели, а не в решение фундаментальных задач и рассуждения от первых принципов.
И тем не менее ничего поделать с этим они, не будучи сами топовой лабораторией с огромным запасом compute, не смогли...
Как в хорошем сериале, вскоре всё перевернулось с ног на голову; впрочем, нашему мини-сериалу для этого хватило добраться до второй серии. Уже в декабре появляется вторая статья (Huang et al., 2024). Там учёные из GAIR сделали простое, но гениальное открытие: когда у тебя есть датасет reasoning traces (ответы и логика рассуждений o1), тебе больше ничего не нужно!
Они взяли ответы модели o1, сделали supervised fine-tuning на десятках тысяч примеров и... смогли обойти o1-preview на многих бенчмарках. Несколько неожиданно то, что хотя их модель обучалась сугубо на математике (датасетах олимпиадных задачек), она потом нормально справлялась с вопросами из открытых областей знаний и даже стала меньше поддаваться на провокации (авторы это называют sycophancy — известный эффект, когда модель соглашается со всем, о чём её спрашивают, даже если вопрос абсурдный или очевидно исходит из ложных посылок).
В сухом остатке:
— берёшь o1 или другую рассуждающую модель, набирает из него датасет reasoning traces;
— натравливаешь на них свою модель обычным дообучением;
— PROFIT.
Добрых полстатьи авторы рассуждают, в чём тут засада и почему это всё-таки bitter lesson, а не победа. Причины в целом очевидные:
— это не масштабируется, ты никогда не сделаешь модель умнее, чем модель-учитель;
— если все будут только копировать решения, а не думать с нуля, исследования застопорятся; прорывов не будет, если над этим работают только несколько секретных лабораторий;
— вся работа превращается в промпт-инжиниринг и поиск способов лучше использовать уже существующие топовые модели, а не в решение фундаментальных задач и рассуждения от первых принципов.
И тем не менее ничего поделать с этим они, не будучи сами топовой лабораторией с огромным запасом compute, не смогли...
❤🔥6❤2🔥2