Sinекура – Telegram
Sinекура
3.33K subscribers
819 photos
11 videos
249 links
Канал Сергея Николенко обо всём, но в основном об AI.

Сайт с выступлениями, лекциями и публикациями: https://sergeynikolenko.ru/
Блог на сайте Synthesis AI: https://synthesis.ai/blog/
Download Telegram
В этот раз два раза успели встретиться с Антоном @late_adopter, второй раз — в честь наступающего нового года. Антон меня привёл, как полагается, на главную улицу местного Чайнатауна. Там уже была огорожена центральная часть улицы, народ толпился, очевидно ждал какого-то парада. Мы прошли вперёд, пока это было возможно, упёрлись в плотную толпу и решили тоже парада дождаться.

Мы оказались напротив магазина с какой-то, видимо, китайской народной медициной или чем-то подобным; и хоть мы об этом не знали, место наше оказалось очень хорошим. Через примерно полчаса вокруг магазина начали собираться военные (или высокие чины полиции), а ещё через десять-пятнадцать минут приехали странного вида открытые автобусы с людьми в красных одеждах. На парад было непохоже, но все вокруг очень оживились.

Оказалось, что в магазин за китайскими травками приехала принцесса Маха Чакри Сириндхорн, сестра правящего Рамы X. Так что вот вам особа из правящего дома (а чтобы вы нашли её на фото, скажу, что принцессе 69 лет).

Вспомнилось, как я в похожей толпе двадцать лет назад — на конференции SAT 2005 в Сент-Эндрюсе — высматривал королеву Елизавету. Помню, что высмотрел и сфотографировал, но фотографию найти уже, конечно, невозможно.

А парада после этого, конечно, никакого не было. Когда мы со всей этой толпой уходили с главной улицы, навстречу толкали свои тележки уличные торговцы.

Зато на соседней улице встретили потрясающих свинок и белочку. С Новым годом, друзья!
🎄13👍6🔥6❤‍🔥4🎉42
Вышел следующий пост в блоге Synthesis AI. Пока все обсуждают DeepSeek R1, я написал пост о статье, вышедшей буквально 31 декабря 2024 года — новом механизме памяти Titans, который исследователи из Google добавили в трансформер.

https://synthesis.ai/2025/01/28/attack-of-the-titans-transformers-2-0/

Очень интересная идея, которая с одной стороны вроде как продолжает линейку Mamba и вообще "линейного внимания", но с другой стороны выглядит (и есть!) гораздо проще. По сути авторы нашли способ реализовать простую логичную идею: ввести память как ещё одну небольшую сеть, которая обучается прямо на входе, в процессе его чтения. А Mamba-like модели, которые активно развивались весь прошлый год, как раз дали подходящий метод для того, как это всё реализовать достаточно эффективно, чтобы можно было отмасштабировать.

Это всё больше похоже на то, как (я представляю, будто бы) работает наша человеческая память. Даже пост начал с Александра Лурии в этот раз, хотя, конечно, с него можно было бы почти любой такой пост начинать. Результаты впечатляющие, хотя, конечно, пока это всё маленькие академические эксперименты, ждём, пока в полноценный Gemini встроят; но главное — очень простая идея, наверняка очень скоро будут и продолжения.

Про DeepSeek тоже напишу, конечно, но позже; надо бы написать про o1 replications и о том, где именно там RL и зачем.
❤‍🔥1954👍31
Рубрика об играх становится традиционной. Сегодня расскажу вам про три небольшие инди-игры, выпущенные одной и той же маленькой студией Sigono Inc. в одной и той же вселенной. Наверное, лучшее прилагательное для этой серии — эмоциональные игры; они призваны вызывать эмоции подачей истории и при этом немного развлекать, но не напрягать геймплейной составляющей.

OPUS: Echo of Starsong — это визуальная новелла с небольшими элементами менеджмента ресурсов (написал и понял, как это звучит — oh well, no, not that kind of visual novel), самая большая из трёх и дающая больше всего бэкграунда про игровую вселенную и так далее. По сюжету и построению игрового мира это типичная японщина: много обёрнутой в научно-фантастические термины магии, которая по сути нужна только для того, чтобы рассказать эмоциональную историю взросления... но история отличная! Надо просто suspend all disbelief и немножко проникнуться, и OPUS действительно вызовет все те эмоции, которые собиралась. Нарисовано красиво, музыка завораживающая, рекомендую.

Две другие игры тоже из той же серии — OPUS: The Day We Found Earth и OPUS: Rocket of Whispers. Хотя они вышли раньше, чем Echo of Starsong, я всё-таки рекомендую начать с последней: она гораздо лучше объяснит, что вообще происходит в этом мире, и тогда то, что в двух первых играх подаётся вскользь и намёками, вызовет куда больше тех самых эмоций. По сути они тоже в основном сюжетные, но при этом имеют совсем другие механики: в одной вам нужно через телескоп искать похожие на Землю планеты, а другая похожа на выживалку с крафтом, хотя там, конечно, никакого геймплейного напряжения нет.

Echo of Starsong заняла у меня часов восемь, две другие — по три-четыре часа. Примерно такая продолжительность для сюжетных игр кажется мне идеальной: не успеваешь отложить игру и забыть, что там происходило, а 3-4 часа — это вообще может быть один вечер. В общем, Sigono Inc. молодцы; кстати, в каждой игре после прохождения открываются очень добрые и вдохновляющие комментарии разработчиков. Рекомендую.
❤‍🔥146🔥6👍3
Горькие уроки попыток репликации o1 — часть 1/3

Пишу очередной огромный пост, на этот раз про репликации o1 и вышедшую из этого DeepSeek-R1. Ссылку на пост тоже кину, когда он выйдет; но пока в процессе, поделюсь одной небольшой историей в трёх частях.

Естественно, как только появилась новая крутая штука — OpenAI o1, то есть large reasoning models (LRM), — все сразу начали пытаться её воспроизвести. Причём не просто скопировать код (его никто и не видел), а именно с нуля переизобрести и запустить в работу. Здесь начинается мини-сериал под названием "O1 Replication Journey" — в трёх статьях от Generative AI Research Lab (GAIR) при Шанхайском университете Цзяотун. Я своё описание тоже разобью на три поста; иллюстрации к ним — это таймлайны из трёх статей GAIR; very cute.

Первая статья (Qin et al., 2024) вышла в октябре 2024 года, буквально через месяц после выхода o1 и старта проекта (кстати, очень амбициозного). Коллеги придумали хорошее название — journey learning, где модель должна не просто давать ответ, а выдавать весь процесс рассуждений, с заходами в тупики, гипотезами и их проверкой.

Всё выглядело оптимистично. Они планировали использовать Monte Carlo tree search для построения "деревьев рассуждений" (tree of thought, это не метафора, а стандартная уже техника, в посте будет подробнее) и process reward models (PRM, процессуальные модели вознаграждений — они проверяют не только ответ, а ещё и весь ход рассуждений, там, где это возможно), чтобы улучшать ход рассуждений модели в реальном времени. Первая картинка — таймлайн из этой статьи. Уже на этом этапе, собрав датасет из буквально 327 примеров, они смогли заметно улучшить качество работы модели на некоторых математических бенчмарках.
❤‍🔥52🔥2
Горькие уроки попыток репликации o1 — часть 2/3

Как в хорошем сериале, вскоре всё перевернулось с ног на голову; впрочем, нашему мини-сериалу для этого хватило добраться до второй серии. Уже в декабре появляется вторая статья (Huang et al., 2024). Там учёные из GAIR сделали простое, но гениальное открытие: когда у тебя есть датасет reasoning traces (ответы и логика рассуждений o1), тебе больше ничего не нужно!

Они взяли ответы модели o1, сделали supervised fine-tuning на десятках тысяч примеров и... смогли обойти o1-preview на многих бенчмарках. Несколько неожиданно то, что хотя их модель обучалась сугубо на математике (датасетах олимпиадных задачек), она потом нормально справлялась с вопросами из открытых областей знаний и даже стала меньше поддаваться на провокации (авторы это называют sycophancy — известный эффект, когда модель соглашается со всем, о чём её спрашивают, даже если вопрос абсурдный или очевидно исходит из ложных посылок).

В сухом остатке:
— берёшь o1 или другую рассуждающую модель, набирает из него датасет reasoning traces;
— натравливаешь на них свою модель обычным дообучением;
— PROFIT.

Добрых полстатьи авторы рассуждают, в чём тут засада и почему это всё-таки bitter lesson, а не победа. Причины в целом очевидные:
— это не масштабируется, ты никогда не сделаешь модель умнее, чем модель-учитель;
— если все будут только копировать решения, а не думать с нуля, исследования застопорятся; прорывов не будет, если над этим работают только несколько секретных лабораторий;
— вся работа превращается в промпт-инжиниринг и поиск способов лучше использовать уже существующие топовые модели, а не в решение фундаментальных задач и рассуждения от первых принципов.

И тем не менее ничего поделать с этим они, не будучи сами топовой лабораторией с огромным запасом compute, не смогли...
❤‍🔥62🔥2
Горькие уроки попыток репликации o1 — часть 3/3

Третья серия сезона — январская статья (Huang et al., 2025), в которой коллеги переключились на медицинские применения. Здесь уже речь идёт о том, что inference-time scaling может помочь в диагностике и планировании лечения, не только решать задачи, но и улучшать принятие медицинских решений. Третий таймлайн выглядит гораздо беднее первых двух, да и вывод здесь основной в том, что в медицинском домене тоже, конечно, рассуждения могут помочь. А что, кто-то сомневался?..

Весь этот сериал — ещё одна иллюстрация важной проблемы: сейчас мир AI устроен так, что делать новые исследования очень сложно и очень дорого. Все говорили о том, что обучение DeepSeek-V3 стоило "всего $6M", но это, конечно, полная ерунда. Столько стоил последний запуск, который был кульминацией многочисленных экспериментов, проводившихся доброй сотней недешёвых учёных (посмотрите, сколько авторов у статей DeepSeek) на отдельно созданном (даже не арендованном, а именно купленном) кластере, который наверняка стоил сотни миллионов.

Так что да, у DeepSeek получилось много интересного, но это тоже очень богатая организация (хедж-фонд High-Flyer), и они занимались по сути попытками повторить уже вышедшую модель OpenAI. Через пару недель после DeepSeek-R1 OpenAI выпустила семейство o3 и o3-mini, которые ещё лучше, выкатила Deep Research и Operator, и всё, они снова на коне, причём довольно очевидно, что эти релизы были не за неделю подготовлены, а просто ждали своего часа.

Новые идеи, конечно, никто не запретит придумывать и нам с вами, но если это идеи об LLM, то проверять мы их, скорее всего, сможем только на игрушечных дистиллированных моделях на 2-7 миллиардов параметров, и "горький урок" состоит в том, что для этих моделей мы вряд ли сможем придумать что-то лучше обычной дистилляции. С другой стороны, "игрушечные модели на 7B параметров" — это фраза, которую трудно было себе представить даже пять лет назад. Да и кто знает, возможно, недолго осталось до того, как AI разорвёт этот цикл и сам научится делать новые открытия?

Как я всегда говорю, в интересные времена мы живём...
❤‍🔥10🔥54
Начался новый семестр на Факультете математики и компьютерных наук СПбГУ, а значит, на моём YouTube-канале появился новый плейлист. Второй семестр — самый большой в курсе, по две лекции в неделю, то есть фактически годовой стандартный курс. А всего у меня в курсе четыре семестра лекций, которые за счёт вот этого большого второго семестра укладываются в три календарных.

Первые лекции — про деревья принятия решений и бустинг. Enjoy:
https://www.youtube.com/watch?v=BJo-Zmg3Va0

Разумеется, как только у меня появилось место, где можно вам об этом рассказать, так сразу же что-то пошло не так. Пока слушал вопрос из зума, выключил в OBS Studio свой микрофон, а потом забыл включить, и в результате около 20 минут аудио пропали. Пришлось записать отдельно небольшое саммари того, что там говорилось, и овладеть ffmpeg'ом в достаточной мере, чтобы это саммари в нужный кусок вклеить. Впрочем, не важно, вряд ли кто-то из присутствующих реально будет это слушать, а тем более доберётся до отметки в 2 часа 50 минут. :)
🔥309❤‍🔥8
С тех самых пор, как мой курс искусственного интеллекта более или менее оформился, я мечтал написать книгу, учебник, который бы начинался от азов и понемногу строил здание машинного обучения Больших форм я никогда не боялся, так что начал книгу с энтузиазмом, но, как это всегда бывает, оказалось, что работы во много раз больше, чем представляется поначалу. Активно писал я её несколько лет, с большими перерывами и депрессивными эпизодами, потом ещё несколько месяцев доделывал вёрстку, вносил замечания редактора и всё такое.

И вот — готово. Книга "Машинное обучение: основы" подписана в печать, доступна для предзаказа, должна физически появиться во второй половине марта. 600 страниц (25 из них, правда, список литературы), шесть больших глав. Полное оглавление на сайте издательства тоже выложено.

https://www.piter.com/collection/all/product/mashinnoe-obuchenie-osnovy

Эта книга — существенно расширенный первый семестр моего курса. Кроме основ байесовского вывода, линейной и логистической регрессии и тому подобного, о чём я неизбежно рассказываю каждый год, в книге есть ещё много разных сюжетов — объясняющих, развивающих и иллюстрирующих. И продвинуто-математических, и более "общечеловеческих": история AI, эффект "горячей руки", кризис воспроизводимости в науке, разоблачение закона Ципфа, робастные виды регрессии, оценка Джеймса-Штейна, проспективные и ретроспективные исследования... Эпиграфы и котики тоже прилагаются. Главное для меня, наверное, в том, что я старался писать книгу, которую было бы интересно читать, даже (а может, особенно) если не пытаться проследить за всеми выводами и формулами.

Здесь наверняка будет ещё много постов об этой книге, уж точно сфотографирую, когда получу реальные экземпляры. И это как раз тот случай, когда очень прошу всех расшаривать, давать ссылки на канал и на книжку. Очень надеюсь, что успею написать что-нибудь ещё, пока писать книги ещё не вовсе бессмысленно; эту, кажется, успел.
❤‍🔥60🔥4221👍8👏1🤩1
Sinекура pinned «С тех самых пор, как мой курс искусственного интеллекта более или менее оформился, я мечтал написать книгу, учебник, который бы начинался от азов и понемногу строил здание машинного обучения Больших форм я никогда не боялся, так что начал книгу с энтузиазмом…»