Опенсорсная модель с ризонингом K2-Think (не путать с Kimi K2) от LLM360 имеет размер всего 32B (построена на базе Qwen2.5), но бьёт многие более тяжёлые открытые модели. Спасибо фулл-стэк подходу, включающему обучение (SFT+RLVR), тест-тайм скейлинг (планирование и best-of-3) и инференс (спекулятивное декодирование и работу на Cerebras (!)).
https://news.1rj.ru/str/gonzo_ML_podcasts/823
Термин фулл-стэк приходит в ML :)
https://news.1rj.ru/str/gonzo_ML_podcasts/823
Термин фулл-стэк приходит в ML :)
🔥21😁9❤3
Важный апдейт про развенчание заоблачного перформанса K2-Think от независимой команды.
Оценка была некорректная, включала контаминацию, занижала скоры других моделей и использовала их неоптимальным образом. Микро-усреднение также даёт избыточно высокий вес (66%) бенчмарку, на котором модель лучше всего.
Плюс претензии к неравному сравнению: best-of-3 vs. best-of-1 и неизвестного размера внешняя модель-помощник. Этот момент интересный, поскольку во многих случаях и так уже неясно, сравниваем мы чистую модель или какую-то систему с моделью, что особенно часто проявляется при сравнении с закрытыми моделями. Мне кажется было бы правильно сравнивать нормируя на вычислительные ресурсы.
https://www.sri.inf.ethz.ch/blog/k2think
Авторы сделали переоценку на MathArena:
Оценка была некорректная, включала контаминацию, занижала скоры других моделей и использовала их неоптимальным образом. Микро-усреднение также даёт избыточно высокий вес (66%) бенчмарку, на котором модель лучше всего.
Плюс претензии к неравному сравнению: best-of-3 vs. best-of-1 и неизвестного размера внешняя модель-помощник. Этот момент интересный, поскольку во многих случаях и так уже неясно, сравниваем мы чистую модель или какую-то систему с моделью, что особенно часто проявляется при сравнении с закрытыми моделями. Мне кажется было бы правильно сравнивать нормируя на вычислительные ресурсы.
https://www.sri.inf.ethz.ch/blog/k2think
Авторы сделали переоценку на MathArena:
SRI Lab
Debunking the Claims of K2-Think
K2-Think is a recently released LLM that claims performance on par with GPT-OSS 120B and DeepSeek v3.1, despite having fewer parameters. As we discuss below, the reported gains are overstated, relying on flawed evaluation marked by contamination, unfair comparisons…
👍19👏7❤1😁1
Ещё одна любопытная недавно нашумевшая работа про SpikingBrain LLM, где взяли Qwen2.5 и делают на его базе эффективную модель. В этот раз более спайко-подобную, хорошо работающую на очень длинном контексте и потенциально намного более энергоэффективную. Это ещё не полноценная спайковая сеть на нейроморфном процессоре, но уже шаг. Гоняют на китайском GPU MetaX.
Очень перекликается с K2-Think, хоть его результаты и обругали (ничего, исправят в следующей версии). Везде фулл-стек инжиниринг, в обеих работах не-нвидиевское железо и база Qwen2.5. Всё, я уже жду вакансии фулл-стеков в ML!
https://news.1rj.ru/str/gonzo_ML_podcasts/834
Очень перекликается с K2-Think, хоть его результаты и обругали (ничего, исправят в следующей версии). Везде фулл-стек инжиниринг, в обеих работах не-нвидиевское железо и база Qwen2.5. Всё, я уже жду вакансии фулл-стеков в ML!
https://news.1rj.ru/str/gonzo_ML_podcasts/834
Telegram
gonzo_ML_podcasts
SpikingBrain Technical Report: Spiking Brain-inspired Large Models
Authors: Yuqi Pan, Yupeng Feng, Jinghao Zhuang, Siyu Ding, Zehao Liu, Bohan Sun, Yuhong Chou, Han Xu, Xuerui Qiu, Anlin Deng, Anjie Hu, Peng Zhou, Man Yao, Jibin Wu, Jian Yang, Guoliang Sun…
Authors: Yuqi Pan, Yupeng Feng, Jinghao Zhuang, Siyu Ding, Zehao Liu, Bohan Sun, Yuhong Chou, Han Xu, Xuerui Qiu, Anlin Deng, Anjie Hu, Peng Zhou, Man Yao, Jibin Wu, Jian Yang, Guoliang Sun…
1👍24🔥1👀1
Стартап Миры Мурати разродился на этой неделе первым постом в блоге. Тема: воспроизводимость ответов LLM.
https://thinkingmachines.ai/blog/defeating-nondeterminism-in-llm-inference/
Где там остаётся недетерминизм, когда все сиды уже зафиксированы. Разбирают неассоциативность сложения чисел с плавающей точкой и прочее.
Прикольно, но задачей на миллиард не выглядит :) Ждём других постов.
https://thinkingmachines.ai/blog/defeating-nondeterminism-in-llm-inference/
Где там остаётся недетерминизм, когда все сиды уже зафиксированы. Разбирают неассоциативность сложения чисел с плавающей точкой и прочее.
Прикольно, но задачей на миллиард не выглядит :) Ждём других постов.
Thinking Machines Lab
Defeating Nondeterminism in LLM Inference
Reproducibility is a bedrock of scientific progress. However, it’s remarkably difficult to get reproducible results out of large language models.
For example, you might observe that asking ChatGPT the same question multiple times provides different results.…
For example, you might observe that asking ChatGPT the same question multiple times provides different results.…
🔥20😢7❤3👀3🤡2
Огромная работа с обзором всего современного RL для ризонинга:
https://news.1rj.ru/str/gonzo_ML_podcasts/849
https://news.1rj.ru/str/gonzo_ML_podcasts/849
🔥24👍2👀1
Forwarded from Mikhail Samin
16 сентября у Элиезера Юдковского выходит новая книга!
О книге уже положительно отозвались крупные учёные (от самого высокоцитируемого живущего учёного и лауреата премии Тьюринга Йошуа Бенжио до Нобелевского лауреата по экономике Бена Бернанке), профессора компьютерных наук и информационной безопасности, бывший промежуточный CEO OpenAI и какое-то число известных людей (от Стивена Фрая до Grimes).
Макс Тегмарк (профессор физики из MIT) назвал эту книгу самой важной книгой десятилетия.
В отличие от известного многим вам фанфика, эта книга — нон-фикшн (и написана в соавторстве с президентом MIRI Нейтом Соаресом). Она называется "If Anyone Builds It, Everyone Dies: Why Superhuman AI Would Kill Us All" и рассказывает о проблеме, над которой Юдковский стал работать за десять лет до начала написания ГПиМРМ.
К сожалению, название книги — не преувеличение, а точное описание ситуации, в которой находится человечество. Книга подробно объясняет, почему из-за того, как устроены современные ИИ, какой уровень контроля мы имеем над их внутренним устройством и какой уровень контроля будем иметь над их целями, когда эти системы станут сверхчеловеческими, все на планете буквально умрут, если искусственный суперинтеллект будет создан в условиях и с технологиями, подобными текущим.
Юдковский с соавтором выпускают книгу через традиционное издательство, потому что надеются так достичь аудиторию, обычно недоступную постам в блогах и статьям в научных журналах. Цель — не заработать на продажах: они потратят на книгу гораздо больше своих авторских гонораров.
У книги уже больше 5 000 предзаказов; вероятно, она попадёт в список бестселлеров New York Times. Но чтобы попасть на первые строчки списка и получить максимально широкое освещение, нужно 20-25 000 проданных копий за неделю. (Предзаказы считаются продажами в первую неделю.)
Поэтому огромная просьба: если у вас есть возможность заказать книжку, сделайте это. Особенно если Юдковский был вам больше, чем на тридцать долларов полезен: заказ книги сейчас очень поможет.
Со мной ещё до выхода поделились черновиком; книга ещё и очень хорошо написана и убедительно и корректно рассказывает о самой важной (на мой взгляд и на взгляд авторов) из стоящих перед человечеством проблем.
Сделать предзаказ на Amazon: amzn.to/4pnKLAW
Если вы в России, воспользуйтесь любой из служб доставки, которые пересылают посылки от Amazon. Мы собрали несколько способов в этом гугл-доке. (Если можете порекомендовать другие способы, посоветуйте в комментариях!).
Если вы в других странах вне Штатов, по ссылке может быть доступна только версия в мягкой обложке — paperback. Найдите местную версию книги через поиск или в книжных вашей страны.
На русском книга выйдет в следующем году в Corpus. Но огромная просьба попытаться сделать предзаказ на английском. Это действительно очень помогло бы.
О книге уже положительно отозвались крупные учёные (от самого высокоцитируемого живущего учёного и лауреата премии Тьюринга Йошуа Бенжио до Нобелевского лауреата по экономике Бена Бернанке), профессора компьютерных наук и информационной безопасности, бывший промежуточный CEO OpenAI и какое-то число известных людей (от Стивена Фрая до Grimes).
Макс Тегмарк (профессор физики из MIT) назвал эту книгу самой важной книгой десятилетия.
В отличие от известного многим вам фанфика, эта книга — нон-фикшн (и написана в соавторстве с президентом MIRI Нейтом Соаресом). Она называется "If Anyone Builds It, Everyone Dies: Why Superhuman AI Would Kill Us All" и рассказывает о проблеме, над которой Юдковский стал работать за десять лет до начала написания ГПиМРМ.
К сожалению, название книги — не преувеличение, а точное описание ситуации, в которой находится человечество. Книга подробно объясняет, почему из-за того, как устроены современные ИИ, какой уровень контроля мы имеем над их внутренним устройством и какой уровень контроля будем иметь над их целями, когда эти системы станут сверхчеловеческими, все на планете буквально умрут, если искусственный суперинтеллект будет создан в условиях и с технологиями, подобными текущим.
Юдковский с соавтором выпускают книгу через традиционное издательство, потому что надеются так достичь аудиторию, обычно недоступную постам в блогах и статьям в научных журналах. Цель — не заработать на продажах: они потратят на книгу гораздо больше своих авторских гонораров.
У книги уже больше 5 000 предзаказов; вероятно, она попадёт в список бестселлеров New York Times. Но чтобы попасть на первые строчки списка и получить максимально широкое освещение, нужно 20-25 000 проданных копий за неделю. (Предзаказы считаются продажами в первую неделю.)
Поэтому огромная просьба: если у вас есть возможность заказать книжку, сделайте это. Особенно если Юдковский был вам больше, чем на тридцать долларов полезен: заказ книги сейчас очень поможет.
Со мной ещё до выхода поделились черновиком; книга ещё и очень хорошо написана и убедительно и корректно рассказывает о самой важной (на мой взгляд и на взгляд авторов) из стоящих перед человечеством проблем.
Сделать предзаказ на Amazon: amzn.to/4pnKLAW
Если вы в России, воспользуйтесь любой из служб доставки, которые пересылают посылки от Amazon. Мы собрали несколько способов в этом гугл-доке. (Если можете порекомендовать другие способы, посоветуйте в комментариях!).
Если вы в других странах вне Штатов, по ссылке может быть доступна только версия в мягкой обложке — paperback. Найдите местную версию книги через поиск или в книжных вашей страны.
На русском книга выйдет в следующем году в Corpus. Но огромная просьба попытаться сделать предзаказ на английском. Это действительно очень помогло бы.
If Anyone Builds It, Everyone Dies
The race to superhuman AI risks extinction, but it's not too late to change course.
🤡81👍30❤17👎11🔥8🥱7🤷♂3💩2👀2😁1
Потрясающий набор реакций на Юдковского, впрочем ожидаемо. Я лично прочитаю, мне интересно, какие у него аргументы. В плане аргументов мне также нравятся аргументы Рассела (https://news.1rj.ru/str/gonzo_ML/1516), но что-то мне подсказывает, многие из скептиков про них даже не думали.
Telegram
gonzo-обзоры ML статей
“Human Compatible”, Stuart Russell
https://people.eecs.berkeley.edu/~russell/hc.html
Снова про книги.
Добрался до “Human Compatible” Стюарта Расселла, профессора из Беркли, известного в том числе соавторством вместе с Питером Норвигом общеизвестной книги…
https://people.eecs.berkeley.edu/~russell/hc.html
Снова про книги.
Добрался до “Human Compatible” Стюарта Расселла, профессора из Беркли, известного в том числе соавторством вместе с Питером Норвигом общеизвестной книги…
❤13🌚6👍4🤝3🤡2💩1
Вот вам ещё свежая работа из Дипмайнда: Virtual Agent Economies
https://news.1rj.ru/str/gonzo_ML_podcasts/860
Авторы утверждают, что наш путь по умолчанию — спонтанная и проницаемая экономика — функционально эквивалентен простому участию ИИ-агентов в существующей человеческой экономике, но на машинных скоростях и в машинных масштабах. Этот сценарий служит предостережением о непредвиденном эмерджентном поведении и потенциале широкомасштабного финансового ущерба. Ключевой тезис работы — это призыв к действию: перейти от реактивной позиции к проактивному архитектурному проектированию.
https://news.1rj.ru/str/gonzo_ML_podcasts/860
Авторы утверждают, что наш путь по умолчанию — спонтанная и проницаемая экономика — функционально эквивалентен простому участию ИИ-агентов в существующей человеческой экономике, но на машинных скоростях и в машинных масштабах. Этот сценарий служит предостережением о непредвиденном эмерджентном поведении и потенциале широкомасштабного финансового ущерба. Ключевой тезис работы — это призыв к действию: перейти от реактивной позиции к проактивному архитектурному проектированию.
Telegram
gonzo_ML_podcasts
Проектируем следующий экономический слой с ИИ-агентами
Virtual Agent Economies
Nenad Tomašev, Matija Franklin, Joel Z. Leibo, Julian Jacobs, William A. Cunningham, Iason Gabriel, and Simon Osindero
Статья: https://arxiv.org/abs/2509.10147
# TL;DR
Что сделано?…
Virtual Agent Economies
Nenad Tomašev, Matija Franklin, Joel Z. Leibo, Julian Jacobs, William A. Cunningham, Iason Gabriel, and Simon Osindero
Статья: https://arxiv.org/abs/2509.10147
# TL;DR
Что сделано?…
👍18❤2😁2
Прикольно. Статья про Deepseek-R1 (https://news.1rj.ru/str/gonzo_ML/3319) вышла в натуре. Не всё Дипмайнду только там публиковаться :)
https://www.nature.com/articles/s41586-025-09422-z
https://www.nature.com/articles/s41586-025-09422-z
Nature
DeepSeek-R1 incentivizes reasoning in LLMs through reinforcement learning
Nature - A new artificial intelligence model, DeepSeek-R1, is introduced, demonstrating that the reasoning abilities of large language models can be incentivized through pure reinforcement...
👍26🔥10🥰2👏2