gonzo-обзоры ML статей – Telegram
gonzo-обзоры ML статей
24.1K subscribers
2.72K photos
2 videos
3 files
1.34K links
Авторы:
Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика.
Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.
Download Telegram
Annual base compensation
Опенсорсная модель с ризонингом K2-Think (не путать с Kimi K2) от LLM360 имеет размер всего 32B (построена на базе Qwen2.5), но бьёт многие более тяжёлые открытые модели. Спасибо фулл-стэк подходу, включающему обучение (SFT+RLVR), тест-тайм скейлинг (планирование и best-of-3) и инференс (спекулятивное декодирование и работу на Cerebras (!)).

https://news.1rj.ru/str/gonzo_ML_podcasts/823

Термин фулл-стэк приходит в ML :)
🔥21😁93
Важный апдейт про развенчание заоблачного перформанса K2-Think от независимой команды.

Оценка была некорректная, включала контаминацию, занижала скоры других моделей и использовала их неоптимальным образом. Микро-усреднение также даёт избыточно высокий вес (66%) бенчмарку, на котором модель лучше всего.

Плюс претензии к неравному сравнению: best-of-3 vs. best-of-1 и неизвестного размера внешняя модель-помощник. Этот момент интересный, поскольку во многих случаях и так уже неясно, сравниваем мы чистую модель или какую-то систему с моделью, что особенно часто проявляется при сравнении с закрытыми моделями. Мне кажется было бы правильно сравнивать нормируя на вычислительные ресурсы.

https://www.sri.inf.ethz.ch/blog/k2think

Авторы сделали переоценку на MathArena:
👍19👏71😁1
Ещё одна любопытная недавно нашумевшая работа про SpikingBrain LLM, где взяли Qwen2.5 и делают на его базе эффективную модель. В этот раз более спайко-подобную, хорошо работающую на очень длинном контексте и потенциально намного более энергоэффективную. Это ещё не полноценная спайковая сеть на нейроморфном процессоре, но уже шаг. Гоняют на китайском GPU MetaX.

Очень перекликается с K2-Think, хоть его результаты и обругали (ничего, исправят в следующей версии). Везде фулл-стек инжиниринг, в обеих работах не-нвидиевское железо и база Qwen2.5. Всё, я уже жду вакансии фулл-стеков в ML!

https://news.1rj.ru/str/gonzo_ML_podcasts/834
1👍24🔥1👀1
Стартап Миры Мурати разродился на этой неделе первым постом в блоге. Тема: воспроизводимость ответов LLM.

https://thinkingmachines.ai/blog/defeating-nondeterminism-in-llm-inference/

Где там остаётся недетерминизм, когда все сиды уже зафиксированы. Разбирают неассоциативность сложения чисел с плавающей точкой и прочее.

Прикольно, но задачей на миллиард не выглядит :) Ждём других постов.
🔥20😢73👀3🤡2
Огромная работа с обзором всего современного RL для ризонинга:

https://news.1rj.ru/str/gonzo_ML_podcasts/849
🔥24👍2👀1
Forwarded from Mikhail Samin
16 сентября у Элиезера Юдковского выходит новая книга!

О книге уже положительно отозвались крупные учёные (от самого высокоцитируемого живущего учёного и лауреата премии Тьюринга Йошуа Бенжио до Нобелевского лауреата по экономике Бена Бернанке), профессора компьютерных наук и информационной безопасности, бывший промежуточный CEO OpenAI и какое-то число известных людей (от Стивена Фрая до Grimes).

Макс Тегмарк (профессор физики из MIT) назвал эту книгу самой важной книгой десятилетия.

В отличие от известного многим вам фанфика, эта книга — нон-фикшн (и написана в соавторстве с президентом MIRI Нейтом Соаресом). Она называется "If Anyone Builds It, Everyone Dies: Why Superhuman AI Would Kill Us All" и рассказывает о проблеме, над которой Юдковский стал работать за десять лет до начала написания ГПиМРМ.

К сожалению, название книги — не преувеличение, а точное описание ситуации, в которой находится человечество. Книга подробно объясняет, почему из-за того, как устроены современные ИИ, какой уровень контроля мы имеем над их внутренним устройством и какой уровень контроля будем иметь над их целями, когда эти системы станут сверхчеловеческими, все на планете буквально умрут, если искусственный суперинтеллект будет создан в условиях и с технологиями, подобными текущим.

Юдковский с соавтором выпускают книгу через традиционное издательство, потому что надеются так достичь аудиторию, обычно недоступную постам в блогах и статьям в научных журналах. Цель — не заработать на продажах: они потратят на книгу гораздо больше своих авторских гонораров.

У книги уже больше 5 000 предзаказов; вероятно, она попадёт в список бестселлеров New York Times. Но чтобы попасть на первые строчки списка и получить максимально широкое освещение, нужно 20-25 000 проданных копий за неделю. (Предзаказы считаются продажами в первую неделю.)

Поэтому огромная просьба: если у вас есть возможность заказать книжку, сделайте это. Особенно если Юдковский был вам больше, чем на тридцать долларов полезен: заказ книги сейчас очень поможет.

Со мной ещё до выхода поделились черновиком; книга ещё и очень хорошо написана и убедительно и корректно рассказывает о самой важной (на мой взгляд и на взгляд авторов) из стоящих перед человечеством проблем.

Сделать предзаказ на Amazon: amzn.to/4pnKLAW

Если вы в России, воспользуйтесь любой из служб доставки, которые пересылают посылки от Amazon. Мы собрали несколько способов в этом гугл-доке. (Если можете порекомендовать другие способы, посоветуйте в комментариях!).

Если вы в других странах вне Штатов, по ссылке может быть доступна только версия в мягкой обложке — paperback. Найдите местную версию книги через поиск или в книжных вашей страны.

На русском книга выйдет в следующем году в Corpus. Но огромная просьба попытаться сделать предзаказ на английском. Это действительно очень помогло бы.
🤡81👍3017👎11🔥8🥱7🤷‍♂3💩2👀2😁1
Потрясающий набор реакций на Юдковского, впрочем ожидаемо. Я лично прочитаю, мне интересно, какие у него аргументы. В плане аргументов мне также нравятся аргументы Рассела (https://news.1rj.ru/str/gonzo_ML/1516), но что-то мне подсказывает, многие из скептиков про них даже не думали.
13🌚6👍4🤝3🤡2💩1
Вот вам ещё свежая работа из Дипмайнда: Virtual Agent Economies

https://news.1rj.ru/str/gonzo_ML_podcasts/860

Авторы утверждают, что наш путь по умолчанию — спонтанная и проницаемая экономика — функционально эквивалентен простому участию ИИ-агентов в существующей человеческой экономике, но на машинных скоростях и в машинных масштабах. Этот сценарий служит предостережением о непредвиденном эмерджентном поведении и потенциале широкомасштабного финансового ущерба. Ключевой тезис работы — это призыв к действию: перейти от реактивной позиции к проактивному архитектурному проектированию.
👍182😁2