NEW BOT Телеграм, страница

Вы наверное уже видели.

Claim: gpt-5-pro can prove new interesting mathematics.

Proof: I took a convex optimization paper with a clean open problem in it and asked gpt-5-pro to work on it. It proved a better bound than what is in the paper, and I checked the proof it's correct.

Details below.

https://x.com/SebastienBubeck/status/1958198661139009862?t=m5Mzg_cRq9lLqgrx3yIzIQ&s=19

X (formerly Twitter)

Sebastien Bubeck (@SebastienBubeck) on X

Claim: gpt-5-pro can prove new interesting mathematics.

Proof: I took a convex optimization paper with a clean open problem in it and asked gpt-5-pro to work on it. It proved a better bound than what is in the paper, and I checked the proof it's correct.…

❤25👍8🔥7🤡5

5.2K views09:12

gonzo-обзоры ML статей

Михаил Бронштейн и ко написали практически учебник про геометрическое глубокое обучение. Выглядит очень достойно. Вдруг вы хотели почитать что-то по матчасти на выходных или в остаток лета.

Mathematical Foundations of Geometric Deep Learning
Authors: Haitz Sáez de Ocáriz Borde and Michael Bronstein
Paper: https://arxiv.org/abs/2508.02723

Русское саммари тут: https://news.1rj.ru/str/gonzo_ML_podcasts/714
Английское тут: https://arxiviq.substack.com/p/mathematical-foundations-of-geometric

arXiv.org

Mathematical Foundations of Geometric Deep Learning

We review the key mathematical concepts necessary for studying Geometric Deep Learning.

👍20❤5🔥3

6.43K viewsedited 16:39

gonzo-обзоры ML статей

🤣17😁4💯1😨1

5.35K views16:39

gonzo-обзоры ML статей

DeepSeek-R2 пока всё никак не подвезут, но кажется назревает V-3.1 https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Base/tree/main

Детали апдейта DeepSeek-V3.1 подъехали

https://api-docs.deepseek.com/news/news250821

Deepseek

DeepSeek-V3.1 Release | DeepSeek API Docs

Introducing DeepSeek-V3.1: our first step toward the agent era! 🚀

🔥9

5.3K views21:10

gonzo-обзоры ML статей

6.42K views21:10

gonzo-обзоры ML статей

Недавно упоминали термодинамические вычисления, и тут образовалась подборка авторазборов статей по теме:

* Thermodynamic Natural Gradient Descent, также может быть интересно Covariant Gradient Descent, который не про термодинамические, а больше про геометрию пространства, но всё равно.
* Scalable Thermodynamic Second-order Optimization про термодинамический K-FAC
* Solving the compute crisis with physics-based ASICs про ребрендинг аналоговых компьютеров и термодинамические вычислители в частности.

gonzo-обзоры ML статей

В свежем IEEE Spectrum статья про термодинамические вычисления и компанию Normal Computing (писали про них тут и ранее).

Интересная цитата:

This results in the Normal Computing cofounders having a slightly different vision. They imagine a world where different…

1🔥9🤔3

5.96K viewsedited 18:57

gonzo-обзоры ML статей

More FP4 training is coming!

4.69K viewsedited 21:53

gonzo-обзоры ML статей

Forwarded from КПД

FP4 All the Way: Fully Quantized Training of LLMs
[Статья][Анонимный не анонимный репозитрий]

📘 Введение

Висело оно у меня давно в бэклоге, но в кулуарах напомнили.

С увеличением затрат на обучение больших языковых моделей, когда оно стало переваливать за миллионы GPU часов, все более остро стоит вопрос о том как это делать эффективно.

Как известно, для параметров и активаций моделей не требуется представление вещественных чисел высокой точности, чтобы работать приемлемо. Обучение в половинной точности уже давно стало стандартом, да и в FP8 народ вполне себе успешно обучает. Следующая очевидная цель - обучение в FP4, тем более, что последнее поколение от “зеленых” c блмным названием (Blackwell) имеет его поддержку на уровне архитектуры.

И в ряде работ, вышедших в этом году (Training LLMs with MXFP4, Quartet), включая разбираемую, были предложены техники по стабилизации обучения в FP4.

👍8❤2

5.11K views21:53

gonzo-обзоры ML статей

Forwarded from КПД

🔬 Метод

Форматы FP4

Первым делом исследуют конфигурации форматов FP4. Напомню, что MXFP4 квантизует веса группами по 32 и квантизует скейлы в E8M0, а NVFP4 группами по 16 и скейлы в E4M3. Авторы фиксируют размер группы 16 и перебирают варианты квантизации скейлов от E1M6 до E8M0. Обучают Llama-like LLM на 350M параметров и замечают, что при E4M3/E3M4 скейлах достигается минимальный лосс (при фиксированном числе итераций). Из всех конфигураций расходится только E1M6 (c cамым узким диапазоном). В дальнейшем везде используют E4M3. Блоки размера 16 выбирают так как при больших лосс сходится хуже, а меньшие уже не дают профита.

Стохастическая квантизация

Квантизовать можно к ближайшему значению, а можно стохастически - вверх или вниз, с вероятностью, зависящей от расстояния до соседа.

Ребята из интела перебирают разные варианты детерминистического и стохастического квантования для весов/градиентов и активаций и получают, что лучше всего сходится вариант с детерминированной квантизацией весов и активаций на прямом проходе, и стохастической для градиентов и активаций на обратном проходе, Роль стохастики в квантизации - уменьшить bias, возникающий из-за округления тензоров.

В ходе оптимизации сигнал от градиента постепенно убывает и с какого-то момента перекрывается шумом оптимизации. Не мудрствуя лукаво, авторы предлагают обучать небольшое время с градиентами в более высокой (bf16) точности (на прямом проходе все еще FP4). И это позволяет сойтись до уровня half-precision обучения за то же суммарное число итераций.

🧪Эксперименты

Обучают семейство моделей архитектуры Llama-2 на датасете Красная Пижама. В главном эксперименте учат модель размера 7B на 1Т токенах причем не абы на чем, а на ускорителях Intel Gaudi2 (сыр 🧀 тут ни при чем, это в честь архитектора)

Обучение идет без спайков, лосс отстает несколько от bf16 бейзлайна, но нагоняет после короткой фазы с более точными градиентами (QAF).

0-шоты без QAF чуть хуже безйлайна, с QAF - такие же примерно. Впрочем, все равно оно лишь чуть лучше рандома)

💡 Выводы

Выглядит как очередной аргумент перейти на обучение LLM в FP4. Сам по себе метод выглядит не шибко изощренно, хотя необходимость QAF для лучших результатов несколько противоречит названию статьи (надо было назвать FP4 Most the way). Quartet в этом отношении по изящнее. Интересно, кто из крупных игроков выложит первый техрепорт про полное обучение серьезной модели в FP4? Ставлю либо на Нвидию, либо на Moonshot.

❤15🔥8👍5

5.17K views21:53

gonzo-обзоры ML статей

Это выглядит просто бомбически!

Можно ли сделать такой test-time scaling, чтобы вычислений стало меньше (чем у лучших имеющихся подходов), а точность при этом выросла? Оказывается можно. Без обучения, просто хорошими и простыми новыми метриками для взвешивания разных трейсов и отбора наиболее перспективных.

Имеем 99.9% на AIME 2025 с открытой моделью.

https://news.1rj.ru/str/gonzo_ML_podcasts/759

gonzo_ML_podcasts

DeepConf: Масштабируем ризонинг LLM с помощью уверенности, а не только вычислений

Title: Deep Think with Confidence
Authors: Yichao Fu, Xuewei Wang, Yuandong Tian, Jiawei Zhao
Paper: https://arxiv.org/abs/2508.15260
Code: https://jiaweizzhao.github.io/deepconf…

1👍15❤3🔥3

6.02K views14:25

gonzo-обзоры ML статей

👍1

5.04K views14:25

About

Blog

Apps

Platform