This media is not supported in your browser
VIEW IN TELEGRAM
Зачем бежать, на велике быстрее.
Lingxi X2 от AgiBot.
Lingxi X2 от AgiBot.
🔥1
Self-Improving Transformers Overcome Easy-to-Hard and Length Generalization Challenges
https://arxiv.org/abs/2502.01612
https://www.alphaxiv.org/overview/2502.01612
Трансформер улучшает себя на арифметических задачах в работе с большими числами. Ключевая техника: Majority Voting.
https://arxiv.org/abs/2502.01612
https://www.alphaxiv.org/overview/2502.01612
Трансформер улучшает себя на арифметических задачах в работе с большими числами. Ключевая техника: Majority Voting.
Majority Voting: The authors train multiple models with different random seeds and retain only the outputs where a majority of models agree, providing a form of ensemble-based quality control without human supervision.
smalldiffusion: Simple and readable code for training and sampling from diffusion models
https://github.com/yuanchenyang/smalldiffusion
https://github.com/yuanchenyang/smalldiffusion
How to explain grokking
https://arxiv.org/abs/2412.18624
В статье предлагается термодинамическое объяснение гроккинга. Обобщение происходит в две фазы: меморизация (оверфит) и гроккинг.
В фазе меморизации градиентный спуск приводит к оверфиту, это обязательное условие. Здесь решение попадает в многообразие нулевого риска (zero-risk manifold) с низкой энтропией.
В фазе отсроченной генерализации (гроккинг) решение посредством броуновского движения диффундирует по многообразию в сторону областей с большей энтропией.
Практические следствия
Длительность фазы гроккинга равна квадрату фазы меморизации. Это следствие исследования пространства броуновским движением.
Наблюдается экспоненциальный рост времени гроккинга с уменьшением обучающей выборки. Следствие, увеличение размера обучающей выборки приводит к уменьшению времени до гроккинга.
Рекомендую вначале прочесть пересказ статьи, вкладка blog на https://www.alphaxiv.org/overview/2412.18624
https://arxiv.org/abs/2412.18624
В статье предлагается термодинамическое объяснение гроккинга. Обобщение происходит в две фазы: меморизация (оверфит) и гроккинг.
В фазе меморизации градиентный спуск приводит к оверфиту, это обязательное условие. Здесь решение попадает в многообразие нулевого риска (zero-risk manifold) с низкой энтропией.
В фазе отсроченной генерализации (гроккинг) решение посредством броуновского движения диффундирует по многообразию в сторону областей с большей энтропией.
Практические следствия
Длительность фазы гроккинга равна квадрату фазы меморизации. Это следствие исследования пространства броуновским движением.
Наблюдается экспоненциальный рост времени гроккинга с уменьшением обучающей выборки. Следствие, увеличение размера обучающей выборки приводит к уменьшению времени до гроккинга.
Рекомендую вначале прочесть пересказ статьи, вкладка blog на https://www.alphaxiv.org/overview/2412.18624
This media is not supported in your browser
VIEW IN TELEGRAM
Ходячий от Xpeng Motors.
This media is not supported in your browser
VIEW IN TELEGRAM
Unitree G1 пошёл в магаз.
This media is not supported in your browser
VIEW IN TELEGRAM
Коротыши.
Beijing-based NOETIX Robotics has unveiled the N2, a 3'7" tall humanoid weighing 20 kg (44 lb), with 18 DOF for the whole body and an NVIDIA Jetson installed.
The price will start at ¥39,900 ($5,500).
Бионическая голова от NOETIX.
Slim attention: cut your context memory in half without loss of accuracy -- K-cache is all you need for MHA
https://arxiv.org/abs/2503.05840v1
https://www.alphaxiv.org/overview/2503.05840v1
Техника уменьшения размера KV-кеша на 50%.
Запросы 𝐐, ключи 𝐊 и значения 𝐕 в трансформере это всё проекции из 𝐗, следовательно в кеше можно хранить только ключи, а значения из них получать на лету на инференсе. Для этого потребуется один раз рассчитать матрицу 𝐖𝐤𝐯 = 𝐖𝐤⁻¹ 𝐖𝐯. Обратная операция реконструкции значений из ключей: 𝐕 = 𝐊 𝐖𝐤𝐯.
https://arxiv.org/abs/2503.05840v1
https://www.alphaxiv.org/overview/2503.05840v1
Техника уменьшения размера KV-кеша на 50%.
Запросы 𝐐, ключи 𝐊 и значения 𝐕 в трансформере это всё проекции из 𝐗, следовательно в кеше можно хранить только ключи, а значения из них получать на лету на инференсе. Для этого потребуется один раз рассчитать матрицу 𝐖𝐤𝐯 = 𝐖𝐤⁻¹ 𝐖𝐯. Обратная операция реконструкции значений из ключей: 𝐕 = 𝐊 𝐖𝐤𝐯.
Google Gemini 2.0 Flash может удалять watermark-и.
https://huggingface.co/spaces/philschmid/image-generation-editing
X
- Ну вот и всё. Карачун тебе, Церетели shutterstock.
https://huggingface.co/spaces/philschmid/image-generation-editing
X