Sparse Hash AI – Telegram
Sparse Hash AI
134 subscribers
154 photos
256 videos
3 files
338 links
AI обогатительная разработка ML месторождений. Осторожно, в канале ведутся подрывные работы!

Персональный чат https://news.1rj.ru/str/sparsehash
Download Telegram
Модель Vega от стартапа Dexmate разработана всего за полгода, $90K в предзаказе.

https://shop.dexmate.ai/
🔥1
Steering Large Language Model Activations in Sparse Spaces
https://arxiv.org/abs/2503.00177

X
This media is not supported in your browser
VIEW IN TELEGRAM
2025-й, видимо, можно считать зарёй эры андроидов.

Ещё один стартап, ещё один андроид. Модель Adam от PNDbotics.
👍2
Diffusion of Thoughts: Chain-of-Thought Reasoning in Diffusion Language Models
https://arxiv.org/abs/2402.07754

Вводят Diffusion of Thought (DoT) для параллельного выполнения шагов CoT в диффузной модели. DoT улучшает самокоррекцию, устраняя накопление ошибок в рассуждениях.

X
Sparse Hash AI
EngineAI, модель PM01 * всего через месяц после нашумевшей походки модели SE01
This media is not supported in your browser
VIEW IN TELEGRAM
Теперь он побежал.

* от человеческой походки до прыжков через голову прошёл месяц, до бега - пара недель. сингулярность
This media is not supported in your browser
VIEW IN TELEGRAM
Зачем бежать, на велике быстрее.

Lingxi X2 от AgiBot.
🔥1
Self-Improving Transformers Overcome Easy-to-Hard and Length Generalization Challenges
https://arxiv.org/abs/2502.01612
https://www.alphaxiv.org/overview/2502.01612

Трансформер улучшает себя на арифметических задачах в работе с большими числами. Ключевая техника: Majority Voting.
Majority Voting: The authors train multiple models with different random seeds and retain only the outputs where a majority of models agree, providing a form of ensemble-based quality control without human supervision.
smalldiffusion: Simple and readable code for training and sampling from diffusion models
https://github.com/yuanchenyang/smalldiffusion
How to explain grokking
https://arxiv.org/abs/2412.18624

В статье предлагается термодинамическое объяснение гроккинга. Обобщение происходит в две фазы: меморизация (оверфит) и гроккинг.

В фазе меморизации градиентный спуск приводит к оверфиту, это обязательное условие. Здесь решение попадает в многообразие нулевого риска (zero-risk manifold) с низкой энтропией.

В фазе отсроченной генерализации (гроккинг) решение посредством броуновского движения диффундирует по многообразию в сторону областей с большей энтропией.

Практические следствия

Длительность фазы гроккинга равна квадрату фазы меморизации. Это следствие исследования пространства броуновским движением.

Наблюдается экспоненциальный рост времени гроккинга с уменьшением обучающей выборки. Следствие, увеличение размера обучающей выборки приводит к уменьшению времени до гроккинга.

Рекомендую вначале прочесть пересказ статьи, вкладка blog на https://www.alphaxiv.org/overview/2412.18624
This media is not supported in your browser
VIEW IN TELEGRAM
Коротыши.

Beijing-based NOETIX Robotics has unveiled the N2, a 3'7" tall humanoid weighing 20 kg (44 lb), with 18 DOF for the whole body and an NVIDIA Jetson installed.

The price will start at ¥39,900 ($5,500).
Бионическая голова от NOETIX.