NEW BOT Телеграм, страница

Sparse Hash AI

ZClip: Adaptive Spike Mitigation for LLM Pre-Training
https://arxiv.org/abs/2504.02507
https://www.alphaxiv.org/ru/overview/2504.02507

Всплески потерь (loss spikes) — это внезапные, резкие увеличения потерь при обучении, которые могут нарушить обучение. Эти всплески часто связаны с большими нормами градиента.

ZClip эффективно смягчает выбросы потерь и достигает значительно более низких значений.

78 views04:00

Sparse Hash AI

1:47

This media is not supported in your browser

VIEW IN TELEGRAM

COSMO от RoMeLa.

👍1

76 views05:32

Sparse Hash AI

0:23

This media is not supported in your browser

VIEW IN TELEGRAM

Ночник-проводник до туалета посреди ночи.

🔥3

76 views13:17

Sparse Hash AI

1:49

This media is not supported in your browser

VIEW IN TELEGRAM

Железякам тоже пойдёт.

👍2

56 views21:01

Sparse Hash AI

This media is not supported in your browser

VIEW IN TELEGRAM

Механический двоично-десятичный дешифратор.

🔥6

63 views16:46

Sparse Hash AI

Rethinking RoPE: A Mathematical Blueprint for N-dimensional Positional Encoding
https://arxiv.org/abs/2504.06308
https://www.alphaxiv.org/ru/overview/2504.06308

Авторы используют теорию групп Ли и алгебр Ли для предоставления строгого математического фреймворка для RoPE. Центральным результатом работы является то, что любая допустимая N-мерная RoPE должна лежать в базисе максимальной абелевой подалгебры (MASA) специальной ортогональной алгебры Ли.

63 views22:20

This media is not supported in your browser

VIEW IN TELEGRAM

Так себе забег вышел. Tiangong победил.

60 views17:58

Sparse Hash AI

0:12

This media is not supported in your browser

VIEW IN TELEGRAM

Language models thinking step by step to do arithmetic...

59 views18:16

Sparse Hash AI

(How) Do reasoning models reason?
https://arxiv.org/abs/2504.09762v1
https://www.alphaxiv.org/ru/overview/2504.09762

В статье оспаривается предположение о том, что простая тренировка LLM на "цепочках мыслей" обязательно приводит к подлинным способностям к рассуждению.

Авторы предполагают, что обученные (post-training) LRM можно понимать как итеративную компиляцию рассуждений в извлечение. С этой точки зрения, то, что кажется рассуждением, на самом деле может быть сложным сопоставлением с образцом (pattern matching), основанным на ранее встречавшихся примерах и решениях.

Подходы chain-of-thought можно рассматривать как предоставление соответствующих расширений промпта, которые приводят к более точным заключениям, а не как включение подлинных пошаговых рассуждений.

Математическая формулировка этой точки зрения может быть выражена как:

Для модели с параметрами θ и функцией расширения промпта PA:
P(Правильный ответ | Вопрос, θ, PA) > P(Правильный ответ | Вопрос, θ)

Это говорит о том, что успех LRM может быть больше связан с поиском эффективных стратегий расширения промптов, чем с развитием внутренних возможностей рассуждения.

81 views18:38

Sparse Hash AI

0:19

This media is not supported in your browser

VIEW IN TELEGRAM

👍2❤1

107 views19:11

Sparse Hash AI

This media is not supported in your browser

VIEW IN TELEGRAM

Робоулитки.

👍3🔥1

76 views19:24

Sparse Hash AI

0:24

This media is not supported in your browser

VIEW IN TELEGRAM

T1 от Booster Robotics.

64 views18:28

Sparse Hash AI

Так себе забег вышел. Tiangong победил.

0:13

This media is not supported in your browser

VIEW IN TELEGRAM

Разрабов заставили оторвать пятую точку от кресел и бежать за своим изделием. )

169 views18:34

Sparse Hash AI

Ходячий от Xpeng Motors.

0:07

This media is not supported in your browser

VIEW IN TELEGRAM

0:28

This media is not supported in your browser

VIEW IN TELEGRAM

Помните этого уставшего роботягу, отпахавшего две смены в сборочном цеху автоконцерна и ковыляющего на подзарядку? Его перевели в автосалон, и судя по походке, работа там явно не пыльная. )

XPENG Iron на Шанхайском автосалоне.

👍1

65 views19:06

Sparse Hash AI

https://weightwatcher.ai/

WeightWatcher (w|w) is an open-source, diagnostic tool for analyzing Deep Neural Networks (DNN), without needing access to training or even test data. It is based on theoretical research into Why Deep Learning Works, using the new Theory of Heavy-Tailed Self-Regularization (HT-SR).

👍2

62 views20:16

Sparse Hash AI

How to explain grokking https://arxiv.org/abs/2412.18624 В статье предлагается термодинамическое объяснение гроккинга. Обобщение происходит в две фазы: меморизация (оверфит) и гроккинг. В фазе меморизации градиентный спуск приводит к оверфиту, это обязательное…

Grokking 'grokking'
https://www.beren.io/2022-01-11-Grokking-Grokking/

Автор статьи приходит к аналогичным выводам о двухфазном процессе гроккинга.

Он также предполагает, что во второй фазе происходит случайное блуждание по многообразию, обусловленное градиентным шумом, и "решение" медленно движется через него из-за диффузии.

The key thing is that with a large enough degree of overparametrization we begin to get a notion of a coherent ‘optimal manifold’. Now, we need to think about what does SGD now do in the presence of such a manifold. At first it just gets initialized at some points and descends towards the manifold, hitting it at some mostly random point. Then, if training is continued when it is on the manifold, it will essentially perform a random walk on the manifold, driven by gradient noise, and slowly move across it due to diffusion.

Модель должна быть достаточно большой степени гиперпараметризации. В этом случае острова оптимальности сливаются, создавая крупномасштабные связные оптимальные поверхности или оптимальные многообразия в пространстве параметров.

При недостаточной параметризации острова остаются окружены обширными океанами субоптимальности. SGD достигнет ближайший островок, но не сможет выбраться с него, потому что расстояние до следующего острова слишком велико для случайного блуждания на градиентном шуме. Сеть застревает в оверфите, гроккинг не произойдёт.

80 views17:49

Sparse Hash AI

0:11

This media is not supported in your browser

VIEW IN TELEGRAM

В гибернации. Niya

👍1

78 views20:28

Sparse Hash AI

Вышел BitNet v2.

BitNet v2: Native 4-bit Activations with Hadamard Transformation for 1-bit LLMs
https://arxiv.org/abs/2504.18415
https://www.alphaxiv.org/abs/2504.18415

Промежуточные состояния в слоях трансформера часто следуют распределению с высокой концентрацией значений около нуля и длинным хвостом выбросов. Ключевым нововведением в BitNet v2 является применение преобразования Адамара для изменения распределения активаций. При применении к векторам активации это преобразование обладает замечательным свойством: оно более равномерно перераспределяет значения, преобразуя резкое, склонное к выбросам распределение в более гауссоподобную форму. Это делает преобразованные значения более подходящими для низкобитового квантования.

* картинка Гистограммы, показывающие распределения активаций до и после преобразования Адамара, демонстрирующие, как преобразование создает более удобные для квантования распределения.

👍1

72 views02:25

62 views18:31

About

Blog

Apps

Platform