NEW BOT Телеграм, страница

What Textbooks Don't Tell You About Curve Fitting
https://www.youtube.com/watch?v=q7seckj1hwM

Откуда на самом деле происходит оптимизация квадрата ошибки? Из Гаусса.

👍3

74 views20:33

0:34

Газовая атака.

🔥1

73 views22:05

ZClip: Adaptive Spike Mitigation for LLM Pre-Training
https://arxiv.org/abs/2504.02507
https://www.alphaxiv.org/ru/overview/2504.02507

Всплески потерь (loss spikes) — это внезапные, резкие увеличения потерь при обучении, которые могут нарушить обучение. Эти всплески часто связаны с большими нормами градиента.

ZClip эффективно смягчает выбросы потерь и достигает значительно более низких значений.

78 views04:00

1:47

COSMO от RoMeLa.

👍1

76 views05:32

0:23

Ночник-проводник до туалета посреди ночи.

🔥3

76 views13:17

1:49

Железякам тоже пойдёт.

👍2

56 views21:01

Механический двоично-десятичный дешифратор.

🔥6

63 views16:46

Rethinking RoPE: A Mathematical Blueprint for N-dimensional Positional Encoding
https://arxiv.org/abs/2504.06308
https://www.alphaxiv.org/ru/overview/2504.06308

Авторы используют теорию групп Ли и алгебр Ли для предоставления строгого математического фреймворка для RoPE. Центральным результатом работы является то, что любая допустимая N-мерная RoPE должна лежать в базисе максимальной абелевой подалгебры (MASA) специальной ортогональной алгебры Ли.

63 views22:20

Так себе забег вышел. Tiangong победил.

60 views17:58

0:12

Language models thinking step by step to do arithmetic...

59 views18:16

(How) Do reasoning models reason?
https://arxiv.org/abs/2504.09762v1
https://www.alphaxiv.org/ru/overview/2504.09762

В статье оспаривается предположение о том, что простая тренировка LLM на "цепочках мыслей" обязательно приводит к подлинным способностям к рассуждению.

Авторы предполагают, что обученные (post-training) LRM можно понимать как итеративную компиляцию рассуждений в извлечение. С этой точки зрения, то, что кажется рассуждением, на самом деле может быть сложным сопоставлением с образцом (pattern matching), основанным на ранее встречавшихся примерах и решениях.

Подходы chain-of-thought можно рассматривать как предоставление соответствующих расширений промпта, которые приводят к более точным заключениям, а не как включение подлинных пошаговых рассуждений.

Математическая формулировка этой точки зрения может быть выражена как:

Для модели с параметрами θ и функцией расширения промпта PA:
P(Правильный ответ | Вопрос, θ, PA) > P(Правильный ответ | Вопрос, θ)

Это говорит о том, что успех LRM может быть больше связан с поиском эффективных стратегий расширения промптов, чем с развитием внутренних возможностей рассуждения.

81 views18:38