NEW BOT Телеграм, страница

Sparse Hash AI

The wall confronting large language models
Стена, противостоящая большим языковым моделям
https://www.alphaxiv.org/ru/overview/2507.19703v2

Авторы утверждают, что LLM сталкиваются с фундаментальными ограничениями, которые невозможно преодолеть за счет простого масштабирования, представляя то, что они называют «стеной», препятствующей дальнейшему значительному прогрессу.

LLM показывают удивительно низкие экспоненты масштабирования (приблизительно от 0.05 до 0.095), что означает, что для десятикратного уменьшения ошибки требуется в 10^10 раз больше вычислений и в 10^20 раз больше электроэнергии. Это значительно менее эффективно, чем методы Монте-Карло, которые требуют всего в 100 раз больше ресурсов для десятикратного уменьшения ошибки.

Ключевое понимание связано с ролью нелинейных функций активации в трансформерах. Эти функции по своей природе преобразуют гауссовы входные распределения в негауссовы выходные.

Это преобразование приводит к тому, что они называют «устойчивостью неопределенности» (Resilience of Uncertainty, RoU) — явлению, при котором неопределенность в негауссовых распределениях затухает гораздо медленнее, чем в гауссовых. Парадокс заключается в том, что та же самая негауссовость, которая позволяет LLM изучать сложные паттерны, также делает их уязвимыми к накоплению ошибок.

В любом большом наборе данных ложные (случайные) корреляции значительно превосходят по количеству осмысленные, и это соотношение растет экспоненциально с размером набора данных, независимо от природы данных. В статье вводится концепция «Дегенеративного ИИ» (DAI), описывающая причинно-следственную цепь, где малые показатели масштабирования приводят к негауссовым флуктуациям, которые, в свою очередь, создают устойчивость неопределенности и в конечном итоге приводят к «информационным катастрофам», когда LLM с трудом различают подлинные паттерны и эти ложные корреляции.

92 viewsedited 15:23

Figure 02 автономно стирает белье в доме генерального директора Бретта Эдкока.

🔥1

154 views02:59

Sparse Hash AI

1:03

This media is not supported in your browser

VIEW IN TELEGRAM

Интересно, через сколько лет эта генерация станет реальностью (про андроида, не Марс).

🔥2

122 views09:29

Sparse Hash AI

Transformers from Scratch
https://e2eml.school/transformers.html

131 views14:28

Sparse Hash AI

0:30

This media is not supported in your browser

VIEW IN TELEGRAM

NOETIX's N2.

куда они столько клепают этих коротышек 👀

112 views18:30

🔥4

141 views18:53

Unitree A2 Stellar Hunter

👍1🔥1

102 views20:35

Sparse Hash AI

This media is not supported in your browser

VIEW IN TELEGRAM

103 views20:47

Sparse Hash AI

0:41

This media is not supported in your browser

VIEW IN TELEGRAM

Китайский гигант "электричек" BYD только что запустил «Lingyuan» — систему запуска дронов, устанавливаемую на крышу ("домик для дрона"). 😎

Одним нажатием кнопки крыша открывается, платформа поднимается, и дрон DJI взлетает, даже во время движения автомобиля.

Он может запускаться на скорости до 25 км/ч, следовать за автомобилем со скоростью 54 км/ч и автономно возвращаться с расстояния до 2 км. Дрон устанавливается в отсек на крыше автомобиля, где автоматически подзаряжается.

Полный пакет стоит около 16 000 иен (~2 200 долларов США) и включает в себя дрон, пусковую установку и сопутствующие приложения, в том числе инструменты для редактирования видео и распознавания на базе искусственного интеллекта, которые могут делать фотографии вокруг автомобиля.

🔥4

120 viewsedited 22:08

Sparse Hash AI

Cosine Local Learning Rule (CLLR)
https://gist.github.com/T-igra/3e875175ea9165e03931c0f8d349f7f4

Локальное правило обучения весовой матрицы слоя без градиента и явного вычисления ошибки рассогласования предсказания с требуемым выходом.

Выкладываю свой метод обучения линейного слоя с функцией активации sin. Открыл его где-то пару лет назад, теоретическую базу за это время подвести не удалось, публикую как есть.

Gist

Cosine Local Learning Rule (CLLR)

Cosine Local Learning Rule (CLLR). GitHub Gist: instantly share code, notes, and snippets.

👍3

151 views17:04

Sparse Hash AI

Sparse Hash AI pinned «Cosine Local Learning Rule (CLLR) https://gist.github.com/T-igra/3e875175ea9165e03931c0f8d349f7f4 Локальное правило обучения весовой матрицы слоя без градиента и явного вычисления ошибки рассогласования предсказания с требуемым выходом. Выкладываю свой метод…»

17:04

Sparse Hash AI

0:13

This media is not supported in your browser

VIEW IN TELEGRAM

Зарядная станция Zipline для дронов доставки.

👍3

147 views18:42

SAO2 от ENGINEAI

👍1

152 viewsedited 18:48

142 views20:22

Energy-Based Transformers are Scalable Learners and Thinkers
https://www.alphaxiv.org/ru/overview/2507.02092v1

Трансформер Франкенштейна

С трансформера снимается голова и на её место ставится линейный слой с выходом в виде скаляра - линейная проекция (LP). Сама голова, усушенная до размера эмбеддинга токена, - "мост" - пришивается на вход к месту последнего токена. Весами моста является матрица эмбеддингов, что и для контекста. Таким образом на вход трансформера подаётся контекст и вектор логитов, сжатый в эмбеддинг.

Обучение специфическое, работает через динамический вычислительный граф.

Вначале вектор логитов инициализируется случайным образом - так называемый кандидат в предсказания. Случайные логиты и контекст подаются в трансформер. Делается прямой проход, и трансформер выдаёт число - условную энергию.

Обратным распространением ошибки от энергии обновляем логиты. Обновлённые логиты и контекст снова подаются в трансформер. Делается новый проход и апдейт логитов. Такие итерации производятся 2-3 раза, спуская кандидата в энергетическую яму.

Все эти операции запоминаются в вычислительном графе. Поэтому, даже с логитами на входе можно "развернуть" всю эту цепочку графа и обновить веса трансформера. Для этого вычисляется функция потерь (Cross-Entropy Loss) между финальным вектором логитов и правильным ответом, и эта ошибка распространяется обратно через всю модель, включая все шаги оптимизации, обновляя веса трансформера и линейного проектора.

Инференс. Логиты также инициализируются случайно и обновляются градиентным спуском от энергии. При этом можно делать разное число шагов оптимизации, пока энергия на выходе трансформера не упадёт достаточно. Предсказание следующего токена берётся из логитов.

🔥1

136 viewsedited 19:22

130 views19:22

119 views23:11

This media is not supported in your browser

VIEW IN TELEGRAM

❤1🔥1

125 views08:59

Sparse Hash AI

A Survey on Parallel Text Generation: From Parallel Decoding to Diffusion Language Models
Обзор параллельной генерации текста: от параллельного декодирования до диффузионных языковых моделей
https://www.alphaxiv.org/ru/overview/2508.08712v2

152 views03:04

Sparse Hash AI

0:35

This media is not supported in your browser

VIEW IN TELEGRAM

🔥1

129 views22:03

Sparse Hash AI

What is Entropy?
https://www.arxiv.org/abs/2409.09232
https://www.alphaxiv.org/ru/overview/2409.09232v1

Математический физик Джон С. Бэез переопределяет энтропию как количество неизвестной информации о микроскопическом состоянии системы, разъясняя распространенные заблуждения. В статье количественно объясняется, почему водородный газ при комнатной температуре и давлении имеет энтропию, эквивалентную примерно 23 неизвестным битам информации на молекулу, путем интеграции теории информации с классической статистической механикой и включения необходимых квантовых поправок.

139 viewsedited 17:10

About

Blog

Apps

Platform