NEW BOT Телеграм, страница

Sparse Hash AI

Pretraining Without Attention
https://www.alphaxiv.org/ru/overview/2212.10544v2
https://github.com/jxiw/BiGS

Работа из 23-го года*. State-Space Model, архитектура (Bidirectional Gated SSM, BiGS) которой без механизма внимания достигает производительности уровня BERT.

Архитектура с гейтированием (GATED / SSM) включает поэлементное умножение между преобразованными входными данными и выходами SSM. Этот механизм гейтирования, вдохновленный Gated Linear Units (GLUs), по-видимому, восстанавливает репрезентативную способность, необходимую для эффективного трансферного обучения.

* Из обратившего на себя моё внимание. Недавно нашумевшая работа Dragon Hatchling повторяет эту архитектуру за исключением того, что использует линейное внимание.

Sparse Hash AI

166 views16:43

Sparse Hash AI

0:29

This media is not supported in your browser

VIEW IN TELEGRAM

Eggie от калифорнийской Tangible.

Sparse Hash AI

❤1

143 views14:32

ACT-1 от Sunday

Sparse Hash AI

🔥2❤1

168 views16:42

Sparse Hash AI

ACT-1 от Sunday Sparse Hash AI

Домашних роботов появилось уже немало, НО...

— Робот может ~~написать симфонию~~ почистить и пожарить картошку, разбить яйцо на сковородку и не сжечь омлет? 😄

Пока что таких ещё не завозили. 😐

👍2

169 views12:08

Sparse Hash AI

Neuroevolution
https://neuroevolutionbook.com/

Sparse Hash AI

151 views12:28

Полноразмерный T800 от EngineAI. С начала бума/эры андроидов ещё не прошло даже полного года.

Sparse Hash AI

🔥1

207 views13:58

Sparse Hash AI

0:22

This media is not supported in your browser

VIEW IN TELEGRAM

DARPA Challenge 10 лет назад.

Sparse Hash AI

🔥2

122 views20:44

Sparse Hash AI

0:07

This media is not supported in your browser

VIEW IN TELEGRAM

Бегающий Figure

Sparse Hash AI

❤1

112 views08:22

Sparse Hash AI

Мех ARCHAX японской компании Tsubame Industries для тяжелой работы.

9 камер дают пилоту полный обзор на 360°. Система обратной связи передаёт точное усилие захвата. Может работать удалённо, аккумулятора хватает на день, и может самостоятельно добираться до места работы со скоростью 10 км/ч.

Предназначен для поисково-спасательных работ, вывода из эксплуатации ядерных объектов, крупномасштабного сноса.

Sparse Hash AI

2:43

95 views17:20

Sparse Hash AI

NeuralRemaster: Phase-Preserving Diffusion for Structure-Aligned Generation
https://huggingface.co/papers/2512.05106

видео

Sparse Hash AI

3:32

👍1

117 viewsedited 17:44

Sparse Hash AI

0:15

This media is not supported in your browser

VIEW IN TELEGRAM

https://www.rivr.ai/

Sparse Hash AI

❤1

94 views05:05

Sparse Hash AI

On the generalization of language models from in-context learning and finetuning: a controlled study
https://www.alphaxiv.org/ru/overview/2505.00661

Сравнивалось обобщение языковых моделей во время обучения in-context (ICL) vs finetuning. Исследование демонстрирует превосходство ICL над finetuning в обобщении знаний на задачах вроде реверсии фактов и силлогизмов.

В экспериментах ICL достигает ~100% точности на тесте Reversal Curse при размещении всего датасета в контексте.

Sparse Hash AI

92 views16:48

Sparse Hash AI

Полноразмерный T800 от EngineAI. С начала бума/эры андроидов ещё не прошло даже полного года. Sparse Hash AI

0:24

This media is not supported in your browser

VIEW IN TELEGRAM

CEO EngineAI vs T800

Sparse Hash AI

94 views08:55

Sparse Hash AI

Convergence for Discrete Parameter Updates
https://www.alphaxiv.org/ru/overview/2512.04051
https://github.com/hellas-ai/neurips2025-convergence-for-discrete-parameter-updates

Существующие подходы к квантованному обучению вычисляют обновления, используя непрерывную (с плавающей запятой) арифметику, а затем дискретизируют эти обновления с помощью функций квантования.

В данной работе предлагается фундаментальное изменение парадигмы путем введения схем дискретного обновления параметров, где правило обновления само по себе изначально является целочисленным, полностью обходя необходимость квантования непрерывных значений.

Обновление основано на мультиномиальном распределении с избытком нулей (Zero-Inflated Multinomial — ZIM).

Результаты показывают, что:

⦁ Дискретные обновления успешно сходятся к решениям, сравнимым со стандартным SGD

⦁ Метод работает «из коробки» с существующими архитектурами

⦁ Наблюдается скромное снижение точности на 0.5-1%, что соответствует теоретическому уровню шума

Sparse Hash AI

108 views14:54

Sparse Hash AI

The Universal Weight Subspace Hypothesis
https://www.alphaxiv.org/ru/overview/2512.05117

В данной работе представлена гипотеза универсального весового подпространства, эмпирически демонстрирующая, что глубокие нейронные сети, обученные для выполнения различных задач и с использованием различных модальностей, сходятся к общим низкоразмерным параметрическим подпространствам. Это схождение позволяет значительно экономить память, например, до 100 раз для Vision Transformers и моделей LLaMA, и в 19 раз для адаптеров LoRA.

Гипотеза утверждает, что глубокие нейронные сети, независимо от их задач обучения, схем инициализации или конфигураций гиперпараметров, систематически сходятся к общим, низкоразмерным параметрическим подпространствам. Эта «Гипотеза универсального весового подпространства» предполагает, что кажущееся высокоразмерное пространство параметров нейронных сетей по большей части иллюзорно — значимая информация находится в гораздо меньшем, специфичном для архитектуры подпространстве.

Sparse Hash AI

👍1

184 views17:10

Sparse Hash AI

Sparse Hash AI pinned a photo

17:23

Sparse Hash AI

1:09

This media is not supported in your browser

VIEW IN TELEGRAM

Sparse Hash AI

100 views17:24

Sparse Hash AI

Can You Learn to See Without Images? Procedural Warm-Up for Vision Transformers
https://arxiv.org/abs/2511.13945

Исследование, показывающее, что предобучение Vision Transformers на символических последовательностях (например, сбалансированных скобках) без изображений повышает эффективность последующего обучения на ImageNet, делая модели более экономными по данным.

анонс

Sparse Hash AI

🧵 Thread • FixupX

Damien Teney (@DamienTeney)

Can vision transformers learn without images?🤔👀
Our latest work shows that pretraining ViTs on procedural symbolic data (eg sequences of balanced parentheses) makes subsequent standard training (eg on ImageNet) more data efficient! How is this possible?!…

90 views19:25

Sparse Hash AI

Beyond Data Filtering: Knowledge Localization for Capability Removal in LLMs
https://alignment.anthropic.com/2025/selective-gradient-masking/

Новое исследование компании Anthropic – Selective GradienT Masking (SGTM) – обучает модель LLM таким образом, чтобы опасные знания упаковывались в небольшой набор весов, которые впоследствии можно удалить с минимальным ущербом для остальной части модели.

SGTM изменяет процесс обучения, разделяя веса каждого слоя на часть, отвечающую за сохранение, и часть, отвечающую за забывание, где часть, отвечающая за забывание, предназначена для хранения знаний о рисках.

Когда модель видит четко обозначенный рискованный текст, обновления градиента получают только веса забывания, поэтому модель учится полагаться на этот фрагмент для понимания этих концепций.

SGTM превосходит фильтрацию данных по соотношению удаления рискованного контента и сохранения полезных навыков, требуя всего на 5% больше вычислений, и устойчиво к попыткам переобучения.

Sparse Hash AI

👍2

129 views03:59

Sparse Hash AI

0:53

This media is not supported in your browser

VIEW IN TELEGRAM

Агент Смит v0.1 от SkildAI

Sparse Hash AI

🔥1

346 views18:54

Sparse Hash AI

Не стал вчера сразу публиковать виральное, но спорное видео. Выглядит как девушка в костюме робота, в Китае такое легко прокатывает на выставках. Но появилось продолжение с "разоблачением" в стиле терминатора. Sparse Hash AI

0:09

This media is not supported in your browser

VIEW IN TELEGRAM

Xpeng IRON

Видео не с официального аккаунта, но в прошлый раз тоже был "левый вброс" для разогрева, и тоже казалось сомнительным, но оказалось правдой. Грок говорит - не генерация.

Sparse Hash AI

361 views19:53

About

Blog

Apps

Platform