NEW BOT Телеграм, страница - 14503379

Sparse Hash AI

134 subscribers

154 photos

257 videos

3 files

340 links

AI обогатительная разработка ML месторождений. Осторожно, в канале ведутся подрывные работы!

Персональный чат https://news.1rj.ru/str/sparsehash

Download Telegram

About

Blog

Apps

Platform

134 subscribers

This media is not supported in your browser

VIEW IN TELEGRAM

Обули.

74 views18:16

Softpick: No Attention Sink, No Massive Activations with Rectified Softmax
https://arxiv.org/abs/2504.20966
https://www.alphaxiv.org/ru/overview/2504.20966

softpick-attention: Implementations of attention with the softpick function, naive and FlashAttention-2
https://github.com/zaydzuhri/softpick-attention

Softpick (Rectified Softmax) - замена softmax-у. Полностью устраняет attention sink, нормализует активации (residual activations), не теряя в производительности.

101 views20:14

This media is not supported in your browser

VIEW IN TELEGRAM

92 views18:20

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

Китайская фирма DAMODA побила мировой рекорд Гиннесса, организовав световое шоу с участием 10 518 дронов над городом Хошимин.

🔥1

100 views18:46

Media is too big

VIEW IN TELEGRAM

Volonaut Airbike - Speeder Bike Forest Chase
https://www.youtube.com/watch?v=Q74qlF48qX0

May the 4th be with You!

107 views22:52

This media is not supported in your browser

VIEW IN TELEGRAM

Андроид AiMOGA от Chery Automobile.

корма тяжёлая )

99 views17:00

This media is not supported in your browser

VIEW IN TELEGRAM

Современные дипфейки в режиме реального времени с подстройкой к освещению.

112 views18:15

🔥 Mem-векторы: как сохранить 1500 токенов в одном векторе и зачем это нужно
https://habr.com/ru/articles/906592/

Mem-векторы: как сохранить 1500 токенов в одном векторе и зачем это нужно

От сжатия текста к mem-векторам: новая веха в языковых моделях Каждый, кто работал с большими языковыми моделями (LLM), знает про ограничение длины контекста: модель не может напрямую обработать...

🔥1

157 views02:59

Grokking in the Wild: Data Augmentation for Real-World Multi-Hop Reasoning with Transformers
https://arxiv.org/abs/2504.20752v2
https://www.alphaxiv.org/ru/overview/2504.20752

Многошаговое рассуждение требует соединения нескольких атомарных фактов в цепочку для получения новой информации. Грокнутый восьмислойный GPT-2 в задачах многошагового рассуждения способен значительно превзойти более крупные и продвинутые модели, такие как GPT-4o и O1-mini.

Необходимым условием для полной обобщаемости, возникновения грокинга, является превышение определенного критического порога для отношения между выведенными фактами и атомарными фактами.

Интересный факт: Удивительно, но расширение некорректными фактами все еще может способствовать грокингу, предполагая, что формирование схем рассуждений в некоторой степени не зависит от фактической корректности.

150 views18:38

Media is too big

VIEW IN TELEGRAM

Оптимус деградирует.

😁5

127 views04:00

116 views04:01

This media is not supported in your browser

VIEW IN TELEGRAM

Пока ещё это фейк.

🤔1

94 views03:40

Harnessing the Universal Geometry of Embeddings
https://arxiv.org/abs/2505.12540v2
https://www.alphaxiv.org/overview/2505.12540

Экспериментальное доказательство "Platonic Representation Hypothesis".

Гипотеза утверждает, что все достаточно большие модели имеют одно и то же скрытое представление, в работе эта идея распространяется на текстовые модели.

vec2vec — метод трансляции текстовых эмбеддингов одной модели в эмбеддинги другой модели без парных данных или доступа к энкодеру.

Может выполнять трансляцию между любыми двумя пространствами эмбеддингов, для которых доступны примеры. Достигнута высокая косинусная схожесть (до 0.92) между транслированными эмбеддингами и эталонными векторами.

https://x.com/rishi_d_jha/status/1925212069168910340
https://x.com/jxmnop/status/1925224612872233081

93 views04:04

Beyond 'Aha!': Toward Systematic Meta-Abilities Alignment in Large Reasoning Models
https://arxiv.org/abs/2505.10554v1
https://www.alphaxiv.org/ru/overview/2505.10554

В основе статьи лежит концепция трех фундаментальных мета-способностей рассуждения, которые составляют основу человеческого и искусственного рассуждения: дедукция, индукция и абдукция.

Авторы создают набор синтетических задач, специально разработанных для каждой мета-способности, и обучают специализированные модели для каждой мета-способности. После обучения объединяют их в унифицированную модель с использованием взвешенной комбинации в пространстве параметров.

Объединенная модель превосходит отдельные специализированные модели, подтверждая, что мета-способности дополняют друг друга. Оптимальная производительность достигается при весах λd=1.0, λi=0.2 и λa=0.1, что предполагает, что дедуктивное рассуждение обеспечивает самую прочную основу, а индуктивное и абдуктивное рассуждения служат дополнительными возможностями.

108 views20:20

This media is not supported in your browser

VIEW IN TELEGRAM

LYNX M20

🔥1

96 views21:14

This media is not supported in your browser

VIEW IN TELEGRAM

Любительская разработка.
X

93 views06:59

Media is too big

VIEW IN TELEGRAM

89 views21:30

This media is not supported in your browser

VIEW IN TELEGRAM

91 views23:28