NEW BOT Телеграм, страница

Sparse Hash AI pinned a photo

04:21

1:01

0:41

🔥2

82 views03:28

Knee-Deep in C-RASP: A Transformer Depth Hierarchy
https://www.alphaxiv.org/abs/2506.16055

https://github.com/pentagonalize/CRASP_depth

Данное исследование формально доказывает и эмпирически подтверждает, что реальные модели трансформеров требуют определенной глубины для достижения 100% точности в задачах.

Авторы показывают, что трансформеры демонстрируют строгую иерархию глубины — это означает, что для любой глубины k существуют вычислительные задачи, которые могут быть решены трансформером с k+1 слоями, но не могут быть решены никаким трансформером всего с k слоями.

Модели постоянно достигают 100% точности, когда их глубина соответствует или превышает теоретически предсказанный минимум. Например, трансформер глубины 2 (см. картинку) может идеально решить L_4, в то время как трансформеры глубины 1 значительно испытывают трудности.

Sparse Hash AI

🤔2

65 views05:00

0:13

У аудитории 40+ звуковое сопровождение ролика зашито в прошивку и включается в голове автоматически. Если ваша версия модели выше v2.0.0.0 - просто включите звук 🔊

🔥1

68 views06:05

Attention Layers Add Into Low-Dimensional Residual Subspaces
https://www.alphaxiv.org/ru/overview/2508.16929

Авторы обнаруживают, что слои внимания способствуют формированию удивительно низкоразмерных подпространств в остаточном потоке.

Исследование затрагивает критическую практическую проблему в механистической интерпретируемости: распространенность "мёртвых признаков" в методах разреженного словарного обучения. Это параметры, которые никогда не активируются во время обучения.

Авторы устанавливают прямую эмпирическую зависимость между внутренней размерностью активаций и распространенностью неактивных признаков в SAE. Исследователи представляют Active Subspace Initialization (ASI) – метод, который выравнивает признаки SAE с этой внутренней геометрией, значительно сокращая количество мертвых признаков до менее 1%.

Sparse Hash AI

🔥1

51 views19:55

0:23

Прогресс за 2,5 года.

https://www.reddit.com/r/aivideo/comments/1qi8zuv/25_years_difference_makes_you_wonder_where_ai/

Sparse Hash AI

🔥3

54 views21:44

Зарядная станция Zipline для дронов доставки.

0:21

Zipline достиг 2 миллионов доставок с помощью дронов.

Sparse Hash AI

🔥1

52 views04:59

0:53

Lynx M20 на –30°C.

Sparse Hash AI

🔥1

45 views05:16

Extracting books from production language models
https://www.alphaxiv.org/overview/2601.02671

Исследователи продемонстрировали способность извлекать существенные, почти дословные фрагменты защищенных авторским правом книг, включая почти целые произведения, из ведущих производственных больших языковых моделей, таких как Claude 3.7 Sonnet, Gemini 2.5 Pro, Grok 3 и GPT-4.1, что выявило значительные ограничения в их текущих механизмах защиты.

Sparse Hash AI

50 views05:46