This media is not supported in your browser
VIEW IN TELEGRAM
Hunyuan 3D-2.1 превращает изображение в 3D-модель студийного качества.
Attention sinks from the graph perspective
https://publish.obsidian.md/the-tensor-throne/Transformers+as+GNNs/Attention+sinks+from+the+graph+perspective
https://publish.obsidian.md/the-tensor-throne/Transformers+as+GNNs/Attention+sinks+from+the+graph+perspective
The Tensor Throne
Attention sinks from the graph perspective - The Tensor Throne - Obsidian Publish
ChatGPT Image 24 ago 2025, 16_42_51.png Attention sinks have recently come back to the forefront of architecture discussion, especially due to their appearance in gpt-oss (although in a different for…
Predicting the Order of Upcoming Tokens Improves Language Modeling
Прогнозирование порядка следующих токенов улучшает языковое моделирование
https://www.alphaxiv.org/ru/overview/2508.19228v1
В работе предсказание трансформером следующего токена (NTP) дополнили обучением следующей последовательности - Token Order Prediction (TOP).
Для кодирования целевого вектора TOP использует оценку на основе близости, где следующие токены, появляющиеся раньше, получают более высокие баллы. В примере на картинке за первым токеном never следуют токены gonna, give, you и up, они получают свои оценки, соответственно, порядку следования (Token Order) - 3, 2, 1 и 0. У остальных токенов оценки приравниваются к минус бесконечности.
В результате такого обучения модель демонстрирует рост производительности по сравнению с NTP и масштабируемость.
Прогнозирование порядка следующих токенов улучшает языковое моделирование
https://www.alphaxiv.org/ru/overview/2508.19228v1
В работе предсказание трансформером следующего токена (NTP) дополнили обучением следующей последовательности - Token Order Prediction (TOP).
Для кодирования целевого вектора TOP использует оценку на основе близости, где следующие токены, появляющиеся раньше, получают более высокие баллы. В примере на картинке за первым токеном never следуют токены gonna, give, you и up, они получают свои оценки, соответственно, порядку следования (Token Order) - 3, 2, 1 и 0. У остальных токенов оценки приравниваются к минус бесконечности.
В результате такого обучения модель демонстрирует рост производительности по сравнению с NTP и масштабируемость.
🔥1
An Introduction to Autoencoders
Введение в автоэнкодеры
https://www.alphaxiv.org/ru/overview/2201.03898v1
Sparse Hash AI
Введение в автоэнкодеры
https://www.alphaxiv.org/ru/overview/2201.03898v1
Sparse Hash AI
This media is not supported in your browser
VIEW IN TELEGRAM
Disentangling the Factors of Convergence between Brains and Computer Vision Models
https://www.alphaxiv.org/ru/overview/2508.18226v1
Работа демонстрирует существенное сходство внутренних активаций DINOv3 с паттернами нейронной активности, наблюдаемыми в человеческом мозге.
DINOv3 - это современный Vision Transformer с самоконтролируемым обучением.
Иерархическая организация показывает сильное соответствие (R=0.38) между глубиной модели и кортикальной иерархией: ранние слои предсказывают активность V1, а глубокие слои согласуются с префронтальной корой. Временная динамика демонстрирует еще более сильное соответствие (R=0.96), показывая, что последовательная обработка в слоях трансформера отражает временное развертывание зрительной обработки в мозге.
Более крупные модели неизменно достигают более высокого сходства с мозгом по всем метрикам. Это преимущество размера наиболее выражено для высокоуровневых корковых областей, с минимальным влиянием на первичные зрительные области.
Sparse Hash AI
https://www.alphaxiv.org/ru/overview/2508.18226v1
Работа демонстрирует существенное сходство внутренних активаций DINOv3 с паттернами нейронной активности, наблюдаемыми в человеческом мозге.
DINOv3 - это современный Vision Transformer с самоконтролируемым обучением.
Иерархическая организация показывает сильное соответствие (R=0.38) между глубиной модели и кортикальной иерархией: ранние слои предсказывают активность V1, а глубокие слои согласуются с префронтальной корой. Временная динамика демонстрирует еще более сильное соответствие (R=0.96), показывая, что последовательная обработка в слоях трансформера отражает временное развертывание зрительной обработки в мозге.
Более крупные модели неизменно достигают более высокого сходства с мозгом по всем метрикам. Это преимущество размера наиболее выражено для высокоуровневых корковых областей, с минимальным влиянием на первичные зрительные области.
Sparse Hash AI
🤔1
Bytebot is a self-hosted AI desktop agent that automates computer tasks through natural language commands, operating within a containerized Linux desktop environment.
www.bytebot.ai/
https://github.com/bytebot-ai/bytebot
www.bytebot.ai/
https://github.com/bytebot-ai/bytebot
GitHub
GitHub - bytebot-ai/bytebot: Bytebot is a self-hosted AI desktop agent that automates computer tasks through natural language commands…
Bytebot is a self-hosted AI desktop agent that automates computer tasks through natural language commands, operating within a containerized Linux desktop environment. - bytebot-ai/bytebot
🔥2
Is In-Context Learning Learning?
https://www.alphaxiv.org/ru/overview/2509.10414v2
https://www.alphaxiv.org/ru/overview/2509.10414v2