A Survey on Parallel Text Generation: From Parallel Decoding to Diffusion Language Models
Обзор параллельной генерации текста: от параллельного декодирования до диффузионных языковых моделей
https://www.alphaxiv.org/ru/overview/2508.08712v2
Обзор параллельной генерации текста: от параллельного декодирования до диффузионных языковых моделей
https://www.alphaxiv.org/ru/overview/2508.08712v2
What is Entropy?
https://www.arxiv.org/abs/2409.09232
https://www.alphaxiv.org/ru/overview/2409.09232v1
Математический физик Джон С. Бэез переопределяет энтропию как количество неизвестной информации о микроскопическом состоянии системы, разъясняя распространенные заблуждения. В статье количественно объясняется, почему водородный газ при комнатной температуре и давлении имеет энтропию, эквивалентную примерно 23 неизвестным битам информации на молекулу, путем интеграции теории информации с классической статистической механикой и включения необходимых квантовых поправок.
https://www.arxiv.org/abs/2409.09232
https://www.alphaxiv.org/ru/overview/2409.09232v1
Математический физик Джон С. Бэез переопределяет энтропию как количество неизвестной информации о микроскопическом состоянии системы, разъясняя распространенные заблуждения. В статье количественно объясняется, почему водородный газ при комнатной температуре и давлении имеет энтропию, эквивалентную примерно 23 неизвестным битам информации на молекулу, путем интеграции теории информации с классической статистической механикой и включения необходимых квантовых поправок.
Reinforcement Learning: An Overview
https://arxiv.org/abs/2412.05265
https://www.alphaxiv.org/ru/overview/2412.05265v3
Кевин П. Мерфи представляет всеобъемлющий и систематически организованный обзор обучения с подкреплением, тщательно агрегируя и объясняя его основные концепции, разнообразные алгоритмы от фундаментальных до глубокого ОП, а также новые приложения, такие как его интеграция с большими языковыми моделями. Работа призвана служить унифицированным образовательным и справочным ресурсом для этой области.
https://arxiv.org/abs/2412.05265
https://www.alphaxiv.org/ru/overview/2412.05265v3
Кевин П. Мерфи представляет всеобъемлющий и систематически организованный обзор обучения с подкреплением, тщательно агрегируя и объясняя его основные концепции, разнообразные алгоритмы от фундаментальных до глубокого ОП, а также новые приложения, такие как его интеграция с большими языковыми моделями. Работа призвана служить унифицированным образовательным и справочным ресурсом для этой области.
👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Hunyuan 3D-2.1 превращает изображение в 3D-модель студийного качества.
Attention sinks from the graph perspective
https://publish.obsidian.md/the-tensor-throne/Transformers+as+GNNs/Attention+sinks+from+the+graph+perspective
https://publish.obsidian.md/the-tensor-throne/Transformers+as+GNNs/Attention+sinks+from+the+graph+perspective
The Tensor Throne
Attention sinks from the graph perspective - The Tensor Throne - Obsidian Publish
ChatGPT Image 24 ago 2025, 16_42_51.png Attention sinks have recently come back to the forefront of architecture discussion, especially due to their appearance in gpt-oss (although in a different for…
Predicting the Order of Upcoming Tokens Improves Language Modeling
Прогнозирование порядка следующих токенов улучшает языковое моделирование
https://www.alphaxiv.org/ru/overview/2508.19228v1
В работе предсказание трансформером следующего токена (NTP) дополнили обучением следующей последовательности - Token Order Prediction (TOP).
Для кодирования целевого вектора TOP использует оценку на основе близости, где следующие токены, появляющиеся раньше, получают более высокие баллы. В примере на картинке за первым токеном never следуют токены gonna, give, you и up, они получают свои оценки, соответственно, порядку следования (Token Order) - 3, 2, 1 и 0. У остальных токенов оценки приравниваются к минус бесконечности.
В результате такого обучения модель демонстрирует рост производительности по сравнению с NTP и масштабируемость.
Прогнозирование порядка следующих токенов улучшает языковое моделирование
https://www.alphaxiv.org/ru/overview/2508.19228v1
В работе предсказание трансформером следующего токена (NTP) дополнили обучением следующей последовательности - Token Order Prediction (TOP).
Для кодирования целевого вектора TOP использует оценку на основе близости, где следующие токены, появляющиеся раньше, получают более высокие баллы. В примере на картинке за первым токеном never следуют токены gonna, give, you и up, они получают свои оценки, соответственно, порядку следования (Token Order) - 3, 2, 1 и 0. У остальных токенов оценки приравниваются к минус бесконечности.
В результате такого обучения модель демонстрирует рост производительности по сравнению с NTP и масштабируемость.
🔥1
An Introduction to Autoencoders
Введение в автоэнкодеры
https://www.alphaxiv.org/ru/overview/2201.03898v1
Sparse Hash AI
Введение в автоэнкодеры
https://www.alphaxiv.org/ru/overview/2201.03898v1
Sparse Hash AI
This media is not supported in your browser
VIEW IN TELEGRAM
Disentangling the Factors of Convergence between Brains and Computer Vision Models
https://www.alphaxiv.org/ru/overview/2508.18226v1
Работа демонстрирует существенное сходство внутренних активаций DINOv3 с паттернами нейронной активности, наблюдаемыми в человеческом мозге.
DINOv3 - это современный Vision Transformer с самоконтролируемым обучением.
Иерархическая организация показывает сильное соответствие (R=0.38) между глубиной модели и кортикальной иерархией: ранние слои предсказывают активность V1, а глубокие слои согласуются с префронтальной корой. Временная динамика демонстрирует еще более сильное соответствие (R=0.96), показывая, что последовательная обработка в слоях трансформера отражает временное развертывание зрительной обработки в мозге.
Более крупные модели неизменно достигают более высокого сходства с мозгом по всем метрикам. Это преимущество размера наиболее выражено для высокоуровневых корковых областей, с минимальным влиянием на первичные зрительные области.
Sparse Hash AI
https://www.alphaxiv.org/ru/overview/2508.18226v1
Работа демонстрирует существенное сходство внутренних активаций DINOv3 с паттернами нейронной активности, наблюдаемыми в человеческом мозге.
DINOv3 - это современный Vision Transformer с самоконтролируемым обучением.
Иерархическая организация показывает сильное соответствие (R=0.38) между глубиной модели и кортикальной иерархией: ранние слои предсказывают активность V1, а глубокие слои согласуются с префронтальной корой. Временная динамика демонстрирует еще более сильное соответствие (R=0.96), показывая, что последовательная обработка в слоях трансформера отражает временное развертывание зрительной обработки в мозге.
Более крупные модели неизменно достигают более высокого сходства с мозгом по всем метрикам. Это преимущество размера наиболее выражено для высокоуровневых корковых областей, с минимальным влиянием на первичные зрительные области.
Sparse Hash AI
🤔1