Antidistillation Sampling
Антидистилляционное сэмплирование
https://www.alphaxiv.org/ru/overview/2504.13146v2
Исследователи разработали Antidistillation Sampling — метод, позволяющий большим языковым моделям генерировать цепочки рассуждений, менее эффективные для дистилляции моделей. Подход значительно ухудшает производительность дистиллированных моделей-учеников (например, точность ученика упала с ~60% до ~25% на GSM8K), сохраняя при этом исходную полезность модели-учителя.
Эффективность метода обусловлена внедрением тонких, но стратегически расположенных артефактов в трассы рассуждений. Эти артефакты, хотя и не оказывают существенного влияния на способность учителя приходить к правильным выводам, мешают процессу обучения ученика во время дистилляции. Примеры включают вставки нерелевантного текста, избыточные объяснения и вводящие в заблуждение промежуточные шаги, которые сбивают с толку распознавание образов в модели ученика, не влияя на получение учителем конечного ответа.
Антидистилляционное сэмплирование
https://www.alphaxiv.org/ru/overview/2504.13146v2
Исследователи разработали Antidistillation Sampling — метод, позволяющий большим языковым моделям генерировать цепочки рассуждений, менее эффективные для дистилляции моделей. Подход значительно ухудшает производительность дистиллированных моделей-учеников (например, точность ученика упала с ~60% до ~25% на GSM8K), сохраняя при этом исходную полезность модели-учителя.
Эффективность метода обусловлена внедрением тонких, но стратегически расположенных артефактов в трассы рассуждений. Эти артефакты, хотя и не оказывают существенного влияния на способность учителя приходить к правильным выводам, мешают процессу обучения ученика во время дистилляции. Примеры включают вставки нерелевантного текста, избыточные объяснения и вводящие в заблуждение промежуточные шаги, которые сбивают с толку распознавание образов в модели ученика, не влияя на получение учителем конечного ответа.
Hierarchy or Heterarchy? A Theory of Long-Range Connections for the Sensorimotor Brain
https://www.alphaxiv.org/ru/overview/2507.05888v1
https://x.com/1000brainsproj/status/1943729883273625761
https://www.youtube.com/watch?v=QIoENhFu2VU
Новая работа от Нументы.
Эта теоретическая работа оспаривает традиционный иерархический взгляд на организацию неокортекса, предлагая, что мозг функционирует как "гетерархия" — система, сочетающая как иерархические, так и неиерархические режимы обработки. Авторы представляют всеобъемлющую концепцию, названную Теорией Тысячи Мозгов (ТТМ), которая переосмысливает функцию дальних связей в мозге, уделяя особое внимание сенсомоторной интеграции и роли таламуса.
Sparse Hash AI
https://www.alphaxiv.org/ru/overview/2507.05888v1
https://x.com/1000brainsproj/status/1943729883273625761
https://www.youtube.com/watch?v=QIoENhFu2VU
Новая работа от Нументы.
Эта теоретическая работа оспаривает традиционный иерархический взгляд на организацию неокортекса, предлагая, что мозг функционирует как "гетерархия" — система, сочетающая как иерархические, так и неиерархические режимы обработки. Авторы представляют всеобъемлющую концепцию, названную Теорией Тысячи Мозгов (ТТМ), которая переосмысливает функцию дальних связей в мозге, уделяя особое внимание сенсомоторной интеграции и роли таламуса.
Sparse Hash AI
👍3
Sparse Hash AI
Hierarchy or Heterarchy? A Theory of Long-Range Connections for the Sensorimotor Brain https://www.alphaxiv.org/ru/overview/2507.05888v1 https://x.com/1000brainsproj/status/1943729883273625761 https://www.youtube.com/watch?v=QIoENhFu2VU Новая работа от…
Thousand-Brains Systems: Sensorimotor Intelligence for Rapid, Robust Learning and Inference
Тысячемозговые системы: Сенсомоторный интеллект для быстрого и надёжного обучения и вывода
https://www.alphaxiv.org/ru/overview/2507.04494v1
https://www.youtube.com/watch?v=3d4DmnODLnE
Исследование представляет «Монти» — первую реализацию «системы тысячи мозгов», основанную на теории тысячи мозгов (ТТМ) об интеллекте. В отличие от традиционных подходов ИИ, которые обучаются на статических наборах данных, Монти познает мир через активное сенсомоторное взаимодействие, строя структурированные 3D-модели объектов посредством движения и осязания.
Тысячемозговые системы: Сенсомоторный интеллект для быстрого и надёжного обучения и вывода
https://www.alphaxiv.org/ru/overview/2507.04494v1
https://www.youtube.com/watch?v=3d4DmnODLnE
Исследование представляет «Монти» — первую реализацию «системы тысячи мозгов», основанную на теории тысячи мозгов (ТТМ) об интеллекте. В отличие от традиционных подходов ИИ, которые обучаются на статических наборах данных, Монти познает мир через активное сенсомоторное взаимодействие, строя структурированные 3D-модели объектов посредством движения и осязания.
FLEXITOKENS: Flexible Tokenization for Evolving Language Models
ФЛЕКСИТОКЕНЫ: Гибкая токенизация для эволюционирующих языковых моделей
https://www.alphaxiv.org/ru/overview/2507.12720v1
https://github.com/owos/flexitokens
FlexıTokens представляет адаптивную стратегию токенизации для языковых моделей, которая динамически регулирует гранулярность токенизации в зависимости от ввода, что приводит к более высоким коэффициентам сжатия и улучшенной производительности для различных языков и доменов.
ФЛЕКСИТОКЕНЫ: Гибкая токенизация для эволюционирующих языковых моделей
https://www.alphaxiv.org/ru/overview/2507.12720v1
https://github.com/owos/flexitokens
FlexıTokens представляет адаптивную стратегию токенизации для языковых моделей, которая динамически регулирует гранулярность токенизации в зависимости от ввода, что приводит к более высоким коэффициентам сжатия и улучшенной производительности для различных языков и доменов.
This media is not supported in your browser
VIEW IN TELEGRAM
Veo 3 image-to-video. Требуется только фото локации и описание сцены.
X
X
This media is not supported in your browser
VIEW IN TELEGRAM
Walker S2 от UBTech
Emergence and Evolution of Interpretable Concepts in Diffusion Models
Появление и Эволюция Интерпретируемых Концепций в Диффузионных Моделях
https://www.alphaxiv.org/overview/2504.15473v1
Эта статья исследует вопросы, как визуальные концепции возникают и развиваются во время генерации изображений.
Ключевой вывод заключается в том, что интерпретируемые концепции изображения формируются на удивление рано в процессе удаления шума (на первом шаге денойзинга), задолго до того, как визуальная связность станет очевидной для наблюдателей, при этом различные аспекты изображения "закрепляются" на разных этапах генерации.
Ранний этап (t=1.0): Устанавливается грубая компоновка объектов и композиция сцены.
Средний этап (t=0.5): Положения и идентичности объектов фиксируются.
Финальный этап (t=0.0): Уточняются мелкие детали и текстуры.
Манипулирование конкретными признаками SAE на разных временных шагах приводит к предсказуемым изменениям в сгенерированных изображениях.
Появление и Эволюция Интерпретируемых Концепций в Диффузионных Моделях
https://www.alphaxiv.org/overview/2504.15473v1
Эта статья исследует вопросы, как визуальные концепции возникают и развиваются во время генерации изображений.
Ключевой вывод заключается в том, что интерпретируемые концепции изображения формируются на удивление рано в процессе удаления шума (на первом шаге денойзинга), задолго до того, как визуальная связность станет очевидной для наблюдателей, при этом различные аспекты изображения "закрепляются" на разных этапах генерации.
Ранний этап (t=1.0): Устанавливается грубая компоновка объектов и композиция сцены.
Средний этап (t=0.5): Положения и идентичности объектов фиксируются.
Финальный этап (t=0.0): Уточняются мелкие детали и текстуры.
Манипулирование конкретными признаками SAE на разных временных шагах приводит к предсказуемым изменениям в сгенерированных изображениях.
👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Мы рады поделиться этими необработанными кадрами полета, включая взлет и посадку, все с настоящим звуком.
Никаких спецэффектов, никакой компьютерной графики, никакого искусственного интеллекта, чистая инженерия. Наслаждайтесь будущим!
Наконец-то появился полностью функциональный реальный «спидбайк», который до сих пор существовал только в научно-фантастических фильмах.
X
Как self-attention кодирует граф
https://gist.github.com/T-igra/92b6af2dd7c7bfb6f97ac5466b80202f
Оформил в виде небольшой статьи с примерами собственные взгляды на связь self-attention с графом.
https://gist.github.com/T-igra/92b6af2dd7c7bfb6f97ac5466b80202f
Оформил в виде небольшой статьи с примерами собственные взгляды на связь self-attention с графом.
Gist
Как self-attention кодирует граф
Как self-attention кодирует граф. GitHub Gist: instantly share code, notes, and snippets.
Sparse Hash AI
Как self-attention кодирует граф https://gist.github.com/T-igra/92b6af2dd7c7bfb6f97ac5466b80202f Оформил в виде небольшой статьи с примерами собственные взгляды на связь self-attention с графом.
продолжение про граф и attention
Self-attention и триплет
https://gist.github.com/T-igra/d295b1109c910101474b2845b24e3cc7
Self-attention и триплет
https://gist.github.com/T-igra/d295b1109c910101474b2845b24e3cc7
Gist
Self-attention и триплет
Self-attention и триплет. GitHub Gist: instantly share code, notes, and snippets.
SETOL: A Semi-Empirical Theory of (Deep) Learning
SETOL: Полуэмпирическая теория (глубокого) обучения
https://www.alphaxiv.org/ru/overview/2507.17912v1
Массивная теория, 139 страниц.
SETOL (Semi-Empirical Theory of Learning) – теория конвергенции слоёв NN. Она утверждает, что отдельные слои NN сходятся с разными скоростями, и «идеальное» состояние сходимости может быть обнаружено простым наблюдением спектральных свойств весовой матрицы слоя.
«Спектральные свойства» здесь просто означают: взять спектр сингулярных значений из матрицы весов, посмотреть, как они падают, и извлечь одно число наклона.
В статье показано, что такая простая спектральная оценка для каждого слоя настолько хорошо предсказывает обобщение, что может заменить дорогостоящую валидацию.
SETOL: Полуэмпирическая теория (глубокого) обучения
https://www.alphaxiv.org/ru/overview/2507.17912v1
Массивная теория, 139 страниц.
SETOL (Semi-Empirical Theory of Learning) – теория конвергенции слоёв NN. Она утверждает, что отдельные слои NN сходятся с разными скоростями, и «идеальное» состояние сходимости может быть обнаружено простым наблюдением спектральных свойств весовой матрицы слоя.
«Спектральные свойства» здесь просто означают: взять спектр сингулярных значений из матрицы весов, посмотреть, как они падают, и извлечь одно число наклона.
В статье показано, что такая простая спектральная оценка для каждого слоя настолько хорошо предсказывает обобщение, что может заменить дорогостоящую валидацию.