Китайская фирма DAMODA побила мировой рекорд Гиннесса, организовав световое шоу с участием 10 518 дронов над городом Хошимин.
🔥1
Media is too big
VIEW IN TELEGRAM
Volonaut Airbike - Speeder Bike Forest Chase
https://www.youtube.com/watch?v=Q74qlF48qX0
May the 4th be with You!
https://www.youtube.com/watch?v=Q74qlF48qX0
May the 4th be with You!
This media is not supported in your browser
VIEW IN TELEGRAM
Андроид AiMOGA от Chery Automobile.
корма тяжёлая )
This media is not supported in your browser
VIEW IN TELEGRAM
Современные дипфейки в режиме реального времени с подстройкой к освещению.
🔥 Mem-векторы: как сохранить 1500 токенов в одном векторе и зачем это нужно
https://habr.com/ru/articles/906592/
https://habr.com/ru/articles/906592/
Хабр
Mem-векторы: как сохранить 1500 токенов в одном векторе и зачем это нужно
От сжатия текста к mem-векторам: новая веха в языковых моделях Каждый, кто работал с большими языковыми моделями (LLM), знает про ограничение длины контекста: модель не может напрямую обработать...
🔥1
Grokking in the Wild: Data Augmentation for Real-World Multi-Hop Reasoning with Transformers
https://arxiv.org/abs/2504.20752v2
https://www.alphaxiv.org/ru/overview/2504.20752
Многошаговое рассуждение требует соединения нескольких атомарных фактов в цепочку для получения новой информации. Грокнутый восьмислойный GPT-2 в задачах многошагового рассуждения способен значительно превзойти более крупные и продвинутые модели, такие как GPT-4o и O1-mini.
Необходимым условием для полной обобщаемости, возникновения грокинга, является превышение определенного критического порога для отношения между выведенными фактами и атомарными фактами.
Интересный факт: Удивительно, но расширение некорректными фактами все еще может способствовать грокингу, предполагая, что формирование схем рассуждений в некоторой степени не зависит от фактической корректности.
https://arxiv.org/abs/2504.20752v2
https://www.alphaxiv.org/ru/overview/2504.20752
Многошаговое рассуждение требует соединения нескольких атомарных фактов в цепочку для получения новой информации. Грокнутый восьмислойный GPT-2 в задачах многошагового рассуждения способен значительно превзойти более крупные и продвинутые модели, такие как GPT-4o и O1-mini.
Необходимым условием для полной обобщаемости, возникновения грокинга, является превышение определенного критического порога для отношения между выведенными фактами и атомарными фактами.
Интересный факт: Удивительно, но расширение некорректными фактами все еще может способствовать грокингу, предполагая, что формирование схем рассуждений в некоторой степени не зависит от фактической корректности.
Harnessing the Universal Geometry of Embeddings
https://arxiv.org/abs/2505.12540v2
https://www.alphaxiv.org/overview/2505.12540
Экспериментальное доказательство "Platonic Representation Hypothesis".
Гипотеза утверждает, что все достаточно большие модели имеют одно и то же скрытое представление, в работе эта идея распространяется на текстовые модели.
vec2vec — метод трансляции текстовых эмбеддингов одной модели в эмбеддинги другой модели без парных данных или доступа к энкодеру.
Может выполнять трансляцию между любыми двумя пространствами эмбеддингов, для которых доступны примеры. Достигнута высокая косинусная схожесть (до 0.92) между транслированными эмбеддингами и эталонными векторами.
https://x.com/rishi_d_jha/status/1925212069168910340
https://x.com/jxmnop/status/1925224612872233081
https://arxiv.org/abs/2505.12540v2
https://www.alphaxiv.org/overview/2505.12540
Экспериментальное доказательство "Platonic Representation Hypothesis".
Гипотеза утверждает, что все достаточно большие модели имеют одно и то же скрытое представление, в работе эта идея распространяется на текстовые модели.
vec2vec — метод трансляции текстовых эмбеддингов одной модели в эмбеддинги другой модели без парных данных или доступа к энкодеру.
Может выполнять трансляцию между любыми двумя пространствами эмбеддингов, для которых доступны примеры. Достигнута высокая косинусная схожесть (до 0.92) между транслированными эмбеддингами и эталонными векторами.
https://x.com/rishi_d_jha/status/1925212069168910340
https://x.com/jxmnop/status/1925224612872233081
Beyond 'Aha!': Toward Systematic Meta-Abilities Alignment in Large Reasoning Models
https://arxiv.org/abs/2505.10554v1
https://www.alphaxiv.org/ru/overview/2505.10554
В основе статьи лежит концепция трех фундаментальных мета-способностей рассуждения, которые составляют основу человеческого и искусственного рассуждения: дедукция, индукция и абдукция.
Авторы создают набор синтетических задач, специально разработанных для каждой мета-способности, и обучают специализированные модели для каждой мета-способности. После обучения объединяют их в унифицированную модель с использованием взвешенной комбинации в пространстве параметров.
Объединенная модель превосходит отдельные специализированные модели, подтверждая, что мета-способности дополняют друг друга. Оптимальная производительность достигается при весах λd=1.0, λi=0.2 и λa=0.1, что предполагает, что дедуктивное рассуждение обеспечивает самую прочную основу, а индуктивное и абдуктивное рассуждения служат дополнительными возможностями.
https://arxiv.org/abs/2505.10554v1
https://www.alphaxiv.org/ru/overview/2505.10554
В основе статьи лежит концепция трех фундаментальных мета-способностей рассуждения, которые составляют основу человеческого и искусственного рассуждения: дедукция, индукция и абдукция.
Авторы создают набор синтетических задач, специально разработанных для каждой мета-способности, и обучают специализированные модели для каждой мета-способности. После обучения объединяют их в унифицированную модель с использованием взвешенной комбинации в пространстве параметров.
Объединенная модель превосходит отдельные специализированные модели, подтверждая, что мета-способности дополняют друг друга. Оптимальная производительность достигается при весах λd=1.0, λi=0.2 и λa=0.1, что предполагает, что дедуктивное рассуждение обеспечивает самую прочную основу, а индуктивное и абдуктивное рассуждения служат дополнительными возможностями.
This media is not supported in your browser
VIEW IN TELEGRAM
Любительская разработка.
X
X
Forwarded from Алексей
В прошлом были так называемые "растущие сети", например, "нейроподобные растущие сети Ященко". На каждый вход из обучаемых данных в сеть добавлялся новый нейрон. А что такое нейрон? Это просто строка или столбец в весовой матрице. Добавить новый нейрон — это дописать к матрице строку.
А где сейчас матрицы с растущими размерами? В трансформерах, в аттеншене. На каждый входной токен к матрицам ключей и значений дописывается новая строка — новый нейрон. Кеш трансформера — это растущая сеть. Но эта сеть с замороженными весами, веса кеша не обновляются с каждым новым токеном, в отличие от тех прошлых растущих сетей; и возможно это недоработка.
А где сейчас матрицы с растущими размерами? В трансформерах, в аттеншене. На каждый входной токен к матрицам ключей и значений дописывается новая строка — новый нейрон. Кеш трансформера — это растущая сеть. Но эта сеть с замороженными весами, веса кеша не обновляются с каждым новым токеном, в отличие от тех прошлых растущих сетей; и возможно это недоработка.
This media is not supported in your browser
VIEW IN TELEGRAM
Veo 3
X
Менее 3 часов и 7,25 долл. США на облачном кредите.
Если бы это делало традиционное агентство с использованием традиционных методов, то это обошлось бы примерно в 100 тыс. долларов.
X