Клим Жуков
Не сходи с ума, ИИ ⚠️ Что один из создателей нейросети никогда бы ей не доверил? Смотрите откровение Сергея Маркова, который знает все о возможных рисках Слушайте подкасты проекта «За ширмой тысячного ли»: https://music.yandex.ru/album/27479854 #ЗаШирмойТысячногоЛи…
Обычно я стараюсь не особо постить не тематическое, но тут просто комба из блогеров. Марков с Климом Жуковым
Примерно с 2015-ого года, когда я впервые познакомился с алгоритмом коррекции ошибок Розенблатта мне не давала покоя мысль, что что-то такое же можно сделать с действительными числами. Даже делал некоторые самостоятельные эксперименты, в ходе которых сталкивался с некоторыми небольшими трудностями. Очевидно не одного меня эта мысль не давала покоя. Вот статья товарища, у которого чесались руки за 12 лет до меня с прекрасным названием. :)
Crammer, Koby, Ofer Dekel, Joseph Keshet, Shai Shalev-Shwartz and Yoram Singer. “Online Passive-Aggressive Algorithms.” J. Mach. Learn. Res. 7 (2003): 551-585.
Когда-то, когда ещё было не очевидно, что все мы умрём на рабочем месте, я думал, что буду на пенсии играть во все отложенные на потом игрушки древнейших времён. Но оказываается, что я буду воспроизводить отложенные на потом алгоритмы древнейших времён. :))) На сладкое - краткий пересказ статьи от дипсика, наверняка упустивший в статье самое главное. :)
Статья "Online Passive-Aggressive Algorithms" (2006) представляет собой фундаментальную работу, в которой представлено семейство алгоритмов онлайн-обучения для различных задач прогнозирования
.
🎯 Основная идея и подход
Авторы предлагают единую модель для создания алгоритмов онлайн-обучения для классификации, регрессии и других задач
Ключевая идея заключается в специальном правиле обновления модели при поступлении новых данных:
Пассивное поведение: Если текущая модель правильно классифицирует новый пример данных (с достаточным запасом), её параметры не изменяются
Агрессивное поведение: Если модель допускает ошибку, её параметры агрессивно обновляются. Это обновление представляет собой решение строгой задачи оптимизации: скорректировать веса ровно настолько, чтобы исправить ошибку для текущего примера, но при этом минимизировать изменение модели по сравнению с предыдущим состоянием
Этот формализованный подход позволяет алгоритмам быстро адаптироваться к новым данным и эффективно работать с большими потоками информации
📊 Значение и применение
Эффективность для больших данных: Алгоритмы идеально подходят для работы с крупномасштабными или непрерывно поступающими данными, так как не требуют хранения всего набора данных в памяти и производят быстрые инкрементальные обновления
Теоретическое обоснование: Для предложенных алгоритмов доказаны границы cumulative loss (суммарных потерь) в сравнении с наилучшим фиксированным решением, что гарантирует их надежность
Универсальность: Единый подход применяется к широкому спектру задач, включая бинарную и многоклассовую классификацию, регрессию и прогнозирование последовательностей
Crammer, Koby, Ofer Dekel, Joseph Keshet, Shai Shalev-Shwartz and Yoram Singer. “Online Passive-Aggressive Algorithms.” J. Mach. Learn. Res. 7 (2003): 551-585.
Когда-то, когда ещё было не очевидно, что все мы умрём на рабочем месте, я думал, что буду на пенсии играть во все отложенные на потом игрушки древнейших времён. Но оказываается, что я буду воспроизводить отложенные на потом алгоритмы древнейших времён. :))) На сладкое - краткий пересказ статьи от дипсика, наверняка упустивший в статье самое главное. :)
Статья "Online Passive-Aggressive Algorithms" (2006) представляет собой фундаментальную работу, в которой представлено семейство алгоритмов онлайн-обучения для различных задач прогнозирования
.
🎯 Основная идея и подход
Авторы предлагают единую модель для создания алгоритмов онлайн-обучения для классификации, регрессии и других задач
Ключевая идея заключается в специальном правиле обновления модели при поступлении новых данных:
Пассивное поведение: Если текущая модель правильно классифицирует новый пример данных (с достаточным запасом), её параметры не изменяются
Агрессивное поведение: Если модель допускает ошибку, её параметры агрессивно обновляются. Это обновление представляет собой решение строгой задачи оптимизации: скорректировать веса ровно настолько, чтобы исправить ошибку для текущего примера, но при этом минимизировать изменение модели по сравнению с предыдущим состоянием
Этот формализованный подход позволяет алгоритмам быстро адаптироваться к новым данным и эффективно работать с большими потоками информации
📊 Значение и применение
Эффективность для больших данных: Алгоритмы идеально подходят для работы с крупномасштабными или непрерывно поступающими данными, так как не требуют хранения всего набора данных в памяти и производят быстрые инкрементальные обновления
Теоретическое обоснование: Для предложенных алгоритмов доказаны границы cumulative loss (суммарных потерь) в сравнении с наилучшим фиксированным решением, что гарантирует их надежность
Универсальность: Единый подход применяется к широкому спектру задач, включая бинарную и многоклассовую классификацию, регрессию и прогнозирование последовательностей
🔥5
Когда оставил сетку на ночь сжиматься, а она и не против:
wdw_positive_loss_reduction_1,37e-06:
step: 23500
train loss: 1.248498797416687
val loss: 1.3833754062652588
best val loss: 1.328853964805603
ppl: 4.375
zeros: 99.43%/x174.4/zeros:10,683,490 active:61,598
Бейзлайн для сравнения:
basic:
step: 2750
train loss: 1.0932060480117798
val loss: 1.4427303075790405
ppl: 4.21875
Сетка - очень мальенький GPT-2 с 6 головами, 6 слоями, и 348 эмбедингом, датасет - tinyshakespeare.
Хоть и маленькая и игрушечная, но вполне себе языковая задача.
P.S. Самые внимательные могут заметить, что валидейшен loss стал заметно лучше, а перплексия на том же валидейшене - хуже.
wdw_positive_loss_reduction_1,37e-06:
step: 23500
train loss: 1.248498797416687
val loss: 1.3833754062652588
best val loss: 1.328853964805603
ppl: 4.375
zeros: 99.43%/x174.4/zeros:10,683,490 active:61,598
Бейзлайн для сравнения:
basic:
step: 2750
train loss: 1.0932060480117798
val loss: 1.4427303075790405
ppl: 4.21875
Сетка - очень мальенький GPT-2 с 6 головами, 6 слоями, и 348 эмбедингом, датасет - tinyshakespeare.
Хоть и маленькая и игрушечная, но вполне себе языковая задача.
P.S. Самые внимательные могут заметить, что валидейшен loss стал заметно лучше, а перплексия на том же валидейшене - хуже.
👍4
Лучше всего даже чуть раньше остановится:
step: 21750
train loss: 1.2251079082489014
val loss: 1.3634604215621948
best val loss: 1.328853964805603
ppl: 4.28125
zeros: 99.38%/x160.4/zeros:10,678,087 active:67,001
step: 21750
train loss: 1.2251079082489014
val loss: 1.3634604215621948
best val loss: 1.328853964805603
ppl: 4.28125
zeros: 99.38%/x160.4/zeros:10,678,087 active:67,001
🔥2
Возможно Scaling law для супер пережатых трансформеров выглядит примерно так. ПО крайней мере на той языковой задаче, которую я гоняю прямо сейчас этот паттерн раз за разом воспроизводится, с небольшими отличиями в зависимости от гиперпараметров. Причём интересно, что точка минимума, опять же возможно зависит от задачи, но слабо зависит от размеров сети. Здесь Сетка на 3M и точка прелома x33, то-есть где-то 90К весов, и где-то в районе 66K перплексити становится не лучше, чем до начала сжатия. Но когда я начинал с 10М, слоёв побольше, да эмбединг потолще точка "не на много хуже" была где-то тоже в районе 66к, я выше по чату скидивал, и для такой сети это больше х150. Но когда я начал с 25M, ещё побольше слоёв и ещё пошире в талии, уровень "не на много хуже" тоже был, где-то в окрестностях 60-70К, что для такой сети составляет уже умопомрачительные х350.
🤔7
Идея из области очевидных, но совершенно не очевидно, что результат будет и вообще неизвестно сколько мелких нюансов надо будет преодолеть прежде чем очевидная идея заработает.
💯1
Forwarded from Data Secrets
Крошечная модель на 7 миллионов параметров превзошла DeepSeek-R1, Gemini 2.5 Pro и o3-mini на ARG-AGI 1 и ARC-AGI 2
Сегодня разбираем самую громкую статью последних дней: "Less is More: Recursive Reasoning with Tiny Networks" от Samsung. В работе, кстати, всего один автор (большая редкость, особенно для корпоративных исследований).
Итак, главный вопрос: как это вообще возможно, чтобы модель в 10 000 раз меньше была настолько умнее?
Ответ: рекурсия. Модель (Tiny Recursive Model, TRM) многократко думает над своим ответом, пересматривает его и исправляет, прежде чем выдать окончательное решение. Выглядит процесс примерно так:
1. Модель получает условия задачки и сразу генерирует какой-то грубый набросок решения. Он не обязательно должен быть правильным, это просто быстрая догадка.
2. Дальше система создает "мысленный блокнот" – scratchpad. Туда она записывает всё, что думает о задаче и своём черновике: где ошибки, что можно улучшить, как проверить гипотезу. При этом важно понимать, что scratchpad – это не поток токенов, как в обычном ризонинге. Это внутреннее скрытое состояние, то есть матрица или вектор, который постепенно обновляется. Другими словами, TRM умеет думает молча.
3. Модель в несколько проходов обновляет это внутреннее состояние, каждый раз сверяясь с (а) задачей и (б) исходным наброском. Она как бы думает: согласуется ли текущий черновик с условием, где противоречия, что улучшить. После N-ого количества итераций модель переписывает исходный черновик, опираясь на свой сформированный scratchpad. Но это не все. Этот процесс (сначала подумай → потом исправь) повторяется несколько раз. И вот только после этого мы получаем финальный ответ.
Результаты, конечно, поражают. Метрики на ARC-AGI-1 / ARC-AGI-2 – 44.6% / 7.8%. Для сравнения, у o3-mini-high – 34.5% / 3.0%. Также модель отлично решает судоку и лабиринты.
Единственная честная оговорка: это не языковая модель, она предназначена только для алгоритмов и текстом отвечать не умеет. Тем не менее, идея блестящая. Много раз пройтись одной и той же крохотной сеткой по scratchpad – это буквально как эмулировать глубину большой модели без большой модели. Отличный пример алгоритмического преимущества.
Крайне советуем почитать статью полностью тут. К слову, они там много ссылаются на августовскую работу про Hierarchical Reasoning Model (HRM). Если захотите освежить память по этому исследованию, то вот тут – наш разбор.
Сегодня разбираем самую громкую статью последних дней: "Less is More: Recursive Reasoning with Tiny Networks" от Samsung. В работе, кстати, всего один автор (большая редкость, особенно для корпоративных исследований).
Итак, главный вопрос: как это вообще возможно, чтобы модель в 10 000 раз меньше была настолько умнее?
Ответ: рекурсия. Модель (Tiny Recursive Model, TRM) многократко думает над своим ответом, пересматривает его и исправляет, прежде чем выдать окончательное решение. Выглядит процесс примерно так:
1. Модель получает условия задачки и сразу генерирует какой-то грубый набросок решения. Он не обязательно должен быть правильным, это просто быстрая догадка.
2. Дальше система создает "мысленный блокнот" – scratchpad. Туда она записывает всё, что думает о задаче и своём черновике: где ошибки, что можно улучшить, как проверить гипотезу. При этом важно понимать, что scratchpad – это не поток токенов, как в обычном ризонинге. Это внутреннее скрытое состояние, то есть матрица или вектор, который постепенно обновляется. Другими словами, TRM умеет думает молча.
3. Модель в несколько проходов обновляет это внутреннее состояние, каждый раз сверяясь с (а) задачей и (б) исходным наброском. Она как бы думает: согласуется ли текущий черновик с условием, где противоречия, что улучшить. После N-ого количества итераций модель переписывает исходный черновик, опираясь на свой сформированный scratchpad. Но это не все. Этот процесс (сначала подумай → потом исправь) повторяется несколько раз. И вот только после этого мы получаем финальный ответ.
Результаты, конечно, поражают. Метрики на ARC-AGI-1 / ARC-AGI-2 – 44.6% / 7.8%. Для сравнения, у o3-mini-high – 34.5% / 3.0%. Также модель отлично решает судоку и лабиринты.
Единственная честная оговорка: это не языковая модель, она предназначена только для алгоритмов и текстом отвечать не умеет. Тем не менее, идея блестящая. Много раз пройтись одной и той же крохотной сеткой по scratchpad – это буквально как эмулировать глубину большой модели без большой модели. Отличный пример алгоритмического преимущества.
Крайне советуем почитать статью полностью тут. К слову, они там много ссылаются на августовскую работу про Hierarchical Reasoning Model (HRM). Если захотите освежить память по этому исследованию, то вот тут – наш разбор.
🔥10👍1
Когда сеть старается, худеет, но ты понимаешь, что это уже давно анорексия и срочно пора оставновиться...
Простите за этот шитпостинг на выходных, Столько всего важного и серьёзного недоделано, а сколько ещё надо недоделать....
Простите за этот шитпостинг на выходных, Столько всего важного и серьёзного недоделано, а сколько ещё надо недоделать....
😁6💯2
А вот из интересных наблюдений:
Если слишком усердно мешать сети переобучиться на ранних этапах, то и деградировать она начнёт гораздо раньше. Конечно с одной стороны может показаться не таким уж важным на x75 или на х120 вас начинает уносить, но если вспомнить, что 90 тысяч весов я предположил как минимальный вес модели для данного датасета, то приходится признавать, что он мало зависит от размеров сети, но заметно зависит от режимов обучения.
P.S. Зато если помешал сети улететь к звёздам, можно остановиться в любой момент, не обязательно дожидаться пока она придет в форму.
P.P.S. На сибирском датафесте буду кое что из этого показывать с комментариями...
Если слишком усердно мешать сети переобучиться на ранних этапах, то и деградировать она начнёт гораздо раньше. Конечно с одной стороны может показаться не таким уж важным на x75 или на х120 вас начинает уносить, но если вспомнить, что 90 тысяч весов я предположил как минимальный вес модели для данного датасета, то приходится признавать, что он мало зависит от размеров сети, но заметно зависит от режимов обучения.
P.S. Зато если помешал сети улететь к звёздам, можно остановиться в любой момент, не обязательно дожидаться пока она придет в форму.
P.P.S. На сибирском датафесте буду кое что из этого показывать с комментариями...
👍5❤2🤔1