NEW BOT Телеграм, страница

Пример того как это выглядит для реального резнета на малюсеньком участочке.

😍1

353 views11:10

Ну что ж, отрицательными результатами тоже надо иногда делиться. Итак берём ту же задачку гроккинга, что и в прошлых двух докладах, Берём модельку минимального допустимого размера (ембединг 96), грокаем и начинаем жестоко прунить. Остаётся всего 3800 весов, что кажется новый рекорд, хотя в этом деле ещё есть куда расти. Видно, что работа сосредоточилась в первой половине первого селфатеншена и трёх заключительных полносвязанных слоях.

Однако тут возможны две трактовки. С одной стороны сосредоточение работы в первых слоях может быть фундаментальным свойством гроккинга, с другой, у первых и последний слоёв просто всегда выше градиент в силу чисто математических причин. Попробуем проверить может ли прунинг заставить перенести расссчёты в более поздние слои.

👍2

400 views14:41

Свидетели Градиента

Мы знаем, что иногда прунинг может достигать результатов похожих на гроккинг. В этом примере я беру такую же сеть, только чуть побольше и при нулевом weight_decay начинаю её прунить. Результат не такой красивый, но всё-таки интересный.

👍2

423 views14:45

Свидетели Градиента

Возьмём самые пострадавшие от прунинга слои и скажем, что прунить их нужно гораздо слабее, а восстанавливать гораздо сильнее (их градиент будет считаться в 100 раз большим). Ну и что можно сказать. Выпрунить удалось на много на много меньше, и первый слой удалось зажать всего только до 321 против 473 в первом эксперименте. То есть выдавить рассчёты из первого слоя таким способом не удалось. И даже если настроить первому слою обучение в десять раз медленнее, и запретить батчнормы прунить (чтобы не приводить к преждевременному отмиранию нейронов) переместить рассчёты из первого слоя в более поздние не удаётся. Видимо у них там гнездо.

👍1🤔1

490 views14:53

Свидетели Градиента

https://music.yandex.ru/album/35071153/track/135391083

Проклятье почти решённой задачи...

Вот допустим взялись вы за какаую-то задачу, и накопилп огромное количество инормации о ней, и уже почти решили. Стали бы вы публиковать свои промежуточные результаты, если вам не нужно по гранту отчитываться? Воможно, найдётся кто-то умный, кто вас послушает и сделает последний шаг лучше, чем вы,и это будет страшно полезно не только для него, но и для науки...

Допустим вы не стали, и продолжили работать над задачей, и задача не решилась, но теперь вы знаете о неё на много больше, без вопросов хватит на статью причём на топовой конфе. И осталось только попробовать ещё один нетривиальный эксперимент. А теперь стали бы?

Допустим опять не стали, перефигачили обучение, и теперь оно очень необычное, убедились что догадки о природе явления были если не исчерпывающими, то буквально правильными, потому что вы их проверили их другим способом, и вы даже запустили тот странноватый оптимизатор, который пришёл к вам в голову недавно. Теперь вы знаете о явление такое о чём никто не догадывается, и можете легко в два примера разбить аргументацию тех, кто публикуется с нашумевшими статьями а эту тему. И единственная проблема, что этот оптимизатор не дал того результата, который можно применять. Теперь вы знаете в деталях ещё один аспект явления, буквально видите как вектора разворачиваются в сторону решения, и в пазле не зватает только последнего, вероятно, самого ваэжного кусочка после которого можно будет прям получить сияюший результат.
Уже пора публиковаться или постараться последний шажок...

Звучит как мечта истинного естествоиспытателя и первопроходца. Вероятно что-то такое чувствовал Ньютон, который вынул из стола готовую работу по диференциальному исчислению только когда у него спросили ответ на конкретный вропрос, для которого она была нужна. Или как Ермак Тимофеевич.

Почему я назвал это проклатием? А кто вам сказал, что шаг последний? Статистика и опыт шепчут: "чуваки, ты ищешь северо-западный проход, и это не эвфимизм, а историческая аналогия".

Вот такое у меня для вас объяснение к этой песне если вы вдруг сами Сибири не покоряли, саблями не махали и понимаете о чём она не до конца.

👍2👏1

438 viewsedited 10:00

Свидетели Градиента

Data Fest 2025 - Call for Papers
Созываю доклады для любителей необычного на весенний датафест.

Секция DL Фронтир (гроккинг, прунинг, дистиляция, академия, и т.п...) для всех любителей копать глубже и узнавать сокровенные тайны глубокого обучения.
Ожидаются такие доклады как:
- "Локальных минимумов не существует, как на самом деле выглядит типичный ландшафт лосс функции"
- Воркшоп: "Поведение разных оптимизаторов на более реалистичной модельной задаче"
- "Гроккинг это такая дистиляция"
- "Прунинг это тоже своего рода гроккинг"

Приглашаю присоединяться к веселью если у вас есть наработки не укладывающиеся в рамки обычных секций, если вы изучаете что-то такое, где пока никому ничего не понятно, если вы экспериментируете с необычными или даже экстремальными подходами и архитектурами, если практически проверяете то, что все привыкли принимать на веру, заслуженно или незаслуженно. Если есть что-то о чём бы вы хотели поговорить в глубоком обучении, но обычно не с кем, приходите на нашу секцию, и возможно встретите не единомышленников, но таких же как вы глубокомышленников.

Свои идеи выступлений можно обсудить со мной, или сразу заявить доклад в официальную форму датафеста. Анонс можно и нужно распространять и показывать необычным людям, которых вы знаете лично.

Ваши "Свидетели Градиента"

🔥5

1.27K viewsedited 09:33

Свидетели Градиента

Причём существует два вида гроккинга, теперь я их называю гроккинг или обобщение первого и второго типа, и второй, тот который происходит когда сеть пытается выразить решение через наименьшее количество активных весов, является имманентным, присутствующим по построению свойством сетей с обучаемым коннектомом, просто потому что удаление всего (в разумных пределах), что можно удалить, одна из составных частей их алгоритма.
Собственно вот это, пример чего я приводил, это как раз он - гроккинг второго типа: https://news.1rj.ru/str/GradientWitnesses/192

🤔2

466 viewsedited 07:40

Свидетели Градиента

Минутка прикладного применения. Ошибка думать, что гроккинг может только быть или не быть, он может быть чуть-чуть.
Если у вас сложная задачка, которая плохо решается и у вас не ограничен вычислительный бюджет, иногда можно вымутить немного дополнительной точности простым приёмом:
1) Увеличиваем размер сетки в два-три раза.
2) Разбиваем обучение на два этапа первоначальный и второй. Этого можно не делать, но при экстремально больших weight_decay первоначальный этап обучения может портиться.
3) На втором этапе стараемся уменьшить дисперсию градиента, потому что гроккинг разрушается дисперсией. Для этого увеличиваем размеры батча, и/или увеличиваем моментумы, например AdamW ставим betas=(0.99, 9.57). Тут тоже можно переборщить. Интересно, что слишком большое сглаживание на первом этапе тоже может вредить, тут только чуйка и эксперименты.
4) Проверяем, что переобучение с выбранными вами параметрами идёт и сеть не разрушается.
5) Выкручиваем weight_decay в очень большие значения. Например 0.5 Если сеть обучается можно увеличить. Вам нужно значение раза в два меньше того при котором сеть разрушается. Тоже с lr Его можно увеличивать, но как минимум пол порядка надо оставить до той скорости на которой lr сеть развалит.
6) Нам пофигу на переобучение на train, пусть хоть в 100% упирается, смотрим только на validation. В таком режиме val тоже может сначала расти, а потом начать падать по мере деградации сети, так что возможно нужно будет выбрать момент чтобы остановиться. Но в общем играемся параметрами.
7) Profit. Или нифигашечки, тут уж как повезёт. Я на одной чисто научной задаче таким способом себе целый процент вымутил.
8) Рано или поздно опубликую угловую меру генерализации, по которой за этим процессом можно следить, но можно и без неё - на ощупь.

🤔3👍1

520 viewsedited 06:42

Свидетели Градиента

Мой мозг сломался об очень многомерную геометрию, и теперь мне была бы полезна помощь кого-нибудь, для кого геометрия миллионмерного пространства не на столько контрингтуитивна. Возможно тут такие есть. Суть в следующем:

Даны три длиннющих вектора не слишком отличающиеся друг от друга. Это градиенты посчитанные для нейросети на разных шагах. Косинусный угол между первым и вторым векторами 9 градусов. Между вторым и третьим - тоже 9 градусов. А между первым и третьим чуть меньше 18 градусов. Я предположил, как мне казалось, очень логично, что это означает, что первый поворот и второй поворот происходят в почти одной плоскости. Однако потом я попыталсля посчитать сколько это "почти". Я взял 3-плоскость заданную первым и вторым векторами. и первый ортогонализовал ко второму, как нас учат товарищи Грамм и Шмидт. А потом я взял вторую 3-плоскость, образованную векторами 2 и 3, и ортогонализовал 3-ий вектор ко второму. Таким образом у меня есть две плоскости, по моему первому предположению очень близкие, определённые через вектор 2, и ортогонализованный 1 и ортогонализаванный 3. Вернее я взял минус его, чтобы в ту же сторону смотрел. И вот опираясь на предположение, что плоскости очень близкие я предположил, что могу узнать что-то типа наименьшего угла между ними если посмотрю угол между векторами o1 b o3 - то есть ортогонализованные 1 и 3, смотрю я косинусный угол между ними, а он, внезапно 19 градусов, или даже 24.4540 для тройки векторов с взаимными углами 9.7593, 9.8875, 19.1968

И вот теперь вопрос, эти плоскости реально так сильно друг от друга отличаются, или я просто неправильно понимаю как узнать минимальный угол между ними? Потому что если смотреть на некоторые свойства, то они вроде как в почти одной плоскости, а если на другие, то кажется как будто и нет. :(

UPD: Мозг расклинило. За помощь спасибо: @foobar765, @YarHammer, @vetalnn

❤1

545 viewsedited 16:55

Свидетели Градиента

Мозг расклинило. Многомерность не мешает тому, что все эти события происходят в простом трёхмерном многообразии, и наименьший угол третьего вектора к первым двум лежит в плоскости проходящей через третий вектор и его проекцию на плоскость образованную первыми двумя, и он реально малюсенький. За помощь спасибо: @foobar765, @YarHammer, @vetalnn

👍6🥰1

471 views09:52

Свидетели Градиента

Forwarded from Вечное сияние чистого разума ✨

#исследования Что, если нейросети научатся не просто обучаться, а эволюционировать — добавлять себе новые нейроны, забывать старое, адаптировать свою структуру под задачи?

Авторы статьи «Neuroplasticity in Artificial Intelligence — An Overview and Inspirations on Drop In & Out Learning» предлагают переосмыслить архитектуру нейросетей, вдохновляясь нейропластичностью мозга.

Современные нейросети, включая LLM, имеют статичную структуру: количество и соединения нейронов фиксированы. Однако в мозге нейроны могут появляться (нейрогенез), погибать (апоптоз) и самое главное — перестраивать связи (нейропластичность).

Авторы предлагают комплексно перенести эти процессы в ИИ, чтобы модели могли динамически адаптироваться к новым задачам и данным.

Dropout — давно известная техника, в рамках которой отдельные нейроны отключаются во время обучения.

Dropin — подход, при котором в сеть вводятся новые нейроны, имитируя нейрогенез. Это позволяет модели расширять свои возможности по мере необходимости.

Таким образом, сеть может не только «забывать» ненужное, но и учиться новому, подобно мозгу. Менять размер своей архитектуры, оптимизируя объем памяти и вычислений.

В статье авторы также проанализировали другие публикации последних лет, в которых использовались сходные принципы.

Upd: Один из подписчиков поделился записью доклада «Нейросети с адаптивно обучаемой архитектурой через выращивание новых синапсов», который он делал на Data Fest 2024.

👍6🔥5

532 views10:51

Свидетели Градиента

Как обычно поиском в ютубе искал ссылку на собственный доклад и мне вылез шортс, где девушка сидящая перед блогерской камерой (круговая лампа в зрачках отражается) оживлённо жестикулирая, и подчёркивая своё восхищение происходящим, рассказывала что такое гроккинг... В нейросетях...

😁3🥴3

536 viewsedited 08:21

Свидетели Градиента

А ещё в процессе подготовки доклада про ландшафт функции потерь придумал подводку к слайду, из которой тоже можно сделать шортс:

- Что если я скажу вам, что оптимизаторы нейросетей могут снижать loss быстрее, чем если бы строго шли по градиенту? И часто это делают это прямо на вашей задаче. Приходите на доклад чтобы узнать подробности!

Правда чтобы показать это на красивом графике надо будет замерять расстояние, проходимое Adam-ом при обычном обучении.

А ещё придумал два эксперимента, без которых доклад будет неполным:

1) Как выглядит ландшафт с дополнительным слагаемым от регуляризации, если его добавлять именно в loss, а не применять снаружи, как это делается в AdamW. Почему это важно? Потому что это один из способов достичь гроккинга, и интересно чем такой ландшафт отличается от обычного.
2) Как выглядит ландшафт для типичной задачи компьютерного зрения на CIFAR10 или MNIST чтобы показать, что кривизна тоннеля может быть гораздо больше, и стало понятно интуитивно почему дисперсия градиента слабо снижается в некоторых задачах при использовании методов снижения типа Adam

А время выделяемое на доклад тем временем не увеличивается, так что идея проводить ещё воркшоп, на котором будет всё то же самое, но на несколько часов, с ответами на все вопросы, и разжовыванием каждой картинки уже просто неизбежна.

P.S. А ещё мне на работе попалась клавиатура со стёртыми русскими буквами и я по необходимости привык к слепой печати, к сожалению я стал при этому ляпать огромное количество ошибок. Иногда результаты обучения нейросетей идут не по плану...

🔥6

673 viewsedited 08:49

Свидетели Градиента

Читаю статью по гроккигру, про которую мне напомнил @import_sklearn и судя по её библиографическому обзору за 2024-ый и даже 2025-ый годы по этой теме проделана огромная работа...

539 views09:15

Свидетели Градиента

В этом году выступаю и организую в секции DL Frontier. 30-ого числа оффлайн в Сбере и 31-ого онлайн в спатиал чате.

В оффлайне я расскажу о рельефе loss-функции, и как все мы должны в связи с этим изменить свои уловки для обучения глубоких сетей, алгоритмы оптимизации, способы наблюдения за обучающейся сетью, в общем интересно это будет далеко не только математикам, а математикам просто взорвёт мозг.

Кроме того в секции будут доклады про рекуррентные трансформеры чтобы работать с чудовищьно длинными контекстами, бенчмарки проверяющие логику на ещё более длинных контекстах, и большие русскоязычные бенчмарки в которых LLM-ок судят другие LLM-ки, в общем, мы тут собираем золотой сет русскоязычных инструментов для замыкания интеллектуального цикла

31-ого в онлайне будет доклад о превращении LLM-окв в Змея Горыныча, отращивающего себе дополнительные головы когда хочется обмозговать проблему на троих, Я буду рассказывать всё тоже самое, что и в оффлайне, но без ограничений во времени, отвечая на все до единого вопросы, и детально поясняя каждый нюанс пока все, кому интересно, не поймут, а компанию нам составит прекрасная докладчица с сравнимым с международными бенчмарком для оценки эмбедингов языковых сетей, если бы рекуррентный трансформер был уже обучен на большом корпусе - обязательно бы временную часть его эмбединга её бенчмарку скормил, самому интересно что получится.

Приходите. Оффлайн выступления с 13:20 во втором зале и кто зарегался уже знает куда идти, а Онлайн начинаем в 14:00 и продолжаем пока вопросы не кончатся. Тут: https://ods.ai/events/df2025-31-may-online

P.S. Есть такая интересная игра, вместо того чтобы лайкать можно куда-нибудь или кому-нибудь переслать. Ну или не вместо, а в дополнение. :)

🔥5👍4

2.24K views08:56

About

Blog

Apps

Platform