NEW BOT Телеграм, страница

Свидетели Градиента

Внимание вопрос, какая accuracy останется у этого Тириона Мобайловича? Правильный ответ с парочкой иллюстрирующих графиков завтра.

Anonymous Poll

65%

75.274%, если файнтюнить сеть не пострадает.

19%

50% Как с динозавром, либо угадает, либо не угадает.

37.637% От точности сети останется ровно половина.

25% Сеть станет всего лишь полусетью от полусети.

10% В 100 раз лучше чем угадывать на кубиках, но в практическом смысле это смерть.

1% Всё ещё в 10 раз лучше чем случайное угадывание класса.

0.1% Сеть будет полностью разрушена травмой не совместимой с жизнью.

31 voters304 views10:56

Свидетели Градиента

Вчера не выслал ответ. День был тяжеловатый.

Итак по результатам опроса меня немножко пугает ваша вера в всемогущество всемогущих алгоритмов. Действительно при обрезании части весов - прунинге в старых больших сетях часто можно получить подсеть более эффективную чем изначальная сеть. Можно погуглить, а можно бегло почитать вот этот очень неплохой обзор: https://habr.com/ru/articles/575520/, обязательно позову его автора на свой следующий доклад. Но с современными маленькими и очень сильно зарегуляризованными сетями такой фокус редко проканывает.
В частности в одной из таблиц в статье можно видеть, что если сильно доучивать, то даже MobileNetV2 которому отломали половину, можно доучить до уровня всего на 1% от ниже изначального, но равным или лучшим изначальному мобайлнет сделать не получается.

Но я то специально подчеркнул, что доучиваем мы совсем чуть-чуть, только чтобы сеть не разваливалась раньше времени. То есть смысл был не в том, чтобы узнать, чего можно добиться от подсети, а в том, как распределены знания по готовой обученной сети. Вот это я, видимо, недостаточно объяснил. А теперь ответ:

50% - Половина мобайлнета содержит примерно 2/3 его способностей к распознованию.
Обратите внимание на то, как велико самоподобие в графике. Распределение знаний внутри нейросети, если она хорошо обучена почти всегда не случайное и почти всегда экспоненциальное, кроме самых первых и самых последних весов.

По оси X количество отрезанных весов, а по оси Y accuracy того что осталось. Целая сеть содержит 5.5M, соответвенно половина сети это 2.25 миллиона

Следующий мой доклад будет интересным.

👍5🔥1

442 views10:37

Свидетели Градиента

А вот ещё один вопрос важный для меня: А слышали ли вы раньше о гипотезе лотеренйого билета? (The Lottery Ticket Hypothesis)

Anonymous Poll

45%

Вообще не слышал раньше

23%

Слышал, но глубоко не интересовался

25%

Слышал и даже читал оригинальные статьи на тему или хотя бы их обзоры

Слышал и даже пытался сам экспериментирвоать.

44 voters369 views06:32

Свидетели Градиента

Forwarded from Daniel

Митап Победителей в Лотерею 27 февраля!

Всем привет! Как вы, возможно, знаете Гипотеза Лотерейного Билета предполагает, что в нейросетях можно найти мощные подсети, способные обучаться не хуже полных сетей. Наши друзья погрузились в тему и хотят рассказать об этом. Приходите на наш митап, чтобы узнать о том, как можно выявить и оптимизировать такие подсети, и как это открывает двери к нейросетям следующего поколения. 🚀

🔍 Что будет на митапе:
- Узнаем какой прогресс по этой теме существует в мире.
- Посмотрим на работу с подсетью MobileNet_V3, потерявшей половину весов и менее 1% accuracy без дообучения весов.
- Откроем черный ящик нейросетей и разберемся, что происходит внутри.
- Поговорим про перспективы и возможности для разработки совсем иных нейросетей с меньшим количеством параметров, но с гораздо большими возможностями.

На мероприятии выступят:
- Голощапов Владислав (независимый исследователь)
- Денис Кузнеделев (Сколтех, Центр технологий искусственного интеллекта, Резидент исследовательского отдела ООО «ЯНДЕКС», лауреат Yandex ML Prize) 🌟

Доклады:
1. Ансамбль синапсов – структурная единица нейронной сети (Влад Голощапов)
2. История Оптимального хирурга для спарсификации нейронных сетей, в теории и на практике (Денис Кузнеделев)
3. Глубокий анализ полезности весов - путь к успешному прунингу (Влад Голощапов)
4. Как извлечь пользу из прунинга. Нейросети с адаптивно обучаемой архитектурой (Влад Голощапов)

Обязательная регистрация по ссылке

📅 27.02.2024
🕓 18:00 - 22:00
📍 Точка кипения

ODS Moscow

🔥8

520 views12:49

Свидетели Градиента

Как я и обещал следующий мой доклад будет очень и очень интересным :)

483 views12:50

Свидетели Градиента

Наткнулся на идеальный мемчик к предстоящему докладу...

🔥3😁3

495 views08:19

Свидетели Градиента

Привет!
А Вы знали, что чтобы увеличить accuracy нужно просто перестать покупать проигрышные лотерейные билеты, и начинать покупать выигрышные?

https://github.com/kraidiky/connectome_optimization
По вот этой ссылке можно скачать веса для torchvision.models.mobilenet_v3_large, среди которых ни один вес не был дообучен по сравнению с IMAGENET1K_V2, но при этом один миллион весов подвергнут подрезанию, то есть прунингу, вернее обнулению. И accuracy получившейся сетки лучше почти на пол процента, чем в исходной сети. Качайте, пользуйте, изучайте.

А ещё приходите на Митап Победителей в Лотерею 27 февраля, в следующий вторник в 18:00. Там мы ответим на самые важные вопросы:
- А чё так можно было?
- А что будет если обрезать ещё миллион?
- Ну порезали вы один, два, три миллиона весов, даже четыре, а дальше чё?

Доклады:
1. Ансамбль синапсов – структурная единица нейронной сети (Влад Голощапов)
2. История Оптимального хирурга для спарсификации нейронных сетей, в теории и на практике (Денис Кузнеделев)
3. Глубокий анализ полезности весов - путь к успешному прунингу (Влад Голощапов)
4. Как извлечь пользу из прунинга. Нейросети с адаптивно обучаемой архитектурой (Влад Голощапов)

При помощи и поддержке: ODS Moscow, Reliable ML

Спикеры:
- Голощапов Владислав (независимый исследователь)
- Денис Кузнеделев (Сколтех, Центр технологий искусственного интеллекта, Резидент исследовательского отдела ООО «ЯНДЕКС», лауреат Yandex ML Prize)

Обязательная регистрация по ссылке

📅 27.02.2024
🕓 18:00 - 22:00
📍 Точка кипения

GitHub

GitHub - kraidiky/connectome_optimization: Место для выкладывания готовых работ по модификации коннкетома

Место для выкладывания готовых работ по модификации коннкетома - kraidiky/connectome_optimization

👍6❤3

2.58K viewsedited 10:42

Свидетели Градиента

1_Ансамбль_синапсов_–_структурная_единица_нейронной_сети,_Влад_Голощапов.pptx

2.9 MB

🔥10👍3❤1

598 views07:45

Свидетели Градиента

2_Оптимальный_хирург_для_спарсификации_нейронных_сетей_Теория_и.pptx

6.7 MB

🔥8❤1

463 views18:07

Свидетели Градиента

4_Как_извлечь_пользу_из_прунинга_Нейросети_с_адаптивно_обучаемой.pptx

579.2 KB

Самая "за вообще" часть митапа, но как мне кажется самая главная в стратегическом смысле.

👍8🔥1

385 viewsedited 08:48

Свидетели Градиента

Уже несколько раз так было, что почти с первого-второго раза подбираешь удачные гиперпараметры или аспекты реализации алгоритма, и попытки его потом в течении месяца сделать лучше ничего не дают.

Это вызывает у меня смешанные чувства удачи и бессилия одновременно.

👍6👌2🤔1

287 viewsedited 13:44

Свидетели Градиента

Из интересного, а то что-то давно я не писал.

Сначала обычный прунинг, только чуть более брутальным алгоритмом, чем тот что был на митапе. Но тоже без дообучения весов и на не чищеном датасете, для чистоты эксперимента. А потом врубил Удаление и восстановление весов с такими гиперпарамтерами, чтобы количество удаляемых и восстанавливаемых было примерно равно. Полюбуйтесь, как нейросеть ползёт через лабиринт. Одна беда медленно, но для понимания как там всё внутри устроено очень полезно.

🔥5

359 viewsedited 20:00

Свидетели Градиента

Channel photo updated

07:21

Свидетели Градиента

На митапе мне совершенно справедливо попеняли, что я почистил датасет от ошибок разметки, и поэтому непонятно какая часть эффекта относится к алгоритму, а какая к датасету. Исправляюсь. Вот вам сеть без миллиона на чистом не чищеном и не аугментированном датасете.

👍5

338 views04:38

Свидетели Градиента

Channel photo updated

19:42

Свидетели Градиента

Научно-исследовательский семинар Магистратуры Прикладное МО и большие данные 13 марта 2024
https://rutube.ru/video/7b8471c54edde02bc5e3bce7f55fd3ef/

Выступил в качестве "гласа из внешнего мира" в своём родном НГУ, на мехматовском семинаре. Интересный формат, между прочим. Содержится несколько цитат и слайдов из презентации с митапа про прунинг. Я начинаю вещать примерно с 1:01 и пока замученные студенты не разъехались по домам. Сказал раза в три больше, чем стоило, говорить за один раз. Не смотря на эти недостатки всё ещё думаю, что причинил некоторое количество пользы.

RUTUBE

Научно-исследовательский семинар Магистратуры Прикладное МО и большие данные 13 марта 2024

Статья для разбора:
G. Klambauer, T. Unterthiner, A. Mayr, and S. Hochreiter, Self-normalizing neural networks, in Proceedings of the 31st International Conference on Neural Information Processing Systems, NIPS’17. Curran Associates, Inc., 2017, pp. 972–981…

👍4

261 viewsedited 10:28

Свидетели Градиента

Я тут взялся на ODS Fest делать секцию. Никто не хочет высказаться?

Коннектомика/Connectomics/连接组学 и Distillation.

Исследуем внутренюю структуру знаний в нейросетях, и манипулирование ими. Прунинг(pruning), разреженное обучение(sparse learning), отучивание(unlearning), гипотеза лотерейного билета (The Lottery Ticket Hypothesis), дистиляция знаний в более мелкие и/или разреженные модели, исследование их внутренних представлений и всё что позволяет открыть чёрный ящик нейросети и сделать его меньше и лучше количественно и качественно.

🔥5👍3

273 views08:45

Свидетели Градиента

https://youtu.be/p7w1aFKDAkU?si=kodydJZkJuij4GZc
О железе в Cerebras думают ровно те мысли, о которых я давным-давно пытаюсь говорить, что сети следующего поколения сильно разряженные и с локальным использованием памяти. И вот что получается интересно, так это некоторый замкнутый круг: Пока железо плохо справляется с сильно разряжёнными вычислениями сети такого рода не пользуются популярностью у исследователей. На Papers with сode по теме sparse learning всего 9 статей выложено. Но пока за дело не взялись сети с коэaфициентом разряжённость от x100 и выше моделей, на которых новое железо могло бы блеснуть по настоящему тоже отсутствуют. В лучшем случае речь идёт о том, чтобы ускорить какую-то модель, которая и так работает неплохо, и большинству практиков проще за деньги закупить ещё десяток серверов в стойку и не греть себе голову.

С другой стороны очевидно, что рано или поздно прожектор начнёт светить в эту сторону и заниматься этим сейчас, когда конкуренция тут пока маленькая - способ занять хорошую стартовую позицию.

YouTube

#77 - VITALIY CHILEY (Cerebras)

Patreon: https://www.patreon.com/mlst
Discord: https://discord.gg/ESrGqhf5CB

Vitaliy Chiley is a Machine Learning Research Engineer at the next-generation computing hardware company Cerebras Systems. We spoke about how DL workloads including sparse workloads…

👍2

363 viewsedited 07:43

Свидетели Градиента

Forwarded from Чивиня (Multi-layer Parkinson)

1-million-linears.py

19.8 KB

Скрипт для обучения нейросети из 1 млн. линейных слоёв. Итог того, что было начало тут: https://news.1rj.ru/str/chivinya/11

👍3

310 views12:43

About

Blog

Apps

Platform