Свидетели Градиента – Telegram
Свидетели Градиента
488 subscribers
128 photos
29 files
61 links
Этот канал предназначен для общения и обсуждений среди тех, кто как и я, хочет видеть что происходит под капотом у нейросетей, и старается развивать интуицию об их природе и свойствах.

Для связи: @kraidiky
Download Telegram
Forwarded from Reliable ML
FailConf - UnReliable ML - 9 декабря 2023
Офлайн митап про фейлы в ML проектах

Расписание на субботу готово! Всех очень ждем!
И напоминаем, что для участия необходима регистрация.

Митап ламповый, своими руками для своих, поэтому помощь в организации очень приветствуется.
Даже запись можем замутить, если с техникой на месте разберемся.

На месте будут чай и немного печенек. Для большей душевности можно приносить с собой еще печенек.

Все вопросы по митапу, фотки и движ будут в канале #reliable_ml в маттермосте ODS.

До встречи! 🤗

Ваш @Reliable ML

#tech #business #reliable_ml #meetup
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Daniel
🚀 Привет, ODS!

11 декабря нашему сообществу исполнился 1 год!🎉

В связи с этим мы рады пригласить вас на оффлайн митап Data NewYear, который пройдет совместно с Yandex!

📍Место: Москва, улица Льва Толстого, 16. БЦ «Морозов», Мулен-Руж
📅 Дата: 27 декабря
🕕 Время: 18:00-22:00

Что мы приготовили для вас или 5 причин прийти:

🔴 Годовой обзор: посмотрим, что произошло в индустрии и в нашем сообществе за 2023 год
🔴 Доклады: узнаем про успехи и провалы коллег по цеху
🔴 Q&A: ответим на вопросы о ML, карьере и развитии. Оставлять тут.
🔴 Data квиз: каждый сможет проверить свои знания в ML и не только
🔴 Неформальный нетворкинг: общение, новые знакомства и возможности

💡Важно! Количество мест ограничено площадкой, для регистрации на мероприятие нужно заполнить форму.

📢 Немного про доклады:
Если ты хочешь выступить, напиши в личку @danielchsh

P.S. с Дед Морозом связались - подарки будут. А вот записи и трансляции - нет. Проведем этот вечер душевно и лампово!
2
Forwarded from Daniel
Программа Data NewYear 2024.pdf
729.3 KB
Полное расписание митапа
🔥1
Влад_Голощапов_Data_NewYear_2024_Затухание_градиентов.pptx
66.9 MB
Презентация моего докладика на Data NewYear 2024. Для читателей канала ничего нового. Я добавил к докладу про подбор скоростей, но тут в канале я про него рассказывал гораздо подробнее.
🔥7👍6
image_2023-12-28_10-59-30.png
196.9 KB
Помните я много раз говорил, что когда вы используете всякие Densely Connected, то есть присоединяете вход слоя к его выходу прежде чем отдать результат дальше, вы смешиваете в одну кучу сигналы разной глубины с очень разными характеристиками.
Так вот вам иллюстрация. Тут 8 слоёв, каждый из которых конкатенирует свой выход к подаваемому дальше входу а в конце один финальный fully connectet слой, на который подаётся вся эта смесь. А теперь посмотрите как выглядят градиенты на диаграмме последнего слоя.
Отчётливо видны веса, работающие с каждой из восьми глубин сигнала и разница между типичными градиентами из первого слоя и последнего различаются на 15 порядков. Конечно, если напихать туда BatchNorm картина размоется, но мы же уже знаем, что оптимальная скорость в этом случае может отличаться на два-три порядка, с этим BatchNorm не в силах помочь.
Что с этим делать - решайте сами в каждом конкретном случае. Как я и говорил - быть зрячим лучше, чем просто знать ответ.
🔥5👍2
Всех с новым годом! Желаю решений нерешенного, тяги к особенному и чтобы вас ценили.
6🎄2👍1🔥1🎉1
А вы знали, что хорошо обученные нейросети коллинеарны только если квадрат градиента меньше 1e-5, и то бывают выбросы. Шутейка удачно подоспела к моему нынешнему ресёрчу. В кадре коллинеарность для весов MobileNetV3Large на тестовой выборке размером 50000 пакетная. :)
Надо будет во все мои сравнения добавить SGD с обрезкой градиентов, однако.
👍21
А теперь развлекательный опрос!!! Берём скромного размера сеточку, например MobileNet_V3_Large.IMAGENET1K_V2 и вдумчиво, с использованием тайных алгоритмов секты Свидетелй Градиента, удаляем (обнуляем) из неё половину весов, подфайнтюнивая немножко оставшиеся, не более полутора десятков эпох, просто чтобы не разваливалась раньше времени. В процессе файнтюнинга обнулённые веса остаются обнулёнными, не обучаются.
Вчера не выслал ответ. День был тяжеловатый.

Итак по результатам опроса меня немножко пугает ваша вера в всемогущество всемогущих алгоритмов. Действительно при обрезании части весов - прунинге в старых больших сетях часто можно получить подсеть более эффективную чем изначальная сеть. Можно погуглить, а можно бегло почитать вот этот очень неплохой обзор: https://habr.com/ru/articles/575520/, обязательно позову его автора на свой следующий доклад. Но с современными маленькими и очень сильно зарегуляризованными сетями такой фокус редко проканывает.
В частности в одной из таблиц в статье можно видеть, что если сильно доучивать, то даже MobileNetV2 которому отломали половину, можно доучить до уровня всего на 1% от ниже изначального, но равным или лучшим изначальному мобайлнет сделать не получается.

Но я то специально подчеркнул, что доучиваем мы совсем чуть-чуть, только чтобы сеть не разваливалась раньше времени. То есть смысл был не в том, чтобы узнать, чего можно добиться от подсети, а в том, как распределены знания по готовой обученной сети. Вот это я, видимо, недостаточно объяснил. А теперь ответ:

50% - Половина мобайлнета содержит примерно 2/3 его способностей к распознованию.
Обратите внимание на то, как велико самоподобие в графике. Распределение знаний внутри нейросети, если она хорошо обучена почти всегда не случайное и почти всегда экспоненциальное, кроме самых первых и самых последних весов.

По оси X количество отрезанных весов, а по оси Y accuracy того что осталось. Целая сеть содержит 5.5M, соответвенно половина сети это 2.25 миллиона

Следующий мой доклад будет интересным.
👍5🔥1
Forwarded from Daniel
Митап Победителей в Лотерею 27 февраля!

Всем привет! Как вы, возможно, знаете Гипотеза Лотерейного Билета предполагает, что в нейросетях можно найти мощные подсети, способные обучаться не хуже полных сетей. Наши друзья погрузились в тему и хотят рассказать об этом. Приходите на наш митап, чтобы узнать о том, как можно выявить и оптимизировать такие подсети, и как это открывает двери к нейросетям следующего поколения. 🚀

🔍 Что будет на митапе:
- Узнаем какой прогресс по этой теме существует в мире.
- Посмотрим на работу с подсетью MobileNet_V3, потерявшей половину весов и менее 1% accuracy без дообучения весов.
- Откроем черный ящик нейросетей и разберемся, что происходит внутри.
- Поговорим про перспективы и возможности для разработки совсем иных нейросетей с меньшим количеством параметров, но с гораздо большими возможностями.

На мероприятии выступят:
- Голощапов Владислав (независимый исследователь)
- Денис Кузнеделев (Сколтех, Центр технологий искусственного интеллекта, Резидент исследовательского отдела ООО «ЯНДЕКС», лауреат Yandex ML Prize) 🌟

Доклады:
1. Ансамбль синапсов – структурная единица нейронной сети (Влад Голощапов)
2. История Оптимального хирурга для спарсификации нейронных сетей, в теории и на практике (Денис Кузнеделев)
3. Глубокий анализ полезности весов - путь к успешному прунингу (Влад Голощапов)
4. Как извлечь пользу из прунинга. Нейросети с адаптивно обучаемой архитектурой (Влад Голощапов)

Обязательная регистрация по ссылке

📅 27.02.2024
🕓 18:00 - 22:00
📍 Точка кипения

ODS Moscow
🔥8
Как я и обещал следующий мой доклад будет очень и очень интересным :)
Наткнулся на идеальный мемчик к предстоящему докладу...
🔥3😁3
Привет!
А Вы знали, что чтобы увеличить accuracy нужно просто перестать покупать проигрышные лотерейные билеты, и начинать покупать выигрышные?

https://github.com/kraidiky/connectome_optimization
По вот этой ссылке можно скачать веса для torchvision.models.mobilenet_v3_large, среди которых ни один вес не был дообучен по сравнению с IMAGENET1K_V2, но при этом один миллион весов подвергнут подрезанию, то есть прунингу, вернее обнулению. И accuracy получившейся сетки лучше почти на пол процента, чем в исходной сети. Качайте, пользуйте, изучайте.

А ещё приходите на Митап Победителей в Лотерею 27 февраля, в следующий вторник в 18:00. Там мы ответим на самые важные вопросы:
- А чё так можно было?
- А что будет если обрезать ещё миллион?
- Ну порезали вы один, два, три миллиона весов, даже четыре, а дальше чё?

Доклады:
1. Ансамбль синапсов – структурная единица нейронной сети (Влад Голощапов)
2. История Оптимального хирурга для спарсификации нейронных сетей, в теории и на практике (Денис Кузнеделев)
3. Глубокий анализ полезности весов - путь к успешному прунингу (Влад Голощапов)
4. Как извлечь пользу из прунинга. Нейросети с адаптивно обучаемой архитектурой (Влад Голощапов)

При помощи и поддержке: ODS Moscow, Reliable ML

Спикеры:
- Голощапов Владислав (независимый исследователь)
- Денис Кузнеделев (Сколтех, Центр технологий искусственного интеллекта, Резидент исследовательского отдела ООО «ЯНДЕКС», лауреат Yandex ML Prize)

Обязательная регистрация по ссылке

📅 27.02.2024
🕓 18:00 - 22:00
📍 Точка кипения
👍63
4_Как_извлечь_пользу_из_прунинга_Нейросети_с_адаптивно_обучаемой.pptx
579.2 KB
Самая "за вообще" часть митапа, но как мне кажется самая главная в стратегическом смысле.
👍8🔥1