4_Как_извлечь_пользу_из_прунинга_Нейросети_с_адаптивно_обучаемой.pptx
579.2 KB
Самая "за вообще" часть митапа, но как мне кажется самая главная в стратегическом смысле.
👍8🔥1
Уже несколько раз так было, что почти с первого-второго раза подбираешь удачные гиперпараметры или аспекты реализации алгоритма, и попытки его потом в течении месяца сделать лучше ничего не дают.
Это вызывает у меня смешанные чувства удачи и бессилия одновременно.
Это вызывает у меня смешанные чувства удачи и бессилия одновременно.
👍6👌2🤔1
Из интересного, а то что-то давно я не писал.
Сначала обычный прунинг, только чуть более брутальным алгоритмом, чем тот что был на митапе. Но тоже без дообучения весов и на не чищеном датасете, для чистоты эксперимента. А потом врубил Удаление и восстановление весов с такими гиперпарамтерами, чтобы количество удаляемых и восстанавливаемых было примерно равно. Полюбуйтесь, как нейросеть ползёт через лабиринт. Одна беда медленно, но для понимания как там всё внутри устроено очень полезно.
Сначала обычный прунинг, только чуть более брутальным алгоритмом, чем тот что был на митапе. Но тоже без дообучения весов и на не чищеном датасете, для чистоты эксперимента. А потом врубил Удаление и восстановление весов с такими гиперпарамтерами, чтобы количество удаляемых и восстанавливаемых было примерно равно. Полюбуйтесь, как нейросеть ползёт через лабиринт. Одна беда медленно, но для понимания как там всё внутри устроено очень полезно.
🔥5
Научно-исследовательский семинар Магистратуры Прикладное МО и большие данные 13 марта 2024
https://rutube.ru/video/7b8471c54edde02bc5e3bce7f55fd3ef/
Выступил в качестве "гласа из внешнего мира" в своём родном НГУ, на мехматовском семинаре. Интересный формат, между прочим. Содержится несколько цитат и слайдов из презентации с митапа про прунинг. Я начинаю вещать примерно с 1:01 и пока замученные студенты не разъехались по домам. Сказал раза в три больше, чем стоило, говорить за один раз. Не смотря на эти недостатки всё ещё думаю, что причинил некоторое количество пользы.
https://rutube.ru/video/7b8471c54edde02bc5e3bce7f55fd3ef/
Выступил в качестве "гласа из внешнего мира" в своём родном НГУ, на мехматовском семинаре. Интересный формат, между прочим. Содержится несколько цитат и слайдов из презентации с митапа про прунинг. Я начинаю вещать примерно с 1:01 и пока замученные студенты не разъехались по домам. Сказал раза в три больше, чем стоило, говорить за один раз. Не смотря на эти недостатки всё ещё думаю, что причинил некоторое количество пользы.
RUTUBE
Научно-исследовательский семинар Магистратуры Прикладное МО и большие данные 13 марта 2024
Статья для разбора:
G. Klambauer, T. Unterthiner, A. Mayr, and S. Hochreiter, Self-normalizing neural networks, in Proceedings of the 31st International Conference on Neural Information Processing Systems, NIPS’17. Curran Associates, Inc., 2017, pp. 972–981…
G. Klambauer, T. Unterthiner, A. Mayr, and S. Hochreiter, Self-normalizing neural networks, in Proceedings of the 31st International Conference on Neural Information Processing Systems, NIPS’17. Curran Associates, Inc., 2017, pp. 972–981…
👍4
Я тут взялся на ODS Fest делать секцию. Никто не хочет высказаться?
Коннектомика/Connectomics/连接组学 и Distillation.
Исследуем внутренюю структуру знаний в нейросетях, и манипулирование ими. Прунинг(pruning), разреженное обучение(sparse learning), отучивание(unlearning), гипотеза лотерейного билета (The Lottery Ticket Hypothesis), дистиляция знаний в более мелкие и/или разреженные модели, исследование их внутренних представлений и всё что позволяет открыть чёрный ящик нейросети и сделать его меньше и лучше количественно и качественно.
Коннектомика/Connectomics/连接组学 и Distillation.
Исследуем внутренюю структуру знаний в нейросетях, и манипулирование ими. Прунинг(pruning), разреженное обучение(sparse learning), отучивание(unlearning), гипотеза лотерейного билета (The Lottery Ticket Hypothesis), дистиляция знаний в более мелкие и/или разреженные модели, исследование их внутренних представлений и всё что позволяет открыть чёрный ящик нейросети и сделать его меньше и лучше количественно и качественно.
🔥5👍3
https://youtu.be/p7w1aFKDAkU?si=kodydJZkJuij4GZc
О железе в Cerebras думают ровно те мысли, о которых я давным-давно пытаюсь говорить, что сети следующего поколения сильно разряженные и с локальным использованием памяти. И вот что получается интересно, так это некоторый замкнутый круг: Пока железо плохо справляется с сильно разряжёнными вычислениями сети такого рода не пользуются популярностью у исследователей. На Papers with сode по теме sparse learning всего 9 статей выложено. Но пока за дело не взялись сети с коэaфициентом разряжённость от x100 и выше моделей, на которых новое железо могло бы блеснуть по настоящему тоже отсутствуют. В лучшем случае речь идёт о том, чтобы ускорить какую-то модель, которая и так работает неплохо, и большинству практиков проще за деньги закупить ещё десяток серверов в стойку и не греть себе голову.
С другой стороны очевидно, что рано или поздно прожектор начнёт светить в эту сторону и заниматься этим сейчас, когда конкуренция тут пока маленькая - способ занять хорошую стартовую позицию.
О железе в Cerebras думают ровно те мысли, о которых я давным-давно пытаюсь говорить, что сети следующего поколения сильно разряженные и с локальным использованием памяти. И вот что получается интересно, так это некоторый замкнутый круг: Пока железо плохо справляется с сильно разряжёнными вычислениями сети такого рода не пользуются популярностью у исследователей. На Papers with сode по теме sparse learning всего 9 статей выложено. Но пока за дело не взялись сети с коэaфициентом разряжённость от x100 и выше моделей, на которых новое железо могло бы блеснуть по настоящему тоже отсутствуют. В лучшем случае речь идёт о том, чтобы ускорить какую-то модель, которая и так работает неплохо, и большинству практиков проще за деньги закупить ещё десяток серверов в стойку и не греть себе голову.
С другой стороны очевидно, что рано или поздно прожектор начнёт светить в эту сторону и заниматься этим сейчас, когда конкуренция тут пока маленькая - способ занять хорошую стартовую позицию.
YouTube
#77 - VITALIY CHILEY (Cerebras)
Patreon: https://www.patreon.com/mlst
Discord: https://discord.gg/ESrGqhf5CB
Vitaliy Chiley is a Machine Learning Research Engineer at the next-generation computing hardware company Cerebras Systems. We spoke about how DL workloads including sparse workloads…
Discord: https://discord.gg/ESrGqhf5CB
Vitaliy Chiley is a Machine Learning Research Engineer at the next-generation computing hardware company Cerebras Systems. We spoke about how DL workloads including sparse workloads…
👍2
Forwarded from Чивиня (Multi-layer Parkinson)
1-million-linears.py
19.8 KB
Скрипт для обучения нейросети из 1 млн. линейных слоёв. Итог того, что было начало тут: https://news.1rj.ru/str/chivinya/11
👍3
Forwarded from Center for Cognitive Modeling
🎓 — Семинар 29. Curriculum Learning: выбор последовательности задач для обучения с подкреплением | Мария Нестерова
Завтра на семинаре выступит выпускница нашей магистерской программы МТИИ и ныне аспирантка нашего Центра, у которой уже 2 статьи на А*!
Если перед агентом стоит сложная задача, то для её освоения с нуля может потребоваться много времени. Один из способов решить эту проблему — рассмотреть сначала более простые задачи. Расписание обучения (Curriculum) позволяет автоматически выбрать задачи и определить порядок их изучения, что ускоряет процесс освоения сложных задач.
В первой части доклада будут рассмотрены существующие подходы к составлению расписания обучения. В рамках нашего исследования расписание обучения представлено в виде мета-агента, который выбирает задачи на основе анализа способностей обучающегося агента. Вторая часть доклада будет посвящена нашему методу и текущим результатам
📹 Трансляция Youtube
Подключайтесь к живому обсуждению и задавайте вопросы в прямом эфире! Ждем всех!
Завтра на семинаре выступит выпускница нашей магистерской программы МТИИ и ныне аспирантка нашего Центра, у которой уже 2 статьи на А*!
Если перед агентом стоит сложная задача, то для её освоения с нуля может потребоваться много времени. Один из способов решить эту проблему — рассмотреть сначала более простые задачи. Расписание обучения (Curriculum) позволяет автоматически выбрать задачи и определить порядок их изучения, что ускоряет процесс освоения сложных задач.
В первой части доклада будут рассмотрены существующие подходы к составлению расписания обучения. В рамках нашего исследования расписание обучения представлено в виде мета-агента, который выбирает задачи на основе анализа способностей обучающегося агента. Вторая часть доклада будет посвящена нашему методу и текущим результатам
📹 Трансляция Youtube
Подключайтесь к живому обсуждению и задавайте вопросы в прямом эфире! Ждем всех!
👍3
Заявил Data Fest второй доклад. Планирую выложить в opensource несколько простых инструментов визуализации, которые каждодневно использую.
А чтобы смотреть на их применение было интереснее проиллюстрирую их применение на примере сетки, демонстрирующей гроккинг. Развею парочку надежд на понимание, того что при гроккинге происходит. Спойлер: что это за гроккинг такой и как подчинить его себе пока не понял.
Картинки для привлечения внимания: до фиолетового, тысячного семпла идёт рост на train, дальше начинается грокинг и идёт примерно до 2000-ого голубого на таректории, на картинке 4 случайные проекции, и на некоторых, но далеко не на всех проекциях видно, что направление движения сети на гроккинге под углом, к обучению на train-е.
А чтобы смотреть на их применение было интереснее проиллюстрирую их применение на примере сетки, демонстрирующей гроккинг. Развею парочку надежд на понимание, того что при гроккинге происходит. Спойлер: что это за гроккинг такой и как подчинить его себе пока не понял.
Картинки для привлечения внимания: до фиолетового, тысячного семпла идёт рост на train, дальше начинается грокинг и идёт примерно до 2000-ого голубого на таректории, на картинке 4 случайные проекции, и на некоторых, но далеко не на всех проекциях видно, что направление движения сети на гроккинге под углом, к обучению на train-е.
🔥8
Forwarded from ODS Events
Сап чат!
Data Fest 2024 уже совсем скоро, и сегодня у нас ударный пост с эпичным вскрытием карт и открытием регистраций 🎉
В этом году мы чутка нарастили и программу и географию и число локаций👀
12 оффлайн площадок уже открыты — можно регистрироваться🔥
24 мая (пт): Москва, Pre-Party Феста в Яндексе
25 мая (сб): Москва, самый крупный офлайн день Феста в гостях у VK
26 мая (вс): Ереван, офлайн митап в гостях у РАУ
29 мая (ср): Москва и Питер — день Феста в гостях у ВТБ в Москве плюс день Феста в гостях у Альфа-Банка х ИТМО в Питере
31 мая (пт): Алматы и Москва — вечерний офлайн митап в гостях у Altel в Алматы и день Феста в гостях у Цифровой кафедры Альфа-Банка в Финансовом Университете в Москве
01 июня (сб): Алматы, Новосибирск и Москва — день Феста в гостях у Citix в Алматы, три зала и целый день Феста в гостях у МехМата НГУ в Новосибирске и целый день Феста в гостях у Avito.tech в Москве
02 июня (вс): Москва и Питер — завершаем программу с финальным днем Феста в гостях у Яндекса в Москве и днем Феста в гостях у VK в Питере!
На каждой площадке будет свой состав секций и спикеров — каждый найдёт себе ивенты под свои интересы🤗
Плюс планируется огромное количество online активностей в Spatial.Chat, программу в котором будем анонсировать по мере готовности 👀️️️️ А что-то можно уже сейчас найти на странице Феста
Ждём на Фесте, где бы в пространстве-времени он не оказался! 🦾️️️️️️
Data Fest 2024 уже совсем скоро, и сегодня у нас ударный пост с эпичным вскрытием карт и открытием регистраций 🎉
В этом году мы чутка нарастили и программу и географию и число локаций
12 оффлайн площадок уже открыты — можно регистрироваться
24 мая (пт): Москва, Pre-Party Феста в Яндексе
25 мая (сб): Москва, самый крупный офлайн день Феста в гостях у VK
26 мая (вс): Ереван, офлайн митап в гостях у РАУ
29 мая (ср): Москва и Питер — день Феста в гостях у ВТБ в Москве плюс день Феста в гостях у Альфа-Банка х ИТМО в Питере
31 мая (пт): Алматы и Москва — вечерний офлайн митап в гостях у Altel в Алматы и день Феста в гостях у Цифровой кафедры Альфа-Банка в Финансовом Университете в Москве
01 июня (сб): Алматы, Новосибирск и Москва — день Феста в гостях у Citix в Алматы, три зала и целый день Феста в гостях у МехМата НГУ в Новосибирске и целый день Феста в гостях у Avito.tech в Москве
02 июня (вс): Москва и Питер — завершаем программу с финальным днем Феста в гостях у Яндекса в Москве и днем Феста в гостях у VK в Питере!
На каждой площадке будет свой состав секций и спикеров — каждый найдёт себе ивенты под свои интересы
Плюс планируется огромное количество online активностей в Spatial.Chat, программу в котором будем анонсировать по мере готовности 👀️️️️ А что-то можно уже сейчас найти на странице Феста
Ждём на Фесте, где бы в пространстве-времени он не оказался! 🦾️️️️️️
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3
Forwarded from ODS Events
Сап чат!
Data Fest 2024 уже совсем скоро, и сегодня у нас ударный пост с эпичным вскрытием карт и открытием регистраций 🎉
В этом году мы чутка нарастили и программу и географию и число локаций👀
12 оффлайн площадок уже открыты — можно регистрироваться🔥
24 мая (пт): Москва, Pre-Party Феста с Яндексом
25 мая (сб): Москва, самый крупный офлайн день Феста в гостях у VK
26 мая (вс): Ереван, офлайн митап в гостях у РАУ
29 мая (ср): Москва и Питер — день Феста в гостях у ВТБ в Москве плюс день Феста в гостях у Альфа-Банка х ИТМО в Питере
31 мая (пт): Алматы и Москва — вечерний офлайн митап в гостях у Altel Digital в Алматы и день Феста в гостях у Цифровой кафедры Альфа-Банка в Финансовом Университете в Москве
01 июня (сб): Алматы, Новосибирск и Москва — день Феста в гостях у Citix в Алматы, три зала и целый день Феста в гостях у МехМата НГУ в Новосибирске и целый день Феста в гостях у Avito.tech в Москве
02 июня (вс): Москва и Питер — завершаем программу с финальным днем Феста в гостях у Яндекса в Москве и днем Феста в гостях у VK в Питере!
На каждой площадке будет свой состав секций и спикеров — каждый найдёт себе ивенты под свои интересы🤗
Плюс планируется огромное количество online активностей в Spatial.Chat, программу в котором будем анонсировать по мере готовности 👀️️️️ А что-то можно уже сейчас найти на странице Феста
Ждём на Фесте, где бы в пространстве-времени он не оказался! 🦾️️️️️️
Data Fest 2024 уже совсем скоро, и сегодня у нас ударный пост с эпичным вскрытием карт и открытием регистраций 🎉
В этом году мы чутка нарастили и программу и географию и число локаций
12 оффлайн площадок уже открыты — можно регистрироваться
24 мая (пт): Москва, Pre-Party Феста с Яндексом
25 мая (сб): Москва, самый крупный офлайн день Феста в гостях у VK
26 мая (вс): Ереван, офлайн митап в гостях у РАУ
29 мая (ср): Москва и Питер — день Феста в гостях у ВТБ в Москве плюс день Феста в гостях у Альфа-Банка х ИТМО в Питере
31 мая (пт): Алматы и Москва — вечерний офлайн митап в гостях у Altel Digital в Алматы и день Феста в гостях у Цифровой кафедры Альфа-Банка в Финансовом Университете в Москве
01 июня (сб): Алматы, Новосибирск и Москва — день Феста в гостях у Citix в Алматы, три зала и целый день Феста в гостях у МехМата НГУ в Новосибирске и целый день Феста в гостях у Avito.tech в Москве
02 июня (вс): Москва и Питер — завершаем программу с финальным днем Феста в гостях у Яндекса в Москве и днем Феста в гостях у VK в Питере!
На каждой площадке будет свой состав секций и спикеров — каждый найдёт себе ивенты под свои интересы
Плюс планируется огромное количество online активностей в Spatial.Chat, программу в котором будем анонсировать по мере готовности 👀️️️️ А что-то можно уже сейчас найти на странице Феста
Ждём на Фесте, где бы в пространстве-времени он не оказался! 🦾️️️️️️
Please open Telegram to view this post
VIEW IN TELEGRAM
Мои выступления будут на оффлайновых площадках Data Fest:
31 мая в 15:20 Про правильный прунинг в нейросетях, всякие своства сетей, интересные визуализации и колиниарити-чек. https://ods.ai/events/fest2024-alfa-msc
1 июня в 18:50 Про отращивание новых весов, разморозкак как в RigL, поисковое пространсто и новые архитектуры. https://ods.ai/events/fest2024-avito-msc
Для тех кто был на моём митапе в феврале - ничего нового, Но всё равно заходите на трансляцию, для остальных - заходите, не пожалеете. Кто не посмотрит на трансляции - рано или поздно всё это аккуратно порежут на кусочки и выложать отдельными видео. тогда я ссылочки тоже сюда покидаю.
31 мая в 15:20 Про правильный прунинг в нейросетях, всякие своства сетей, интересные визуализации и колиниарити-чек. https://ods.ai/events/fest2024-alfa-msc
1 июня в 18:50 Про отращивание новых весов, разморозкак как в RigL, поисковое пространсто и новые архитектуры. https://ods.ai/events/fest2024-avito-msc
Для тех кто был на моём митапе в феврале - ничего нового, Но всё равно заходите на трансляцию, для остальных - заходите, не пожалеете. Кто не посмотрит на трансляции - рано или поздно всё это аккуратно порежут на кусочки и выложать отдельными видео. тогда я ссылочки тоже сюда покидаю.
👍6🔥2
https://www.youtube.com/live/UfQ2WW8yvnE?si=1u9bh0EJs3JhAIhF
Первая часть выступления, про прунинг. С 3:13:45
Первая часть выступления, про прунинг. С 3:13:45
YouTube
Data Fest 2024, день 7: офлайн в Москве 31 мая, кафедра Альфа-Банка в Финансовом университете
Провожаем весну на третьем офлайн дне Data Fest 2024 в Москве!
Встречаемся в гостях у Цифровой кафедры Альфа-Банка в Финансовом университете. В программе вас ждут:
1. 12:00 — 13:40, первые 3 доклада секции GeoML
...большой перерыв...
2. 14:30 — 16:10, 2…
Встречаемся в гостях у Цифровой кафедры Альфа-Банка в Финансовом университете. В программе вас ждут:
1. 12:00 — 13:40, первые 3 доклада секции GeoML
...большой перерыв...
2. 14:30 — 16:10, 2…
🔥6👍4

