Свидетели Градиента – Telegram
Свидетели Градиента
488 subscribers
128 photos
29 files
61 links
Этот канал предназначен для общения и обсуждений среди тех, кто как и я, хочет видеть что происходит под капотом у нейросетей, и старается развивать интуицию об их природе и свойствах.

Для связи: @kraidiky
Download Telegram
На митапе мне совершенно справедливо попеняли, что я почистил датасет от ошибок разметки, и поэтому непонятно какая часть эффекта относится к алгоритму, а какая к датасету. Исправляюсь. Вот вам сеть без миллиона на чистом не чищеном и не аугментированном датасете.
👍5
Научно-исследовательский семинар Магистратуры Прикладное МО и большие данные 13 марта 2024
https://rutube.ru/video/7b8471c54edde02bc5e3bce7f55fd3ef/

Выступил в качестве "гласа из внешнего мира" в своём родном НГУ, на мехматовском семинаре. Интересный формат, между прочим. Содержится несколько цитат и слайдов из презентации с митапа про прунинг. Я начинаю вещать примерно с 1:01 и пока замученные студенты не разъехались по домам. Сказал раза в три больше, чем стоило, говорить за один раз. Не смотря на эти недостатки всё ещё думаю, что причинил некоторое количество пользы.
👍4
Я тут взялся на ODS Fest делать секцию. Никто не хочет высказаться?

Коннектомика/Connectomics/连接组学 и Distillation.

Исследуем внутренюю структуру знаний в нейросетях, и манипулирование ими. Прунинг(pruning), разреженное обучение(sparse learning), отучивание(unlearning), гипотеза лотерейного билета (The Lottery Ticket Hypothesis), дистиляция знаний в более мелкие и/или разреженные модели, исследование их внутренних представлений и всё что позволяет открыть чёрный ящик нейросети и сделать его меньше и лучше количественно и качественно.
🔥5👍3
https://youtu.be/p7w1aFKDAkU?si=kodydJZkJuij4GZc
О железе в Cerebras думают ровно те мысли, о которых я давным-давно пытаюсь говорить, что сети следующего поколения сильно разряженные и с локальным использованием памяти. И вот что получается интересно, так это некоторый замкнутый круг: Пока железо плохо справляется с сильно разряжёнными вычислениями сети такого рода не пользуются популярностью у исследователей. На Papers with сode по теме sparse learning всего 9 статей выложено. Но пока за дело не взялись сети с коэaфициентом разряжённость от x100 и выше моделей, на которых новое железо могло бы блеснуть по настоящему тоже отсутствуют. В лучшем случае речь идёт о том, чтобы ускорить какую-то модель, которая и так работает неплохо, и большинству практиков проще за деньги закупить ещё десяток серверов в стойку и не греть себе голову.

С другой стороны очевидно, что рано или поздно прожектор начнёт светить в эту сторону и заниматься этим сейчас, когда конкуренция тут пока маленькая - способ занять хорошую стартовую позицию.
👍2
1-million-linears.py
19.8 KB
Скрипт для обучения нейросети из 1 млн. линейных слоёв. Итог того, что было начало тут: https://news.1rj.ru/str/chivinya/11
👍3
Пойду смотреть.. Имхо, это - важное.
🎓 — Семинар 29. Curriculum Learning: выбор последовательности задач для обучения с подкреплением | Мария Нестерова

Завтра на семинаре выступит выпускница нашей магистерской программы МТИИ и ныне аспирантка нашего Центра, у которой уже 2 статьи на А*!

Если перед агентом стоит сложная задача, то для её освоения с нуля может потребоваться много времени. Один из способов решить эту проблему — рассмотреть сначала более простые задачи. Расписание обучения (Curriculum) позволяет автоматически выбрать задачи и определить порядок их изучения, что ускоряет процесс освоения сложных задач.

В первой части доклада будут рассмотрены существующие подходы к составлению расписания обучения. В рамках нашего исследования расписание обучения представлено в виде мета-агента, который выбирает задачи на основе анализа способностей обучающегося агента. Вторая часть доклада будет посвящена нашему методу и текущим результатам

📹 Трансляция Youtube

Подключайтесь к живому обсуждению и задавайте вопросы в прямом эфире! Ждем всех!
👍3
Заявил Data Fest второй доклад. Планирую выложить в opensource несколько простых инструментов визуализации, которые каждодневно использую.
А чтобы смотреть на их применение было интереснее проиллюстрирую их применение на примере сетки, демонстрирующей гроккинг. Развею парочку надежд на понимание, того что при гроккинге происходит. Спойлер: что это за гроккинг такой и как подчинить его себе пока не понял.

Картинки для привлечения внимания: до фиолетового, тысячного семпла идёт рост на train, дальше начинается грокинг и идёт примерно до 2000-ого голубого на таректории, на картинке 4 случайные проекции, и на некоторых, но далеко не на всех проекциях видно, что направление движения сети на гроккинге под углом, к обучению на train-е.
🔥8
Forwarded from ODS Events
Сап чат!

Data Fest 2024 уже совсем скоро, и сегодня у нас ударный пост с эпичным вскрытием карт и открытием регистраций 🎉

В этом году мы чутка нарастили и программу и географию и число локаций 👀
12 оффлайн площадок уже открыты — можно регистрироваться 🔥

24 мая (пт): Москва, Pre-Party Феста в Яндексе
25 мая (сб): Москва, самый крупный офлайн день Феста в гостях у VK
26 мая (вс): Ереван, офлайн митап в гостях у РАУ
29 мая (ср): Москва и Питер — день Феста в гостях у ВТБ в Москве плюс день Феста в гостях у Альфа-Банка х ИТМО в Питере
31 мая (пт): Алматы и Москва — вечерний офлайн митап в гостях у Altel в Алматы и день Феста в гостях у Цифровой кафедры Альфа-Банка в Финансовом Университете в Москве
01 июня (сб): Алматы, Новосибирск и Москва — день Феста в гостях у Citix в Алматы, три зала и целый день Феста в гостях у МехМата НГУ в Новосибирске и целый день Феста в гостях у Avito.tech в Москве
02 июня (вс): Москва и Питер — завершаем программу с финальным днем Феста в гостях у Яндекса в Москве и днем Феста в гостях у VK в Питере!

На каждой площадке будет свой состав секций и спикеров — каждый найдёт себе ивенты под свои интересы 🤗

Плюс планируется огромное количество online активностей в Spatial.Chat, программу в котором будем анонсировать по мере готовности 👀️️️️ А что-то можно уже сейчас найти на странице Феста

Ждём на Фесте, где бы в пространстве-времени он не оказался! 🦾️️️️️️
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3
Forwarded from ODS Events
Сап чат!

Data Fest 2024 уже совсем скоро, и сегодня у нас ударный пост с эпичным вскрытием карт и открытием регистраций 🎉

В этом году мы чутка нарастили и программу и географию и число локаций 👀
12 оффлайн площадок уже открыты — можно регистрироваться 🔥

24 мая (пт): Москва, Pre-Party Феста с Яндексом
25 мая (сб): Москва, самый крупный офлайн день Феста в гостях у VK
26 мая (вс): Ереван, офлайн митап в гостях у РАУ
29 мая (ср): Москва и Питер — день Феста в гостях у ВТБ в Москве плюс день Феста в гостях у Альфа-Банка х ИТМО в Питере
31 мая (пт): Алматы и Москва — вечерний офлайн митап в гостях у Altel Digital в Алматы и день Феста в гостях у Цифровой кафедры Альфа-Банка в Финансовом Университете в Москве
01 июня (сб): Алматы, Новосибирск и Москва — день Феста в гостях у Citix в Алматы, три зала и целый день Феста в гостях у МехМата НГУ в Новосибирске и целый день Феста в гостях у Avito.tech в Москве
02 июня (вс): Москва и Питер — завершаем программу с финальным днем Феста в гостях у Яндекса в Москве и днем Феста в гостях у VK в Питере!

На каждой площадке будет свой состав секций и спикеров — каждый найдёт себе ивенты под свои интересы 🤗

Плюс планируется огромное количество online активностей в Spatial.Chat, программу в котором будем анонсировать по мере готовности 👀️️️️ А что-то можно уже сейчас найти на странице Феста

Ждём на Фесте, где бы в пространстве-времени он не оказался! 🦾️️️️️️
Please open Telegram to view this post
VIEW IN TELEGRAM
Мои выступления будут на оффлайновых площадках Data Fest:
31 мая в 15:20 Про правильный прунинг в нейросетях, всякие своства сетей, интересные визуализации и колиниарити-чек. https://ods.ai/events/fest2024-alfa-msc
1 июня в 18:50 Про отращивание новых весов, разморозкак как в RigL, поисковое пространсто и новые архитектуры. https://ods.ai/events/fest2024-avito-msc

Для тех кто был на моём митапе в феврале - ничего нового, Но всё равно заходите на трансляцию, для остальных - заходите, не пожалеете. Кто не посмотрит на трансляции - рано или поздно всё это аккуратно порежут на кусочки и выложать отдельными видео. тогда я ссылочки тоже сюда покидаю.
👍6🔥2
6_Голощапов_Владислав_Connectomics_Прунинг_на_основе_глубокого_анализа.pptx
6.7 MB
И презенташка к нему. Завтра продолжим и усугубим.
👍4
15_Голощапов_Владислав_Connectomics_Нейросети_с_адаптивно_обучаемой.pptx
1.6 MB
https://www.youtube.com/live/0eYjmKyqyjk?si=VrCqWHms1GtKL_Mu&t=28164 Отвыступался кратко и компактно заставив себя пролистать все ненужные подробности.. Даже в тайминг уложился, что непривыччно. Всех зову идти в ту сторону, будущее где-то там.
👍6🔥2
А вот ещё одна не очевидная мысль.

Есть модель из оригинальной статьи про гроккинг и она обучается адамом на скорости 1e-3. И мы можем взять прогреть этот самый адам, и предложить ему сдвинуть модель всего на один шаг. И посмотреть как менялся бы loss за один единственный шаг на разных скоростях.

Предсказуемо когда скорость ниже определённого порога модель ведёт себя в целом линейно, а выше этого порога в целом не линейно и сильно хуже.

Но знаете что? 1e-3 является слишком большой скоростью для обучения практически на всех этапах обучения.

Но если снизить скорость в 30 раз в область где сеть ведёт себя строго линейно результат будет не лучше, а медленнее он будет не в 30 раз, а примерно в 100 раз. Как такое вашей интуиции? Не встаёт поперёк?

Иногда для нейросетей важно учиться не по градиенту, а слегка пробивать стены своего тоннеля. Это, по всей видимости общее свойство нейросетей, а что на этот счёт думала теория оптимизации - никто не знал, потому что экспериментаторы часто в ней не особо разбираются и не стремятся.
🤔2