NEW BOT Телеграм, страница

Channel photo updated

07:21

На митапе мне совершенно справедливо попеняли, что я почистил датасет от ошибок разметки, и поэтому непонятно какая часть эффекта относится к алгоритму, а какая к датасету. Исправляюсь. Вот вам сеть без миллиона на чистом не чищеном и не аугментированном датасете.

👍5

338 views04:38

Свидетели Градиента

Channel photo updated

19:42

Свидетели Градиента

Научно-исследовательский семинар Магистратуры Прикладное МО и большие данные 13 марта 2024
https://rutube.ru/video/7b8471c54edde02bc5e3bce7f55fd3ef/

Выступил в качестве "гласа из внешнего мира" в своём родном НГУ, на мехматовском семинаре. Интересный формат, между прочим. Содержится несколько цитат и слайдов из презентации с митапа про прунинг. Я начинаю вещать примерно с 1:01 и пока замученные студенты не разъехались по домам. Сказал раза в три больше, чем стоило, говорить за один раз. Не смотря на эти недостатки всё ещё думаю, что причинил некоторое количество пользы.

RUTUBE

Научно-исследовательский семинар Магистратуры Прикладное МО и большие данные 13 марта 2024

Статья для разбора:
G. Klambauer, T. Unterthiner, A. Mayr, and S. Hochreiter, Self-normalizing neural networks, in Proceedings of the 31st International Conference on Neural Information Processing Systems, NIPS’17. Curran Associates, Inc., 2017, pp. 972–981…

👍4

261 viewsedited 10:28

Свидетели Градиента

Я тут взялся на ODS Fest делать секцию. Никто не хочет высказаться?

Коннектомика/Connectomics/连接组学 и Distillation.

Исследуем внутренюю структуру знаний в нейросетях, и манипулирование ими. Прунинг(pruning), разреженное обучение(sparse learning), отучивание(unlearning), гипотеза лотерейного билета (The Lottery Ticket Hypothesis), дистиляция знаний в более мелкие и/или разреженные модели, исследование их внутренних представлений и всё что позволяет открыть чёрный ящик нейросети и сделать его меньше и лучше количественно и качественно.

🔥5👍3

273 views08:45

Свидетели Градиента

https://youtu.be/p7w1aFKDAkU?si=kodydJZkJuij4GZc
О железе в Cerebras думают ровно те мысли, о которых я давным-давно пытаюсь говорить, что сети следующего поколения сильно разряженные и с локальным использованием памяти. И вот что получается интересно, так это некоторый замкнутый круг: Пока железо плохо справляется с сильно разряжёнными вычислениями сети такого рода не пользуются популярностью у исследователей. На Papers with сode по теме sparse learning всего 9 статей выложено. Но пока за дело не взялись сети с коэaфициентом разряжённость от x100 и выше моделей, на которых новое железо могло бы блеснуть по настоящему тоже отсутствуют. В лучшем случае речь идёт о том, чтобы ускорить какую-то модель, которая и так работает неплохо, и большинству практиков проще за деньги закупить ещё десяток серверов в стойку и не греть себе голову.

С другой стороны очевидно, что рано или поздно прожектор начнёт светить в эту сторону и заниматься этим сейчас, когда конкуренция тут пока маленькая - способ занять хорошую стартовую позицию.

YouTube

#77 - VITALIY CHILEY (Cerebras)

Patreon: https://www.patreon.com/mlst
Discord: https://discord.gg/ESrGqhf5CB

Vitaliy Chiley is a Machine Learning Research Engineer at the next-generation computing hardware company Cerebras Systems. We spoke about how DL workloads including sparse workloads…

👍2

363 viewsedited 07:43

Свидетели Градиента

Forwarded from Чивиня (Multi-layer Parkinson)

1-million-linears.py

19.8 KB

Скрипт для обучения нейросети из 1 млн. линейных слоёв. Итог того, что было начало тут: https://news.1rj.ru/str/chivinya/11

👍3

310 views12:43

Свидетели Градиента

Пойду смотреть.. Имхо, это - важное.

269 views19:04

Свидетели Градиента

Forwarded from Center for Cognitive Modeling

🎓 — Семинар 29. Curriculum Learning: выбор последовательности задач для обучения с подкреплением | Мария Нестерова

Завтра на семинаре выступит выпускница нашей магистерской программы МТИИ и ныне аспирантка нашего Центра, у которой уже 2 статьи на А*!

Если перед агентом стоит сложная задача, то для её освоения с нуля может потребоваться много времени. Один из способов решить эту проблему — рассмотреть сначала более простые задачи. Расписание обучения (Curriculum) позволяет автоматически выбрать задачи и определить порядок их изучения, что ускоряет процесс освоения сложных задач.

В первой части доклада будут рассмотрены существующие подходы к составлению расписания обучения. В рамках нашего исследования расписание обучения представлено в виде мета-агента, который выбирает задачи на основе анализа способностей обучающегося агента. Вторая часть доклада будет посвящена нашему методу и текущим результатам

📹 Трансляция Youtube

Подключайтесь к живому обсуждению и задавайте вопросы в прямом эфире! Ждем всех!

👍3

300 views19:04

Свидетели Градиента

Заявил Data Fest второй доклад. Планирую выложить в opensource несколько простых инструментов визуализации, которые каждодневно использую.
А чтобы смотреть на их применение было интереснее проиллюстрирую их применение на примере сетки, демонстрирующей гроккинг. Развею парочку надежд на понимание, того что при гроккинге происходит. Спойлер: что это за гроккинг такой и как подчинить его себе пока не понял.

Картинки для привлечения внимания: до фиолетового, тысячного семпла идёт рост на train, дальше начинается грокинг и идёт примерно до 2000-ого голубого на таректории, на картинке 4 случайные проекции, и на некоторых, но далеко не на всех проекциях видно, что направление движения сети на гроккинге под углом, к обучению на train-е.

🔥8

318 views10:26

Свидетели Градиента

Forwarded from ODS Events

Сап чат!

Data Fest 2024 уже совсем скоро, и сегодня у нас ударный пост с эпичным вскрытием карт и открытием регистраций 🎉

В этом году мы чутка нарастили и программу и географию и число локаций 👀
12 оффлайн площадок уже открыты — можно регистрироваться 🔥

24 мая (пт): Москва, Pre-Party Феста в Яндексе
25 мая (сб): Москва, самый крупный офлайн день Феста в гостях у VK
26 мая (вс): Ереван, офлайн митап в гостях у РАУ
29 мая (ср): Москва и Питер — день Феста в гостях у ВТБ в Москве плюс день Феста в гостях у Альфа-Банка х ИТМО в Питере
31 мая (пт): Алматы и Москва — вечерний офлайн митап в гостях у Altel в Алматы и день Феста в гостях у Цифровой кафедры Альфа-Банка в Финансовом Университете в Москве
01 июня (сб): Алматы, Новосибирск и Москва — день Феста в гостях у Citix в Алматы, три зала и целый день Феста в гостях у МехМата НГУ в Новосибирске и целый день Феста в гостях у Avito.tech в Москве
02 июня (вс): Москва и Питер — завершаем программу с финальным днем Феста в гостях у Яндекса в Москве и днем Феста в гостях у VK в Питере!

На каждой площадке будет свой состав секций и спикеров — каждый найдёт себе ивенты под свои интересы 🤗

Плюс планируется огромное количество online активностей в Spatial.Chat, программу в котором будем анонсировать по мере готовности 👀️️️️ А что-то можно уже сейчас найти на странице Феста

Ждём на Фесте, где бы в пространстве-времени он не оказался! 🦾️️️️️️

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥3

134 views12:27

Свидетели Градиента

Forwarded from ODS Events

Сап чат!

Data Fest 2024 уже совсем скоро, и сегодня у нас ударный пост с эпичным вскрытием карт и открытием регистраций 🎉

В этом году мы чутка нарастили и программу и географию и число локаций 👀
12 оффлайн площадок уже открыты — можно регистрироваться 🔥

24 мая (пт): Москва, Pre-Party Феста с Яндексом
25 мая (сб): Москва, самый крупный офлайн день Феста в гостях у VK
26 мая (вс): Ереван, офлайн митап в гостях у РАУ
29 мая (ср): Москва и Питер — день Феста в гостях у ВТБ в Москве плюс день Феста в гостях у Альфа-Банка х ИТМО в Питере
31 мая (пт): Алматы и Москва — вечерний офлайн митап в гостях у Altel Digital в Алматы и день Феста в гостях у Цифровой кафедры Альфа-Банка в Финансовом Университете в Москве
01 июня (сб): Алматы, Новосибирск и Москва — день Феста в гостях у Citix в Алматы, три зала и целый день Феста в гостях у МехМата НГУ в Новосибирске и целый день Феста в гостях у Avito.tech в Москве
02 июня (вс): Москва и Питер — завершаем программу с финальным днем Феста в гостях у Яндекса в Москве и днем Феста в гостях у VK в Питере!

На каждой площадке будет свой состав секций и спикеров — каждый найдёт себе ивенты под свои интересы 🤗

Плюс планируется огромное количество online активностей в Spatial.Chat, программу в котором будем анонсировать по мере готовности 👀️️️️ А что-то можно уже сейчас найти на странице Феста

Ждём на Фесте, где бы в пространстве-времени он не оказался! 🦾️️️️️️

Please open Telegram to view this post

VIEW IN TELEGRAM

219 views13:15

Свидетели Градиента

Мои выступления будут на оффлайновых площадках Data Fest:
31 мая в 15:20 Про правильный прунинг в нейросетях, всякие своства сетей, интересные визуализации и колиниарити-чек. https://ods.ai/events/fest2024-alfa-msc
1 июня в 18:50 Про отращивание новых весов, разморозкак как в RigL, поисковое пространсто и новые архитектуры. https://ods.ai/events/fest2024-avito-msc

Для тех кто был на моём митапе в феврале - ничего нового, Но всё равно заходите на трансляцию, для остальных - заходите, не пожалеете. Кто не посмотрит на трансляции - рано или поздно всё это аккуратно порежут на кусочки и выложать отдельными видео. тогда я ссылочки тоже сюда покидаю.

👍6🔥2

335 views12:31

Свидетели Градиента

https://www.youtube.com/live/UfQ2WW8yvnE?si=1u9bh0EJs3JhAIhF
Первая часть выступления, про прунинг. С 3:13:45

YouTube

Data Fest 2024, день 7: офлайн в Москве 31 мая, кафедра Альфа-Банка в Финансовом университете

Провожаем весну на третьем офлайн дне Data Fest 2024 в Москве!

Встречаемся в гостях у Цифровой кафедры Альфа-Банка в Финансовом университете. В программе вас ждут:
1. 12:00 — 13:40, первые 3 доклада секции GeoML
...большой перерыв...
2. 14:30 — 16:10, 2…

🔥6👍4

790 viewsedited 20:22

Свидетели Градиента

6_Голощапов_Владислав_Connectomics_Прунинг_на_основе_глубокого_анализа.pptx

6.7 MB

И презенташка к нему. Завтра продолжим и усугубим.

👍4

379 viewsedited 20:24

Свидетели Градиента

15_Голощапов_Владислав_Connectomics_Нейросети_с_адаптивно_обучаемой.pptx

1.6 MB

https://www.youtube.com/live/0eYjmKyqyjk?si=VrCqWHms1GtKL_Mu&t=28164 Отвыступался кратко и компактно заставив себя пролистать все ненужные подробности.. Даже в тайминг уложился, что непривыччно. Всех зову идти в ту сторону, будущее где-то там.

👍6🔥2

377 views18:43

Свидетели Градиента

А вот ещё одна не очевидная мысль.

Есть модель из оригинальной статьи про гроккинг и она обучается адамом на скорости 1e-3. И мы можем взять прогреть этот самый адам, и предложить ему сдвинуть модель всего на один шаг. И посмотреть как менялся бы loss за один единственный шаг на разных скоростях.

Предсказуемо когда скорость ниже определённого порога модель ведёт себя в целом линейно, а выше этого порога в целом не линейно и сильно хуже.

Но знаете что? 1e-3 является слишком большой скоростью для обучения практически на всех этапах обучения.

Но если снизить скорость в 30 раз в область где сеть ведёт себя строго линейно результат будет не лучше, а медленнее он будет не в 30 раз, а примерно в 100 раз. Как такое вашей интуиции? Не встаёт поперёк?

Иногда для нейросетей важно учиться не по градиенту, а слегка пробивать стены своего тоннеля. Это, по всей видимости общее свойство нейросетей, а что на этот счёт думала теория оптимизации - никто не знал, потому что экспериментаторы часто в ней не особо разбираются и не стремятся.

🤔2

270 views18:18

About

Blog

Apps

Platform