О пользе двухсторонних логарифмических графиков, которые входят в библиотечку и о которых я буду рассказывать на на датафесте в Н-ске через две недели.
Здесь по горизонтали скорость обучения - lr, а по вертикали - как изменится loss и accuracy на валидейшене после одного единственного шага градиентного спуска на основе градиентов, вычисленных на всём ImageNet. Сеть - уже обученная MobileNetV4. Невооружённым взглядом виден диапазон скоростей, в котором сеть можно эффективно доучивать, видно, что скорость больше определённой разваливает сеть в клочья, и ещё одно малоизвестное явление - скорость ниже определённой так же портит loss. Я прадполагаю это потому что из-за дискретности float32 слишком малое изменение весов и-за неизбежных округлений создаёт шума больше пользы.
Все оси логарифмические, но на график искусственно прилеплен 0 и удобно отображаются как положительные так и отрицательные значения в одинаковом масштабе.
Единственное что плохо - из-за того же логарифмического масштаба требуется задумываться чтобы понимать на сколько на самом деле одно значение хуже другого.
Отдельное интересное - то на сколько loss портят слишком маленькие значения скорости. Но при обучении батчами такое явление не на столько явно себя проявляет.
Готовьтесь качать библиотечку и напихивать двусторонние логарифмические графики всюду. :) Здесь в канале она будет выложена несколько раньше феста.
Здесь по горизонтали скорость обучения - lr, а по вертикали - как изменится loss и accuracy на валидейшене после одного единственного шага градиентного спуска на основе градиентов, вычисленных на всём ImageNet. Сеть - уже обученная MobileNetV4. Невооружённым взглядом виден диапазон скоростей, в котором сеть можно эффективно доучивать, видно, что скорость больше определённой разваливает сеть в клочья, и ещё одно малоизвестное явление - скорость ниже определённой так же портит loss. Я прадполагаю это потому что из-за дискретности float32 слишком малое изменение весов и-за неизбежных округлений создаёт шума больше пользы.
Все оси логарифмические, но на график искусственно прилеплен 0 и удобно отображаются как положительные так и отрицательные значения в одинаковом масштабе.
Единственное что плохо - из-за того же логарифмического масштаба требуется задумываться чтобы понимать на сколько на самом деле одно значение хуже другого.
Отдельное интересное - то на сколько loss портят слишком маленькие значения скорости. Но при обучении батчами такое явление не на столько явно себя проявляет.
Готовьтесь качать библиотечку и напихивать двусторонние логарифмические графики всюду. :) Здесь в канале она будет выложена несколько раньше феста.
🔥9👍1👀1
Быть зрячим лучше, чем просто знать правильный ответ. (с) Я
В продолжение предыдущего поста. Часто рекомендуют подирать гиперпараметры для обучения запуская полный цикл. Даже не учитывая того, что это безумно дорого, начнём с того, что на разных этапах обучения наиболее удачные параметры могут драматически, порой, на порядки отличаться. Самый простой пример, который я показывал на прошлом сибирском датафесте - если вы имеете какие-то проблемы с протеканием градиентов или вообще обобщениями на начальном этапе вам может потребоваться довольно большая скорость, но как только первоначальные проблемы преодолены оптимальная скорость оказывается ниже как минимум на порядок. Опять же скорость хорошо подходящая для среднего этапа где сеть имеет явно выраженный тренд к которому идёт, оказывается совершенно не подходящей для ситуации когда она оказывается мечащейся в лабиринте на поздних этапах. Возможный выход проверять скорость и иногда подправлять вручную. (Хотя Монашев (Multi-layer Parkinson) тут недавно полностью автоматически корректировал скорость на каждой эпохе похожим способом и добился результатов на которые я уже несколько месяцев медитирую).
Для этого можно прогонять не всё обучение, а только небольшой кусочек. Например, На первой картинке из прошлого поста всего 1/24 от всего имиджнета, а на картинках в этом посте вообще 1/120 файнтюна батчами, но картина более чем очевидна. Причём глядя на неё вы можете предпринять уже более длинные эксперименты, например на скоростях 5e-6, которая не сильно задевает accuracy но уже предсказуемо давит на loss или скорость 1е-4 на которой loss даёт уже практически максиммальное снижение, но в acc творится что-то нехорошее. Но есть ещё один хитрый трюк. Оптимальную скорость порой трудно обнаружить, на графике, потому что изменения уже микроскопические, но скорость на которой сеть разваливается всегда видна хорошо, и легко автоматически детектируется, даже в довольно экстримальных экспериментах. Например на второй картинке adamw(weight_decay=20) против 0.01 по умолчанию, и обычно оптимальная скорость находится от этой точки разрушения сети на примерно одинаковом расстоянии в 0.75-1 порядок. И никакая интуиция не подскажет вам на какой скорости сеть таким образом учить можно, а на какой уже нельзя.
P.S. Иногда можно специально повышать скорость до недобрых значений чтобы вызывать структурные перестроения в сети и получить эффект "отжига". Но даже в этом случае удобно видеть какая скорость на данном этапе обучения является скоростью разрушения и какая скоростью отжига.
В продолжение предыдущего поста. Часто рекомендуют подирать гиперпараметры для обучения запуская полный цикл. Даже не учитывая того, что это безумно дорого, начнём с того, что на разных этапах обучения наиболее удачные параметры могут драматически, порой, на порядки отличаться. Самый простой пример, который я показывал на прошлом сибирском датафесте - если вы имеете какие-то проблемы с протеканием градиентов или вообще обобщениями на начальном этапе вам может потребоваться довольно большая скорость, но как только первоначальные проблемы преодолены оптимальная скорость оказывается ниже как минимум на порядок. Опять же скорость хорошо подходящая для среднего этапа где сеть имеет явно выраженный тренд к которому идёт, оказывается совершенно не подходящей для ситуации когда она оказывается мечащейся в лабиринте на поздних этапах. Возможный выход проверять скорость и иногда подправлять вручную. (Хотя Монашев (Multi-layer Parkinson) тут недавно полностью автоматически корректировал скорость на каждой эпохе похожим способом и добился результатов на которые я уже несколько месяцев медитирую).
Для этого можно прогонять не всё обучение, а только небольшой кусочек. Например, На первой картинке из прошлого поста всего 1/24 от всего имиджнета, а на картинках в этом посте вообще 1/120 файнтюна батчами, но картина более чем очевидна. Причём глядя на неё вы можете предпринять уже более длинные эксперименты, например на скоростях 5e-6, которая не сильно задевает accuracy но уже предсказуемо давит на loss или скорость 1е-4 на которой loss даёт уже практически максиммальное снижение, но в acc творится что-то нехорошее. Но есть ещё один хитрый трюк. Оптимальную скорость порой трудно обнаружить, на графике, потому что изменения уже микроскопические, но скорость на которой сеть разваливается всегда видна хорошо, и легко автоматически детектируется, даже в довольно экстримальных экспериментах. Например на второй картинке adamw(weight_decay=20) против 0.01 по умолчанию, и обычно оптимальная скорость находится от этой точки разрушения сети на примерно одинаковом расстоянии в 0.75-1 порядок. И никакая интуиция не подскажет вам на какой скорости сеть таким образом учить можно, а на какой уже нельзя.
P.S. Иногда можно специально повышать скорость до недобрых значений чтобы вызывать структурные перестроения в сети и получить эффект "отжига". Но даже в этом случае удобно видеть какая скорость на данном этапе обучения является скоростью разрушения и какая скоростью отжига.
5_Влад_Голощапов,_Чем_не_является_гроккинг,_демонстрирую_библиотечку.pptx
2.1 MB
ВНИМАНИЕ!!! Првильная ссылка на библиотечку: https://gitverse.ru/kraidiky/in_sight
Вечером перевыложу.
Отвыступался на Data Fest Siberia 2024. Записи обещали начать публиковать в обозримом будущем. Пока вот презентация битблиотечки. Пока я её на PyPi её корректно не выложил, так что пока пользоваться методом копирования папки in_sight в свой проект. Но скоро уже будет всё как в лучших домах ландона и парижу. Комментарии и особенно pull request-ы приветствуются.
Вечером перевыложу.
Отвыступался на Data Fest Siberia 2024. Записи обещали начать публиковать в обозримом будущем. Пока вот презентация битблиотечки. Пока я её на PyPi её корректно не выложил, так что пока пользоваться методом копирования папки in_sight в свой проект. Но скоро уже будет всё как в лучших домах ландона и парижу. Комментарии и особенно pull request-ы приветствуются.
❤9👍4👏1
Раньше был такой вариант в анкетах: знание английского со словарём.
Вот сейчас появилось новое: Знание чего угодно, например незнакомой операционной системы с чатгпт. Тоесть впринципе не знаешь, но с интеллектуальным советчиком и с пивом - потянет.
Вот сейчас появилось новое: Знание чего угодно, например незнакомой операционной системы с чатгпт. Тоесть впринципе не знаешь, но с интеллектуальным советчиком и с пивом - потянет.
👍4🥴3💯1
6_Влад_Голощапов,_Умный_неструктурированный_прунинг_и_пределы_сжимаемости.pptx
1 MB
Ну, над библиотекой пока так и не поработал, но вот вам презенташка моего второго доклада, которую я забыл выложить сразу после мероприятия...
👍3
Чутка поменял интефейс TrajectoryProjector-а по заявким читателей библиотечки, и реализовал режим, когда матрица проецирования каждый раз генерится с нуля по сиду. Подходит для больших моделей, занимающих прорву памяти, но дёргать её надо не раз в батч, а реже, потому что оверхед на генерацию матрицы. Соответственно случайные колебания траектории будут казаться во столько же раз более плавными, во сколько реже станут вызовы.
👍1
Математика, это такая эвристика, позволяющая делать о нейросетях предположения более полезные чем случаные.
😁8💯1
https://youtu.be/N7Pbwn0qNWk?si=jp8Ya7TwCAQjVLUK&t=1542
Ну, кстати, да, когда я слышу про угрозу человечеству от искусственного интеллекта, то каждый раз хочется сказать, что есть вещи то, как бы, и по страшнее. И это далеко не ядерные бомбы. Правда меня уверяют со ссылками на статьи, что мозг в данный момент снова увеличивается. Хотелось бы на это надеяться, но ожидаем худшего.
Ну, кстати, да, когда я слышу про угрозу человечеству от искусственного интеллекта, то каждый раз хочется сказать, что есть вещи то, как бы, и по страшнее. И это далеко не ядерные бомбы. Правда меня уверяют со ссылками на статьи, что мозг в данный момент снова увеличивается. Хотелось бы на это надеяться, но ожидаем худшего.
YouTube
Сможет ли человечество сохранить интеллект
Семинар НКЦ SETI им. Л.М. Гиндилиса (совместно с секцией 7 НСА РАН "Жизнь и разум во Вселенной")18 ноября 2022 года, Москва, конференц-зал ГАИШ.
00:00:00 Новости, руководитель семинара Александр Панов
00:25:40 Голощапов В. И. Сможет ли человечество сохранить…
00:00:00 Новости, руководитель семинара Александр Панов
00:25:40 Голощапов В. И. Сможет ли человечество сохранить…
Слушал по дороге на работу и с работы кодкаст ЛеКуна у Лекса Фридмана. Много интересного. И про алгоритм жапа (JAPA) и про внутренние представления, и про предиктивные сети как путь в светлое будущее, и про многое другое. В большинстве случаев я с ним согласен, и пришёл к тем же идеям и оценкам. Разница между нами в том, что я пришлё к пасконной мужицкой чуйкой, а он потратил на их развитие десяток или даже десятки лет и чудовищные фейсбучные бюджеты.
https://www.youtube.com/watch?v=5t1vTLU7s40
https://www.youtube.com/watch?v=5t1vTLU7s40
YouTube
Yann Lecun: Meta AI, Open Source, Limits of LLMs, AGI & the Future of AI | Lex Fridman Podcast #416
Yann LeCun is the Chief AI Scientist at Meta, professor at NYU, Turing Award winner, and one of the most influential researchers in the history of AI. Please support this podcast by checking out our sponsors:
- HiddenLayer: https://hiddenlayer.com/lex
- LMNT:…
- HiddenLayer: https://hiddenlayer.com/lex
- LMNT:…
👍4😁4🤡2🤮1💩1
Там где ЛеКун начинает говорить про безопасность ИИ может показаться, что он несёт фигню, потому что в качестве примера он приводит Путина и явно в навязываемом пропагандой качестве. Но если вдумчиво послушать его, то вообще-то он говорит всё правильно. И предлагаемые и реально проводимые им меры по открытию знаний и моделей в опенсорс реально помогают нашей общей безопсности.
Надо только держать в голове, что страна аутсайдер, которая может, и уже пытается злоупотребить ИИ таим способом это США, а компании, которые могут попытаться злоупотребить контролем за инфраструктурой для ИИ это в том числе и его фейсбук, который уже ловили на попытках теневого бана мнений о вакцинах далеко за пределами фильтрации фриков. Но его компания и он лично долго и последовательно многое делает для того чтобы мы могли защищаться в том числе и от его и его компании.
Такой вот свой среди чужих. Отмечу, что Лекс Фридман видимо отлично понимает эту "фигуру умолчания" и видимо поэтому сиронизировал про ИИ с сильным русским акцентом. Он просто сам же тоже русскоязычный, и я подозреваю, что в его английском это могут заметить нэйтивы. Но не форсил тему, что было бы не очень уместно.
Надо только держать в голове, что страна аутсайдер, которая может, и уже пытается злоупотребить ИИ таим способом это США, а компании, которые могут попытаться злоупотребить контролем за инфраструктурой для ИИ это в том числе и его фейсбук, который уже ловили на попытках теневого бана мнений о вакцинах далеко за пределами фильтрации фриков. Но его компания и он лично долго и последовательно многое делает для того чтобы мы могли защищаться в том числе и от его и его компании.
Такой вот свой среди чужих. Отмечу, что Лекс Фридман видимо отлично понимает эту "фигуру умолчания" и видимо поэтому сиронизировал про ИИ с сильным русским акцентом. Он просто сам же тоже русскоязычный, и я подозреваю, что в его английском это могут заметить нэйтивы. Но не форсил тему, что было бы не очень уместно.
🤡5👍2🔥2🤔2❤1💩1💊1
Кто-нибудь знает у кого чатгпт мог подглядеть этот пример? Ну то есть, я знаю зачем для bias-ов делать другую lr чем для остальной модели, но среди других людей тех, кто это понимает сам, не после прослушивания одного из моих докладов на этут тему я не встречал. Они наверняка есть, но видимо скрывают. :)
Так что если бы вы также сделали - и услышали эту идею не от меня - поделитесь откуда.
Так что если бы вы также сделали - и услышали эту идею не от меня - поделитесь откуда.
Forwarded from Data Secrets
Американо-китайская комиссия по мониторингу экономики и безопасности дала конкрессу США двусмысленные рекомендации по поводу AGI
12 членов независимого совета в конце каждой осени публикуют отчет, в котором обозначают свои рекомендации конгрессу. В этом году первым же пунктом отчета оказалась фраза:
Фигурирование в тексте про ИИ упоминания проекта по военной разработке ядерного оружия, конечно, немного пугает, но интересно также, что Манхэттенский проект не в первый раз за последний месяц всплывает в медиапространстве ИИ-новостей. Недавно также были опубликованы письма из переписки Альтмана и Маска, в которых выясняется, что еще с 2015 года создание «Манхэттенского проекта для ИИ» – настоящая мечта Альтмана.
Есть ли тут связь?
12 членов независимого совета в конце каждой осени публикуют отчет, в котором обозначают свои рекомендации конгрессу. В этом году первым же пунктом отчета оказалась фраза:
"Учредить и профинансировать подобную Манхэттенскому проекту программу, направленную на разработку и достижение AGI"
Фигурирование в тексте про ИИ упоминания проекта по военной разработке ядерного оружия, конечно, немного пугает, но интересно также, что Манхэттенский проект не в первый раз за последний месяц всплывает в медиапространстве ИИ-новостей. Недавно также были опубликованы письма из переписки Альтмана и Маска, в которых выясняется, что еще с 2015 года создание «Манхэттенского проекта для ИИ» – настоящая мечта Альтмана.
Есть ли тут связь?
🤔2
Ещё недавно об этом прямым текстом говорил только Дарио Амодеи (Anthropic) и вот мало по малу в своих тайных мечтах признаваться начали и другие лидеры.
Выложили записи моих докладов. Галопом, конечно, как обычно, зато много и от души.
https://www.youtube.com/watch?v=pmHkDKPg0WM
https://www.youtube.com/watch?v=Q8H5ijMxhlA
Если хотите лайкнуть, лучше репостните, а потом уже лайкайте. Если хотите сказать, что это полезно - лучше сначала попробуйте воспользоваться, и потом расскажите что получилось. Польза будет и вам и мне.
https://www.youtube.com/watch?v=pmHkDKPg0WM
https://www.youtube.com/watch?v=Q8H5ijMxhlA
Если хотите лайкнуть, лучше репостните, а потом уже лайкайте. Если хотите сказать, что это полезно - лучше сначала попробуйте воспользоваться, и потом расскажите что получилось. Польза будет и вам и мне.
YouTube
Голощапов Влад | Чем не является гроккинг
Спикер: Голощапов Влад
Название: Чем не является гроккинг - демонстрация опенсорсной библиотечки визуализации in sight
Data Fest Siberia 5: https://ods.ai/events/datafestsiberia5
Трек Прикладной МЛ: https://ods.ai/tracks/sibfest5-ml-applied
_____
Наши соц.сети:…
Название: Чем не является гроккинг - демонстрация опенсорсной библиотечки визуализации in sight
Data Fest Siberia 5: https://ods.ai/events/datafestsiberia5
Трек Прикладной МЛ: https://ods.ai/tracks/sibfest5-ml-applied
_____
Наши соц.сети:…
🔥10👍1🙏1
Встретившись с несколькими подписчиками своего канала на выходных, я с удивлением узнал, что свежевыложенных докладов они ещё не посмотрели.
Первый из двух докладов вы можете прямо буквально применять в своей работе прямо с сегодняшнего дня, скачав готовый код, или за максимум день воспроизвестми его по показанным там идеям. Не откладывйте апгрейд своих рабочих инструментов до когда-нибудь, начните прямо сейчас!
Первый из двух докладов вы можете прямо буквально применять в своей работе прямо с сегодняшнего дня, скачав готовый код, или за максимум день воспроизвестми его по показанным там идеям. Не откладывйте апгрейд своих рабочих инструментов до когда-нибудь, начните прямо сейчас!
😁5👍1🔥1
Выступил про градиентный спуск, моменты и ландшаф функции тпотерь на семинаре донецкого университета. Одному из учёных участвующих в семинаре подготовить следующиее выступление не помешает даже то, что он из Горловки и у них всю прошлую неделю не было света. От края города до последних украинских войск 17 километров. Я из дома на работу в два раза дальше еду.
Такие ситуации полезны чтобы встряхнуть мозги и напомнить о реальности.
P.S. На семинаре встретил математика, который мне объяснил, что теорема об останове машины Тьюринга и теорема Гедёля о неполноте не сводятся друг к другу, а одно может быть доказано через другое, но не в обратную сторону.
Такие ситуации полезны чтобы встряхнуть мозги и напомнить о реальности.
P.S. На семинаре встретил математика, который мне объяснил, что теорема об останове машины Тьюринга и теорема Гедёля о неполноте не сводятся друг к другу, а одно может быть доказано через другое, но не в обратную сторону.
🔥9❤3😢1💩1🤡1
Хо-хо-хо! Кажется есть понятная корреляция между дисперсией градиента и максимально доступным weight_decay который как известно чем выше тем ближе гроккинг. Если завтра на мой дом упадёт самолёт - знайте, рептилойды сделали это чтобы скрыть истину. Ж))))
P.S. Кроме шуток, увеличение дисперсии примерно в sqrt(2) раза примерно в 2 же раз требует снижать weight_decay. По крfйней мере в том случае на котором я экспериментирую.
P.S. Кроме шуток, увеличение дисперсии примерно в sqrt(2) раза примерно в 2 же раз требует снижать weight_decay. По крfйней мере в том случае на котором я экспериментирую.
👍1🤔1