Свидетели Градиента – Telegram
Свидетели Градиента
488 subscribers
128 photos
29 files
61 links
Этот канал предназначен для общения и обсуждений среди тех, кто как и я, хочет видеть что происходит под капотом у нейросетей, и старается развивать интуицию об их природе и свойствах.

Для связи: @kraidiky
Download Telegram
6_Влад_Голощапов,_Умный_неструктурированный_прунинг_и_пределы_сжимаемости.pptx
1 MB
Ну, над библиотекой пока так и не поработал, но вот вам презенташка моего второго доклада, которую я забыл выложить сразу после мероприятия...
👍3
Чутка поменял интефейс TrajectoryProjector-а по заявким читателей библиотечки, и реализовал режим, когда матрица проецирования каждый раз генерится с нуля по сиду. Подходит для больших моделей, занимающих прорву памяти, но дёргать её надо не раз в батч, а реже, потому что оверхед на генерацию матрицы. Соответственно случайные колебания траектории будут казаться во столько же раз более плавными, во сколько реже станут вызовы.
👍1
Математика, это такая эвристика, позволяющая делать о нейросетях предположения более полезные чем случаные.
😁8💯1
https://youtu.be/N7Pbwn0qNWk?si=jp8Ya7TwCAQjVLUK&t=1542
Ну, кстати, да, когда я слышу про угрозу человечеству от искусственного интеллекта, то каждый раз хочется сказать, что есть вещи то, как бы, и по страшнее. И это далеко не ядерные бомбы. Правда меня уверяют со ссылками на статьи, что мозг в данный момент снова увеличивается. Хотелось бы на это надеяться, но ожидаем худшего.
Слушал по дороге на работу и с работы кодкаст ЛеКуна у Лекса Фридмана. Много интересного. И про алгоритм жапа (JAPA) и про внутренние представления, и про предиктивные сети как путь в светлое будущее, и про многое другое. В большинстве случаев я с ним согласен, и пришёл к тем же идеям и оценкам. Разница между нами в том, что я пришлё к пасконной мужицкой чуйкой, а он потратил на их развитие десяток или даже десятки лет и чудовищные фейсбучные бюджеты.
https://www.youtube.com/watch?v=5t1vTLU7s40
👍4😁4🤡2🤮1💩1
Там где ЛеКун начинает говорить про безопасность ИИ может показаться, что он несёт фигню, потому что в качестве примера он приводит Путина и явно в навязываемом пропагандой качестве. Но если вдумчиво послушать его, то вообще-то он говорит всё правильно. И предлагаемые и реально проводимые им меры по открытию знаний и моделей в опенсорс реально помогают нашей общей безопсности.
Надо только держать в голове, что страна аутсайдер, которая может, и уже пытается злоупотребить ИИ таим способом это США, а компании, которые могут попытаться злоупотребить контролем за инфраструктурой для ИИ это в том числе и его фейсбук, который уже ловили на попытках теневого бана мнений о вакцинах далеко за пределами фильтрации фриков. Но его компания и он лично долго и последовательно многое делает для того чтобы мы могли защищаться в том числе и от его и его компании.

Такой вот свой среди чужих. Отмечу, что Лекс Фридман видимо отлично понимает эту "фигуру умолчания" и видимо поэтому сиронизировал про ИИ с сильным русским акцентом. Он просто сам же тоже русскоязычный, и я подозреваю, что в его английском это могут заметить нэйтивы. Но не форсил тему, что было бы не очень уместно.
🤡5👍2🔥2🤔21💩1💊1
Кто-нибудь знает у кого чатгпт мог подглядеть этот пример? Ну то есть, я знаю зачем для bias-ов делать другую lr чем для остальной модели, но среди других людей тех, кто это понимает сам, не после прослушивания одного из моих докладов на этут тему я не встречал. Они наверняка есть, но видимо скрывают. :)

Так что если бы вы также сделали - и услышали эту идею не от меня - поделитесь откуда.
Говорят, время отведённое лидерам на то чтобы воспользоваться своим монопольным положением стремительно заканчивается. Если это правда, это очень хорошая новость для человечества, но не очень хорошая для капитализации всех, кроме разработчиков инфраструктуры.
3
Forwarded from Data Secrets
Американо-китайская комиссия по мониторингу экономики и безопасности дала конкрессу США двусмысленные рекомендации по поводу AGI

12 членов независимого совета в конце каждой осени публикуют отчет, в котором обозначают свои рекомендации конгрессу. В этом году первым же пунктом отчета оказалась фраза:

"Учредить и профинансировать подобную Манхэттенскому проекту программу, направленную на разработку и достижение AGI"


Фигурирование в тексте про ИИ упоминания проекта по военной разработке ядерного оружия, конечно, немного пугает, но интересно также, что Манхэттенский проект не в первый раз за последний месяц всплывает в медиапространстве ИИ-новостей. Недавно также были опубликованы письма из переписки Альтмана и Маска, в которых выясняется, что еще с 2015 года создание «Манхэттенского проекта для ИИ» – настоящая мечта Альтмана.

Есть ли тут связь?
🤔2
Ещё недавно об этом прямым текстом говорил только Дарио Амодеи (Anthropic) и вот мало по малу в своих тайных мечтах признаваться начали и другие лидеры.
Выложили записи моих докладов. Галопом, конечно, как обычно, зато много и от души.
https://www.youtube.com/watch?v=pmHkDKPg0WM
https://www.youtube.com/watch?v=Q8H5ijMxhlA
Если хотите лайкнуть, лучше репостните, а потом уже лайкайте. Если хотите сказать, что это полезно - лучше сначала попробуйте воспользоваться, и потом расскажите что получилось. Польза будет и вам и мне.
🔥10👍1🙏1
Встретившись с несколькими подписчиками своего канала на выходных, я с удивлением узнал, что свежевыложенных докладов они ещё не посмотрели.

Первый из двух докладов вы можете прямо буквально применять в своей работе прямо с сегодняшнего дня, скачав готовый код, или за максимум день воспроизвестми его по показанным там идеям. Не откладывйте апгрейд своих рабочих инструментов до когда-нибудь, начните прямо сейчас!
😁5👍1🔥1
О! Да!!! 100% это слово отражает моё состояние!
💯5🤣2😢1
Выступил про градиентный спуск, моменты и ландшаф функции тпотерь на семинаре донецкого университета. Одному из учёных участвующих в семинаре подготовить следующиее выступление не помешает даже то, что он из Горловки и у них всю прошлую неделю не было света. От края города до последних украинских войск 17 километров. Я из дома на работу в два раза дальше еду.
Такие ситуации полезны чтобы встряхнуть мозги и напомнить о реальности.

P.S. На семинаре встретил математика, который мне объяснил, что теорема об останове машины Тьюринга и теорема Гедёля о неполноте не сводятся друг к другу, а одно может быть доказано через другое, но не в обратную сторону.
🔥93😢1💩1🤡1
Хо-хо-хо! Кажется есть понятная корреляция между дисперсией градиента и максимально доступным weight_decay который как известно чем выше тем ближе гроккинг. Если завтра на мой дом упадёт самолёт - знайте, рептилойды сделали это чтобы скрыть истину. Ж))))

P.S. Кроме шуток, увеличение дисперсии примерно в sqrt(2) раза примерно в 2 же раз требует снижать weight_decay. По крfйней мере в том случае на котором я экспериментирую.
👍1🤔1
Ну и вообще, чем дальше в лес тем толще партизаны... С одной стороны наличие гроккинга без нелинейного перестроения сети говорит о том, что оно как бы не обязательно, а с другой стороны судя по таким вот картинкам в некоторых случаях всё только на нём и держится.
🤔3👍1
Выкатил трёхкопеечное обновление Траектории, чтобы удобно отрезать для рисования часть траектории или прореживать чтобы отрисовка траекторий в много десятков тысяч шагов меньше тормозила. Если кто из подписчиков реально использует что-то из библиотеки поставьте ✍️
👍3
И хотфикс выложил, потому что тестами нужно покрывать всё, а не как это обычно в петпроджектах делается. Это, кстати, ответ на вопрос почему люди не выкладывают в опенсорс то что они делают. 😢
😢1
Эталонно-удачная проекция ступенчатого гроккинга, а вы продолжайте не пользоваться библиотекой.

P.S. Метрика, позволяющая сказать идёт ли гроккинг и как далеко ещё до него ещё идти существует, и по ней видно даже когда val acc ещё не оторвался от 0, по крайней мере в некоторых случаях.
👍2🤔1😢1
# This class exists solely to avoid triggering an obscure error when noscripting
# an improperly quantized attention layer. See this issue for details:
# https://github.com/pytorch/pytorch/issues/58969
# TODO: fail fast on quantization API usage error, then remove this class
# and replace uses of it with plain Linear

Шёл третий год... :)
😁1