Я начинаю вновь активно постить в канал. Про что вы хотите посты?
Anonymous Poll
47%
Про рынки и количественный рисерч
52%
Про математику и оптимизацию
58%
Про машинное обучение
33%
Жабы.
37%
Мемасики на тему машинки/матеши/айти
27%
Про преподавание и образовательные ивенты
27%
Какие-то личные штуки
❤9❤🔥7😍4🤡2💅2
ML-легушька
Если кто увидит меня, то подходите :)
Собственно, выступал вчера на мероприятии от ЦПМ для учителей, где собираются ученые и рассказывают про последние достижения в науке.
Я рассказывал про распределенное обучение и достижения в нем, более технически можно сказать, но вроде не сильно кокнул.
Мне понравились доклады и других выступающих. В частности, очень интересно про химию - там рассказывали про клик-реакции (способ просто, эффективно и быстро сшивать между собой биополимеры и в целом разные соединения) и фотокатализ - он упоминался еще в экологии, так как позволяет сделать химтех более экологичным.
Вообще мероприятие было крупное, во дворце пионеров прикольно, жаль что он как и все Воробьевы горы от меня далековато.
Новые красивые носки для привлечения внимания
Я рассказывал про распределенное обучение и достижения в нем, более технически можно сказать, но вроде не сильно кокнул.
Мне понравились доклады и других выступающих. В частности, очень интересно про химию - там рассказывали про клик-реакции (способ просто, эффективно и быстро сшивать между собой биополимеры и в целом разные соединения) и фотокатализ - он упоминался еще в экологии, так как позволяет сделать химтех более экологичным.
Вообще мероприятие было крупное, во дворце пионеров прикольно, жаль что он как и все Воробьевы горы от меня далековато.
Новые красивые носки для привлечения внимания
🔥25❤10🥰7🤡1
Когда уже на маркетплейсах можно будет поставить фильтр «без генеративного ИИ»
😁47❤10🤔4❤🔥2🥰1
для простоты рассмотрим баланс в кассе нашей организации. вот приход, вот расход. не трудно заметить, что никакой вашей зарплаты здесь нет — присутствует исключительно синтаксический сахар.
1🤡29😈7❤6👍1😁1
Очень странная статья от Google.
Основная идея: давайте случайно не применять обновления к параметрам, а если и применять - уменьшать их на величину, пропорциональную отклонению угла стохастического градиента от накопленного за последние итерации.
Они также привели некие доказательства сходимости своего метода.
В частности, очень интересен assumption 3 (см на картинке) - он говорит, что стохастический градиент по норме не слишком сильно отклоняется от истинного.
В чем проблема данной статьи, на мой взгляд?
Мне кажется, что авторы зашли не с того угла.
Во-первых, в их случае (а явно этого не прописано) константа ограничивающая разброс из предположения явно никак не оценивается, по крайней мере я не нашел в статье этого.
Во-вторых, и что более проблемно, существует E-SG (см.картинку 3). E-SG является более сильным условием, чем они предлагают в своем предположении. Более того, они неявно приближают обусловленность своей задачи к E-SG сценарию, так как несонаправленные градиенты начинают зануляться с большей вероятностью - очевидно, что разброс становится меньше.
В-третьих, уже есть методы для достижения E-SG, в частности адаптивный батчинг, в частности для случаев когда мы близки к решению - AdLoCo, который я предложил в своей последней статье.
Безусловно, научный вклад у статьи есть - с вычислительной точки зрения (если не смотреть другие аспекты по типу распределенного обучения, где AdLoCo побьет их) это более простой метод, и он очень хорошо рассмотрен с точки зрения взаимодействия со спецификой трансформеров.
Не знаю, может написать им, спросить?
Если вы со мной не согласны, то пишите в комментариях - подискутируем. Может быть я тупой и что-то не понял :)
Ссылка на статью
Основная идея: давайте случайно не применять обновления к параметрам, а если и применять - уменьшать их на величину, пропорциональную отклонению угла стохастического градиента от накопленного за последние итерации.
Они также привели некие доказательства сходимости своего метода.
В частности, очень интересен assumption 3 (см на картинке) - он говорит, что стохастический градиент по норме не слишком сильно отклоняется от истинного.
В чем проблема данной статьи, на мой взгляд?
Мне кажется, что авторы зашли не с того угла.
Во-первых, в их случае (а явно этого не прописано) константа ограничивающая разброс из предположения явно никак не оценивается, по крайней мере я не нашел в статье этого.
Во-вторых, и что более проблемно, существует E-SG (см.картинку 3). E-SG является более сильным условием, чем они предлагают в своем предположении. Более того, они неявно приближают обусловленность своей задачи к E-SG сценарию, так как несонаправленные градиенты начинают зануляться с большей вероятностью - очевидно, что разброс становится меньше.
В-третьих, уже есть методы для достижения E-SG, в частности адаптивный батчинг, в частности для случаев когда мы близки к решению - AdLoCo, который я предложил в своей последней статье.
Безусловно, научный вклад у статьи есть - с вычислительной точки зрения (если не смотреть другие аспекты по типу распределенного обучения, где AdLoCo побьет их) это более простой метод, и он очень хорошо рассмотрен с точки зрения взаимодействия со спецификой трансформеров.
Не знаю, может написать им, спросить?
Если вы со мной не согласны, то пишите в комментариях - подискутируем. Может быть я тупой и что-то не понял :)
Ссылка на статью
1❤20👍4🤔1🤡1