ML-легушька – Telegram
ML-легушька
3.54K subscribers
1.42K photos
165 videos
6 files
95 links
Гений, стартапер, плейбой, филантроп
Для связи: @MLfroge
Download Telegram
Если кто увидит меня, то подходите :)
🔥367🤮2🤡1
ML-легушька
Если кто увидит меня, то подходите :)
Собственно, выступал вчера на мероприятии от ЦПМ для учителей, где собираются ученые и рассказывают про последние достижения в науке.
Я рассказывал про распределенное обучение и достижения в нем, более технически можно сказать, но вроде не сильно кокнул.
Мне понравились доклады и других выступающих. В частности, очень интересно про химию - там рассказывали про клик-реакции (способ просто, эффективно и быстро сшивать между собой биополимеры и в целом разные соединения) и фотокатализ - он упоминался еще в экологии, так как позволяет сделать химтех более экологичным.
Вообще мероприятие было крупное, во дворце пионеров прикольно, жаль что он как и все Воробьевы горы от меня далековато.
Новые красивые носки для привлечения внимания
🔥2510🥰7🤡1
Когда уже на маркетплейсах можно будет поставить фильтр «без генеративного ИИ»
😁4710🤔4❤‍🔥2🥰1
🔥3312🥰6😁2🤡1
для простоты рассмотрим баланс в кассе нашей организации. вот приход, вот расход. не трудно заметить, что никакой вашей зарплаты здесь нет — присутствует исключительно синтаксический сахар.
1🤡29😈76👍1😁1
Спят усталые игрушки змейки спят
Одеяла и подушки ждут ребят
❤‍🔥286🤡3🤮2
Какая же она крутая…
🥰207💯6🔥2🤡2
Очень странная статья от Google.
Основная идея: давайте случайно не применять обновления к параметрам, а если и применять - уменьшать их на величину, пропорциональную отклонению угла стохастического градиента от накопленного за последние итерации.
Они также привели некие доказательства сходимости своего метода.
В частности, очень интересен assumption 3 (см на картинке) - он говорит, что стохастический градиент по норме не слишком сильно отклоняется от истинного.
В чем проблема данной статьи, на мой взгляд?
Мне кажется, что авторы зашли не с того угла.
Во-первых, в их случае (а явно этого не прописано) константа ограничивающая разброс из предположения явно никак не оценивается, по крайней мере я не нашел в статье этого.
Во-вторых, и что более проблемно, существует E-SG (см.картинку 3). E-SG является более сильным условием, чем они предлагают в своем предположении. Более того, они неявно приближают обусловленность своей задачи к E-SG сценарию, так как несонаправленные градиенты начинают зануляться с большей вероятностью - очевидно, что разброс становится меньше.
В-третьих, уже есть методы для достижения E-SG, в частности адаптивный батчинг, в частности для случаев когда мы близки к решению - AdLoCo, который я предложил в своей последней статье.
Безусловно, научный вклад у статьи есть - с вычислительной точки зрения (если не смотреть другие аспекты по типу распределенного обучения, где AdLoCo побьет их) это более простой метод, и он очень хорошо рассмотрен с точки зрения взаимодействия со спецификой трансформеров.
Не знаю, может написать им, спросить?
Если вы со мной не согласны, то пишите в комментариях - подискутируем. Может быть я тупой и что-то не понял :)
Ссылка на статью
120👍4🤔1🤡1