NEW BOT Телеграм, страница

Собственно, выступал вчера на мероприятии от ЦПМ для учителей, где собираются ученые и рассказывают про последние достижения в науке.
Я рассказывал про распределенное обучение и достижения в нем, более технически можно сказать, но вроде не сильно кокнул.
Мне понравились доклады и других выступающих. В частности, очень интересно про химию - там рассказывали про клик-реакции (способ просто, эффективно и быстро сшивать между собой биополимеры и в целом разные соединения) и фотокатализ - он упоминался еще в экологии, так как позволяет сделать химтех более экологичным.
Вообще мероприятие было крупное, во дворце пионеров прикольно, жаль что он как и все Воробьевы горы от меня далековато.
Новые красивые носки для привлечения внимания

🔥25❤10🥰7🤡1

2.88K views18:49

ML-легушька

Когда уже на маркетплейсах можно будет поставить фильтр «без генеративного ИИ»

😁47❤10🤔4❤‍🔥2🥰1

2.89K views19:50

ML-легушька

🔥33❤12🥰6😁2🤡1

2.56K views08:09

ML-легушька

для простоты рассмотрим баланс в кассе нашей организации. вот приход, вот расход. не трудно заметить, что никакой вашей зарплаты здесь нет — присутствует исключительно синтаксический сахар.

1🤡29😈7❤6👍1😁1

2.2K views18:15

ML-легушька

Спят усталые игрушки змейки спят
Одеяла и подушки ждут ребят

❤‍🔥28❤6🤡3🤮2

1.98K views09:06

ML-легушька

Какая же она крутая…

🥰20❤7💯6🔥2🤡2

1.98K views09:17

ML-легушька

Очень странная статья от Google.
Основная идея: давайте случайно не применять обновления к параметрам, а если и применять - уменьшать их на величину, пропорциональную отклонению угла стохастического градиента от накопленного за последние итерации.
Они также привели некие доказательства сходимости своего метода.
В частности, очень интересен assumption 3 (см на картинке) - он говорит, что стохастический градиент по норме не слишком сильно отклоняется от истинного.
В чем проблема данной статьи, на мой взгляд?
Мне кажется, что авторы зашли не с того угла.
Во-первых, в их случае (а явно этого не прописано) константа ограничивающая разброс из предположения явно никак не оценивается, по крайней мере я не нашел в статье этого.
Во-вторых, и что более проблемно, существует E-SG (см.картинку 3). E-SG является более сильным условием, чем они предлагают в своем предположении. Более того, они неявно приближают обусловленность своей задачи к E-SG сценарию, так как несонаправленные градиенты начинают зануляться с большей вероятностью - очевидно, что разброс становится меньше.
В-третьих, уже есть методы для достижения E-SG, в частности адаптивный батчинг, в частности для случаев когда мы близки к решению - AdLoCo, который я предложил в своей последней статье.
Безусловно, научный вклад у статьи есть - с вычислительной точки зрения (если не смотреть другие аспекты по типу распределенного обучения, где AdLoCo побьет их) это более простой метод, и он очень хорошо рассмотрен с точки зрения взаимодействия со спецификой трансформеров.
Не знаю, может написать им, спросить?
Если вы со мной не согласны, то пишите в комментариях - подискутируем. Может быть я тупой и что-то не понял :)
Ссылка на статью

1❤20👍4🤔1🤡1

2.14K views19:59

About

Blog

Apps

Platform