NEW BOT Телеграм, страница

Пробрался в логово корпоратов 😈😈😈

👍34🌭7😁3💩3❤1

3.15K views16:03

Когда онлайн помогает оффлайну.
В последний год я сконцентрировался на изучении применения адаптивного батчирования для обучения современных больших моделей. Это когда на каждом шаге вы динамически выбираете размер батча, что позволяет и эффективнее использовать ресурсы, и быстрее обучать модели.
А еще я фанат многоруких бандитов - куда я их только не пихал, от финансов и клинических испытаний лекарственных препаратов до умных дейтинг-систем. Многорукий бандит это алгоритм онлайн оптимизации, когда у нас нет сложной среды (либо есть модель награды за действие), который выбирает на каждом шаге такое действие, чтобы максимизировать суммарную награду, поэтому и онлайн - учится в процессе.
И их можно поженить! Почти.
В этой статье, представленной на ICLR2025, исследователи взяли бандитов (картинка 1) не для выбора размера батча, а для непосредственно его формирования - какие примеры из выборки лучше всего взять в обучение в текущий момент?
Причем это получился как крутой теоретический результат (картинка 2), ибо они смогли улучшить второй член асимптотики и соответственно по теории их алгоритм быстрее учит нейронки, так и практический (картинка 3) - эксперименты реально работают лучше.
Поэтому, даже если вы занимаетесь LLMками и в гробу видали всю эту математику, к адаптивному батчингу советую все же присмотреться - за этим будущее эффективного обучения.
Поставьте классов/накидайте репостов, если хотите узнать подробности про бандитов, их математику и прикладное применение.

14👍87❤19🔥13🤮2🤡2

14.5K views09:44