Когда онлайн помогает оффлайну.
В последний год я сконцентрировался на изучении применения адаптивного батчирования для обучения современных больших моделей. Это когда на каждом шаге вы динамически выбираете размер батча, что позволяет и эффективнее использовать ресурсы, и быстрее обучать модели.
А еще я фанат многоруких бандитов - куда я их только не пихал, от финансов и клинических испытаний лекарственных препаратов до умных дейтинг-систем. Многорукий бандит это алгоритм онлайн оптимизации, когда у нас нет сложной среды (либо есть модель награды за действие), который выбирает на каждом шаге такое действие, чтобы максимизировать суммарную награду, поэтому и онлайн - учится в процессе.
И их можно поженить! Почти.
В этой статье, представленной на ICLR2025, исследователи взяли бандитов (картинка 1) не для выбора размера батча, а для непосредственно его формирования - какие примеры из выборки лучше всего взять в обучение в текущий момент?
Причем это получился как крутой теоретический результат (картинка 2), ибо они смогли улучшить второй член асимптотики и соответственно по теории их алгоритм быстрее учит нейронки, так и практический (картинка 3) - эксперименты реально работают лучше.
Поэтому, даже если вы занимаетесь LLMками и в гробу видали всю эту математику, к адаптивному батчингу советую все же присмотреться - за этим будущее эффективного обучения.
Поставьте классов/накидайте репостов, если хотите узнать подробности про бандитов, их математику и прикладное применение.
В последний год я сконцентрировался на изучении применения адаптивного батчирования для обучения современных больших моделей. Это когда на каждом шаге вы динамически выбираете размер батча, что позволяет и эффективнее использовать ресурсы, и быстрее обучать модели.
А еще я фанат многоруких бандитов - куда я их только не пихал, от финансов и клинических испытаний лекарственных препаратов до умных дейтинг-систем. Многорукий бандит это алгоритм онлайн оптимизации, когда у нас нет сложной среды (либо есть модель награды за действие), который выбирает на каждом шаге такое действие, чтобы максимизировать суммарную награду, поэтому и онлайн - учится в процессе.
И их можно поженить! Почти.
В этой статье, представленной на ICLR2025, исследователи взяли бандитов (картинка 1) не для выбора размера батча, а для непосредственно его формирования - какие примеры из выборки лучше всего взять в обучение в текущий момент?
Причем это получился как крутой теоретический результат (картинка 2), ибо они смогли улучшить второй член асимптотики и соответственно по теории их алгоритм быстрее учит нейронки, так и практический (картинка 3) - эксперименты реально работают лучше.
Поэтому, даже если вы занимаетесь LLMками и в гробу видали всю эту математику, к адаптивному батчингу советую все же присмотреться - за этим будущее эффективного обучения.
Поставьте классов/накидайте репостов, если хотите узнать подробности про бандитов, их математику и прикладное применение.
14👍82❤18🔥12🤮2🤡2
Почему я не могу разделить 10 яблок на 0 человек, но могу разделить 0 яблок на 10 человек?
В каком варианте все останутся сыты?
В каком варианте все останутся сыты?
❤30🤔3👎2💩1🤡1
This media is not supported in your browser
VIEW IN TELEGRAM
Кстати да, заехали в технолицей Истры вести подмосковную проектную школу. Я еще пофоткаю. Тут еще более крутая школа чем примаковка.
❤🔥30❤8👍3🤮1🤡1
Делал сегодня расшар детям на подмосковной проектной школе по оптимизации, и собрался конспект. Может быть будет полезно освежиться) Ну и он красивый.
💅16❤7🔥3🤮1
Кстати тренирую сборную Москвы на всерос по ИИ https://news.1rj.ru/str/ai_team_moscow/1124
Telegram
Сборная Москвы по ИИ
КТО ЕСТЬ КТО | ТРЕНЕРЫ СБОРНОЙ (часть 1)
Говорят, тренеры сборной по ИИ видят алгоритмы даже во сне...
Пришло время познакомиться! Они точно знают, как сделать из вас настоящих слонов всероса
Говорят, тренеры сборной по ИИ видят алгоритмы даже во сне...
Пришло время познакомиться! Они точно знают, как сделать из вас настоящих слонов всероса
🔥28❤7🥰2👎1🤮1