Sam Altman вызвали в US сенат
overall, по сравнению с другими слушаниями, все прошло очень позитивно - было видно, что всех действительно поражает что могут текущие технологии
основные моменты
- (1) lost of jobs - фрилансеров копирайтеров GPT хорошо заменяет, и так-то не только их. Altman намекал, что GPT - это tool, и люди просто начнут лучше/быстрее работать с ней как в индустриальную революцию, но есть одни нюанс: индустриальная революция не была настолько стремительной.
- (2) privacy - в US нет национального закона про приватность пользовательских данных как в EU, а значит все написанное вам в интернетах может попасть в обучающую выборку хотите вы этого или нет;
- (3) copyright - в US также не проработан закон об авторском праве в области Generative AI, т.е. если вы написали песню, песню скормили в AI, потому что она была где-то на просторах интернета, а потом кто-то сгенерировал новую похожую на вашу, то... ну, все сложно, royalty не будет.
- (4) misinformation - deepfakes и прочие вещи, которые могут подорвать веру в бренд/личность, либо просто вызвать панику
- (5) security - те же самые deepfake и voice cloning иногда могут обойти биометрические защиты. последствия, думаю, понятны
- (6) harmful requests - опять же, DANN и "а как мне собрать X в домашних условиях"
- (7) manipulation behaviour/opinions - вспоминаем историю с Cambridge Analytica, только теперь каждый через GPT и DANN. и уже есть статьи,. что LLM могут предсказывать итоги опросов для ЦА
- (8) children - отдельная тема про все выше через призму детей и из обучения
- и, конечно же, (9) degradation of free elections in America - мы про сенат CША говорим, что еще может волновать?
а что же делать?
- создавать AI Safety agency, аналог CERN, чтобы это дело регулировать, лицензировать
- привлекать экспертов из академии для аудита (вот тебе и new jobs)
- выработать ai safety standards / ai constitution, или разобрать где какой AI можно и с какими проверками
хорошие новости
- сенат открыто признает свою несостоятельность в вопросе AI
- все понимают, что прогресс не остановить
- строго регулировать independent researchers и open source не собираются, т.е. сфокусироваться хотят именно на кейсах деплоя AI в прод на кучу людей
заставляет задуматься
- сенат привык работать годами, прорабатывая законы, что в терминах AI = вечность.
- нормально регулировать бюрократией настолько широкую тему - сложно, либо ты прибьешь все, либо будет куча лазеек.
- все хотят ввести transparency на данные, модель, compute... но что-то не видел я их в последних репортах GPT и PaLM 😅
короче говоря, факт того, что такие слушания начались - это сильный шаг. с учетом того, какой прогресс произошел за последние два года, все консерны более чем оправданы.
отдельно занятный момент: по ходу слушания была мысль, что Altman - красавчик, такую технологию сделал, а вот Microsoft и Google, как бизнесы, спешат и запускают все в прод без AI safety. есть ощущение, что Altman очень предприимчивый красавчик
PS. мой личный топ всего слушанья - Mr. Kennedy, самая живая пятиминутка была. "Mr. Altman, here is your shot!"
overall, по сравнению с другими слушаниями, все прошло очень позитивно - было видно, что всех действительно поражает что могут текущие технологии
основные моменты
- (1) lost of jobs - фрилансеров копирайтеров GPT хорошо заменяет, и так-то не только их. Altman намекал, что GPT - это tool, и люди просто начнут лучше/быстрее работать с ней как в индустриальную революцию, но есть одни нюанс: индустриальная революция не была настолько стремительной.
- (2) privacy - в US нет национального закона про приватность пользовательских данных как в EU, а значит все написанное вам в интернетах может попасть в обучающую выборку хотите вы этого или нет;
- (3) copyright - в US также не проработан закон об авторском праве в области Generative AI, т.е. если вы написали песню, песню скормили в AI, потому что она была где-то на просторах интернета, а потом кто-то сгенерировал новую похожую на вашу, то... ну, все сложно, royalty не будет.
- (4) misinformation - deepfakes и прочие вещи, которые могут подорвать веру в бренд/личность, либо просто вызвать панику
- (5) security - те же самые deepfake и voice cloning иногда могут обойти биометрические защиты. последствия, думаю, понятны
- (6) harmful requests - опять же, DANN и "а как мне собрать X в домашних условиях"
- (7) manipulation behaviour/opinions - вспоминаем историю с Cambridge Analytica, только теперь каждый через GPT и DANN. и уже есть статьи,. что LLM могут предсказывать итоги опросов для ЦА
- (8) children - отдельная тема про все выше через призму детей и из обучения
- и, конечно же, (9) degradation of free elections in America - мы про сенат CША говорим, что еще может волновать?
а что же делать?
- создавать AI Safety agency, аналог CERN, чтобы это дело регулировать, лицензировать
- привлекать экспертов из академии для аудита (вот тебе и new jobs)
- выработать ai safety standards / ai constitution, или разобрать где какой AI можно и с какими проверками
хорошие новости
- сенат открыто признает свою несостоятельность в вопросе AI
- все понимают, что прогресс не остановить
- строго регулировать independent researchers и open source не собираются, т.е. сфокусироваться хотят именно на кейсах деплоя AI в прод на кучу людей
заставляет задуматься
- сенат привык работать годами, прорабатывая законы, что в терминах AI = вечность.
- нормально регулировать бюрократией настолько широкую тему - сложно, либо ты прибьешь все, либо будет куча лазеек.
- все хотят ввести transparency на данные, модель, compute... но что-то не видел я их в последних репортах GPT и PaLM 😅
короче говоря, факт того, что такие слушания начались - это сильный шаг. с учетом того, какой прогресс произошел за последние два года, все консерны более чем оправданы.
отдельно занятный момент: по ходу слушания была мысль, что Altman - красавчик, такую технологию сделал, а вот Microsoft и Google, как бизнесы, спешат и запускают все в прод без AI safety. есть ощущение, что Altman очень предприимчивый красавчик
PS. мой личный топ всего слушанья - Mr. Kennedy, самая живая пятиминутка была. "Mr. Altman, here is your shot!"
YouTube
OpenAI CEO Sam Altman testifies during Senate hearing on AI oversight — 05/16/23
The Senate Judiciary Committee holds a hearing examining the rules for artificial intelligence.
“Artificial intelligence urgently needs rules and safeguards to address its immense promise and pitfalls,” said U.S. Senator and Committee Chair Richard Blumenthal.…
“Artificial intelligence urgently needs rules and safeguards to address its immense promise and pitfalls,” said U.S. Senator and Committee Chair Richard Blumenthal.…
🔥2
20VC провели подкаст/интервью с Emad Mostaque - CEO stability.ai
* от всей этой гонки с большими моделями выиграет именно гугл. гугл был напуган, но теперь реорганизовался (слияние Brain и DeepMind), а AI-powered продуктов у него больше всех. при этом TPU - лучше GPU, стабильнее, так что гугл подкован в AI куда больше, чем кажется. а OpenAI - это innovation as a core, но без реального применения - это не бизнес.
* текущий AI - пузырь. слишком много денег из воздуха, раунды за звездочки на github, и 1kk$/year за PhD. поэтому и подписал петицию, чтобы остановить хаос и дать людям разобраться, что такое эти LLM.
* stability будет все выкладывать в open source, скоро выложат LLM и stability chat. business model stability на пальцах: развивать open source, а потом строить нормальные продукты с коммерческой лицензией поверх. сейчас работаю с Amazon, etc - помогают развивать кастомные модели в компаниях, но для многих компаний сразу. данные - приватные, модели - открытые, экспертиза - в stability.
* rubbish in = rubbish out: в больших LLM верит в чистые данные, а не web scrapping, поэтому ожидает national datasets для national LLMs. уже работают с несколькими governments & universities. enterprise не может использовать black boxes, не может не знать какие данные были использованы для обучения бота aka не может использовать какой-то reddit для ответа своим клиентам, чтобы получить reddit ответ :)
* LLM идут в personalised foundational models, aka cookies для моделей. никому не нужна усредненная модель, всем нужна модель, которая понимает конкретно вас.
* текущий рекламный бизнес может умереть: никто не будет переходить на сайты (и кликать рекламу) - все будут просто использовать выжимку LLM. другая сторона медали - fake news, поэтому ждем запуска галочек везде.
* прогресс за год: PALM (540b), Chinchilla (67b), Palm2 (14b) => в следующем году мы не будем использовать модели, которые мы используем сейчас.
* технологии становятся быстрее и проще каждый день, но деньги, деньги - в продукте. поэтому нам нужны продакты, которые смогу принести value для пользователей.
* от всей этой гонки с большими моделями выиграет именно гугл. гугл был напуган, но теперь реорганизовался (слияние Brain и DeepMind), а AI-powered продуктов у него больше всех. при этом TPU - лучше GPU, стабильнее, так что гугл подкован в AI куда больше, чем кажется. а OpenAI - это innovation as a core, но без реального применения - это не бизнес.
* текущий AI - пузырь. слишком много денег из воздуха, раунды за звездочки на github, и 1kk$/year за PhD. поэтому и подписал петицию, чтобы остановить хаос и дать людям разобраться, что такое эти LLM.
* stability будет все выкладывать в open source, скоро выложат LLM и stability chat. business model stability на пальцах: развивать open source, а потом строить нормальные продукты с коммерческой лицензией поверх. сейчас работаю с Amazon, etc - помогают развивать кастомные модели в компаниях, но для многих компаний сразу. данные - приватные, модели - открытые, экспертиза - в stability.
* rubbish in = rubbish out: в больших LLM верит в чистые данные, а не web scrapping, поэтому ожидает national datasets для national LLMs. уже работают с несколькими governments & universities. enterprise не может использовать black boxes, не может не знать какие данные были использованы для обучения бота aka не может использовать какой-то reddit для ответа своим клиентам, чтобы получить reddit ответ :)
* LLM идут в personalised foundational models, aka cookies для моделей. никому не нужна усредненная модель, всем нужна модель, которая понимает конкретно вас.
* текущий рекламный бизнес может умереть: никто не будет переходить на сайты (и кликать рекламу) - все будут просто использовать выжимку LLM. другая сторона медали - fake news, поэтому ждем запуска галочек везде.
* прогресс за год: PALM (540b), Chinchilla (67b), Palm2 (14b) => в следующем году мы не будем использовать модели, которые мы используем сейчас.
* технологии становятся быстрее и проще каждый день, но деньги, деньги - в продукте. поэтому нам нужны продакты, которые смогу принести value для пользователей.
YouTube
Emad Mostaque: These 5 Companies Will Win the AI War; Why We Need National Data Sets | E1015
Emad Mostaque is the Co-Founder and CEO @ StabilityAI, the parent company of Stable Diffusion. Stability are building the foundation to activate humanity’s potential. To date, Emad has raised over $110M with Stability with the latest round reportedly pricing…
🥰1
бесконечно можно смотреть на три вещи: как горит огонь, как течет вода, и как ресерчер переписывает conclusion перед дедлайном, чтобы впихнуть невпихуемое, но чтобы не слишком сильно перестараться - за все ведь придется отвечать перед reviewer#2
🤩1
I am thrilled to announce...Katakomba 🙌
После долгих исследований и экспериментов, проверок и перепроверок, доскональной проработки UI/UX, мы наконец-то создали его - лучший Github репозиторий для темной темы! 🤯
From night deadlines practitioners for night deadlines practitioners, with love. 🖤
После долгих исследований и экспериментов, проверок и перепроверок, доскональной проработки UI/UX, мы наконец-то создали его - лучший Github репозиторий для темной темы! 🤯
From night deadlines practitioners for night deadlines practitioners, with love. 🖤
🤩1
(1) Если кто-то, так же как и мы любит RL и хочет наблюдать его приход в everyday life, то мы выпустили важное обновление для нашей либы CORL - добавили бенчмарк еще и в Offline-to-Online режиме. По сравнению с чуть более устоявшимся Offline RL, Offline-to-Online обладает своим шармом и челенджами, которые еще только предстоит решить. Кому интересно - чекайте таблички, wandb-репорты, наличие star на CORL 🌝
https://github.com/tinkoff-ai/CORL
https://github.com/tinkoff-ai/CORL
GitHub
GitHub - tinkoff-ai/CORL: High-quality single-file implementations of SOTA Offline and Offline-to-Online RL algorithms: AWAC, BC…
High-quality single-file implementations of SOTA Offline and Offline-to-Online RL algorithms: AWAC, BC, CQL, DT, EDAC, IQL, SAC-N, TD3+BC, LB-SAC, SPOT, Cal-QL, ReBRAC - tinkoff-ai/CORL
👍5🔥1
(2) Вторым нашим важным milestone стал запуск Katakomba - пака датасетов, тулов, и бенчмарков для решения NetHack через RL. От других RL сред Nethack отличается стохастичностью, процедурной генерацией уровней, и просто здоровенностью - уровней там 57. Короче говоря, не смотря на кажущуюся простоту, NetHack is hard to hack 🌚. Но опять же, кто хочет залететь на новый frontier RL research - таблички, wandb, кнопка "Star" - к вашим услугам 🌝
https://github.com/tinkoff-ai/katakomba
https://github.com/tinkoff-ai/katakomba
❤3
Давеча, Yoshua Bengio выпустил продолжение своего поста "AI Scientists Safe and Useful AI?" (тык), только на чуть более широкую аудиторию и уже в формате Q&A - FAQ on Catastrophic AI Risks (тык). Для всех, кто интересуется AI Safety не в формате "AI всех нас убьет - давайте разбомбим датацентры" - советую почитать, ибо тут все по полочкам, без истерик.
отчего вообще обсуждения?
AI сейчас используется практически в каждом тех. продукте. И с каждым годом глубина проникновения AI - только растет: все больше продуктов, все больше задач автоматизируются. Нюанс лишь в том, что для достижения поставленных задач, AI может случайно решить их очень нестандартными методами. Старый-добрый пример из RL - (тык).
на подумать о AI alignment
Куча сил, ресурсов и денег сейчас брошены на то, чтобы не допустить AI обученный на common crawl web до пользователей, потому что там какой-то треш, токсичность, и вообще с нашими ценностями не сходится. Однако, common crawl web - это буквально нефильтрованная квинтэссенция человечества.
Как же так вышло, что он настолько не заалайнен с нашими ценностями? 🥴️️️️️️
Короче говоря, знает ли кто-то подвижки в областях образования/культуры из-за всех проблем AI alignment, а не выделение миллиардов на хотфиксы в виде тренеров и регуляторов?
отчего вообще обсуждения?
AI сейчас используется практически в каждом тех. продукте. И с каждым годом глубина проникновения AI - только растет: все больше продуктов, все больше задач автоматизируются. Нюанс лишь в том, что для достижения поставленных задач, AI может случайно решить их очень нестандартными методами. Старый-добрый пример из RL - (тык).
на подумать о AI alignment
Куча сил, ресурсов и денег сейчас брошены на то, чтобы не допустить AI обученный на common crawl web до пользователей, потому что там какой-то треш, токсичность, и вообще с нашими ценностями не сходится. Однако, common crawl web - это буквально нефильтрованная квинтэссенция человечества.
Как же так вышло, что он настолько не заалайнен с нашими ценностями? 🥴️️️️️️
Короче говоря, знает ли кто-то подвижки в областях образования/культуры из-за всех проблем AI alignment, а не выделение миллиардов на хотфиксы в виде тренеров и регуляторов?
Yoshua Bengio
AI Scientists: Safe and Useful AI? - Yoshua Bengio
Can we build AI systems that both immensely useful and safe in terms of avoiding any loss of control?
👍5
новый конкурент tf-idf - gzip 🤯
имхо, очень интересное продолжение идеи, что весь deep learning - это representation learning, т.е. представление информации в удобном виде для поиска и прочих задач.
подробности: “Low-Resource” Text Classification: A Parameter-Free Classification Method with Compressors (тык)
PS. забавно, что с tf-idf так и не сравнились 🥴️️️️️️
имхо, очень интересное продолжение идеи, что весь deep learning - это representation learning, т.е. представление информации в удобном виде для поиска и прочих задач.
подробности: “Low-Resource” Text Classification: A Parameter-Free Classification Method with Compressors (тык)
PS. забавно, что с tf-idf так и не сравнились 🥴️️️️️️
🥴6😁2🔥1
All Views Are My Own пост.
Как говорил мой любимый Jürgen Schmidhuber: science is about self-correction [1]. Что ж, это, вероятно, также касается и весьма спорных заявлений, которые могут продвигаться в СМИ про успехи в этой самое science. Хочу внести свой correction: любые утверждения на тему “Российские ученые обошли DeepMind” - не более чем недальновидная провокация/кликбейт. Я с уважением отношусь к коллегам и своим друзьям-знакомым из DeepMInd, и действительно поражаюсь теми достижениями, которые DeepMind показывает - AlphaGo, AlphaStar, и особенно AlphaFold, который находится на стыке компьютерных и естественных наук. Любые провокационные заявления - считаю некорректными.
В общем, очень надеюсь, что наука и дальше продолжит движение на благо всего человечества. Всех обнял.
[1] https://people.idsia.ch/~juergen/deep-learning-history.html
PS. Для тех, кто хочет узнавать корректные новости про достижения Tinkoff Research - призываю подписаться на Желтый AI (https://news.1rj.ru/str/tinkoffai). Тут новости без кликбейта. А еще там иногда есть мемы :)
Как говорил мой любимый Jürgen Schmidhuber: science is about self-correction [1]. Что ж, это, вероятно, также касается и весьма спорных заявлений, которые могут продвигаться в СМИ про успехи в этой самое science. Хочу внести свой correction: любые утверждения на тему “Российские ученые обошли DeepMind” - не более чем недальновидная провокация/кликбейт. Я с уважением отношусь к коллегам и своим друзьям-знакомым из DeepMInd, и действительно поражаюсь теми достижениями, которые DeepMind показывает - AlphaGo, AlphaStar, и особенно AlphaFold, который находится на стыке компьютерных и естественных наук. Любые провокационные заявления - считаю некорректными.
В общем, очень надеюсь, что наука и дальше продолжит движение на благо всего человечества. Всех обнял.
[1] https://people.idsia.ch/~juergen/deep-learning-history.html
PS. Для тех, кто хочет узнавать корректные новости про достижения Tinkoff Research - призываю подписаться на Желтый AI (https://news.1rj.ru/str/tinkoffai). Тут новости без кликбейта. А еще там иногда есть мемы :)
👍6
Разбирая newsletters после NeurIPS review (оно наконец закончилось и для авторов, и для ревьюеров), наткнулся на новость о том, что "OpenAI confirms that AI writing detectors don’t work" (тык). Собственно, немного мыслей на тему "зачем же эти детекторы всем так нужны?".
Много чем опаснен Generative AI, но особенно - misinformation, генерацией фейков, и прочего провокационного. Кто виноват, если какой-то deepfake навредит вашей репутации, или с его помощью провернут что-то еще - большой вопрос. Однако, следите за руками...
(1) Положим, у нас есть Gen-AI сервис... который работает по ежемесячной подписке по кредитке (KYC на стороне банка), и у которого есть строгие terms of use. Как пример можно взять принципы работы Steam.
(2) Положим, какой-то пользователь решил сгенерировать что-то эдакое и выложить в public.
(3) Если маркировки нет, то найти этого пользователя будет проблематично - скорее все начнут возмущаться большими компаниями, требовать закрыть/запретить/зарегулировать.
(4) Но если мы умеем маркировать... у этих самых компаний есть полное право и все возможности найти того самого пользователя и призвать его к ответу за игнорирование terms of use. И главное - скинуть с себя весь негатив, ведь все теперь по закону и по правилам.
В общем, очень просто и элегантно решается вопрос ответственности. Как итог таких размышлений, что если обучаете - лучше задуматься о маркировке, чтобы прикрываться от кейсов неправомерного использования; если генерируете - лучше задуматься за какие кредиты платите и кем/как они используются, чтобы к вам не пришли.
Такие мысли, другие идеи/предложения - welcome, интересно обсудить.
Много чем опаснен Generative AI, но особенно - misinformation, генерацией фейков, и прочего провокационного. Кто виноват, если какой-то deepfake навредит вашей репутации, или с его помощью провернут что-то еще - большой вопрос. Однако, следите за руками...
(1) Положим, у нас есть Gen-AI сервис... который работает по ежемесячной подписке по кредитке (KYC на стороне банка), и у которого есть строгие terms of use. Как пример можно взять принципы работы Steam.
(2) Положим, какой-то пользователь решил сгенерировать что-то эдакое и выложить в public.
(3) Если маркировки нет, то найти этого пользователя будет проблематично - скорее все начнут возмущаться большими компаниями, требовать закрыть/запретить/зарегулировать.
(4) Но если мы умеем маркировать... у этих самых компаний есть полное право и все возможности найти того самого пользователя и призвать его к ответу за игнорирование terms of use. И главное - скинуть с себя весь негатив, ведь все теперь по закону и по правилам.
В общем, очень просто и элегантно решается вопрос ответственности. Как итог таких размышлений, что если обучаете - лучше задуматься о маркировке, чтобы прикрываться от кейсов неправомерного использования; если генерируете - лучше задуматься за какие кредиты платите и кем/как они используются, чтобы к вам не пришли.
Такие мысли, другие идеи/предложения - welcome, интересно обсудить.
Ars Technica
OpenAI confirms that AI writing detectors don’t work
No detectors "reliably distinguish between AI-generated and human-generated content."
👍2❤1
В последнее время меня часто спрашивают (нет): "Серега, как вам в Tinkoff Research удается обгонять закон Мура по ускорению ИИ?". Мол,
(1) Ученые из Tinkoff Research открыли алгоритм для увеличения скорости обучения искусственного интеллекта в 20 раз (тык)
(2) Ученые из Tinkoff Research создали самый эффективный среди мировых аналогов алгоритм для обучения и адаптации искусственного интеллекта (тык)
Что ж, следите за руками...
Во-первых, надо понимать, что для упрощения восприятия широкой аудиторией, во всех подобных новостях, все многообразие ML, CV, NLP, RecSys, Speech, TimeSeries, RL становится просто "ИИ". Мол, когда мы разбираемся в новой теме, нам не нужна вся специфика, которую мы все равно не поймем - нужны основные концепты, интуиция, база.
Во-вторых, если рассматривать прогресс по ускорению методов в Offline RL (чувствуете специфика началась?), то... нам действительно удается все так ускорять.
В далеком 2021 вышли новые SOTA в Offline RL - SAC-N и EDAC (тык). SOTA результаты там, безусловно, были, но ценой обучения ансамбля в 500 сеток вместо 1 как это было обычно.
Как можно понять, обучать 500 сеток - довольно медленно, поэтому за 2022 мы придумали как это все дело ускорить и как обучать значительно меньше сеток. Так получился SAC-RND (тык, тут Саша красавчик), который в 20 раз быстрее SAC-N (Appendix F в статье).
Параллельно с SAC-N, мы еще копали трюки-хаки, которые были предложены в Offline RL за последние пару лет. Сначала все было грустно, а потом идея раскрылась и получился ReBRAC (тык, тут Денис красавчик). И ReBRAC уже полностью ensemble-free, там одна сетка, как у старого-доброго Offline RL. И по понятным причинам, работает он еще в 4 раза быстрее (Appendix E), но с тем же SOTA результатом. Из крутого - еще и в offline-to-online SOTA поставили.
Кратко, эту историю можно запомнить как "Ensemble-based ORL: туда и обратно".
Однако, кроме ускорения и SOTA результатов, есть, как мне кажется, один очень важный тейк из всей этой истории: ReBRAC (2023) - это допиленный TD3+BC (2021), который, в свою очередь, допиленный TD3 (2018); получается, что несмотря на какое-то космическое количество работ по Offline RL, реальный прогресс... ну, он как бы есть 😅. И вот об этом интересно подумать, если какими-то ML ресечами занимаетесь.
(1) Ученые из Tinkoff Research открыли алгоритм для увеличения скорости обучения искусственного интеллекта в 20 раз (тык)
(2) Ученые из Tinkoff Research создали самый эффективный среди мировых аналогов алгоритм для обучения и адаптации искусственного интеллекта (тык)
Что ж, следите за руками...
Во-первых, надо понимать, что для упрощения восприятия широкой аудиторией, во всех подобных новостях, все многообразие ML, CV, NLP, RecSys, Speech, TimeSeries, RL становится просто "ИИ". Мол, когда мы разбираемся в новой теме, нам не нужна вся специфика, которую мы все равно не поймем - нужны основные концепты, интуиция, база.
Во-вторых, если рассматривать прогресс по ускорению методов в Offline RL (чувствуете специфика началась?), то... нам действительно удается все так ускорять.
В далеком 2021 вышли новые SOTA в Offline RL - SAC-N и EDAC (тык). SOTA результаты там, безусловно, были, но ценой обучения ансамбля в 500 сеток вместо 1 как это было обычно.
Как можно понять, обучать 500 сеток - довольно медленно, поэтому за 2022 мы придумали как это все дело ускорить и как обучать значительно меньше сеток. Так получился SAC-RND (тык, тут Саша красавчик), который в 20 раз быстрее SAC-N (Appendix F в статье).
Параллельно с SAC-N, мы еще копали трюки-хаки, которые были предложены в Offline RL за последние пару лет. Сначала все было грустно, а потом идея раскрылась и получился ReBRAC (тык, тут Денис красавчик). И ReBRAC уже полностью ensemble-free, там одна сетка, как у старого-доброго Offline RL. И по понятным причинам, работает он еще в 4 раза быстрее (Appendix E), но с тем же SOTA результатом. Из крутого - еще и в offline-to-online SOTA поставили.
Кратко, эту историю можно запомнить как "Ensemble-based ORL: туда и обратно".
Однако, кроме ускорения и SOTA результатов, есть, как мне кажется, один очень важный тейк из всей этой истории: ReBRAC (2023) - это допиленный TD3+BC (2021), который, в свою очередь, допиленный TD3 (2018); получается, что несмотря на какое-то космическое количество работ по Offline RL, реальный прогресс... ну, он как бы есть 😅. И вот об этом интересно подумать, если какими-то ML ресечами занимаетесь.
❤15👍4🔥3🤔1
На этих выходных заходил на ODS обсудить что-как продвигается в RL в 2023м.
Если коротко,
- много RLHF, алаймента и LLM в RL - это вообще тренд всего 2023, тут без внезапностей. зачем там именно RL хорошо пояснял John Schulman (тык)
- еще одна "игра" была решена с помощью RL. теперь это first-person view drone racing, что так-то сильный заход RL в реальным мир
- + Lyft без захода реальный мир +30mln/y с 2021 делает оптимизируя матчинг. думайте
- имхо, RL нашел свою успешную переформулировку в виде In-Context RL, а RL'щики распробовали Jax и начали новые Jax-based Envs чуть ли не каждую неделю выпускать
- новые SOTA на Atari 100k и D4RL, кстати, тоже на JAX; приятно, что SOTA на D4RL - 2 раза от Tinkoff Research за 2023й
Подробнее
- видео (тык)
- слайды (тык)
PS. ну и раз мы про RL говорим, не забываем поддержать CORL (тык), Katakomba (тык), XLand-MiniGrid (тык)
Если коротко,
- много RLHF, алаймента и LLM в RL - это вообще тренд всего 2023, тут без внезапностей. зачем там именно RL хорошо пояснял John Schulman (тык)
- еще одна "игра" была решена с помощью RL. теперь это first-person view drone racing, что так-то сильный заход RL в реальным мир
- + Lyft без захода реальный мир +30mln/y с 2021 делает оптимизируя матчинг. думайте
- имхо, RL нашел свою успешную переформулировку в виде In-Context RL, а RL'щики распробовали Jax и начали новые Jax-based Envs чуть ли не каждую неделю выпускать
- новые SOTA на Atari 100k и D4RL, кстати, тоже на JAX; приятно, что SOTA на D4RL - 2 раза от Tinkoff Research за 2023й
Подробнее
- видео (тык)
- слайды (тык)
PS. ну и раз мы про RL говорим, не забываем поддержать CORL (тык), Katakomba (тык), XLand-MiniGrid (тык)
🔥8👍4
вопрос от подписчика:
> а кого еще почитать по RL в production? говорил на ДатаЕлке
так как лично я очень верю в RL-RecSys (даже в конце 2020 делал обзор (тык), то всегда рекомендую следить за Minmin Chen (тык). "Top-k off-policy correction for a REINFORCE recommender system" (тык) - обязательна к прочтению.
кроме этого, советую посмотреть что делает Netflix (тык, тык, тык). "Everything is recommendation" for Netflix.
и чтобы разбавить этот RecSys-движ, есть еще Warren B. Powell. Автор Reinforcement Learning and Stochastic Optimization, с несколько альтернативными взглядами на RL нежели Sutton, Bertsekas, и Barto. И с большим фокусом на supply chain optimization.
> а кого еще почитать по RL в production? говорил на ДатаЕлке
так как лично я очень верю в RL-RecSys (даже в конце 2020 делал обзор (тык), то всегда рекомендую следить за Minmin Chen (тык). "Top-k off-policy correction for a REINFORCE recommender system" (тык) - обязательна к прочтению.
кроме этого, советую посмотреть что делает Netflix (тык, тык, тык). "Everything is recommendation" for Netflix.
и чтобы разбавить этот RecSys-движ, есть еще Warren B. Powell. Автор Reinforcement Learning and Stochastic Optimization, с несколько альтернативными взглядами на RL нежели Sutton, Bertsekas, и Barto. И с большим фокусом на supply chain optimization.
👍7🔥2
Welcome to the Night City! Do you want to reset your cookies advertiser weights?
OpenAI опять показали, что они "ships like no other", и зарелизили Sora (тык). Если коротко, можно теперь контролируемо генерировать примерно минуту видео около-реального качества. И это будет настоящее видео, а не ожившая картинка. И значительно реалистиченее чем у аналогов. Хотя артефакты все еще имеются, их количество vs качество видео в целом - выглядит как minor problem.
> А при чем тут киберпанк?
В далеком 2021м, мы с Артуром Кузиным (привет грандмастерам) и другими CV Heads (да, чатик так буквально называется) как-то собрались обсудить что-как в CV и что там дальше будет. Одно из предсказаний, в которое я больше всего ждал было “персонализированная генеративная реклама через 5 лет". Т.е. как только мы получаем возможность генерировать картинки/видео, то просто добавляем туда щепоку RecSys, связываем с кнопкой "продать" и радуемся, что нашли product-market-fit. С учетом того, что генераторы картинок так уже используются - жду генеративную видео рекламу в этом году.
> А что за advertiser weights?
После выхода ChatGPT и кучи LLM, появился новый понятный тренд - локальные LLM. Особенно активно в этом направлении копают Apple (mlx, research), которые под свой Apple silicon начали наконец то ML экосистему делать нормальную (для intel/amd смысла им вкладываться было мало). А если объединить это с federated learning (Federated LoRA), то получаем возможность поставки локальных foundational models с sft/rlhf дотюниванием прямо на устройстве.
Так что, ждем локальные multimodal foundation models, которые будут и рекламные посты тебе в ленту подмешивать, и картинки/видео генерить под тебя лично. И все секьюрно, локально, на устройстве. 👌️️️️️️
PS. занятный факт - вчера еще Gemini Pro 1.5 вышла, но кому это сейчас интересно? 😅️️️️️️
OpenAI опять показали, что они "ships like no other", и зарелизили Sora (тык). Если коротко, можно теперь контролируемо генерировать примерно минуту видео около-реального качества. И это будет настоящее видео, а не ожившая картинка. И значительно реалистиченее чем у аналогов. Хотя артефакты все еще имеются, их количество vs качество видео в целом - выглядит как minor problem.
> А при чем тут киберпанк?
В далеком 2021м, мы с Артуром Кузиным (привет грандмастерам) и другими CV Heads (да, чатик так буквально называется) как-то собрались обсудить что-как в CV и что там дальше будет. Одно из предсказаний, в которое я больше всего ждал было “персонализированная генеративная реклама через 5 лет". Т.е. как только мы получаем возможность генерировать картинки/видео, то просто добавляем туда щепоку RecSys, связываем с кнопкой "продать" и радуемся, что нашли product-market-fit. С учетом того, что генераторы картинок так уже используются - жду генеративную видео рекламу в этом году.
> А что за advertiser weights?
После выхода ChatGPT и кучи LLM, появился новый понятный тренд - локальные LLM. Особенно активно в этом направлении копают Apple (mlx, research), которые под свой Apple silicon начали наконец то ML экосистему делать нормальную (для intel/amd смысла им вкладываться было мало). А если объединить это с federated learning (Federated LoRA), то получаем возможность поставки локальных foundational models с sft/rlhf дотюниванием прямо на устройстве.
Так что, ждем локальные multimodal foundation models, которые будут и рекламные посты тебе в ленту подмешивать, и картинки/видео генерить под тебя лично. И все секьюрно, локально, на устройстве. 👌️️️️️️
PS. занятный факт - вчера еще Gemini Pro 1.5 вышла, но кому это сейчас интересно? 😅️️️️️️
👍5👏1
NLP research after ChatGPT: more passion, more energy, more footwork!
Мы тут немного хайпим в HF трендах и X: upvote собираем тут, repost'ы тут, а подробности из первых рук можно узнать тут. И все выглядит очень неплохо(еще лучше будет когда все прожмут upvote и repost, смекаешь?) , но что еще больше поражает - статья была написана за меньше чем 2 месяца 🤯. Буквально 27 декабря начали обсуждать идею, а 15 февраля уже отправили статью - провели новогодние с пользой, так сказать.
Что еще больше поражает, что 2-3 месяца на статью - это текущие реалии NLP исследований после ChatGPT, когда кучу исследовательских групп развернули в LLM и Alignment. Так что если занимаетесь исследованиями в NLP - сил вам и ментального здоровья! Ибо бежать приходится теперь в 2-3 раза быстрее, чтобы успевать за трендами. 🏃🏃♂️🏃♀️
Мы тут немного хайпим в HF трендах и X: upvote собираем тут, repost'ы тут, а подробности из первых рук можно узнать тут. И все выглядит очень неплохо
Что еще больше поражает, что 2-3 месяца на статью - это текущие реалии NLP исследований после ChatGPT, когда кучу исследовательских групп развернули в LLM и Alignment. Так что если занимаетесь исследованиями в NLP - сил вам и ментального здоровья! Ибо бежать приходится теперь в 2-3 раза быстрее, чтобы успевать за трендами. 🏃🏃♂️🏃♀️
huggingface.co
Paper page - Linear Transformers with Learnable Kernel Functions are Better
In-Context Models
In-Context Models
Join the discussion on this paper page
🔥14❤1
So Good They Can't Ignore You
Я не читаю каждый финансовый отчет Тинькофф за год, но когда читаю - ожидаю увидеть там Tinkoff Research (тык).
PS. гайз, работаем 🤝️️️️
Я не читаю каждый финансовый отчет Тинькофф за год, но когда читаю - ожидаю увидеть там Tinkoff Research (тык).
PS. гайз, работаем 🤝️️️️
🔥21
Research4Kids 2.0
В далекие времена прошлого года, мы в топ коллабе Tinkoff Research & Образования провели Research4Kids - наш научно-исследовательский марафон по куче ВУЗов, на котором студенты Tlab, а также научные руководители из Tinkoff Research, рассказывали про то, чем вообще занимаются и на какие конференции в итоге залетают.
В прошлом году, мы были скромные, поэтому ездили только по университетам Москвы, Питера, и Казани. В этом году мы идем дальше и сегодня начинаем турне Research4Kids в формате Минск-Спб-Казань-Мск-Екб-Новосиб-Астана! Подробнее тут. Ну и всех ждем, конечно же.
PS. А про прошлый опыт TLab можно почитать тут и тут.
В далекие времена прошлого года, мы в топ коллабе Tinkoff Research & Образования провели Research4Kids - наш научно-исследовательский марафон по куче ВУЗов, на котором студенты Tlab, а также научные руководители из Tinkoff Research, рассказывали про то, чем вообще занимаются и на какие конференции в итоге залетают.
В прошлом году, мы были скромные, поэтому ездили только по университетам Москвы, Питера, и Казани. В этом году мы идем дальше и сегодня начинаем турне Research4Kids в формате Минск-Спб-Казань-Мск-Екб-Новосиб-Астана! Подробнее тут. Ну и всех ждем, конечно же.
PS. А про прошлый опыт TLab можно почитать тут и тут.
🔥9👍4