Decision Making in the Wild – Telegram
Decision Making in the Wild
443 subscribers
39 photos
1 video
2 files
72 links
@scitator random thoughts
Download Telegram
Sam Altman вызвали в US сенат
overall, по сравнению с другими слушаниями, все прошло очень позитивно - было видно, что всех действительно поражает что могут текущие технологии

основные моменты
- (1) lost of jobs - фрилансеров копирайтеров GPT хорошо заменяет, и так-то не только их. Altman намекал, что GPT - это tool, и люди просто начнут лучше/быстрее работать с ней как в индустриальную революцию, но есть одни нюанс: индустриальная революция не была настолько стремительной.
- (2) privacy - в US нет национального закона про приватность пользовательских данных как в EU, а значит все написанное вам в интернетах может попасть в обучающую выборку хотите вы этого или нет;
- (3) copyright - в US также не проработан закон об авторском праве в области Generative AI, т.е. если вы написали песню, песню скормили в AI, потому что она была где-то на просторах интернета, а потом кто-то сгенерировал новую похожую на вашу, то... ну, все сложно, royalty не будет.
- (4) misinformation - deepfakes и прочие вещи, которые могут подорвать веру в бренд/личность, либо просто вызвать панику
- (5) security - те же самые deepfake и voice cloning иногда могут обойти биометрические защиты. последствия, думаю, понятны
- (6) harmful requests - опять же, DANN и "а как мне собрать X в домашних условиях"
- (7) manipulation behaviour/opinions - вспоминаем историю с Cambridge Analytica, только теперь каждый через GPT и DANN. и уже есть статьи,. что LLM могут предсказывать итоги опросов для ЦА
- (8) children - отдельная тема про все выше через призму детей и из обучения
- и, конечно же, (9) degradation of free elections in America - мы про сенат CША говорим, что еще может волновать?

а что же делать?
- создавать AI Safety agency, аналог CERN, чтобы это дело регулировать, лицензировать
- привлекать экспертов из академии для аудита (вот тебе и new jobs)
- выработать ai safety standards / ai constitution, или разобрать где какой AI можно и с какими проверками

хорошие новости
- сенат открыто признает свою несостоятельность в вопросе AI
- все понимают, что прогресс не остановить
- строго регулировать independent researchers и open source не собираются, т.е. сфокусироваться хотят именно на кейсах деплоя AI в прод на кучу людей

заставляет задуматься
- сенат привык работать годами, прорабатывая законы, что в терминах AI = вечность.
- нормально регулировать бюрократией настолько широкую тему - сложно, либо ты прибьешь все, либо будет куча лазеек.
- все хотят ввести transparency на данные, модель, compute... но что-то не видел я их в последних репортах GPT и PaLM 😅

короче говоря, факт того, что такие слушания начались - это сильный шаг. с учетом того, какой прогресс произошел за последние два года, все консерны более чем оправданы.
отдельно занятный момент: по ходу слушания была мысль, что Altman - красавчик, такую технологию сделал, а вот Microsoft и Google, как бизнесы, спешат и запускают все в прод без AI safety. есть ощущение, что Altman очень предприимчивый красавчик

PS. мой личный топ всего слушанья - Mr. Kennedy, самая живая пятиминутка была. "Mr. Altman, here is your shot!"
🔥2
20VC провели подкаст/интервью с Emad Mostaque - CEO stability.ai

* от всей этой гонки с большими моделями выиграет именно гугл. гугл был напуган, но теперь реорганизовался (слияние Brain и DeepMind), а AI-powered продуктов у него больше всех. при этом TPU - лучше GPU, стабильнее, так что гугл подкован в AI куда больше, чем кажется. а OpenAI - это innovation as a core, но без реального применения - это не бизнес.

* текущий AI - пузырь. слишком много денег из воздуха, раунды за звездочки на github, и 1kk$/year за PhD. поэтому и подписал петицию, чтобы остановить хаос и дать людям разобраться, что такое эти LLM.

* stability будет все выкладывать в open source, скоро выложат LLM и stability chat. business model stability на пальцах: развивать open source, а потом строить нормальные продукты с коммерческой лицензией поверх. сейчас работаю с Amazon, etc - помогают развивать кастомные модели в компаниях, но для многих компаний сразу. данные - приватные, модели - открытые, экспертиза - в stability.

* rubbish in = rubbish out: в больших LLM верит в чистые данные, а не web scrapping, поэтому ожидает national datasets для national LLMs. уже работают с несколькими governments & universities. enterprise не может использовать black boxes, не может не знать какие данные были использованы для обучения бота aka не может использовать какой-то reddit для ответа своим клиентам, чтобы получить reddit ответ :)

* LLM идут в personalised foundational models, aka cookies для моделей. никому не нужна усредненная модель, всем нужна модель, которая понимает конкретно вас.

* текущий рекламный бизнес может умереть: никто не будет переходить на сайты (и кликать рекламу) - все будут просто использовать выжимку LLM. другая сторона медали - fake news, поэтому ждем запуска галочек везде.

* прогресс за год: PALM (540b), Chinchilla (67b), Palm2 (14b) => в следующем году мы не будем использовать модели, которые мы используем сейчас.

* технологии становятся быстрее и проще каждый день, но деньги, деньги - в продукте. поэтому нам нужны продакты, которые смогу принести value для пользователей.
🥰1
бесконечно можно смотреть на три вещи: как горит огонь, как течет вода, и как ресерчер переписывает conclusion перед дедлайном, чтобы впихнуть невпихуемое, но чтобы не слишком сильно перестараться - за все ведь придется отвечать перед reviewer#2
🤩1
I am thrilled to announce...Katakomba 🙌
После долгих исследований и экспериментов, проверок и перепроверок, доскональной проработки UI/UX, мы наконец-то создали его - лучший Github репозиторий для темной темы! 🤯
From night deadlines practitioners for night deadlines practitioners, with love. 🖤
🤩1
Ну и нормальные новости из мира RL :)
(1) Если кто-то, так же как и мы любит RL и хочет наблюдать его приход в everyday life, то мы выпустили важное обновление для нашей либы CORL - добавили бенчмарк еще и в Offline-to-Online режиме. По сравнению с чуть более устоявшимся Offline RL, Offline-to-Online обладает своим шармом и челенджами, которые еще только предстоит решить. Кому интересно - чекайте таблички, wandb-репорты, наличие star на CORL 🌝
https://github.com/tinkoff-ai/CORL
👍5🔥1
(2) Вторым нашим важным milestone стал запуск Katakomba - пака датасетов, тулов, и бенчмарков для решения NetHack через RL. От других RL сред Nethack отличается стохастичностью, процедурной генерацией уровней, и просто здоровенностью - уровней там 57. Короче говоря, не смотря на кажущуюся простоту, NetHack is hard to hack 🌚. Но опять же, кто хочет залететь на новый frontier RL research - таблички, wandb, кнопка "Star" - к вашим услугам 🌝
https://github.com/tinkoff-ai/katakomba
3
Давеча, Yoshua Bengio выпустил продолжение своего поста "AI Scientists Safe and Useful AI?" (тык), только на чуть более широкую аудиторию и уже в формате Q&A - FAQ on Catastrophic AI Risks (тык). Для всех, кто интересуется AI Safety не в формате "AI всех нас убьет - давайте разбомбим датацентры" - советую почитать, ибо тут все по полочкам, без истерик.

отчего вообще обсуждения?
AI сейчас используется практически в каждом тех. продукте. И с каждым годом глубина проникновения AI - только растет: все больше продуктов, все больше задач автоматизируются. Нюанс лишь в том, что для достижения поставленных задач, AI может случайно решить их очень нестандартными методами. Старый-добрый пример из RL - (тык).

на подумать о AI alignment
Куча сил, ресурсов и денег сейчас брошены на то, чтобы не допустить AI обученный на common crawl web до пользователей, потому что там какой-то треш, токсичность, и вообще с нашими ценностями не сходится. Однако, common crawl web - это буквально нефильтрованная квинтэссенция человечества.
Как же так вышло, что он настолько не заалайнен с нашими ценностями? 🥴️️️️️️
Короче говоря, знает ли кто-то подвижки в областях образования/культуры из-за всех проблем AI alignment, а не выделение миллиардов на хотфиксы в виде тренеров и регуляторов?
👍5
новый конкурент tf-idf - gzip 🤯

имхо, очень интересное продолжение идеи, что весь deep learning - это representation learning, т.е. представление информации в удобном виде для поиска и прочих задач.

подробности: “Low-Resource” Text Classification: A Parameter-Free Classification Method with Compressors (тык)

PS. забавно, что с tf-idf так и не сравнились 🥴️️️️️️
🥴6😁2🔥1
All Views Are My Own пост.

Как говорил мой любимый Jürgen Schmidhuber: science is about self-correction [1]. Что ж, это, вероятно, также касается и весьма спорных заявлений, которые могут продвигаться в СМИ про успехи в этой самое science. Хочу внести свой correction: любые утверждения на тему “Российские ученые обошли DeepMind” - не более чем недальновидная провокация/кликбейт. Я с уважением отношусь к коллегам и своим друзьям-знакомым из DeepMInd, и действительно поражаюсь теми достижениями, которые DeepMind показывает - AlphaGo, AlphaStar, и особенно AlphaFold, который находится на стыке компьютерных и естественных наук. Любые провокационные заявления - считаю некорректными.

В общем, очень надеюсь, что наука и дальше продолжит движение на благо всего человечества. Всех обнял.

[1] https://people.idsia.ch/~juergen/deep-learning-history.html


PS. Для тех, кто хочет узнавать корректные новости про достижения Tinkoff Research - призываю подписаться на Желтый AI (https://news.1rj.ru/str/tinkoffai). Тут новости без кликбейта. А еще там иногда есть мемы :)
👍6
Разбирая newsletters после NeurIPS review (оно наконец закончилось и для авторов, и для ревьюеров), наткнулся на новость о том, что "OpenAI confirms that AI writing detectors don’t work" (тык). Собственно, немного мыслей на тему "зачем же эти детекторы всем так нужны?".

Много чем опаснен Generative AI, но особенно - misinformation, генерацией фейков, и прочего провокационного. Кто виноват, если какой-то deepfake навредит вашей репутации, или с его помощью провернут что-то еще - большой вопрос. Однако, следите за руками...
(1) Положим, у нас есть Gen-AI сервис... который работает по ежемесячной подписке по кредитке (KYC на стороне банка), и у которого есть строгие terms of use. Как пример можно взять принципы работы Steam.
(2) Положим, какой-то пользователь решил сгенерировать что-то эдакое и выложить в public.
(3) Если маркировки нет, то найти этого пользователя будет проблематично - скорее все начнут возмущаться большими компаниями, требовать закрыть/запретить/зарегулировать.
(4) Но если мы умеем маркировать... у этих самых компаний есть полное право и все возможности найти того самого пользователя и призвать его к ответу за игнорирование terms of use. И главное - скинуть с себя весь негатив, ведь все теперь по закону и по правилам.

В общем, очень просто и элегантно решается вопрос ответственности. Как итог таких размышлений, что если обучаете - лучше задуматься о маркировке, чтобы прикрываться от кейсов неправомерного использования; если генерируете - лучше задуматься за какие кредиты платите и кем/как они используются, чтобы к вам не пришли.

Такие мысли, другие идеи/предложения - welcome, интересно обсудить.
👍21
В последнее время меня часто спрашивают (нет): "Серега, как вам в Tinkoff Research удается обгонять закон Мура по ускорению ИИ?". Мол,
(1) Ученые из Tinkoff Research открыли алгоритм для увеличения скорости обучения искусственного интеллекта в 20 раз (тык)
(2) Ученые из Tinkoff Research создали самый эффективный среди мировых аналогов алгоритм для обучения и адаптации искусственного интеллекта (тык)

Что ж, следите за руками...

Во-первых, надо понимать, что для упрощения восприятия широкой аудиторией, во всех подобных новостях, все многообразие ML, CV, NLP, RecSys, Speech, TimeSeries, RL становится просто "ИИ". Мол, когда мы разбираемся в новой теме, нам не нужна вся специфика, которую мы все равно не поймем - нужны основные концепты, интуиция, база.

Во-вторых, если рассматривать прогресс по ускорению методов в Offline RL (чувствуете специфика началась?), то... нам действительно удается все так ускорять.

В далеком 2021 вышли новые SOTA в Offline RL - SAC-N и EDAC (тык). SOTA результаты там, безусловно, были, но ценой обучения ансамбля в 500 сеток вместо 1 как это было обычно.

Как можно понять, обучать 500 сеток - довольно медленно, поэтому за 2022 мы придумали как это все дело ускорить и как обучать значительно меньше сеток. Так получился SAC-RND (тык, тут Саша красавчик), который в 20 раз быстрее SAC-N (Appendix F в статье).

Параллельно с SAC-N, мы еще копали трюки-хаки, которые были предложены в Offline RL за последние пару лет. Сначала все было грустно, а потом идея раскрылась и получился ReBRAC (тык, тут Денис красавчик). И ReBRAC уже полностью ensemble-free, там одна сетка, как у старого-доброго Offline RL. И по понятным причинам, работает он еще в 4 раза быстрее (Appendix E), но с тем же SOTA результатом. Из крутого - еще и в offline-to-online SOTA поставили.

Кратко, эту историю можно запомнить как "Ensemble-based ORL: туда и обратно".

Однако, кроме ускорения и SOTA результатов, есть, как мне кажется, один очень важный тейк из всей этой истории: ReBRAC (2023) - это допиленный TD3+BC (2021), который, в свою очередь, допиленный TD3 (2018); получается, что несмотря на какое-то космическое количество работ по Offline RL, реальный прогресс... ну, он как бы есть 😅. И вот об этом интересно подумать, если какими-то ML ресечами занимаетесь.
15👍4🔥3🤔1
На этих выходных заходил на ODS обсудить что-как продвигается в RL в 2023м.

Если коротко,
- много RLHF, алаймента и LLM в RL - это вообще тренд всего 2023, тут без внезапностей. зачем там именно RL хорошо пояснял John Schulman (тык)
- еще одна "игра" была решена с помощью RL. теперь это first-person view drone racing, что так-то сильный заход RL в реальным мир
- + Lyft без захода реальный мир +30mln/y с 2021 делает оптимизируя матчинг. думайте
- имхо, RL нашел свою успешную переформулировку в виде In-Context RL, а RL'щики распробовали Jax и начали новые Jax-based Envs чуть ли не каждую неделю выпускать
- новые SOTA на Atari 100k и D4RL, кстати, тоже на JAX; приятно, что SOTA на D4RL - 2 раза от Tinkoff Research за 2023й

Подробнее
- видео (тык)
- слайды (тык)

PS. ну и раз мы про RL говорим, не забываем поддержать CORL (тык), Katakomba (тык), XLand-MiniGrid (тык)
🔥8👍4
вопрос от подписчика:
> а кого еще почитать по RL в production? говорил на ДатаЕлке

так как лично я очень верю в RL-RecSys (даже в конце 2020 делал обзор (тык), то всегда рекомендую следить за Minmin Chen (тык). "Top-k off-policy correction for a REINFORCE recommender system" (тык) - обязательна к прочтению.

кроме этого, советую посмотреть что делает Netflix (тык, тык, тык). "Everything is recommendation" for Netflix.

и чтобы разбавить этот RecSys-движ, есть еще Warren B. Powell. Автор Reinforcement Learning and Stochastic Optimization, с несколько альтернативными взглядами на RL нежели Sutton, Bertsekas, и Barto. И с большим фокусом на supply chain optimization.
👍7🔥2
Welcome to the Night City! Do you want to reset your cookies advertiser weights?

OpenAI опять показали, что они "ships like no other", и зарелизили Sora (тык). Если коротко, можно теперь контролируемо генерировать примерно минуту видео около-реального качества. И это будет настоящее видео, а не ожившая картинка. И значительно реалистиченее чем у аналогов. Хотя артефакты все еще имеются, их количество vs качество видео в целом - выглядит как minor problem.


> А при чем тут киберпанк?

В далеком 2021м, мы с Артуром Кузиным (привет грандмастерам) и другими CV Heads (да, чатик так буквально называется) как-то собрались обсудить что-как в CV и что там дальше будет. Одно из предсказаний, в которое я больше всего ждал было “персонализированная генеративная реклама через 5 лет". Т.е. как только мы получаем возможность генерировать картинки/видео, то просто добавляем туда щепоку RecSys, связываем с кнопкой "продать" и радуемся, что нашли product-market-fit. С учетом того, что генераторы картинок так уже используются - жду генеративную видео рекламу в этом году.


> А что за advertiser weights?

После выхода ChatGPT и кучи LLM, появился новый понятный тренд - локальные LLM. Особенно активно в этом направлении копают Apple (mlx, research), которые под свой Apple silicon начали наконец то ML экосистему делать нормальную (для intel/amd смысла им вкладываться было мало). А если объединить это с federated learning (Federated LoRA), то получаем возможность поставки локальных foundational models с sft/rlhf дотюниванием прямо на устройстве.

Так что, ждем локальные multimodal foundation models, которые будут и рекламные посты тебе в ленту подмешивать, и картинки/видео генерить под тебя лично. И все секьюрно, локально, на устройстве. 👌️️️️️️


PS. занятный факт - вчера еще Gemini Pro 1.5 вышла, но кому это сейчас интересно? 😅️️️️️️
👍5👏1
NLP research after ChatGPT: more passion, more energy, more footwork!

Мы тут немного хайпим в HF трендах и X: upvote собираем тут, repost'ы тут, а подробности из первых рук можно узнать тут. И все выглядит очень неплохо (еще лучше будет когда все прожмут upvote и repost, смекаешь?), но что еще больше поражает - статья была написана за меньше чем 2 месяца 🤯. Буквально 27 декабря начали обсуждать идею, а 15 февраля уже отправили статью - провели новогодние с пользой, так сказать.

Что еще больше поражает, что 2-3 месяца на статью - это текущие реалии NLP исследований после ChatGPT, когда кучу исследовательских групп развернули в LLM и Alignment. Так что если занимаетесь исследованиями в NLP - сил вам и ментального здоровья! Ибо бежать приходится теперь в 2-3 раза быстрее, чтобы успевать за трендами. 🏃🏃‍♂️🏃‍♀️
🔥141
So Good They Can't Ignore You

Я не читаю каждый финансовый отчет Тинькофф за год, но когда читаю - ожидаю увидеть там Tinkoff Research (тык).

PS. гайз, работаем 🤝️️️️
🔥21
Research4Kids 2.0

В далекие времена прошлого года, мы в топ коллабе Tinkoff Research & Образования провели Research4Kids - наш научно-исследовательский марафон по куче ВУЗов, на котором студенты Tlab, а также научные руководители из Tinkoff Research, рассказывали про то, чем вообще занимаются и на какие конференции в итоге залетают.

В прошлом году, мы были скромные, поэтому ездили только по университетам Москвы, Питера, и Казани. В этом году мы идем дальше и сегодня начинаем турне Research4Kids в формате Минск-Спб-Казань-Мск-Екб-Новосиб-Астана! Подробнее тут. Ну и всех ждем, конечно же.


PS. А про прошлый опыт TLab можно почитать тут и тут.
🔥9👍4