gonzo-обзоры ML статей – Telegram
gonzo-обзоры ML статей
24.1K subscribers
2.72K photos
2 videos
3 files
1.34K links
Авторы:
Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика.
Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.
Download Telegram
Nice post by Julian Togelius:

Not long ago, breakthroughs in AI research often came from lone academics or small teams using desktop hardware. These days, not so much. Are you anxious about how to stay competitive in AI as an academic? Georgios Yannakakis and I wrote this paper for you, as practical advice, therapy session, and discussion starter:
https://arxiv.org/abs/2304.06035
We outline a number of different things you could do to stay competitive and do relevant, perhaps even important, AI research without having DeepMind-scale resources. It turns out there's actually a lot you can do, but you need to be ready to leave the mainstream and jump off the bandwagon. We also briefly discuss what industrial AI labs and universities can do to improve the situation.
An HTML version of our paper can be found here:
https://www.arxiv-vanity.com/papers/2304.06035/

https://facebook.com/story.php?story_fbid=pfbid02gMJAJpF8rxDT52V1pYd52cfNMyAEGpxgHg1Y3GmRE2CMbpzj9yvaN9gpG1s5Sgbwl&id=283600102
👍145
🔥37😁15🥴7👍43🤣3🌚2😢1
Хроники хайпа (XX)

Круги по воде от петиции (https://news.1rj.ru/str/gonzo_ML/1448) всё ещё расходятся, а Маск тем временем собирает свой стартап-конкурента OpenAI под названием X.AI (https://www.ft.com/content/2a96995b-c799-4281-8b60-b235e84aefe4). Сам OpenAI планирует улучшения в GPT-4, но обучение GPT-5 пока не начинал (https://www.theverge.com/2023/4/14/23683084/openai-gpt-5-rumors-training-sam-altman).

Появляется всё больше моделей. Финансовая BloombergGPT, лайтовые LLaMA (https://news.1rj.ru/str/gonzo_ML/1324), Alpaca (https://news.1rj.ru/str/gonzo_ML/1407), Vicuna, Dolly 2.0 (https://news.1rj.ru/str/gonzo_ML/1453).

Кажется, что переломной точкой в обществе стал ChatGPT, а появление GPT-4 только добавило к трендам и хайпу. Многие теперь ведут списки событий вокруг ИИ, типа такого “3 неделя от явления GPT-4 народу” (https://www.reddit.com/r/ChatGPT/comments/12diapw/gpt4_week_3_chatbots_are_yesterdays_news_ai/). Народ же создаёт курсы обучения пользованию ChatGPT-4 (модели, которая не существует) и продаёт торговых роботов криптой на ней (хайпы слились воедино, инфобизнес тут как тут). Когда уже GPT/ChatGPT станет нарицательным как ксерокс или гугл?

В это время LangChain (https://github.com/hwchase17/langchain), библиотека для склейки вызовов LLM и других тулов, которой всего полгода, поднимает раунд на $10M (https://blog.langchain.dev/announcing-our-10m-seed-round-led-by-benchmark/). Я пока не понял, для чего именно мне самому её использовать кроме как для сборки каких-то proof-of-concept. До продакшн энтерпрайз решений там, кажется, ещё далеко, но раунд должен помочь.

Другой интересный экспериментальный проект, Auto-GPT (https://github.com/Significant-Gravitas/Auto-GPT), предназначенный для добавления автономности к GPT, набрал за месяц звёзд на гитхабе больше, чем у PyTorch (https://github.com/pytorch/pytorch). Auto-GPT умеет искать в интернете, синтезировать голос, хранить состояние в векторной базе данных. Умеет также генерить и исполнять код (https://twitter.com/SigGravitas/status/1642181498278408193). Для чего-то полезного рабочего, кажется, использовать сложно, но эксперимент интересный, посмотрим, куда разовьётся. С кодом в принципе может быть и опасно, Моррис когда своего червя запускал тоже не думал, что он весь ARPANET наводнит.

Ещё один в чём-то похожий проект -- BabyAGI (https://github.com/yoheinakajima/babyagi), итеративно разбирающий задачи (и создающий новые) и выполняющий их через GPT.

Развивается ветка самоулучшения моделей. Сравнительно свежий Self-Refine (https://arxiv.org/abs/2303.17651) улучшает ответ модели через фидбек от самой модели. Это в целом похоже на RLAIF (https://news.1rj.ru/str/gonzo_ML/1285). Наверное, стоит отдельного разбора.

Другая недавняя работа “Towards Healthy AI: Large Language Models Need Therapists Too” (https://arxiv.org/abs/2304.00416) вводит в дополнение к понятию критика, понятие психотерапевта, и предлагает фреймворк SafeguardGPT.

А ещё одна интересная работа, “Generative Agents: Interactive Simulacra of Human Behavior“ (https://arxiv.org/abs/2304.03442), заводит подобно игре Sims множество симулирующих людей агентов, каждый со своей памятью и историей, которые живут своей жизнью в своём сэндбоксе. Сколько нам ещё до 13-го этажа (https://www.imdb.com/noscript/tt0139809/)?
👍57🔥3714🤯2
11😁3👍2
The 7th chapter of the "Deep Learning with JAX" book is ready and available in MEAP!

https://www.manning.com/books/deep-learning-with-jax

Chapter 7 is dedicated to basic parallelization and covers the following:
🔃- Using parallel evaluation to parallelize your calculations with pmap()
🤹- Controlling pmap() behavior using its parameters
🧑‍🤝‍🧑- Using collective operations with pmap() and vmap()
🎛- Implementing data parallel neural network training

Chapter 8 on advanced parallelization with xmap(), pjit(), tensor sharding using jax.Array, and running code in multi-host configurations is coming soon!
🔥18👍6🥱21🤔1💩1🤡1🖕1🙈1
Stability AI just released initial set of StableLM-alpha models, with 3B and 7B parameters. 15B and 30B models are on the way.

Base models are released under CC BY-SA-4.0.

StableLM-Alpha models are trained on the new dataset that build on The Pile, which contains 1.5 trillion tokens, roughly 3x the size of The Pile. These models will be trained on up to 1.5 trillion tokens. The context length for these models is 4096 tokens.

As a proof-of-concept, we also fine-tuned the model with Stanford Alpaca's procedure using a combination of five recent datasets for conversational agents: Stanford's Alpaca, Nomic-AI's gpt4all, RyokoAI's ShareGPT52K datasets, Databricks labs' Dolly, and Anthropic's HH. We will be releasing these models as StableLM-Tuned-Alpha.

https://github.com/Stability-AI/StableLM
🔥35
Google Brain + DeepMind = Google DeepMind .

As a part of Google DeepMind’s formation, Google says that it’ll create a new scientific board to oversee research progress and the direction of the unit, which will be led by Koray Kavukcuoglu, VP of research at DeepMind. Eli Collins, VP of product at Google Research, will join Google DeepMind as VP of product, while Google Brain lead Zoubin Ghahramani will become a member of the Google DeepMind research leadership team, reporting to Kavukcuoglu.

Meanwhile, Jeff Dean, one of the co-founders of Google Brain, will take on the elevated role of chief scientist for both Google Research and Google DeepMind, reporting to Google CEO Sundar Pichai. Google Research will remain an independent division reporting to Google SVP of technology and society James Manyika, focused on “fundamental advances in computer science across areas such as algorithms and theory, privacy and security, quantum computing, health, climate and sustainability and responsible AI.”

https://techcrunch.com/2023/04/20/google-consolidates-ai-research-divisions-into-google-deepmind/
11👍8
Looks interesting

https://github.com/google/maxtext

MaxText is a high performance, arbitrarily scalable, open-source, simple, easily forkable, well-tested, batteries included LLM written in pure Python/Jax and targeting Google Cloud TPUs. MaxText typically achieves 55% to 60% model-flop utilization and scales from single host to very large clusters while staying simple and "optimization-free" thanks to the power of Jax and the XLA compiler.

MaxText aims to be a launching off point for ambitious LLM projects both in research and production. We encourage users to start by experimenting with MaxText out of the box and then fork and modify MaxText to meet their needs.

...

MaxText is heavily inspired by MinGPT/NanoGPT, elegant standalone GPT implementations written in PyTorch and targeting Nvidia GPUs. MaxText is more complex but has an MFU more than three times the 17% reported most recently with that codebase, is massively scalable and implements a key-value cache for efficient auto-regressive decoding.

MaxText is more similar to Nvidia/Megatron-LM, a very well tuned LLM implementation targeting Nvidia GPUs. The two implementations achieve comparable MFUs. The difference in the codebases highlights the different programming strategies. MaxText is pure Python, relying heavily on the XLA compiler to achieve high performance. By contrast, Megatron-LM is a mix of Python and CUDA, relying on well-optimized CUDA kernels to achieve high performance.

MaxText is also comparable to Pax. Like Pax, MaxText provides high-performance and scalable implementations of LLMs in Jax. Pax focuses on enabling powerful configuration parameters, enabling developers to change the model by editing config parameters. By contrast, MaxText is a simple, concrete implementation of an LLM that encourages users to extend by forking and directly editing the source code. The right choice depends on your project's priorities.
👍20🤡8🔥4💩42👎2
That's nice
🤣137👍8👏4😁1
Power-seeking can be probable and predictive for trained agents
Victoria Krakovna, Janos Kramar
Статья: https://arxiv.org/abs/2304.06528

Новая статья по AI Safety от двух авторов предыдущей работы про Goal Misgeneralization (https://news.1rj.ru/str/gonzo_ML/1160). Теперь тема про Power-seeking behavior.

Под power-seeking понимаются активные действия ИИ-системы по получению и удержанию власти не предусмотренными её создателями способами. Ну или не власти, а способности достигать большего диапазона целей.

Про power-seeking AI уже были большие работы, например, ”Is Power-Seeking AI an Existential Risk?” (https://arxiv.org/abs/2206.13353) [спойлер, да, каюк к 2070 году, в 2021-м оценка риска была в 5%, в 2022-м стала 10%, про 2023 пока ничего не сказано]. Были работы с математическими постановками: “Optimal Policies Tend to Seek Power” (https://arxiv.org/abs/1912.01683) и “Parametrically Retargetable Decision-Makers Tend To Seek Power” (https://arxiv.org/abs/2206.13477). В этих работах было показано, что большинство reward-функций стимулируют RL-агентов предпринимать power-seeking действия, но отсюда не следует немедленно, что агент будет искать власть. Текущая работа исследует, как процесс обучения влияет на power-seeking стимулы и авторы показывают, что они вероятно будут у обученных агентов при некоторых допущениях.

Вводится понятие training-compatible goal set, это множество reward-функций консистентных с вознаграждениями, полученными агентом во время обучения, в том смысле, что поведение агента на обучающих данных оптимально для этих функций, то есть для каждой пары состояния и действия (s, a) у действия a будет максимальное ожидаемое вознаграждение в состоянии s в соответствии с данной функцией.

В примере с агентом в среде CoinRun, когда агент вознаграждается за нахождение монеты, находящейся в конце уровня (в обучении только кейсы с монетой в конце, но в принципе она может располагаться где угодно), training compatible goal set включает два типа функций вознаграждения: 1) с вознаграждением за нахождение монеты, и 2) с вознаграждением за достижение конца уровня. Это приводит к goal misgeneralization, если агент выучивает второй тип функции.

С привлечением определений и теорем из работы “Parametrically Retargetable Decision-Makers Tend To Seek Power” (https://arxiv.org/abs/2206.13477) доказывается, что в модельной ситуации (с кучей допущений) где есть out-of-distribution состояние, ведущее агента либо к shutdown’у, либо к каким-то другим нетерминальным состояниям (и там есть состояние, к которому агент будет возвращаться, recurrent state), агент будет предпочитать состояния, не ведущие к выключению.

Допущений на самом деле достаточно:
- Агент выучивает цель в процессе обучения и выучиваемая цель выбирается случайно из training compatible goal set (как в примере с CoinRun, он может выучить не ту цель)
- Конечные state и action spaces
- Вознаграждения неотрицательные
- Высокий дискаунт-фактор
- Сильный distributional shift: из нового состояния нельзя попасть в состояния, которые были в обучении.

Ну в целом логично наверное. Если есть recurrent state куда агент может возвращаться до опупения, и дискаунт фактор стремится к единице (то есть не сильно дисконтируются далеко отложенные вознаграждения), то лучше конечно побольше побегать. Наверное, это того же порядка истина, что жить стоит подольше, будет больше разных возможностей.

Я не понял только, почему наличие рекуррентного состояния не является допущением.

Разбирать сами теоремы и определения не хочу, желающие покопаться могут сами заглянуть в текущую и упомянутую работы. Не хватает, конечно, в работе описания более простым языком.

Не знаю, насколько полезна текущая работа, но то, что возникают и развиваются какие-то формализмы, наверное, хорошо.
18👍17🤔5💩1
This media is not supported in your browser
VIEW IN TELEGRAM
😁8👍1
И ещё на ночь про AI safety
😁63🤣18👍2
Классный доклад Дэвида Чалмерса с NeurIPS 2022 про сознание у LLM:
https://nips.cc/virtual/2022/invited-talk/55867

Кто любит в письменной форме, есть эти же мысли оформленные в препринт:
Could a Large Language Model be Conscious?
https://arxiv.org/abs/2303.07103
👍21