NEW BOT Телеграм, страница

Пока готовятся новые интересные обзоры...

❤2

3.16K views12:38

😁52🐳5👍2🌚2👏1💯1

6.94K views12:38

Будущее уже здесь. 1) Prompt injection, конституция Syndey; 2) I will not harm you unless you harm me first; 3) петиция за отключение; 4) NLP1 ~= NLP2.

Весело живём.

1) https://www.theverge.com/23599441/microsoft-bing-ai-sydney-secret-rules

2) https://simonwillison.net/2023/Feb/15/bing/

3) https://www.change.org/p/unplug-the-evil-ai-right-now

4) https://ailev.livejournal.com/1672909.html, https://www.facebook.com/grigory.sapunov/posts/pfbid02GE4iBGkJRLjEMNi3RWM3Fct8xwM2StVuBmyvQCSZL8CxF1f3jMPECrvutTFsAUDCl

The Verge

These are Microsoft’s Bing AI secret rules and why it says it’s named Sydney

Bing AI has a set of secret rules that governs its behavior.

👍13😱11👎2

3.63K views22:51

gonzo-обзоры ML статей

The AI Arms Race Is Changing Everything

https://time.com/6255952/ai-impact-chatgpt-microsoft-google/

Tech companies are moving fast on AI. That could prove catastrophic

https://time.com/magazine/

👍15❤1

7.01K viewsedited 17:02

gonzo-обзоры ML статей

Мне кажется большую часть статьи можно пропустить, если вы знаете историю. Самая суть в нескольких последних абзацах:

"Inside the most cutting-edge AI labs, a few technicians are working to ensure that AIs, if they eventually surpass human intelligence, are “aligned” with human values. They are designing benevolent gods, not spiteful ones. But only around 80 to 120 researchers in the world are working full-time on AI alignment, according to an estimate shared with TIME by Conjecture, an AI-safety organization. Meanwhile, thousands of engineers are working on expanding capabilities as the AI arms race heats up.

“When it comes to very powerful technologies—and obviously AI is going to be one of the most powerful ever—we need to be careful,” Demis Hassabis, CEO of Google-owned AI lab DeepMind, told TIME late last year. “Not everybody is thinking about those things. It’s like experimentalists, many of whom don’t realize they’re holding dangerous material.”

Even if computer scientists succeed in making sure the AIs don’t wipe us out, their increasing centrality to the global economy could make the Big Tech companies who control it vastly more powerful. They could become not just the richest corporations in the world—charging whatever they want for commercial use of this critical infrastructure—but also geopolitical actors to rival nation-states.

The leaders of OpenAI and DeepMind have hinted that they’d like the wealth and power emanating from AI to be somehow redistributed. The Big Tech executives who control the purse strings, on the other hand, are primarily accountable to their shareholders.

Of course, many Silicon Valley technologies that promised to change the world haven’t. We’re not all living in the metaverse. Crypto bros who goaded nonadopters to “have fun staying poor” are nursing their losses or even languishing behind prison bars. The streets of cities around the world are littered with the detritus of failed e-scooter startups.

But while AI has been subject to a similar level of breathless hype, the difference is that the technology behind AI is already useful to consumers and getting better at a breakneck pace: AI’s computational power is doubling every six to 10 months, researchers say. It is exactly this immense power that makes the current moment so electrifying—and so dangerous."

👍28👎1

3.87K viewsedited 18:39

gonzo-обзоры ML статей

In case you didn't see it:
https://microscope.openai.com/models

OpenAI Microscope is a collection of visualizations of every significant layer and neuron of several common “model organisms” which are often studied in interpretability. Microscope makes it easier to analyze the features that form inside these neural networks, and we hope it will help the research community as we move towards understanding these complicated systems.

👍15🔥9🥰3

4.59K views11:18

gonzo-обзоры ML статей

3.81K views11:24

gonzo-обзоры ML статей

Отойдём ещё немного от классического формата про статьи. На этот раз короткий фикшн!

Если вам нравится "Город перестановок" Грега Игана, или "Акселерандо" Чарльза Стросса, то, мне кажется, и это понравится.

Lena
2021-01-04 by qntm

MMAcevedo (Mnemonic Map/Acevedo), also known as Miguel, is the earliest executable image of a human brain. It is a snapshot of the living brain of neurology graduate Miguel Acevedo Álvarez (2010–2073), taken by researchers at the Uplift Laboratory at the University of New Mexico on August 1, 2031. Though it was not the first successful snapshot taken of the living state of a human brain, it was the first to be captured with sufficient fidelity that it could be run in simulation on computer hardware without succumbing to cascading errors and rapidly crashing. The original MMAcevedo file was 974.3PiB in size and was encoded in the then-cutting-edge, high-resolution MYBB format. More modern brain compression techniques, many of them developed with direct reference to the MMAcevedo image, have compressed the image to 6.75TiB losslessly. In modern brain emulation circles, streamlined, lossily-compressed versions of MMAcevedo run to less than a tebibyte. These versions typically omit large amounts of state data which are more easily supplied by the virtualisation environment, and most if not all of Acevedo's memories.

Далее тут:
https://qntm.org/mmacevedo

qntm.org

Lena

A note from the author
You can now buy this story as part of my collection, Valuable Humans in Transit and Other Stories. This collection also includes a sequel story, noscriptd "Driver".

This article is about the standard test brain image. For the original…

🔥13👍2❤1👏1

3.8K views13:20

gonzo-обзоры ML статей

[Meta AI] Toolformer: Language Models Can Teach Themselves to Use Tools
Timo Schick, Jane Dwivedi-Yu, Roberto Dessì, Roberta Raileanu, Maria Lomeli, Luke Zettlemoyer, Nicola Cancedda, Thomas Scialom
Статья: https://arxiv.org/abs/2302.04761

Интересная свежая работа про аугментацию моделей тулами. По мне так очень хорошее направление, ибо очевидно, что некоторые вещи гораздо более успешно можно делать специализированными тулами, нежели ждать пока модель сама их выучит.

Как например с вычислениями. Языковые модели демонстрируют такие возможности, но не очень стабильно, и если можно в нужные моменты подключить гарантированно работающий тул, то грех, конечно, так не сделать.

Или со свежими и точными фактами. Можно долго учить модель в надежде, что не будет врать и фантазировать, но всё равно гарантий нет, да и всегда есть отсечка по дате, новые факты, появившиеся после обучения модели, добавить в неё сложно. Поэтому хождение в поиск или во внешнюю knowledge base любого вида потенциально очень полезно.

Короче, берём лучшее из двух миров. Плохо формализуемые вещи обучаем, простые алгоритмические даём в виде готовых средств. Тема уже не новая, та же LaMDA (https://news.1rj.ru/str/gonzo_ML/1229) внутри себя использовала тулсет с калькулятором, поиском и переводчиком. Или ещё был TALM (Tool Augmented Language Models, https://arxiv.org/abs/2205.12255).

В данной работе специальная модель, Toolformer, обучается дёргать внешние API, решая когда это делать, что именно дёргать, с какими параметрами и как встраивать результат. Причём учится она в self-supervised режиме без большого количества человеческих аннотаций. И потерять других своих полезный свойств от этого модель не должна.

Входы и выходы API представляются текстом и описываются кортежом (ac, ic), где ac это имя апишки, а ic входные данные. Результат вызова апишки r. Для оформления таких вызовов используются словарные токены [”, “]” и “->”, так что строка с вызовом выглядит как “[ac(ic)]”, а строка с результатом как “[ac(ic)->r]”.

Процедура обучения построена следующим образом. В качестве базовой модели используется GPT-J с 6.7B параметров (https://github.com/kingoflolz/mesh-transformer-jax#zero-shot-evaluations). На входе есть некий датасет текстов (подмножество CCNet). Он конвертится в датасет, аугментированный вызовами апишек. Это делается в три шага:

1. Модель сэмплит вызовы потенциальных апишек через примеры, заданные в in-context learning (внутри промпта).

Есть набор заранее заданных через промпты потенциальных апишек: Question Answering (файнтюненный на Natural Questions retrieval-augmented Atlas, https://arxiv.org/abs/2208.03299), Calculator (просто четыре базовые операции), Wikipedia Search (специальный поисковик, выдающий сниппеты по википедии через BM25 retriever), Machine Translation (NLLB 600M, https://arxiv.org/abs/2207.04672), Calendar (просто возвращает текущую дату для контексту). То есть не проблема добавить по своим примерам другие апишки.

Далее для каждой позиции текста на входе вычисляется вероятность генерации токена “[“, задающего начало API вызова. Оставляются все позиции, для которых такая вероятность выше заданного порога (в работе τs = 0.05) и только топовые k=5 из них.

Далее для каждой позиции сэмплятся возможные имена апишек (m = 5).

Кое-где применялись эвристики, чтобы быстрее понимать, нужно ли дёргать какую-то апишку. Например, калькулятор не рассматривается, если в тексте было меньше трёх цифр.

2. Выполняются вызовы апишек.

Тут ничего особенного, специальный внешний код на питоне делает что надо и возвращает результат.

3. Результат вызова фильтруется по критерию помощи в предсказании следующего токена (стандартная задача обучения языковой модели).

gonzo-обзоры ML статей

[Google LaMDA] LaMDA: Language Models for Dialog Applications
Romal Thoppilan, Daniel De Freitas, Jamie Hall, Noam Shazeer, Apoorv Kulshreshtha, Heng-Tze Cheng, Alicia Jin, Taylor Bos, Leslie Baker, Yu Du, YaGuang Li, Hongrae Lee, Huaixiu Steven Zheng, Amin…

👍6👏4❤2🔥1

3.41K views14:51

gonzo-обзоры ML статей

Для этого считаются два взвешенных кросс-энтропийныйх лосса.
- (L+) лосс для генерации имеющейся последовательности при условии, что вызов апишки и его результат были даны модели как префикс (важно, что они именно как префикс, а не добавляются в саму строку, потому что последний вариант скорее всего навредит метрике, поскольку модель не обучалась на строках с вызовами апи).
- (L-) лосс берётся как минимум между лоссом просто строки с пустым префиксом, и лоссом строки с префиксом вызова апишки, но без её результата.

Если разница (L-) - (L+) больше заданного порога (τf = 1.0), то такой вызов значимо уменьшает лосс и полезен. Вызовы, не прошедшие такой порог, убираются.

Полученный после вызова и фильтрации аугментированный датасет содержит как оригинальные строки, так и аугментированные. Он далее используется для файнтюнинга самой модели со стандартной целевой функцией. В этом self-supervised подход, модель сама решает, какой тул когда использовать, ориентируясь на свой же фидбек.

В зависимости от порога и типа апишки получились тысячи и десятки тысяч вызовов.

Во время инференса мы обнаруживаем, что модель начала генерить последовательность вызова апишки, и после токена “->” приостанавливаем генерацию, дёргаем апишку, и вставляем в строку её результат с закрывающим токеном “]”, после чего продолжаем генерацию.

Обученную модель проверяли в режиме prompted zero-shot, то есть чисто промпт без примеров. Доп.модификация также разрешала модели дёргать апишку не только в случае, когда токен начала API-вызова имел максимальную вероятность, но и когда он был среди 10 наиболее вероятных.

Посравнивались на подмножествах SQuAD, GoogleRE и T-REx из бенчмарка LAMA. Toolformer значительно лучше базовых GPT-J, а также более крупных OPT (66B) и
GPT-3 (175B).

На датасетах с математическими задачками он также существенно лучше. Что забавно, там также неплохо прокачался и Toolformer с отключенными вызовами апишек, видимо во время дообучения прокачал свои математические способности.

На QA он слабее самого большого GPT-3, но заметно выше соразмерных бейзлайнов, а также лучше OPT.

На MLQA не везде лучше базового GPT-J, но что интересно большие OPT и GPT-3 здесь тоже заметно хуже маленького GPT-J, вероятно потому что GPT-J обучался на более мультиязычном корпусе.

На темпоральных датасетах из TempLAMA (где ответ меняется со временем) модель также очень хороша по сравнению с бейзлайнами.

Perplexity на задаче языкового моделирования от добавления апишек особо не просело.

Также поглядели на каком размере модели способность использовать апишки начинает работать, оказалось что начиная с модели на 775M.

Работать ещё есть над чем. Текущая модель пока не умеет делать цепочки вызова тулов, не может также интерактивно работать с тулом (например, уточнять запрос или браузить по страницам выдачи). В целом подход пока ещё sample-inefficient, на датасете из 1M+ документов он обнаруживает лишь несколько тысяч примеров полезного использования калькулятора.

Но направление всё равно интересное, особенно когда нормально работает не с супер гигантской моделью.

👍22❤2

2.24K views14:51

gonzo-обзоры ML статей

2.03K views14:51

gonzo-обзоры ML статей

2.05K views14:52

gonzo-обзоры ML статей

2.1K views14:52

gonzo-обзоры ML статей

2.07K views14:52

gonzo-обзоры ML статей

2.14K views14:52

gonzo-обзоры ML статей

2.27K views14:52

gonzo-обзоры ML статей

2.58K views14:52

gonzo-обзоры ML статей

2.68K views14:52

gonzo-обзоры ML статей

2.76K views14:53

gonzo-обзоры ML статей

Hot news: https://ai.facebook.com/blog/large-language-model-llama-meta-ai/

Training smaller foundation models like LLaMA is desirable in the large language model space because it requires far less computing power and resources to test new approaches, validate others’ work, and explore new use cases. Foundation models train on a large set of unlabeled data, which makes them ideal for fine-tuning for a variety of tasks. We are making LLaMA available at several sizes (7B, 13B, 33B, and 65B parameters) and also sharing a LLAMA model card that details how we built the model in keeping with our approach to Responsible AI practices.

In particular, LLaMA-13B outperforms GPT-3 (175B) on most benchmarks, and LLaMA-65B is competitive with the best models, Chinchilla70B and PaLM-540B. We release all our models to the research community.

Model card: https://github.com/facebookresearch/llama/blob/main/MODEL_CARD.md

Paper: https://research.facebook.com/publications/llama-open-and-efficient-foundation-language-models/

Form to apply: https://docs.google.com/forms/d/e/1FAIpQLSfqNECQnMkycAp2jP4Z9TFX0cGR4uf7b_fBxjY_OjhJILlKGA/viewform

Unfortunately, it's only for non-commercial purposes :(

"You will not, and will not permit, assist or cause any third party to:

a. use, modify, copy, reproduce, create derivative works of, or distribute the Software Products (or any derivative works thereof, works incorporating the Software Products, or any data produced by the Software), in whole or in part, for (i) any commercial or production purposes ... "

About

Blog

Apps

Platform