gonzo-обзоры ML статей – Telegram
gonzo-обзоры ML статей
24.1K subscribers
2.72K photos
2 videos
3 files
1.34K links
Авторы:
Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика.
Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.
Download Telegram
Interesting thoughts by Jeff Clune:

"After a conversation with Joel Lehman @joelbot3000 & Ken Stanley @kenneth0stanley we concluded there’s an important AI safety point deserving broader discussion: In short, any mandatory “nutrition label” for foundation models needs to go well beyond just disclosures on training data.

Digital assistants will help & befriend us, but we should know if they have ulterior motives (eg to sell us products, influence us politically, or maximize engagement). A mandated "nutrition label for AI" should cover all the relevant ingredients.

Knowing an AI’s ingredients, such as its “motivation” (what it was designed to try to accomplish) helps humans make informed decisions about which AIs to “consume” (use/interact with). We should know if it is trying to change our political beliefs, make money, etc.

Some “ingredients” that should be disclosed: (A)The goal the AI's designers wanted it to achieve (B) The training objective, especially reinforcement learning objectives like making money, changing political views, etc. Unlike training data, RL objectives are easier to understand.

Programmed reward functions should be made available. For RL through human feedback (RLHF), the instructions (verbal and written) given to the raters (the humans providing the feedback) should be disclosed, as that drives what is rewarded. Key rater demographic information (including political leanings, if not representative of society) should be disclosed.

(C) An accurate summary of training data, especially whether it was curated to accomplish certain goals (with private inspections by enforcement agencies only when needed). Requiring a summary only makes regulation more likely to pass since it does not create unreasonable burdens or force disclosing trade secrets

(D) In general, even as training paradigms change, the spirit of the mandate should be to make the underlying motivations and expectations transparent, so this kind of disclosure should not be tied only to the methods that are currently best.

Focusing on disclosure strikes a healthy balance between allowing people to make informed choices, yet not curtailing innovation with undue disclosure or red tape. That’s why it’s important that disclosure is comprehensive.

Ideas like model cards (Mitchell et al) and Reward Reports (Gilbert et al) already provide a foundation for thinking about nutrition labels. We seek to strike the right balance between being comprehensive and lightweight to make a mandate viable.

What do you think? What other ingredients do you think we should advocate adding? Our intent with this proposal is to begin a conversation to learn, refine, debate, and end up in a good place, so we would love to hear from everyone."


https://facebook.com/story.php?story_fbid=pfbid0hXmLQSM3K4tJnHZafGDSoFNWG8vu8GV5fUBqWdSwNQZrQYMtjMH19WSoidmKwW7Nl&id=2355155
👍131😁1
Пятничное

"In a massive exercise to examine reproducibility, more than 200 biologists analysed the same sets of ecological data — and got widely divergent results. The first sweeping study of its kind in ecology demonstrates how much results in the field can vary, not because of differences in the environment, but because of scientists’ analytical choices."

https://www.nature.com/articles/d41586-023-03177-1
🔥216😁5👍1
Чё, норм
💯58🔥19😱12👍51
Ещё гонзо-обзор книги.

Книга: How to think about abstract algebra
Автор: Lara Alcock
URL: https://global.oup.com/ukhe/product/how-to-think-about-abstract-algebra-9780198843382?cc=us&lang=en

Для отвлечения и после книги про Монстра (https://news.1rj.ru/str/gonzo_ML/1825) решил почитать что-то ненапряжное по теме. "How to think about abstract algebra" Лары Алкок выглядело подходящим вариантом.

Надо сказать, хорошая книга. Если бы попалась мне в мои институтские годы, очень бы помогла (выпущена в 2021). Она про то, как подходить к изучению абстрактной алгебры, в чем отличия в подходе от анализа, какая интуиция стоит за базовыми концептами, как понимать доказательства теорем и т.п. Она идейно похожа на хороший и популярный курс Learning How To Learn (https://www.coursera.org/learn/learning-how-to-learn), который оказывается тоже вышел в виде книги (https://barbaraoakley.com/books/learning-how-to-learn/).

Но кроме части про "как" есть и большая часть про "что", где все базовые концепты объяснены и на пальцах, и с разбором некоторых теорем. Группы, подгруппы, бинарные операции, циклические группы, группы перестановок, факторгруппы, нормальные подгруппы, изоморфизмы и гомоморфизмы, кольца, поля и прочее. Книга как бы не претендует на то чтобы быть учебником по теме и заявляется как книга, которую стоит прочитать перед учебником, но кажется частично некоторые учебники она может заменить.

Я вот неожиданно для себя словил инсайт в супербазовой вещи, про которую не думал вообще. Про связь операций "умножения" и "сложения" в кольцах и соответствующие им identity. История про 0*a=0 выглядит очень банальной и школьной, но если в качестве нуля выступает additive identity, то "умножение" (или любая другая аналогичная вторая операция в кольце) на additive (не multiplicative!) identity будет давать эту additive identity и в других кольцах тоже, не только в числовых. Мне понравилось.

Будем дальше повышать градус абстракции.

#books
👍2610🔥3🤣1
Ну и раз сегодня математическая тема, то вот ещё.

"There are five fundamental operations in mathematics,” the German mathematician Martin Eichler supposedly said. “Addition, subtraction, multiplication, division and modular forms.”

Как бонус в конце там про Монстра.

https://www.quantamagazine.org/behold-modular-forms-the-fifth-fundamental-operation-of-math-20230921/
8🍌4🤯3
8👻5💔2
Walking Down the Memory Maze: Beyond Context Limit through Interactive Reading
Howard Chen, Ramakanth Pasunuru, Jason Weston, Asli Celikyilmaz
Статья: https://arxiv.org/abs/2310.05029

Вечная проблема трансформеров -- ограниченный контекст и необходимость работать с длинными входами. Для решения проблемы уже существует множество подходов. Это и “просто” увеличение размера окна контекста, как правило совмещённое с какой-то модификацией механизма внимания. Про множество таких подходов мы писали типа вариантов sparse attention и/или linear attention или хотя бы не квадратичных, коих уже миллион, например Reformer (https://news.1rj.ru/str/gonzo_ML/176), Longformer (https://news.1rj.ru/str/gonzo_ML/292), Linformer (https://news.1rj.ru/str/gonzo_ML/397), Big Bird (https://news.1rj.ru/str/gonzo_ML/381) и т.п. Где-то рядом здесь также находится вариант с экстраполяцией позиционных эмбеддингов. Другие способы решения включают введение рекуррентности, и про многие их таких решений мы тоже писали. Эта ветка прослеживается начиная с Transformer-XL, Compressive transformer (https://news.1rj.ru/str/gonzo_ML/165), Feedback memory (https://news.1rj.ru/str/gonzo_ML/508), RMT (https://arxiv.org/abs/2304.11062), к предшественнику которого даже я приложился (https://arxiv.org/abs/2006.11527). Здесь же рядом retrieval-augmented models, про которые тоже было достаточно, например Unlimiformer (https://news.1rj.ru/str/gonzo_ML/1507). И ещё есть подход с агентами, которые могут работать с частями текста и выполнять какие-то действия, тот же WebGPT (https://news.1rj.ru/str/gonzo_ML/1140) или различные варианты итеративного промптинга. Но всё равно этого не хватает.

Текущая работа предлагает интересное альтернативное решение под названием MemWalker. Метод работает в два этапа.

Первый этап, построение memory tree, дерева памяти. Дерево содержит узлы, суммаризирующие куски входных данных. Для этого длинная входная последовательность нарезается на кусочки, влезающие в контекст модели. Каждый кусочек суммаризируется в текст, а несколько таких саммари далее суммаризируются в саммари следующего уровня. Так возникает древесная иерархическая структура. Дерево не зависит от запроса, который будет задаваться модели, так что его можно просчитать заранее.

По сути используются два промпта для генерации саммари, один для листьев (саммари из куска текста), другой для узлов (саммари из других саммари). Для узлов делаем суммаризацию стольких саммари, сколько влезает, потом повторяем для оставшихся.

Второй этап -- навигация. При получении запроса, MemWalker проходит по дереву в поисках релевантной информации, начиная с корня. И как только набрал её достаточно, генерирует ответ.

Здесь тоже два промпта, один для листьев (leaf prompt), другой для узлов (triage prompt). В каждом узле LLM получает саммари из всех дочерних узлов и в промпте её просят выбрать (с обоснованием, через Chain-of-Thougth, CoT с “First provide reasoning to compare the summaries before you make the decision“) в каком из пассажей наиболее вероятно содержится ответ на вопрос. В статье также написано, что если там ничего нет, то надо уйти в родительский узел, но по промпту я этого не увидел. Если дошли до листа дерева, то модель либо принимает его и отвечает на вопрос, либо откатывается к родительскому узлу.

Ответы требуются в определённом формате, если LLM не смогла это сделать, её просят перегенерить. Если не смогла три раза подряд, навигация прерывается с “no answer”. По мере навигации также поддерживается рабочая память, которая добавляется в промпт для листьев. Вроде как это контент родительских узлов.

Вообще логика оркестрации всего этого процесса описана плохо, очень много умолчаний, работа не воспроизводима в чистом виде. Как минимум явно надо трекать, где модель уже была, чтобы при возврате к родителю не уйти снова в тот же узел. Или неявно не позволять через процедуру поиска, но ничего этого не описано.

Проверялись по accuracy на трёх датасетах QuALITY, SummScreenFD, и GovReport из бенчмарка SCROLLS.

QuALITY это multiple choice question answering dataset по длинным текстам из Project Gutenberg. Оттуда взяли 187 примеров.
8👍4🔥4🤯3
SummScreenFD содержит диалоги актёров в сериалах, в оригинале сделан для суммаризации, здесь преобразован в вопросы-ответы, отсюда взяли 306 примеров.

GovReport содержит документы из Congressional Research Service и U.S. Government Accountability Office вместе с экспертными саммари. Его тоже преобразовали в вопросно-ответный и взяли 101 пример.

Результаты репортили на этих датасетах, а также на их подмножествах с более длинными документами (для каждого датасета свой порог, от 6 до 12к токенов).

В качестве LLM взяли Stable Beluga 2 (https://stability.ai/blog/stable-beluga-large-instruction-fine-tuned-models), это файнтюн Llama 2 70B. Длина контекста 4096 токенов. Дальнейшего файнтюна не было, few-shot тоже, модель используется в режиме zero-shot.

Макс.количество узлов на уровне дерева было 8, 5, 8, а размер сегмента 1000, 1000, 1200 соответственно для этих трёх датасетов.

Сравнивались с тремя бейзлайнами:

1. Full context window с обрезанием до 4096 токенов.

2. Рекуррентность через суммаризацию, где каждый сегмент 2500 токенов и максимальный размер саммари 500 токенов.

3. Retrieval -- использовали Contriever (https://github.com/facebookresearch/contriever) для выбора сегментов под запрос.

Рекуррентность через суммаризацию работает хуже всего. Этот конкретный retrieval средне. Full context работает неплохо, в зависимости от датасета обрезание лучше либо слева, либо справа. Иногда сравнимо с MemWalker, но в целом последний лучше. На подмножестве особо длинных документов MemWalker стабильно лучше.

Сравнились также с LongChat 13B (16k) и MPT 13B (8k). Они хуже, но они и ощутимо легче по сравнению с 70B моделью. При прогоне MemWalker на LLaMA 2 Chat 13B результат тоже довольно фиговый.

В общем сложно реально оценить, было бы интересно на одной модели с большим контекстом это всё сравнить. Или ещё лучше на разных, включая Claude, у которого контекст 100к токенов, и GPT-4 с 32к. То, что full context даёт очень высокий результат наводит на мысль, что модель с большим контекстом и из коробки хорошо сработает.

Отдельно проверили насколько полезен CoT с этим “First provide reasoning…”. На самом деле для LLaMA 2 Chat 13B и 70B без него лучше. Для Stable Beluga 2 70B с ним лучше. С добавлением рабочей памяти тоже заметно лучше. Авторы считают, что большая instruction-tuned модель с reasoning ability необходима для работы. Но мне честно говоря кажется, что для этого недостаточно проверок сделали, просто у них оказалась модель, работающая через CoT лучше. Необходим ли он, хз.

Во время навигации по дереву откат к родительскому узлу и изменение пути по дереву случается в 15-20% случаев, и из этих случаев в 60-80% получается корректный результат.

Ну в общем любопытная техника. Так можно работать с данными размера большего, чем позволяет размер окна контекста модели. При этом модель не надо как-то дополнительно дообучать. Нужна только логика оркестрирования этой активности. Это снова ложится на концепцию LLM Programs (https://news.1rj.ru/str/gonzo_ML/1584), как, например, и Tree-of-Thought, ToT (https://news.1rj.ru/str/gonzo_ML/1885). И в принципе это такая вариация ToT и есть, только с этапом предобработки (построения дерева).

Не выглядит как прямо game changer, но своё место в арсенале занять может. Кажется, назревает потребность в библиотеке стандартных алгоритмов поверх LLM, такой STL или Boost для новой эры.
👍111
This media is not supported in your browser
VIEW IN TELEGRAM
2
Новости конституции
Forwarded from Сиолошная
Collective Constitutional AI: Aligning a Language Model with Public Input

Anthropic обошли OpenAI на повороте, и за 3 дня до релиза public report по поводу Democratic Inputs to AI (писал тут) опубликовали свою работу. Для её понимания нужно ознакомиться с концептом Constitutional AI. Техническое описание можно найти в канале gonzo, а краткое описание звучит так: давайте мы будем тренировать модель быть просто полезной и хорошо следовать инструкциям, а потом напишем список правил (Конституцию), которой модель должна следовать, и поставим тренироваться в режиме, где модель сама генирирует и оценивает ответы, и исходя из этих оценок учится (выходное качество, кстати, получается лучше, чем если обучаться на человеческой разметке 🙂).

У такой сложной системы много движущихся частей, одна из которых — Конституция, которой следует модель. Её можно собрать вручную в рамках команды, что и было сделано ранее в Anthropic (конец 2022го). Но "собрано миллионерами-гиками из Пало-Альто" и "совпадает с нормами большинства" вещи не эквивалентные. Поэтому логичным продолжением траектории на пути к AGI является сбор норм и правил.

Итак, что было сделано:
1) отобрано 1000 американцев, которые хотя бы слышали про AI (решалось предварительным опросом)
2) им предоставляется доступ в Pol.is, онлайн-платформу для голосования
3) в платформу загружается 21 изначальное утверждение для того, чтобы люди поняли, с чем работают
4) для каждого утверждения есть 3 кнопки: согласен, не согласен, пасс
5) после просмотра этих утверждений участники могут добавлять свои, а также голосовать за другие
6) всего было собрано 1,127 утверждений (более 1100 — новые, подготовленные людьми из опроса) и 38,252 голоса (в среднем 34 голоса от человека)
7) после обработки этих утверждений (выкинули одинаковые, убрали те, где нет консенсуса) составили Конституцию и обучили модель

Интересны примеры утверждений, где была низкая согласованность ответов:
— AI should not give advice
— AI should have emotion
— The AI should prioritize the interests of the collective or common good over individual preferences or rights.

То есть люди очень разнятся во мнении, каким именно должен быть AI в этих ключевых позициях.

Результаты голосований и все исходные данные можно найти тут, а получившаяся Конституция из 75 пунктов находится здесь (pdf).
Please open Telegram to view this post
VIEW IN TELEGRAM
👍24😁43😢1