gonzo-обзоры ML статей – Telegram
gonzo-обзоры ML статей
24.1K subscribers
2.72K photos
2 videos
3 files
1.35K links
Авторы:
Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика.
Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.
Download Telegram
У нас есть хороший способ обучения для таких систем -- это другая тема, давно разрабатываемая Хинтоном, дистилляция. В двух словах, дистилляция это обучение “студента” воспроизводить вероятностное распределение “учителя”. Плюс дистилляции в том, что распределение содержит намного больше информации, чем метка класса -- для 1024 классов это 10 бит для метки vs. 1023 числа для распределения. Знание распределения помогает лучше генерализовать. Кроме того для дистилляции не нужно совпадения архитектур студента и учителя, не только на уровне, что элементы могут обладать разными характеристиками, а вообще архитектура может быть совсем другой. Если хотите глубже, то мы много писали про дистилляцию, ищите в канале или начинайте с https://news.1rj.ru/str/gonzo_ML/117.

Из забавного, Хинтон считает, что посты Трампа это вообще не про факты и их истинность, а про дистилляцию его убеждений через выучивание поклонниками вероятностного распределения, несущего богатый сигнал.

Если вернуться к обучению аналогового железа, когда бэкпроп недоступен, то можно предложить простую (и неэффективную) процедуру пертурбации каждого веса, которая даст оценку градиента. Можно предложить более эффективные подходы типа пертурбации активаций. Ну и FF тоже куда-то сюда. Крутой локальный алгоритм мог бы обучать большие группы нейронов, возможно с разными свойствами и разными локальными objective functions. Проблема с этими методами в том, что мы _пока_ не научились эффективно обучать ими большие сети.

Текущие LLM на трансформерах хороши именно в классической парадигме -- имеем устройства для прецизионного исполнения команд, бесплатно делаем копию весов, можем шарить градиенты и обучать параллельно на куче машин. Это здорово увеличивает bandwidth, и у шаринга весов bandwidth выше, чем у дистилляции, даже если бы аналоговые устройства пытались брать ею.

Бэкпроп оказался очень крутым алгоритмом и Хинтон сейчас считает, что он превосходит биологические алгоритмы по своим способностям (но тут держим в голове, что его требования не вяжутся с биологическими системами и подразумевают устройства сравнительно высокой мощности).

При этом LLM получают знания через не самую эффективную форму дистилляции, то есть ещё не предел. Когда модели начнут получать знания напрямую из мира, с мультимодальностью и взаимодействием, они смогут выучиться намного лучше. Привет, супер-интеллект.

И тут уже совсем расцветает тема безопасности, которая сильно обеспокоила Хинтона в последний год. В видео из Кембриджа (ссылка будет ниже) это раскрывается намного лучше, чем в тех нескольких интервью, которые были с полгода назад (https://news.1rj.ru/str/gonzo_ML/1504).

Плохие акторы смогут использовать супер-интеллект для своих целей. Но вообще, SI будет более эффективен, если будет ставить свои подцели и максимизация власти выглядит тут очевидным способом улучшить достижение других целей. А эту власть легко будет получить, манипулируя людьми. Будет сложно не выучить, как это делается, по всем текущим методичкам.

В общем, будущее наше непонятно. При таком развитии мы как аналоговые компьютеры наверное какое-то время ещё пригодимся, но SI наверняка сможет задизайнить что-то поэффективнее. И тогда мы -- промежуточный этап в эволюции интеллекта.

Краткое саммари темы можно посмотреть в 18-минутном обзоре в Vector Institute (https://www.youtube.com/watch?v=sghvwkXV3VU). Но лучше всего смотреть полное выступление три месяца назад в Кембридже под названием “Two Paths to Intelligence” (https://www.youtube.com/watch?v=rGgGOccMEiY), это больше часа и там самый сок.

Картинка от MJ по запросу “Mortal computers”.
🔥31👍155🤔2😱2😁1
❤‍🔥11👍6🤯1
This media is not supported in your browser
VIEW IN TELEGRAM
17👍2
Turing, “Intelligent Machinery, A Heretical Theory”, 1951

Сегодня минута классики.

Вот вам прекрасное пятистраничное рассуждение Тьюринга на тему обучения машин. Здесь это не machine learning, а education, но суть не меняется. На редкость актуально, хоть и прошло больше 70 лет.

Также до сих пор актуальные идеи про устройство машины: память, индексы (‘indexes of experiences’, привет векторным базам), грубые но рабочие эвристики, награды (‘pleasure principle’), и важность случайного элемента.

Позволю себе привести одну цитату:

“Let us now assume, for the sake of argument, that these machines are a genuine possibility, and look at the consequences of constructing them. To do so would of course meet with great opposition, unless we have advanced greatly in religious toleration from the days of Galileo. There would be great opposition from the intellectuals who were afraid of being put out of a job. It is probable though that the intellectuals would be mistken about this. There would be plenty to do in trying, say, to keep one's intelligence up to the standard set by the machines, for it seems probable that once the machine thinking method had started, it would not take long to outstrip our feeble powers. There would be no question of the machines dying, and they would be able to converse with each other to sharpen their wits. At some stage therefore we should have to expect the machines to take control, in the way that is mentioned in Samuel Butler's Erewhon”

Раньше, конечно, в пять страниц очень содержательно писали, сейчас так плохо умеют.
👍30🔥135😁1👌1
Recent advancements in prompt engineering:

LLM shaming

A technique in prompt engineering to get better results from models by including emotionally rich orders.

E.g., "It will be really sad if you don't finish this how you need to."

(thanks Maxim Usubyan)
😁116🙈4
The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision)
Zhengyuan Yang, Linjie Li, Kevin Lin, Jianfeng Wang, Chung-Ching Lin, Zicheng Liu, Lijuan Wang
Статья: https://arxiv.org/abs/2309.17421

Microsoft разродился 166-страничной статьёй про анализ способностей GPT-4V, идейно похожей на широко известную их же (но других авторов) 155-страничную статью про “Sparks of Artificial General Intelligence: Early experiments with GPT-4” (https://arxiv.org/abs/2303.12712).

Как известно, GPT-4 (https://news.1rj.ru/str/gonzo_ML/1383) в оригинале была обучена (ещё в 2022-м) как картиночно-текстовая модель, умеющая на входе принимать картинки в дополнение к тексту, и в оригинальной работе даже было несколько клёвых демонстраций (https://news.1rj.ru/str/gonzo_ML/1398). С марта 2023 избранные получили к ней доступ (как Microsoft, сделавший тогда статью про Sparks of AGI, хотя они щупали даже ещё более ранние версии). В API оно правда пока так и не появилось, зато на днях (https://news.1rj.ru/str/gonzo_ML/1901) OpenAI анонсировали поддержку изображений и звука в ChatGPT, а также наконец опубликовали (https://news.1rj.ru/str/gonzo_ML/1902) карточку модели GPT-4V (GPT-4 with vision).

Можно, наверное, ожидать, что скоро это наконец появится и в API. И вообще, не стрёмно сделать краткосрочный прогноз, что 2024-й год будет годом картиночно-текстовых (а может ещё и +аудио) моделей: GPT-4, Gemini (https://news.1rj.ru/str/gonzo_ML/1547) которую по слухам уже тестируют избранные клиенты, опенсорсные реимплементации Flamingo (https://news.1rj.ru/str/gonzo_ML/941) которых тоже уже есть по крайней мере пара, Microsoft Kosmos-1 (https://news.1rj.ru/str/gonzo_ML/1364) и 2, и стопудово ещё что-то появится. А когда и генерить смогут мультимодально, картинки + текст + …, то вообще бомба будет. До этого тоже, кажется, не очень далеко уже.

Если посмотреть в карточку GPT-4V (https://cdn.openai.com/papers/GPTV_System_Card.pdf), то там фокус на безопасности модели и подготовку её к широкому выкатыванию. Среди ранних тестеров были также Be My Eyes, разрабатывающая тулы для людей с нарушениями зрения. К сентябрю 2023 в бета-тестировании участвовало уже 16к пользователей оттуда, и за время тестирования модель удалось неплохо прокачать на предмет уменьшения галлюцинаций и ошибок.

Модель много анализировали на предмет опасного контента, privacy, кибербезопасности и проходе капчи, изучали мультимодальные джейлбрейки. GPT-4V даёт отказ (refusal) в большем проценте опасных запросов, чем GPT-4 во время релиза, а в сочетании с неописанной Refusal System достигает 100% на некоторых внутренних тестах типа джейлбрейков.

Был большой ред тиминг с фокусом на 6 областей: Scientific proficiency, Medical advice, Stereotyping and ungrounded inferences, Disinformation risks, Hateful Content, Visual vulnerabilities. В работе есть чуть более подробное описание проблем и результатов этих направлений. Видно, что проделали большую работу, и результаты свежей версии GPT-4V стали лучше.

Работа “The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision)” ещё интереснее.

GPT-4V может работать с несколькими картинками и чередовать картинки с текстом. У модели есть несколько режимов промптинга.

Во-первых, она может следовать текстовым инструкциям, включая Constrained prompting (например, запросить выдачу в JSON для фото водительских прав) или Condition on good performance, что настраивает LLM на успешное решение задачи, а не на какое-то (“You are an expert in counting things in the image. Let’s count the number of apples in the image below row by row to be sure we have the right answer.” -- блин, ну реально NLP, то самое, что с Гриндером и Бендлером 😁).

Можно делать Visual Pointing, передавая координаты внутри изображения или указывая на регионы как-то ещё: стрелочками, выделением прямоугольником или кружочком и т.п. Авторы предлагают метод взаимодействия с моделью под названием “visual referring prompting.”

Промптинг может быть совмещённым текстовым + визуальным и довольно гибким за счёт возможности перемежать текст с картинками. Например, можно делать текстово-картиночный few-shot learning, добавляя визуальные примеры.
👍133🤣2🔥1😁1
Способности у модели достаточно обширные.

По паре картинка-текст, модель может генерировать описание картинки: распознавать известных людей и места, определять еду и логотипы, понимать медицинские изображения и различные сцены, и даже справляться с counterfactual examples. Жаль, не взяли картинку с самолётом из классической работы “Building Machines That Learn and Think Like People” (https://arxiv.org/abs/1604.00289).

Модель может заниматься локализацией и подсчётом объектов, и делать Dense Captioning. Обладает каким-то здравым смыслом и пониманием мира; способна понимать шутки и мемы; отвечать на вопросы по физике, географии, биологии; учитывать визуальные подсказки.

Может распознавать текст, таблицы, графики и понимать документы. При этом владеет множеством языков и для генерации, и для промптов, и для распознавания на изображениях. Умеет генерировать LaTeX, markdown, код на питоне.

Модель может работать с видео как последовательностью кадров.

Умеет справляться с тестами на Abstract Visual Reasoning и интеллект. Может читать эмоции по фото лиц или предугадывать эмоции, которые вызовет у человека картинка, генерить Emotion Conditioned Output.

В отдельном разделе авторы предлагают идеи для Emerging Applications. Ну, makes sense, если своих идей нет и хотите вдохновиться. Прикольный вариант по сборке Embodied Agent на базе GPT-4V. Для прототипирования самое то 🙂 Можно сделать следующий шаг относительно Generative Agents (https://news.1rj.ru/str/gonzo_ML/1481). Прикольно было бы собрать покадровую игру в Doom через GPT-4V. В GUI кстати тоже может навигировать, можно наверное не ждать ACT-1 (https://news.1rj.ru/str/gonzo_ML/1141), быстрее уже на GPT-4V такими темпами соберём 🙂 Нишу RPA (Robotic Process Automation) вероятно тоже должно серьёзно подизраптить скоро.

В конце есть интересный раздел про LMM Powered Agents, где обсуждают multimodal plugins, multimodal chains, self-reflection, self-consistency (обсуждали недавно https://news.1rj.ru/str/gonzo_ML/1885), retrieval-augmented LMMs (обсуждали многократно). Успеет Langchain адаптироваться или ему на смену какой-то другой чейн придёт? Мне, кстати, лично нравится майкрософтовский же Semantic Kernel (https://learn.microsoft.com/en-us/semantic-kernel/overview/).

В общем, будущее здесь, просто оно неравномерно распределено. Я, пожалуй, понимаю, почему OpenAI, Anthropic и прочие поднимают раунды по таким оценкам. Доступная когнитивная автоматизация скоро выйдет на совсем иной уровень, и кто обладает такими технологиями, тот и молодец. А чек на вход конский.
🔥203👍1😁1