Plus and Enterprise users will get to experience voice and images in the next two weeks. We’re excited to roll out these capabilities to other groups of users, including developers, soon after.
https://openai.com/blog/chatgpt-can-now-see-hear-and-speak
https://openai.com/blog/chatgpt-can-now-see-hear-and-speak
Openai
ChatGPT can now see, hear, and speak
We are beginning to roll out new voice and image capabilities in ChatGPT. They offer a new, more intuitive type of interface by allowing you to have a voice conversation or show ChatGPT what you’re talking about.
👍9
Also GPT-4 with vision (GPT-4V) system card published.
https://openai.com/research/gpt-4v-system-card
Дожили, радуемся уже не опубликованным моделям, не статьям, а карточкам модели...
https://openai.com/research/gpt-4v-system-card
Дожили, радуемся уже не опубликованным моделям, не статьям, а карточкам модели...
Openai
GPT-4V(ision) system card
😁12❤3👍1
Ну и разбавим подборку новостей:
"This market of machine learning, artificial intelligence” is “almost entirely driven by the big players—Googles, Amazons, Metas”—that have the “enormous amounts of data and enormous amounts of capital” to develop AI at scale. Those companies are also Nvidia’s biggest customers. “This was not the world I wanted to help build,” he said.
Now the Germany and Italy-based researcher is dedicating his career to studying the unintended societal impacts of AI, including publishing a book on the topic this month. Its premise: The concentration of power in the hands of tech giants like Google is the real danger of AI, not the human-killing-AI future being propagated in the press. He’s also reaching out to regulators to encourage them to limit the power of these big companies and lift underfunded research groups and startups."
https://www.theinformation.com/articles/nvidia-engineers-message-to-google-ai-researchers-leave-your-company
"This market of machine learning, artificial intelligence” is “almost entirely driven by the big players—Googles, Amazons, Metas”—that have the “enormous amounts of data and enormous amounts of capital” to develop AI at scale. Those companies are also Nvidia’s biggest customers. “This was not the world I wanted to help build,” he said.
Now the Germany and Italy-based researcher is dedicating his career to studying the unintended societal impacts of AI, including publishing a book on the topic this month. Its premise: The concentration of power in the hands of tech giants like Google is the real danger of AI, not the human-killing-AI future being propagated in the press. He’s also reaching out to regulators to encourage them to limit the power of these big companies and lift underfunded research groups and startups."
https://www.theinformation.com/articles/nvidia-engineers-message-to-google-ai-researchers-leave-your-company
The Information
Nvidia Engineer’s Message to Google AI Researchers: Leave Your Company
Jacopo Pantaleoni joined Nvidia in 2001 when the company had less than 500 employees. He worked on what was then a small research project to improve Nvidia’s graphics processing units so they could better render images on computers and gaming consoles.More…
👍31👎7❤4🥴4🤔3🤡3🔥1😁1
Ну, не прошло и года (https://news.1rj.ru/str/gonzo_ML/1140):
ChatGPT can now browse the internet to provide you with current and authoritative information, complete with direct links to sources. It is no longer limited to data before September 2021.
https://twitter.com/OpenAI/status/1707077710047216095?t=XyNWvhAvfjDshLC_nXVVLw&s=19
ChatGPT can now browse the internet to provide you with current and authoritative information, complete with direct links to sources. It is no longer limited to data before September 2021.
https://twitter.com/OpenAI/status/1707077710047216095?t=XyNWvhAvfjDshLC_nXVVLw&s=19
Telegram
gonzo-обзоры ML статей
GPT-3, InstructGPT, GPT-3.5, ChatGPT, GPT-4, …
Генеративный AI за этот год сильно удивил. Прогресс с изображениями колоссальный (мы писали про это тут и тут). За это время и Midjourney существенно прокачался, и StableDiffusion постоянно обновляется, ещё…
Генеративный AI за этот год сильно удивил. Прогресс с изображениями колоссальный (мы писали про это тут и тут). За это время и Midjourney существенно прокачался, и StableDiffusion постоянно обновляется, ещё…
🔥30👍4😁1
В это время в Nature большая статья про тесты искусственного интеллекта
https://www.nature.com/immersive/d41586-023-02822-z/index.html
https://www.nature.com/immersive/d41586-023-02822-z/index.html
Nature
A test of artificial intelligence
As debate rages over the abilities of modern AI systems, scientists are still struggling to effectively assess machine intelligence.
❤11👌3😁1
Но (последнее на сегодня) искусственному интеллекту далеко до естественного, пока он не научится делать такое:
https://3dnews.ru/1093383/minpromtorg-proverit-dannie-o-nerabochem-rossiyskom-chipe-v-monitore-lightcom-proizvoditeli-eto-otritsayut
https://3dnews.ru/1093383/minpromtorg-proverit-dannie-o-nerabochem-rossiyskom-chipe-v-monitore-lightcom-proizvoditeli-eto-otritsayut
3DNews - Daily Digital Digest
Минпромторг проверит, почему российский чип в отечественном мониторе можно заменить проволокой
Российский блогер Максим Горшенин, известный под ником imaxairu, обнаружил в мониторе V-Max ПЦВТ.
😁67🕊2
Mortal Computers
А теперь шутки в сторону и поговорим про фронтир, но не такой как обычно.
Я долго откладывал чтение статьи Джеффри Хинтона про алгоритм обучения Forward-Forward, или FF, (https://arxiv.org/abs/2212.13345). Если вкратце, то это альтернатива бэкпропу, где делается два контрастных форвардпропа, один с позитивными данными, на которых модификацией весов надо максимизировать goodness, другой с негативными, где goodness надо уменьшить. Goodness может определяться по-разному, например, это может быть сумма квадратов активаций.
Этот алгоритм хорош тем, что он локальный, не требует бэкпропа через всю систему, и что особенно важно, может работать с чёрными ящиками, не требуя полного понимания вычислений (и соответственно не имея возможности посчитать от них производную (хотя конечно её можно было бы оценить, но вычислительно это тяжёлая история, особенно для больших сетей)).
По дизайну FF имеет много отсылок к разным вещам типа RBM, GAN, контрастному обучению типа SimCLR/BYOL (оба разбирали в канале), к Хинтоновскому же GLOM. Он более-менее работает на малых сетях и примерах типа MNIST и CIFAR10, на больших это скорее TBD. Возможно, по этому алгоритму и его развитиям мы пройдёмся как-нибудь отдельно (но это не точно), но чтобы не ждать, можете посмотреть кейноут самого Хинтона (https://www.youtube.com/watch?v=_5W5BvKe_6Y) или его рассказ в Eye on AI (https://www.youtube.com/watch?v=NWqy_b1OvwQ), если неохота читать статью.
Так вот, возвращаясь к статье, самая интересная часть там не про алгоритм как таковой. Самое интересное — это пара маленьких разделов в конце про аналоговое железо и mortal computation. В этой теме слилось воедино множество направлений, которыми занимался Хинтон в последние годы, и она важнее, чем FF. Честно говоря, я даже сомневаюсь, что он продолжит работу над FF (хотя там большой раздел про Future Work, и он тоже важный), потому что то, что открылось и кристаллизовалось в итоге, важнее.
Про что речь.
Классические вычисления и computer science построены на том, что компьютеры сделаны для надёжного и точного выполнения инструкций. Благодаря этому, нам не надо заботиться о физическом уровне и об электротехнике; благодаря этому мы можем довольно спокойно отделить железо от софта и изучать последний; благодаря этому программа переносима и потенциально бессмертна -- со смертью железа она не умирает и может быть запущена где-то ещё (ну если админ бэкапы делал и проверял, конечно).
Эта точность и надёжность вычислений даётся довольно дорогой ценой: нужны мощные (по сравнению с нейронами) транзисторы, нужно цифровое кодирование сигналов, нужны алгоритмы для обработки этих сигналов. То же перемножение двух n-битных чисел -- это O(n^2) операций с битами, в то время как в физической системе это можно было бы посчитать параллельно для произвольного количества активаций и весов, если первые задать напряжением, а вторые проводимостью, их произведение даст заряд, который автоматом просуммируется. Даже если устройства не супер быстрые, за счёт такого параллелизма можно быть очень крутым.
Сложность с аналоговыми вычислениями в том, что они очень зависят от конкретных элементов со всеми их несовершенствами, и их точные свойства неизвестны (бэкпроп через неизвестную функцию тоже так себе делать, нужна точная модель форвард пасса). Зато если бы был алгоритм обучения не требующий бэкпропа (а мы знаем, что он есть, на примере мозга), то можно было бы выращивать “железо” даже с неизвестными параметрами и связями, и как бонус иметь устройства с очень низким энергопотреблением. И вместо прецизионного изготовления железа в 2D (ну ок, немного уже в 3D умеем) на заводах стоимостью в пиллиарды долларов, можно было бы дёшево выращивать железо в 3D.
Как антибонус -- устройства становятся смертными, программа теперь неотделима от железа, по крайней мере просто. Недостаточно сделать копию весов, надо как-то обучать (но не бэкпропом). Заранее продолжая аналогию, копию сознания сделать будет проблематично.
А теперь шутки в сторону и поговорим про фронтир, но не такой как обычно.
Я долго откладывал чтение статьи Джеффри Хинтона про алгоритм обучения Forward-Forward, или FF, (https://arxiv.org/abs/2212.13345). Если вкратце, то это альтернатива бэкпропу, где делается два контрастных форвардпропа, один с позитивными данными, на которых модификацией весов надо максимизировать goodness, другой с негативными, где goodness надо уменьшить. Goodness может определяться по-разному, например, это может быть сумма квадратов активаций.
Этот алгоритм хорош тем, что он локальный, не требует бэкпропа через всю систему, и что особенно важно, может работать с чёрными ящиками, не требуя полного понимания вычислений (и соответственно не имея возможности посчитать от них производную (хотя конечно её можно было бы оценить, но вычислительно это тяжёлая история, особенно для больших сетей)).
По дизайну FF имеет много отсылок к разным вещам типа RBM, GAN, контрастному обучению типа SimCLR/BYOL (оба разбирали в канале), к Хинтоновскому же GLOM. Он более-менее работает на малых сетях и примерах типа MNIST и CIFAR10, на больших это скорее TBD. Возможно, по этому алгоритму и его развитиям мы пройдёмся как-нибудь отдельно (но это не точно), но чтобы не ждать, можете посмотреть кейноут самого Хинтона (https://www.youtube.com/watch?v=_5W5BvKe_6Y) или его рассказ в Eye on AI (https://www.youtube.com/watch?v=NWqy_b1OvwQ), если неохота читать статью.
Так вот, возвращаясь к статье, самая интересная часть там не про алгоритм как таковой. Самое интересное — это пара маленьких разделов в конце про аналоговое железо и mortal computation. В этой теме слилось воедино множество направлений, которыми занимался Хинтон в последние годы, и она важнее, чем FF. Честно говоря, я даже сомневаюсь, что он продолжит работу над FF (хотя там большой раздел про Future Work, и он тоже важный), потому что то, что открылось и кристаллизовалось в итоге, важнее.
Про что речь.
Классические вычисления и computer science построены на том, что компьютеры сделаны для надёжного и точного выполнения инструкций. Благодаря этому, нам не надо заботиться о физическом уровне и об электротехнике; благодаря этому мы можем довольно спокойно отделить железо от софта и изучать последний; благодаря этому программа переносима и потенциально бессмертна -- со смертью железа она не умирает и может быть запущена где-то ещё (ну если админ бэкапы делал и проверял, конечно).
Эта точность и надёжность вычислений даётся довольно дорогой ценой: нужны мощные (по сравнению с нейронами) транзисторы, нужно цифровое кодирование сигналов, нужны алгоритмы для обработки этих сигналов. То же перемножение двух n-битных чисел -- это O(n^2) операций с битами, в то время как в физической системе это можно было бы посчитать параллельно для произвольного количества активаций и весов, если первые задать напряжением, а вторые проводимостью, их произведение даст заряд, который автоматом просуммируется. Даже если устройства не супер быстрые, за счёт такого параллелизма можно быть очень крутым.
Сложность с аналоговыми вычислениями в том, что они очень зависят от конкретных элементов со всеми их несовершенствами, и их точные свойства неизвестны (бэкпроп через неизвестную функцию тоже так себе делать, нужна точная модель форвард пасса). Зато если бы был алгоритм обучения не требующий бэкпропа (а мы знаем, что он есть, на примере мозга), то можно было бы выращивать “железо” даже с неизвестными параметрами и связями, и как бонус иметь устройства с очень низким энергопотреблением. И вместо прецизионного изготовления железа в 2D (ну ок, немного уже в 3D умеем) на заводах стоимостью в пиллиарды долларов, можно было бы дёшево выращивать железо в 3D.
Как антибонус -- устройства становятся смертными, программа теперь неотделима от железа, по крайней мере просто. Недостаточно сделать копию весов, надо как-то обучать (но не бэкпропом). Заранее продолжая аналогию, копию сознания сделать будет проблематично.
YouTube
MoroccoAI Conference 2022 Honorary Keynote Prof. Geoffrey Hinton - The Forward-Forward Algorithm
In this Honorary Keynote, Prof. Geoffrey Hinton, Full Professor at University of Toronto, discusses "Learning Deep Neural Networks without Propagating Derivatives".
This is a new learning algorithm for artificial neural networks, called Forward-Forward…
This is a new learning algorithm for artificial neural networks, called Forward-Forward…
👍37🔥22❤8🤯3🕊2🐳1🤪1
У нас есть хороший способ обучения для таких систем -- это другая тема, давно разрабатываемая Хинтоном, дистилляция. В двух словах, дистилляция это обучение “студента” воспроизводить вероятностное распределение “учителя”. Плюс дистилляции в том, что распределение содержит намного больше информации, чем метка класса -- для 1024 классов это 10 бит для метки vs. 1023 числа для распределения. Знание распределения помогает лучше генерализовать. Кроме того для дистилляции не нужно совпадения архитектур студента и учителя, не только на уровне, что элементы могут обладать разными характеристиками, а вообще архитектура может быть совсем другой. Если хотите глубже, то мы много писали про дистилляцию, ищите в канале или начинайте с https://news.1rj.ru/str/gonzo_ML/117.
Из забавного, Хинтон считает, что посты Трампа это вообще не про факты и их истинность, а про дистилляцию его убеждений через выучивание поклонниками вероятностного распределения, несущего богатый сигнал.
Если вернуться к обучению аналогового железа, когда бэкпроп недоступен, то можно предложить простую (и неэффективную) процедуру пертурбации каждого веса, которая даст оценку градиента. Можно предложить более эффективные подходы типа пертурбации активаций. Ну и FF тоже куда-то сюда. Крутой локальный алгоритм мог бы обучать большие группы нейронов, возможно с разными свойствами и разными локальными objective functions. Проблема с этими методами в том, что мы _пока_ не научились эффективно обучать ими большие сети.
Текущие LLM на трансформерах хороши именно в классической парадигме -- имеем устройства для прецизионного исполнения команд, бесплатно делаем копию весов, можем шарить градиенты и обучать параллельно на куче машин. Это здорово увеличивает bandwidth, и у шаринга весов bandwidth выше, чем у дистилляции, даже если бы аналоговые устройства пытались брать ею.
Бэкпроп оказался очень крутым алгоритмом и Хинтон сейчас считает, что он превосходит биологические алгоритмы по своим способностям (но тут держим в голове, что его требования не вяжутся с биологическими системами и подразумевают устройства сравнительно высокой мощности).
При этом LLM получают знания через не самую эффективную форму дистилляции, то есть ещё не предел. Когда модели начнут получать знания напрямую из мира, с мультимодальностью и взаимодействием, они смогут выучиться намного лучше. Привет, супер-интеллект.
И тут уже совсем расцветает тема безопасности, которая сильно обеспокоила Хинтона в последний год. В видео из Кембриджа (ссылка будет ниже) это раскрывается намного лучше, чем в тех нескольких интервью, которые были с полгода назад (https://news.1rj.ru/str/gonzo_ML/1504).
Плохие акторы смогут использовать супер-интеллект для своих целей. Но вообще, SI будет более эффективен, если будет ставить свои подцели и максимизация власти выглядит тут очевидным способом улучшить достижение других целей. А эту власть легко будет получить, манипулируя людьми. Будет сложно не выучить, как это делается, по всем текущим методичкам.
В общем, будущее наше непонятно. При таком развитии мы как аналоговые компьютеры наверное какое-то время ещё пригодимся, но SI наверняка сможет задизайнить что-то поэффективнее. И тогда мы -- промежуточный этап в эволюции интеллекта.
Краткое саммари темы можно посмотреть в 18-минутном обзоре в Vector Institute (https://www.youtube.com/watch?v=sghvwkXV3VU). Но лучше всего смотреть полное выступление три месяца назад в Кембридже под названием “Two Paths to Intelligence” (https://www.youtube.com/watch?v=rGgGOccMEiY), это больше часа и там самый сок.
Картинка от MJ по запросу “Mortal computers”.
Из забавного, Хинтон считает, что посты Трампа это вообще не про факты и их истинность, а про дистилляцию его убеждений через выучивание поклонниками вероятностного распределения, несущего богатый сигнал.
Если вернуться к обучению аналогового железа, когда бэкпроп недоступен, то можно предложить простую (и неэффективную) процедуру пертурбации каждого веса, которая даст оценку градиента. Можно предложить более эффективные подходы типа пертурбации активаций. Ну и FF тоже куда-то сюда. Крутой локальный алгоритм мог бы обучать большие группы нейронов, возможно с разными свойствами и разными локальными objective functions. Проблема с этими методами в том, что мы _пока_ не научились эффективно обучать ими большие сети.
Текущие LLM на трансформерах хороши именно в классической парадигме -- имеем устройства для прецизионного исполнения команд, бесплатно делаем копию весов, можем шарить градиенты и обучать параллельно на куче машин. Это здорово увеличивает bandwidth, и у шаринга весов bandwidth выше, чем у дистилляции, даже если бы аналоговые устройства пытались брать ею.
Бэкпроп оказался очень крутым алгоритмом и Хинтон сейчас считает, что он превосходит биологические алгоритмы по своим способностям (но тут держим в голове, что его требования не вяжутся с биологическими системами и подразумевают устройства сравнительно высокой мощности).
При этом LLM получают знания через не самую эффективную форму дистилляции, то есть ещё не предел. Когда модели начнут получать знания напрямую из мира, с мультимодальностью и взаимодействием, они смогут выучиться намного лучше. Привет, супер-интеллект.
И тут уже совсем расцветает тема безопасности, которая сильно обеспокоила Хинтона в последний год. В видео из Кембриджа (ссылка будет ниже) это раскрывается намного лучше, чем в тех нескольких интервью, которые были с полгода назад (https://news.1rj.ru/str/gonzo_ML/1504).
Плохие акторы смогут использовать супер-интеллект для своих целей. Но вообще, SI будет более эффективен, если будет ставить свои подцели и максимизация власти выглядит тут очевидным способом улучшить достижение других целей. А эту власть легко будет получить, манипулируя людьми. Будет сложно не выучить, как это делается, по всем текущим методичкам.
В общем, будущее наше непонятно. При таком развитии мы как аналоговые компьютеры наверное какое-то время ещё пригодимся, но SI наверняка сможет задизайнить что-то поэффективнее. И тогда мы -- промежуточный этап в эволюции интеллекта.
Краткое саммари темы можно посмотреть в 18-минутном обзоре в Vector Institute (https://www.youtube.com/watch?v=sghvwkXV3VU). Но лучше всего смотреть полное выступление три месяца назад в Кембридже под названием “Two Paths to Intelligence” (https://www.youtube.com/watch?v=rGgGOccMEiY), это больше часа и там самый сок.
Картинка от MJ по запросу “Mortal computers”.
Telegram
gonzo-обзоры ML статей
Астрологи объявили неделю дистилляции.
Следите за обновлениями.
Следите за обновлениями.
🔥31👍15❤5🤔2😱2😁1
Turing, “Intelligent Machinery, A Heretical Theory”, 1951
Сегодня минута классики.
Вот вам прекрасное пятистраничное рассуждение Тьюринга на тему обучения машин. Здесь это не machine learning, а education, но суть не меняется. На редкость актуально, хоть и прошло больше 70 лет.
Также до сих пор актуальные идеи про устройство машины: память, индексы (‘indexes of experiences’, привет векторным базам), грубые но рабочие эвристики, награды (‘pleasure principle’), и важность случайного элемента.
Позволю себе привести одну цитату:
“Let us now assume, for the sake of argument, that these machines are a genuine possibility, and look at the consequences of constructing them. To do so would of course meet with great opposition, unless we have advanced greatly in religious toleration from the days of Galileo. There would be great opposition from the intellectuals who were afraid of being put out of a job. It is probable though that the intellectuals would be mistken about this. There would be plenty to do in trying, say, to keep one's intelligence up to the standard set by the machines, for it seems probable that once the machine thinking method had started, it would not take long to outstrip our feeble powers. There would be no question of the machines dying, and they would be able to converse with each other to sharpen their wits. At some stage therefore we should have to expect the machines to take control, in the way that is mentioned in Samuel Butler's Erewhon”
Раньше, конечно, в пять страниц очень содержательно писали, сейчас так плохо умеют.
Сегодня минута классики.
Вот вам прекрасное пятистраничное рассуждение Тьюринга на тему обучения машин. Здесь это не machine learning, а education, но суть не меняется. На редкость актуально, хоть и прошло больше 70 лет.
Также до сих пор актуальные идеи про устройство машины: память, индексы (‘indexes of experiences’, привет векторным базам), грубые но рабочие эвристики, награды (‘pleasure principle’), и важность случайного элемента.
Позволю себе привести одну цитату:
“Let us now assume, for the sake of argument, that these machines are a genuine possibility, and look at the consequences of constructing them. To do so would of course meet with great opposition, unless we have advanced greatly in religious toleration from the days of Galileo. There would be great opposition from the intellectuals who were afraid of being put out of a job. It is probable though that the intellectuals would be mistken about this. There would be plenty to do in trying, say, to keep one's intelligence up to the standard set by the machines, for it seems probable that once the machine thinking method had started, it would not take long to outstrip our feeble powers. There would be no question of the machines dying, and they would be able to converse with each other to sharpen their wits. At some stage therefore we should have to expect the machines to take control, in the way that is mentioned in Samuel Butler's Erewhon”
Раньше, конечно, в пять страниц очень содержательно писали, сейчас так плохо умеют.
👍30🔥13❤5😁1👌1
В Сиолошной хороший и полезный обзор нескольких видео про OpenAI и Anthropic
https://news.1rj.ru/str/seeallochnaya/671
https://news.1rj.ru/str/seeallochnaya/671
Telegram
Сиолошная
Посмотрел интервью Sam Altman и Greg Brockman 4-летней давности. Оно записано через +-4 месяца после релиза GPT-2 (когда бОльшие версии модели не были доступны публично). Если бы YouTube не показывал дату публикации в описании — я бы подумал, что видео записано…
👍7❤5❤🔥2💅2🤮1😐1
Recent advancements in prompt engineering:
LLM shaming
A technique in prompt engineering to get better results from models by including emotionally rich orders.
E.g., "It will be really sad if you don't finish this how you need to."
(thanks Maxim Usubyan)
LLM shaming
A technique in prompt engineering to get better results from models by including emotionally rich orders.
E.g., "It will be really sad if you don't finish this how you need to."
(thanks Maxim Usubyan)
😁116🙈4
The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision)
Zhengyuan Yang, Linjie Li, Kevin Lin, Jianfeng Wang, Chung-Ching Lin, Zicheng Liu, Lijuan Wang
Статья: https://arxiv.org/abs/2309.17421
Microsoft разродился 166-страничной статьёй про анализ способностей GPT-4V, идейно похожей на широко известную их же (но других авторов) 155-страничную статью про “Sparks of Artificial General Intelligence: Early experiments with GPT-4” (https://arxiv.org/abs/2303.12712).
Как известно, GPT-4 (https://news.1rj.ru/str/gonzo_ML/1383) в оригинале была обучена (ещё в 2022-м) как картиночно-текстовая модель, умеющая на входе принимать картинки в дополнение к тексту, и в оригинальной работе даже было несколько клёвых демонстраций (https://news.1rj.ru/str/gonzo_ML/1398). С марта 2023 избранные получили к ней доступ (как Microsoft, сделавший тогда статью про Sparks of AGI, хотя они щупали даже ещё более ранние версии). В API оно правда пока так и не появилось, зато на днях (https://news.1rj.ru/str/gonzo_ML/1901) OpenAI анонсировали поддержку изображений и звука в ChatGPT, а также наконец опубликовали (https://news.1rj.ru/str/gonzo_ML/1902) карточку модели GPT-4V (GPT-4 with vision).
Можно, наверное, ожидать, что скоро это наконец появится и в API. И вообще, не стрёмно сделать краткосрочный прогноз, что 2024-й год будет годом картиночно-текстовых (а может ещё и +аудио) моделей: GPT-4, Gemini (https://news.1rj.ru/str/gonzo_ML/1547) которую по слухам уже тестируют избранные клиенты, опенсорсные реимплементации Flamingo (https://news.1rj.ru/str/gonzo_ML/941) которых тоже уже есть по крайней мере пара, Microsoft Kosmos-1 (https://news.1rj.ru/str/gonzo_ML/1364) и 2, и стопудово ещё что-то появится. А когда и генерить смогут мультимодально, картинки + текст + …, то вообще бомба будет. До этого тоже, кажется, не очень далеко уже.
Если посмотреть в карточку GPT-4V (https://cdn.openai.com/papers/GPTV_System_Card.pdf), то там фокус на безопасности модели и подготовку её к широкому выкатыванию. Среди ранних тестеров были также Be My Eyes, разрабатывающая тулы для людей с нарушениями зрения. К сентябрю 2023 в бета-тестировании участвовало уже 16к пользователей оттуда, и за время тестирования модель удалось неплохо прокачать на предмет уменьшения галлюцинаций и ошибок.
Модель много анализировали на предмет опасного контента, privacy, кибербезопасности и проходе капчи, изучали мультимодальные джейлбрейки. GPT-4V даёт отказ (refusal) в большем проценте опасных запросов, чем GPT-4 во время релиза, а в сочетании с неописанной Refusal System достигает 100% на некоторых внутренних тестах типа джейлбрейков.
Был большой ред тиминг с фокусом на 6 областей: Scientific proficiency, Medical advice, Stereotyping and ungrounded inferences, Disinformation risks, Hateful Content, Visual vulnerabilities. В работе есть чуть более подробное описание проблем и результатов этих направлений. Видно, что проделали большую работу, и результаты свежей версии GPT-4V стали лучше.
Работа “The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision)” ещё интереснее.
GPT-4V может работать с несколькими картинками и чередовать картинки с текстом. У модели есть несколько режимов промптинга.
Во-первых, она может следовать текстовым инструкциям, включая Constrained prompting (например, запросить выдачу в JSON для фото водительских прав) или Condition on good performance, что настраивает LLM на успешное решение задачи, а не на какое-то (“You are an expert in counting things in the image. Let’s count the number of apples in the image below row by row to be sure we have the right answer.” -- блин, ну реально NLP, то самое, что с Гриндером и Бендлером 😁).
Можно делать Visual Pointing, передавая координаты внутри изображения или указывая на регионы как-то ещё: стрелочками, выделением прямоугольником или кружочком и т.п. Авторы предлагают метод взаимодействия с моделью под названием “visual referring prompting.”
Промптинг может быть совмещённым текстовым + визуальным и довольно гибким за счёт возможности перемежать текст с картинками. Например, можно делать текстово-картиночный few-shot learning, добавляя визуальные примеры.
Zhengyuan Yang, Linjie Li, Kevin Lin, Jianfeng Wang, Chung-Ching Lin, Zicheng Liu, Lijuan Wang
Статья: https://arxiv.org/abs/2309.17421
Microsoft разродился 166-страничной статьёй про анализ способностей GPT-4V, идейно похожей на широко известную их же (но других авторов) 155-страничную статью про “Sparks of Artificial General Intelligence: Early experiments with GPT-4” (https://arxiv.org/abs/2303.12712).
Как известно, GPT-4 (https://news.1rj.ru/str/gonzo_ML/1383) в оригинале была обучена (ещё в 2022-м) как картиночно-текстовая модель, умеющая на входе принимать картинки в дополнение к тексту, и в оригинальной работе даже было несколько клёвых демонстраций (https://news.1rj.ru/str/gonzo_ML/1398). С марта 2023 избранные получили к ней доступ (как Microsoft, сделавший тогда статью про Sparks of AGI, хотя они щупали даже ещё более ранние версии). В API оно правда пока так и не появилось, зато на днях (https://news.1rj.ru/str/gonzo_ML/1901) OpenAI анонсировали поддержку изображений и звука в ChatGPT, а также наконец опубликовали (https://news.1rj.ru/str/gonzo_ML/1902) карточку модели GPT-4V (GPT-4 with vision).
Можно, наверное, ожидать, что скоро это наконец появится и в API. И вообще, не стрёмно сделать краткосрочный прогноз, что 2024-й год будет годом картиночно-текстовых (а может ещё и +аудио) моделей: GPT-4, Gemini (https://news.1rj.ru/str/gonzo_ML/1547) которую по слухам уже тестируют избранные клиенты, опенсорсные реимплементации Flamingo (https://news.1rj.ru/str/gonzo_ML/941) которых тоже уже есть по крайней мере пара, Microsoft Kosmos-1 (https://news.1rj.ru/str/gonzo_ML/1364) и 2, и стопудово ещё что-то появится. А когда и генерить смогут мультимодально, картинки + текст + …, то вообще бомба будет. До этого тоже, кажется, не очень далеко уже.
Если посмотреть в карточку GPT-4V (https://cdn.openai.com/papers/GPTV_System_Card.pdf), то там фокус на безопасности модели и подготовку её к широкому выкатыванию. Среди ранних тестеров были также Be My Eyes, разрабатывающая тулы для людей с нарушениями зрения. К сентябрю 2023 в бета-тестировании участвовало уже 16к пользователей оттуда, и за время тестирования модель удалось неплохо прокачать на предмет уменьшения галлюцинаций и ошибок.
Модель много анализировали на предмет опасного контента, privacy, кибербезопасности и проходе капчи, изучали мультимодальные джейлбрейки. GPT-4V даёт отказ (refusal) в большем проценте опасных запросов, чем GPT-4 во время релиза, а в сочетании с неописанной Refusal System достигает 100% на некоторых внутренних тестах типа джейлбрейков.
Был большой ред тиминг с фокусом на 6 областей: Scientific proficiency, Medical advice, Stereotyping and ungrounded inferences, Disinformation risks, Hateful Content, Visual vulnerabilities. В работе есть чуть более подробное описание проблем и результатов этих направлений. Видно, что проделали большую работу, и результаты свежей версии GPT-4V стали лучше.
Работа “The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision)” ещё интереснее.
GPT-4V может работать с несколькими картинками и чередовать картинки с текстом. У модели есть несколько режимов промптинга.
Во-первых, она может следовать текстовым инструкциям, включая Constrained prompting (например, запросить выдачу в JSON для фото водительских прав) или Condition on good performance, что настраивает LLM на успешное решение задачи, а не на какое-то (“You are an expert in counting things in the image. Let’s count the number of apples in the image below row by row to be sure we have the right answer.” -- блин, ну реально NLP, то самое, что с Гриндером и Бендлером 😁).
Можно делать Visual Pointing, передавая координаты внутри изображения или указывая на регионы как-то ещё: стрелочками, выделением прямоугольником или кружочком и т.п. Авторы предлагают метод взаимодействия с моделью под названием “visual referring prompting.”
Промптинг может быть совмещённым текстовым + визуальным и довольно гибким за счёт возможности перемежать текст с картинками. Например, можно делать текстово-картиночный few-shot learning, добавляя визуальные примеры.
Telegram
gonzo-обзоры ML статей
[OpenAI] GPT-4 Technical Report
Статья: https://cdn.openai.com/papers/gpt-4.pdf
Пост продуктовый: https://openai.com/product/gpt-4
Пост технический: https://openai.com/research/gpt-4
Ну что, GPT-4 анонсирована. Если TL;DR, то это картиночно-языковая модель…
Статья: https://cdn.openai.com/papers/gpt-4.pdf
Пост продуктовый: https://openai.com/product/gpt-4
Пост технический: https://openai.com/research/gpt-4
Ну что, GPT-4 анонсирована. Если TL;DR, то это картиночно-языковая модель…
👍13❤3🤣2🔥1😁1
Способности у модели достаточно обширные.
По паре картинка-текст, модель может генерировать описание картинки: распознавать известных людей и места, определять еду и логотипы, понимать медицинские изображения и различные сцены, и даже справляться с counterfactual examples. Жаль, не взяли картинку с самолётом из классической работы “Building Machines That Learn and Think Like People” (https://arxiv.org/abs/1604.00289).
Модель может заниматься локализацией и подсчётом объектов, и делать Dense Captioning. Обладает каким-то здравым смыслом и пониманием мира; способна понимать шутки и мемы; отвечать на вопросы по физике, географии, биологии; учитывать визуальные подсказки.
Может распознавать текст, таблицы, графики и понимать документы. При этом владеет множеством языков и для генерации, и для промптов, и для распознавания на изображениях. Умеет генерировать LaTeX, markdown, код на питоне.
Модель может работать с видео как последовательностью кадров.
Умеет справляться с тестами на Abstract Visual Reasoning и интеллект. Может читать эмоции по фото лиц или предугадывать эмоции, которые вызовет у человека картинка, генерить Emotion Conditioned Output.
В отдельном разделе авторы предлагают идеи для Emerging Applications. Ну, makes sense, если своих идей нет и хотите вдохновиться. Прикольный вариант по сборке Embodied Agent на базе GPT-4V. Для прототипирования самое то 🙂 Можно сделать следующий шаг относительно Generative Agents (https://news.1rj.ru/str/gonzo_ML/1481). Прикольно было бы собрать покадровую игру в Doom через GPT-4V. В GUI кстати тоже может навигировать, можно наверное не ждать ACT-1 (https://news.1rj.ru/str/gonzo_ML/1141), быстрее уже на GPT-4V такими темпами соберём 🙂 Нишу RPA (Robotic Process Automation) вероятно тоже должно серьёзно подизраптить скоро.
В конце есть интересный раздел про LMM Powered Agents, где обсуждают multimodal plugins, multimodal chains, self-reflection, self-consistency (обсуждали недавно https://news.1rj.ru/str/gonzo_ML/1885), retrieval-augmented LMMs (обсуждали многократно). Успеет Langchain адаптироваться или ему на смену какой-то другой чейн придёт? Мне, кстати, лично нравится майкрософтовский же Semantic Kernel (https://learn.microsoft.com/en-us/semantic-kernel/overview/).
В общем, будущее здесь, просто оно неравномерно распределено. Я, пожалуй, понимаю, почему OpenAI, Anthropic и прочие поднимают раунды по таким оценкам. Доступная когнитивная автоматизация скоро выйдет на совсем иной уровень, и кто обладает такими технологиями, тот и молодец. А чек на вход конский.
По паре картинка-текст, модель может генерировать описание картинки: распознавать известных людей и места, определять еду и логотипы, понимать медицинские изображения и различные сцены, и даже справляться с counterfactual examples. Жаль, не взяли картинку с самолётом из классической работы “Building Machines That Learn and Think Like People” (https://arxiv.org/abs/1604.00289).
Модель может заниматься локализацией и подсчётом объектов, и делать Dense Captioning. Обладает каким-то здравым смыслом и пониманием мира; способна понимать шутки и мемы; отвечать на вопросы по физике, географии, биологии; учитывать визуальные подсказки.
Может распознавать текст, таблицы, графики и понимать документы. При этом владеет множеством языков и для генерации, и для промптов, и для распознавания на изображениях. Умеет генерировать LaTeX, markdown, код на питоне.
Модель может работать с видео как последовательностью кадров.
Умеет справляться с тестами на Abstract Visual Reasoning и интеллект. Может читать эмоции по фото лиц или предугадывать эмоции, которые вызовет у человека картинка, генерить Emotion Conditioned Output.
В отдельном разделе авторы предлагают идеи для Emerging Applications. Ну, makes sense, если своих идей нет и хотите вдохновиться. Прикольный вариант по сборке Embodied Agent на базе GPT-4V. Для прототипирования самое то 🙂 Можно сделать следующий шаг относительно Generative Agents (https://news.1rj.ru/str/gonzo_ML/1481). Прикольно было бы собрать покадровую игру в Doom через GPT-4V. В GUI кстати тоже может навигировать, можно наверное не ждать ACT-1 (https://news.1rj.ru/str/gonzo_ML/1141), быстрее уже на GPT-4V такими темпами соберём 🙂 Нишу RPA (Robotic Process Automation) вероятно тоже должно серьёзно подизраптить скоро.
В конце есть интересный раздел про LMM Powered Agents, где обсуждают multimodal plugins, multimodal chains, self-reflection, self-consistency (обсуждали недавно https://news.1rj.ru/str/gonzo_ML/1885), retrieval-augmented LMMs (обсуждали многократно). Успеет Langchain адаптироваться или ему на смену какой-то другой чейн придёт? Мне, кстати, лично нравится майкрософтовский же Semantic Kernel (https://learn.microsoft.com/en-us/semantic-kernel/overview/).
В общем, будущее здесь, просто оно неравномерно распределено. Я, пожалуй, понимаю, почему OpenAI, Anthropic и прочие поднимают раунды по таким оценкам. Доступная когнитивная автоматизация скоро выйдет на совсем иной уровень, и кто обладает такими технологиями, тот и молодец. А чек на вход конский.
arXiv.org
Building Machines That Learn and Think Like People
Recent progress in artificial intelligence (AI) has renewed interest in building systems that learn and think like people. Many advances have come from using deep neural networks trained...
🔥20❤3👍1😁1