Для всех этих новых сущностей вопрос sentience тоже, конечно, возникнет. Прямо сейчас мы пока не там, но кто знает, как быстро вопрос станет актуальным. Вернее он уже встаёт, вспомним недавнюю тему про LaMDA (https://news.1rj.ru/str/gonzo_ML/1017). Все по теме высказались, но набора критериев для оценки то нет. По тесту Тьюринга ориентироваться нельзя, по подобию мозгу тоже. Вообще фиг знает, что там во Вселенной есть, и вряд ли оно всё похоже на мозги млекопитающих.
В общем главный вывод — разработка фреймворков для определения sentience для агентов за пределами знакомых и понятных нам форм — это наш этический императив, и нам нужно искать такие критерии, которые будут глубокими инвариантами среди всех возможных minds and bodies.
Готового ответа сейчас нет, зато есть хороший океан для деятельности.
В общем главный вывод — разработка фреймворков для определения sentience для агентов за пределами знакомых и понятных нам форм — это наш этический императив, и нам нужно искать такие критерии, которые будут глубокими инвариантами среди всех возможных minds and bodies.
Готового ответа сейчас нет, зато есть хороший океан для деятельности.
Telegram
gonzo-обзоры ML статей
Обзоры нескольких статей пока дозревают, запощу для разнообразия пост другого формата на злобу дня. Может, кстати, и дальше для разбавления основного потока статей что-нибудь такое буду постить, если интересно.
В последние дни разгорелась новая волна шумихи…
В последние дни разгорелась новая волна шумихи…
👍8
Не могу не поделиться ссылкой на такой классный курс!
MIT 6.S192: Deep Learning for Art, Aesthetics, and Creativity
https://ali-design.github.io/deepcreativity
Лекции на ютубе:
https://www.youtube.com/watch?v=MABLFo7IV3I&list=PLCpMvp7ftsnIbNwRnQJbDNRqO6qiN3EyH
MIT 6.S192: Deep Learning for Art, Aesthetics, and Creativity
https://ali-design.github.io/deepcreativity
Лекции на ютубе:
https://www.youtube.com/watch?v=MABLFo7IV3I&list=PLCpMvp7ftsnIbNwRnQJbDNRqO6qiN3EyH
🔥19❤3👍2👏1
Neural Networks and the Chomsky Hierarchy
Grégoire Delétang, Anian Ruoss, Jordi Grau-Moya, Tim Genewein, Li Kevin Wenliang, Elliot Catt, Marcus Hutter, Shane Legg, Pedro A. Ortega
Статья: https://arxiv.org/abs/2207.02098
Код (на JAX): https://github.com/deepmind/neural_networks_chomsky_hierarchy
Интересная работа от звёздного состава из DeepMind по вопросу о пределах генерализации нейросетей. Авторы заходят со стороны теории вычислений и пытаются экспериментально разнести различные нейросетевые архитектуры (классика в виде RNN, LSTM, Transformer + memory-augmented сети) по уровням иерархии Хомского. Для этого они провели большое исследование 2200 моделей по 16 задачам. Такая группировка задач по иерархии Хомского даёт возможность предсказать, способна ли определённая архитектура к обобщению на out-of-distribution данных.
Для тех, кто знал, но забыл: Иерархия Хомского.
По Хомскому, формальные грамматики и языки можно разделить на 4 типа по сложности. Каждой грамматике соответствует язык, который она генерит, тип распознающего данный язык автомата, и вид её правил (продукций).
Самый нижний (простой) тип 3 (Type-3) состоит из регулярных языков, распознаваемых конечным автоматом. Выше уровнем находятся контекстно-свободные языки, Type-2, распознаваемые автоматом со стеком или магазинной памятью (pushdown automaton). Ещё выше лежат Type-1, контекстно-зависимые языки, распознаваемые ограниченной формой машины Тьюринга под названием линейно ограниченный автомат (linear bounded automaton), у которого размер ленты — это константа от длины входа. Ну и наконец Type-0, неограниченные (они же рекурсивно перечислимые) языки, распознаваемые машиной Тьюринга.
В дополнение к иерархии Хомского авторы также рассматривают конечные языки (с конечным набором слов, которые можно распознать по look-up table), разделяют контекстно-свободные языки на детерминированные и недетерминированные, и добавляют счётные языки (counter languages), которые сложнее регулярных, но входят в контекстно-зависимые.
Кому интересно поглубже влезть в тему, есть пара хороших постов Володи Лапшина по формальным языкам (https://habr.com/en/post/177109/) и порождающим грамматикам (https://habr.com/en/post/177701/). А в качестве лирического отступления для воскресного чтения также рекомендую мой старый пост, о боже, 14-летней давности, про историю появления попадающей в Type-2 по Хомскому BNF и связь её с санскритом (https://che-shr-cat.livejournal.com/7084.html).
Итак, иерархия Хомского используется для классификации формальных грамматик по степени сложности. Каждому уровню иерархии соответствует автомат, способный решать задачи данного класса. На нижнем уровне иерархии задачи может решать конечный автомат с ограниченной памятью, на верхнем — машина Тьюринга с неограниченной памятью (бесконечной лентой). Но в отличие от автоматов, было неясно, где в иерархии Хомского располагаются различные нейросетевые архитектуры. А это на самом деле не очень простой вопрос.
Так, хотя про RNN вроде как известно, что они в теории Turing-complete (хотя были и другие работы, отправляющие RNN в более-низкие планы бытия), градиентные методы обучения ограничивают поиск по пространству параметров, внося свои inductive biases, так что модель может уже не быть универсальной и не находить лучшее решение. Собственно цель данной работы — на практике понять где в иерархии Хомского лежат различные архитектуры с их собственными и разными сопутствующими (особенно от градиентных методов) inductive biases.
Были и до этого работы, пытавшиеся понять, как сети выучивают языки различных типов. Было также показано, что не всегда архитектурная история выровнена относительно иерархии Хомского. Так, например, теоретически доказано, что трансформеры не могут распознавать определённые регулярные языки, зато могут выучивать некоторые более сложные. Но интересно оценить всё это на практике с учётом градиентных методов обучения.
Grégoire Delétang, Anian Ruoss, Jordi Grau-Moya, Tim Genewein, Li Kevin Wenliang, Elliot Catt, Marcus Hutter, Shane Legg, Pedro A. Ortega
Статья: https://arxiv.org/abs/2207.02098
Код (на JAX): https://github.com/deepmind/neural_networks_chomsky_hierarchy
Интересная работа от звёздного состава из DeepMind по вопросу о пределах генерализации нейросетей. Авторы заходят со стороны теории вычислений и пытаются экспериментально разнести различные нейросетевые архитектуры (классика в виде RNN, LSTM, Transformer + memory-augmented сети) по уровням иерархии Хомского. Для этого они провели большое исследование 2200 моделей по 16 задачам. Такая группировка задач по иерархии Хомского даёт возможность предсказать, способна ли определённая архитектура к обобщению на out-of-distribution данных.
Для тех, кто знал, но забыл: Иерархия Хомского.
По Хомскому, формальные грамматики и языки можно разделить на 4 типа по сложности. Каждой грамматике соответствует язык, который она генерит, тип распознающего данный язык автомата, и вид её правил (продукций).
Самый нижний (простой) тип 3 (Type-3) состоит из регулярных языков, распознаваемых конечным автоматом. Выше уровнем находятся контекстно-свободные языки, Type-2, распознаваемые автоматом со стеком или магазинной памятью (pushdown automaton). Ещё выше лежат Type-1, контекстно-зависимые языки, распознаваемые ограниченной формой машины Тьюринга под названием линейно ограниченный автомат (linear bounded automaton), у которого размер ленты — это константа от длины входа. Ну и наконец Type-0, неограниченные (они же рекурсивно перечислимые) языки, распознаваемые машиной Тьюринга.
В дополнение к иерархии Хомского авторы также рассматривают конечные языки (с конечным набором слов, которые можно распознать по look-up table), разделяют контекстно-свободные языки на детерминированные и недетерминированные, и добавляют счётные языки (counter languages), которые сложнее регулярных, но входят в контекстно-зависимые.
Кому интересно поглубже влезть в тему, есть пара хороших постов Володи Лапшина по формальным языкам (https://habr.com/en/post/177109/) и порождающим грамматикам (https://habr.com/en/post/177701/). А в качестве лирического отступления для воскресного чтения также рекомендую мой старый пост, о боже, 14-летней давности, про историю появления попадающей в Type-2 по Хомскому BNF и связь её с санскритом (https://che-shr-cat.livejournal.com/7084.html).
Итак, иерархия Хомского используется для классификации формальных грамматик по степени сложности. Каждому уровню иерархии соответствует автомат, способный решать задачи данного класса. На нижнем уровне иерархии задачи может решать конечный автомат с ограниченной памятью, на верхнем — машина Тьюринга с неограниченной памятью (бесконечной лентой). Но в отличие от автоматов, было неясно, где в иерархии Хомского располагаются различные нейросетевые архитектуры. А это на самом деле не очень простой вопрос.
Так, хотя про RNN вроде как известно, что они в теории Turing-complete (хотя были и другие работы, отправляющие RNN в более-низкие планы бытия), градиентные методы обучения ограничивают поиск по пространству параметров, внося свои inductive biases, так что модель может уже не быть универсальной и не находить лучшее решение. Собственно цель данной работы — на практике понять где в иерархии Хомского лежат различные архитектуры с их собственными и разными сопутствующими (особенно от градиентных методов) inductive biases.
Были и до этого работы, пытавшиеся понять, как сети выучивают языки различных типов. Было также показано, что не всегда архитектурная история выровнена относительно иерархии Хомского. Так, например, теоретически доказано, что трансформеры не могут распознавать определённые регулярные языки, зато могут выучивать некоторые более сложные. Но интересно оценить всё это на практике с учётом градиентных методов обучения.
GitHub
GitHub - google-deepmind/neural_networks_chomsky_hierarchy: Neural Networks and the Chomsky Hierarchy
Neural Networks and the Chomsky Hierarchy. Contribute to google-deepmind/neural_networks_chomsky_hierarchy development by creating an account on GitHub.
🔥19👍9
В целом мы хотим понять способности сетей к генерализации на размеры входов, превышающие те, что были в обучении. Это, кстати, отличается от традиционного подхода через статистическую теорию обучения с оценкой эмпирического риска на тест сете, где подразумевается что и трейн, и тест сеты i.i.d (independent and identically distributed) — а здесь оно явно не так.
Нейросетевые архитектуры оцениваются на задаче предсказания последовательности, когда для входной последовательности нужно предсказать её продолжение. Обучают модели через кросс-энтропийный лосс. Оценивается per-sequence accuracy как процент верно предсказанных токенов. Также считается итоговый скор как усреднение per-sequence accuracy по всем длинам последовательностей, которые модель не видела в обучении. Каждую модель обучали на 10 разных инициализациях и здесь репортился максимальный скор, а не средний, потому что это лучше показывает способность архитектуры к генерализации.
Задачи были от модульной арифметики (регулярная грамматика) до бинарного сложения (контекстно-зависимая), по 3-5 разных задач на тип из иерархии Хомского. Список будет в картинке к посту, подробное описание в приложении к статье.
Архитектуры пробовались как стандартные Transformer (что интересно, только энкодер; пробовали 4 варианта позиционных энкодингов), RNN, LSTM, так и дополненные памятью Stack-RNN (работа Томаша Миколова, если кто не знал), NDStack-RNN, Tape-RNN (3 варианта, сделана на основе Baby-NTM из https://arxiv.org/abs/1911.03329, упрощённого варианта NTM).
Обучались на последовательностях длины (1, 40), проверялись на длинах (41, 500). Всего было 16 задач * 12 моделей * 10 seeds = 1920 вариантов, каждый из которых обучался на своём GPU V100.
Оказалось что тестируемые архитектуры грубо матчатся с иерархией Хомского. RNN могут решать задачи регулярного типа, Stack-RNN до детерминированных контекстно-свободных, а Tape-RNN до контекстно-зависимых. Но соответствие не строгое, иногда архитектура может решать задачи выше своего обычного уровня. Некоторые архитектуры не могут решить все задачи соответствующего уровня иерархии, вероятно из-за каких-то своих ограничений, особенностей обучения или особой сложности задачи. Из интересного также то, что трансформеры и LSTM ещё хуже ложатся на иерархию Хомского. Трансформеры фейлятся на регулярных задачах, а LSTM может решать задачи сложнее регулярных.
Для LSTM показано, что они практически идеально могут решать некоторые задачи, не решаемые обычными RNN. В целом это было известно про задачи со счётчиками, и текущая работа дополнительно подтверждает.
Трансформеры зафейлились на нескольких регулярных задачах, видимо из-за того, что позиционные энкодинги для больших длин приводят к out-of-distribution активациям и норм работают только на задачах не зависящих от позиции. Важно также отличать этот кейс от кейса работы с последовательностями постоянной длины, где трансформеры прекрасно выучивают разные сложные вещи.
Отдельно проверили внутренние репрезентации на разных задачах. На регулярных задачах было ожидание, что модель будет симулировать конечный автомат. После копания во внутреннем состоянии RNN и отображения его в двух главных компонентах, оказалось, что действительно выделяются 4 кластера с осмысленными состояниями. А Stack-RNN на таких задачах стек не использует. А на дискретных контекстно-свободных задачах стек как раз используется ожидаемым образом. Реверс-инжинирить Tape-RNN на контекстно-зависимых языках сложнее, но всё равно какая-то структура алгоритма видна.
Виден фазовый переход в обучении, если варьировать максимальную длину обучающих последовательностей. Например, Stack-RNN на задаче Reverse String не выучивается решать задачу, если обучающие последовательности до длины 10, а если 10 или больше, то сразу всё ок. Авторы предполагают, что модель переобучается и на маленьких длинах просто выучивает look-up table, но более длинные строки вынуждают модель выучивать более общее решение. Как это похоже на людей.
Нейросетевые архитектуры оцениваются на задаче предсказания последовательности, когда для входной последовательности нужно предсказать её продолжение. Обучают модели через кросс-энтропийный лосс. Оценивается per-sequence accuracy как процент верно предсказанных токенов. Также считается итоговый скор как усреднение per-sequence accuracy по всем длинам последовательностей, которые модель не видела в обучении. Каждую модель обучали на 10 разных инициализациях и здесь репортился максимальный скор, а не средний, потому что это лучше показывает способность архитектуры к генерализации.
Задачи были от модульной арифметики (регулярная грамматика) до бинарного сложения (контекстно-зависимая), по 3-5 разных задач на тип из иерархии Хомского. Список будет в картинке к посту, подробное описание в приложении к статье.
Архитектуры пробовались как стандартные Transformer (что интересно, только энкодер; пробовали 4 варианта позиционных энкодингов), RNN, LSTM, так и дополненные памятью Stack-RNN (работа Томаша Миколова, если кто не знал), NDStack-RNN, Tape-RNN (3 варианта, сделана на основе Baby-NTM из https://arxiv.org/abs/1911.03329, упрощённого варианта NTM).
Обучались на последовательностях длины (1, 40), проверялись на длинах (41, 500). Всего было 16 задач * 12 моделей * 10 seeds = 1920 вариантов, каждый из которых обучался на своём GPU V100.
Оказалось что тестируемые архитектуры грубо матчатся с иерархией Хомского. RNN могут решать задачи регулярного типа, Stack-RNN до детерминированных контекстно-свободных, а Tape-RNN до контекстно-зависимых. Но соответствие не строгое, иногда архитектура может решать задачи выше своего обычного уровня. Некоторые архитектуры не могут решить все задачи соответствующего уровня иерархии, вероятно из-за каких-то своих ограничений, особенностей обучения или особой сложности задачи. Из интересного также то, что трансформеры и LSTM ещё хуже ложатся на иерархию Хомского. Трансформеры фейлятся на регулярных задачах, а LSTM может решать задачи сложнее регулярных.
Для LSTM показано, что они практически идеально могут решать некоторые задачи, не решаемые обычными RNN. В целом это было известно про задачи со счётчиками, и текущая работа дополнительно подтверждает.
Трансформеры зафейлились на нескольких регулярных задачах, видимо из-за того, что позиционные энкодинги для больших длин приводят к out-of-distribution активациям и норм работают только на задачах не зависящих от позиции. Важно также отличать этот кейс от кейса работы с последовательностями постоянной длины, где трансформеры прекрасно выучивают разные сложные вещи.
Отдельно проверили внутренние репрезентации на разных задачах. На регулярных задачах было ожидание, что модель будет симулировать конечный автомат. После копания во внутреннем состоянии RNN и отображения его в двух главных компонентах, оказалось, что действительно выделяются 4 кластера с осмысленными состояниями. А Stack-RNN на таких задачах стек не использует. А на дискретных контекстно-свободных задачах стек как раз используется ожидаемым образом. Реверс-инжинирить Tape-RNN на контекстно-зависимых языках сложнее, но всё равно какая-то структура алгоритма видна.
Виден фазовый переход в обучении, если варьировать максимальную длину обучающих последовательностей. Например, Stack-RNN на задаче Reverse String не выучивается решать задачу, если обучающие последовательности до длины 10, а если 10 или больше, то сразу всё ок. Авторы предполагают, что модель переобучается и на маленьких длинах просто выучивает look-up table, но более длинные строки вынуждают модель выучивать более общее решение. Как это похоже на людей.
👍15❤3🤔1
Из любопытных эффектов также то, что при увеличении длины тестовой последовательности качество понемножку всё же деградирует. Этого не было бы в чистом автомате, но здесь вероятно происходит накопление ошибок внутри состояний и апдейтов памяти.
Работа выступает определённым аргументом за добавление памяти в архитектуры, особенно в трансформеры, которые не могут забраться повыше в иерархии Хомского сколько обучающих данных ни добавляй.
Работа выступает определённым аргументом за добавление памяти в архитектуры, особенно в трансформеры, которые не могут забраться повыше в иерархии Хомского сколько обучающих данных ни добавляй.
Какая для вас комфортная частота постов в канале?
Anonymous Poll
13%
Чаще 3 раз в неделю
37%
2-3 раза в неделю
44%
1 раз в неделю
6%
Реже одного раза в неделю
Какой контент вам интересен в канале:
Anonymous Poll
93%
Разборы статей по ML/DL/AI
9%
Разборы статей по другим темам (можете написать в чате)
53%
Новости индустрии ML/DL/AI
3%
Новости по других темам (напишите в чате)
63%
Колонки/обзоры по темам вокруг ML/DL/AI (как было про sentience или JAX)
3%
Колонки/обзоры по другим темам (напишите в чате)
1%
Другое (напишите, пожалуйста, в чате)
Generative AI
Последние месяцы на поляне Generative AI праздник за праздником.
Начнём с генерации картинок.
Пока OpenAI со своим DALLE-2 медленно распиаривался, под боком возник быстрорастущий офигенный сервис Midjourney, забивший на сайт, API и всё такое, и предоставивший доступ к своим моделям через бота в Discord. Midjourney очень правильно начал работать с коммьюнити, набрал популярность и вышел в законодатели мод на этом рынке.
В отличие от OpenAI, Midjourney не требовал исключительных прав на все творения, оставляя все права пользователю и беря себе лицензию на их использование. Midjourney также разрешил коммерческое использование творений. У них есть пара оговорок касающихся бесплатного плана, а также компаний с выручкой больше $1M, но это всё очень reasonable. Оно у них, конечно, менялось и уточнялось по ходу дела, но явно было более либерально в отличие от terms OpenAI, где всё их, только private use, и всё такое.
И это кстати отдельный интересный вопрос этического плана — нормально ли, что система, обученная на результатах труда множества людей, присваивает весь производный результат себе, включая кстати и труд других людей по придумыванию правильных prompt'ов и селекции результатов. Где тот современный Маркс, который напишет Капитал 2.0?
Midjourney на днях вышел из закрытой беты в открытую https://www.facebook.com/intentoco/photos/a.1093842744008324/5486357671423454/) и OpenAI вынужден был последовать той же дорогой -- сразу прекратили играть в тщательно фильтруемые инвайты и тоже вышли в public beta, а также изменили terms на более коммерчески пригодные (https://www.facebook.com/intentoco/photos/a.1093842744008324/5493404720718749/).
Если бы не Midjourney, уверен, OpenAI бы ещё полгода свою илитность эксплуатировали. Конкуренция -- это прекрасно. И это только начало.
Также из области генерации картинок недавно широко разошлась новость (https://www.facebook.com/story.php?story_fbid=pfbid035HKtaMKL9ibTW2BH66cMecbCvj7RCXusf7w5yGkFP9xVHpg64Y4BcYCmv4Ea7x7Fl&id=4) про мартовскую работу Make-A-Scene (https://arxiv.org/abs/2203.13131), где при генерации картинки дополнительно к тексту можно давать эскиз с семантической маской. Это позволяет точно контролировать где на картинке что должно быть. В каком-то смысле это продолжение истории с аналогичным графическим редактором от Nvidia.
В генерации текстов тоже большое достижение -- опубликована модель BLOOM (https://www.facebook.com/intentoco/posts/pfbid02TEHE1sQYf78pXu9ZWEXcbfJ1DfZKQrCVSnB5PFEntSSQRFJW98CCSevGegWYCib2l) проекта BigScience и HuggingFace. Модель полностью открытая, на 176B параметров, мультиязычная с поддержкой 46 человеческих и 13 программистских языков.
Кстати, OpenAI Codex вроде ещё в private beta, инвайты как-то продолжают раздавать, мне даже с месяц назад прислали. Но зато можно попробовать построенный на нём GitHub Copilot (https://github.com/features/copilot/). А также в июне вышел Amazon CodeWhisperer (https://aws.amazon.com/blogs/machine-learning/introducing-amazon-codewhisperer-the-ml-powered-coding-companion/). Интересно, насколько BLOOM здесь будет хорош.
По части мультиязычности большое достижение — это публикация модели NLLB-200, способной переводить напрямую между 200 языками (https://www.facebook.com/intentoco/photos/a.1093842744008324/5452925358100019/).
Также сравнительно недавно Яндекс выпустил в опенсорс свою YaLM на 100B параметров (https://www.facebook.com/intentoco/posts/pfbid02MNduVaBTRv2ZnBgjEiWyuSst7zFnpRbXxcDXQ5oKWENtFmNdvvx8JFkshwgxgmEul), на тот момент самую большую опенсорсную GPT-like модель.
А ещё до этого Гугл выложил в опенсорс (https://www.facebook.com/intentoco/photos/a.1093842744008324/5409287722463783/) свой Switch Transformer на 1.6T параметров (https://news.1rj.ru/str/gonzo_ML/472).
В общем, поляна расцветает буйным цветом. Bessemer Venture Partners недавно опубликовали хороший пост про то, что generative AI — это новая платформенная революция (https://www.bvp.com/atlas/is-ai-generation-the-next-platform-shift).
Последние месяцы на поляне Generative AI праздник за праздником.
Начнём с генерации картинок.
Пока OpenAI со своим DALLE-2 медленно распиаривался, под боком возник быстрорастущий офигенный сервис Midjourney, забивший на сайт, API и всё такое, и предоставивший доступ к своим моделям через бота в Discord. Midjourney очень правильно начал работать с коммьюнити, набрал популярность и вышел в законодатели мод на этом рынке.
В отличие от OpenAI, Midjourney не требовал исключительных прав на все творения, оставляя все права пользователю и беря себе лицензию на их использование. Midjourney также разрешил коммерческое использование творений. У них есть пара оговорок касающихся бесплатного плана, а также компаний с выручкой больше $1M, но это всё очень reasonable. Оно у них, конечно, менялось и уточнялось по ходу дела, но явно было более либерально в отличие от terms OpenAI, где всё их, только private use, и всё такое.
И это кстати отдельный интересный вопрос этического плана — нормально ли, что система, обученная на результатах труда множества людей, присваивает весь производный результат себе, включая кстати и труд других людей по придумыванию правильных prompt'ов и селекции результатов. Где тот современный Маркс, который напишет Капитал 2.0?
Midjourney на днях вышел из закрытой беты в открытую https://www.facebook.com/intentoco/photos/a.1093842744008324/5486357671423454/) и OpenAI вынужден был последовать той же дорогой -- сразу прекратили играть в тщательно фильтруемые инвайты и тоже вышли в public beta, а также изменили terms на более коммерчески пригодные (https://www.facebook.com/intentoco/photos/a.1093842744008324/5493404720718749/).
Если бы не Midjourney, уверен, OpenAI бы ещё полгода свою илитность эксплуатировали. Конкуренция -- это прекрасно. И это только начало.
Также из области генерации картинок недавно широко разошлась новость (https://www.facebook.com/story.php?story_fbid=pfbid035HKtaMKL9ibTW2BH66cMecbCvj7RCXusf7w5yGkFP9xVHpg64Y4BcYCmv4Ea7x7Fl&id=4) про мартовскую работу Make-A-Scene (https://arxiv.org/abs/2203.13131), где при генерации картинки дополнительно к тексту можно давать эскиз с семантической маской. Это позволяет точно контролировать где на картинке что должно быть. В каком-то смысле это продолжение истории с аналогичным графическим редактором от Nvidia.
В генерации текстов тоже большое достижение -- опубликована модель BLOOM (https://www.facebook.com/intentoco/posts/pfbid02TEHE1sQYf78pXu9ZWEXcbfJ1DfZKQrCVSnB5PFEntSSQRFJW98CCSevGegWYCib2l) проекта BigScience и HuggingFace. Модель полностью открытая, на 176B параметров, мультиязычная с поддержкой 46 человеческих и 13 программистских языков.
Кстати, OpenAI Codex вроде ещё в private beta, инвайты как-то продолжают раздавать, мне даже с месяц назад прислали. Но зато можно попробовать построенный на нём GitHub Copilot (https://github.com/features/copilot/). А также в июне вышел Amazon CodeWhisperer (https://aws.amazon.com/blogs/machine-learning/introducing-amazon-codewhisperer-the-ml-powered-coding-companion/). Интересно, насколько BLOOM здесь будет хорош.
По части мультиязычности большое достижение — это публикация модели NLLB-200, способной переводить напрямую между 200 языками (https://www.facebook.com/intentoco/photos/a.1093842744008324/5452925358100019/).
Также сравнительно недавно Яндекс выпустил в опенсорс свою YaLM на 100B параметров (https://www.facebook.com/intentoco/posts/pfbid02MNduVaBTRv2ZnBgjEiWyuSst7zFnpRbXxcDXQ5oKWENtFmNdvvx8JFkshwgxgmEul), на тот момент самую большую опенсорсную GPT-like модель.
А ещё до этого Гугл выложил в опенсорс (https://www.facebook.com/intentoco/photos/a.1093842744008324/5409287722463783/) свой Switch Transformer на 1.6T параметров (https://news.1rj.ru/str/gonzo_ML/472).
В общем, поляна расцветает буйным цветом. Bessemer Venture Partners недавно опубликовали хороший пост про то, что generative AI — это новая платформенная революция (https://www.bvp.com/atlas/is-ai-generation-the-next-platform-shift).
Facebook
Log in or sign up to view
See posts, photos and more on Facebook.
🔥21👍7❤1👎1
Их прогноз: "Today, less than 1% of online content is generated using AI. Within the next ten years, we predict that at least 50% of online content will be generated by or augmented by AI."
В качестве картинок для привлечения внимания свежие работы одного из участников коммьюнити Midjourney (https://www.facebook.com/groups/midjourneyai/posts/581151963650042/) — как выглядели бы герои "Звёздных войн" на фотографиях времён гражданской войны.
В качестве картинок для привлечения внимания свежие работы одного из участников коммьюнити Midjourney (https://www.facebook.com/groups/midjourneyai/posts/581151963650042/) — как выглядели бы герои "Звёздных войн" на фотографиях времён гражданской войны.
Facebook
Log in to Facebook
Log in to Facebook to start sharing and connecting with your friends, family and people you know.
🔥5👍1