gonzo-обзоры ML статей – Telegram
gonzo-обзоры ML статей
24.1K subscribers
2.71K photos
2 videos
3 files
1.34K links
Авторы:
Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика.
Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.
Download Telegram
Generative AI

Последние месяцы на поляне Generative AI праздник за праздником.

Начнём с генерации картинок.

Пока OpenAI со своим DALLE-2 медленно распиаривался, под боком возник быстрорастущий офигенный сервис Midjourney, забивший на сайт, API и всё такое, и предоставивший доступ к своим моделям через бота в Discord. Midjourney очень правильно начал работать с коммьюнити, набрал популярность и вышел в законодатели мод на этом рынке.

В отличие от OpenAI, Midjourney не требовал исключительных прав на все творения, оставляя все права пользователю и беря себе лицензию на их использование. Midjourney также разрешил коммерческое использование творений. У них есть пара оговорок касающихся бесплатного плана, а также компаний с выручкой больше $1M, но это всё очень reasonable. Оно у них, конечно, менялось и уточнялось по ходу дела, но явно было более либерально в отличие от terms OpenAI, где всё их, только private use, и всё такое.

И это кстати отдельный интересный вопрос этического плана — нормально ли, что система, обученная на результатах труда множества людей, присваивает весь производный результат себе, включая кстати и труд других людей по придумыванию правильных prompt'ов и селекции результатов. Где тот современный Маркс, который напишет Капитал 2.0?

Midjourney на днях вышел из закрытой беты в открытую https://www.facebook.com/intentoco/photos/a.1093842744008324/5486357671423454/) и OpenAI вынужден был последовать той же дорогой -- сразу прекратили играть в тщательно фильтруемые инвайты и тоже вышли в public beta, а также изменили terms на более коммерчески пригодные (https://www.facebook.com/intentoco/photos/a.1093842744008324/5493404720718749/).

Если бы не Midjourney, уверен, OpenAI бы ещё полгода свою илитность эксплуатировали. Конкуренция -- это прекрасно. И это только начало.

Также из области генерации картинок недавно широко разошлась новость (https://www.facebook.com/story.php?story_fbid=pfbid035HKtaMKL9ibTW2BH66cMecbCvj7RCXusf7w5yGkFP9xVHpg64Y4BcYCmv4Ea7x7Fl&id=4) про мартовскую работу Make-A-Scene (https://arxiv.org/abs/2203.13131), где при генерации картинки дополнительно к тексту можно давать эскиз с семантической маской. Это позволяет точно контролировать где на картинке что должно быть. В каком-то смысле это продолжение истории с аналогичным графическим редактором от Nvidia.

В генерации текстов тоже большое достижение -- опубликована модель BLOOM (https://www.facebook.com/intentoco/posts/pfbid02TEHE1sQYf78pXu9ZWEXcbfJ1DfZKQrCVSnB5PFEntSSQRFJW98CCSevGegWYCib2l) проекта BigScience и HuggingFace. Модель полностью открытая, на 176B параметров, мультиязычная с поддержкой 46 человеческих и 13 программистских языков.

Кстати, OpenAI Codex вроде ещё в private beta, инвайты как-то продолжают раздавать, мне даже с месяц назад прислали. Но зато можно попробовать построенный на нём GitHub Copilot (https://github.com/features/copilot/). А также в июне вышел Amazon CodeWhisperer (https://aws.amazon.com/blogs/machine-learning/introducing-amazon-codewhisperer-the-ml-powered-coding-companion/). Интересно, насколько BLOOM здесь будет хорош.

По части мультиязычности большое достижение — это публикация модели NLLB-200, способной переводить напрямую между 200 языками (https://www.facebook.com/intentoco/photos/a.1093842744008324/5452925358100019/).

Также сравнительно недавно Яндекс выпустил в опенсорс свою YaLM на 100B параметров (https://www.facebook.com/intentoco/posts/pfbid02MNduVaBTRv2ZnBgjEiWyuSst7zFnpRbXxcDXQ5oKWENtFmNdvvx8JFkshwgxgmEul), на тот момент самую большую опенсорсную GPT-like модель.

А ещё до этого Гугл выложил в опенсорс (https://www.facebook.com/intentoco/photos/a.1093842744008324/5409287722463783/) свой Switch Transformer на 1.6T параметров (https://news.1rj.ru/str/gonzo_ML/472).

В общем, поляна расцветает буйным цветом. Bessemer Venture Partners недавно опубликовали хороший пост про то, что generative AI — это новая платформенная революция (https://www.bvp.com/atlas/is-ai-generation-the-next-platform-shift).
🔥21👍71👎1
Их прогноз: "Today, less than 1% of online content is generated using AI. Within the next ten years, we predict that at least 50% of online content will be generated by or augmented by AI."

В качестве картинок для привлечения внимания свежие работы одного из участников коммьюнити Midjourney (https://www.facebook.com/groups/midjourneyai/posts/581151963650042/) — как выглядели бы герои "Звёздных войн" на фотографиях времён гражданской войны.
🔥5👍1
Из статьи BVP
👍1🔥1🤔1
Из статьи BVP
🔥9👍1
Совсем кратко: развязка истории про sentience LaMDA (обсуждали тут https://news.1rj.ru/str/gonzo_ML/1017).

Гугл таки уволил инженера, который заявил о наличии сознания у LaMDA:

""It's regrettable that despite lengthy engagement on this topic, Blake still chose to persistently violate clear employment and data security policies that include the need to safeguard product information," a Google spokesperson said in an email to Reuters."

https://www.reuters.com/technology/google-fires-software-engineer-who-claimed-its-ai-chatbot-is-sentient-2022-07-23/

Всё-таки сложно выходит у Гугла с AI ethics...
👍7🤮1
OmegaFold & ESMFold

Сегодня формат “маленькие, но по три”.

На этой неделе, а точнее 20-21 июля, вышли сразу две работы продвигающие тему фолдинга белков нейросетями ещё дальше, про ESMFold и про OmegaFold. Обе про отказ от множественного выравнивания (MSA, multiple sequence alignment).

Статья “Language models of protein sequences at the scale of evolution enable accurate structure prediction” (https://www.biorxiv.org/content/10.1101/2022.07.20.500902v1) от исследователей из FAIR представляет ESMFold.

ESMFold состоит из двух частей. Во-первых, это белковая языковая модель ESM-2 на 15B параметров и 48 слоёв, самая большая на данный момент. Это дальнейшее развитие ESM-1b (https://news.1rj.ru/str/gonzo_ML/609). Вторая часть, это собственно ESMFold, использующая репрезентации из ESM-2 для end-to-end предсказания трёхмерной структуры белка по одной только последовательности, без явного использования эволюционной информации в виде множественного выравнивания (MSA). Про MSA подробнее писали тут https://news.1rj.ru/str/gonzo_ML/631.

Про точность ESMFold сказано, что она выше AlphaFold2 (https://news.1rj.ru/str/gonzo_ML/649) и RoseTTAFold (https://news.1rj.ru/str/gonzo_ML/642), если тем подать только одну последовательность (не самый их родной сетап); сравнима с RoseTTAFold, если подать полную MSA; и также сравнима с SoTA на последовательностях с низкой перплексией (которые языковая модель хорошо поняла). А также что качество предсказания структуры коррелирует с улучшением перплексии. И чем больше параметров в модели, тем точнее.

Относительно ESM-1b в ESM-2 улучшилась архитектура и настройки обучение, и ESM-2 со 150М параметров даёт лучший результат, чем ESM-1b с 650M. Это хорошее движение про правильные архитектуры и процесс обучения, как и в случае с текстовыми моделями типа Chinchilla, где удаётся получать более высокое качество при меньшем числе параметров.

ESM-2 — это модель типа BERT’а, энкодер трансформера, где при обучении скрываются 15% аминокислот и модель учится их восстанавливать. В новой модели используются Rotary Position Embedding (RoPE, https://arxiv.org/abs/2104.09864, они же и в GPT-J 6B использовались), что даёт возможность применять модель к последовательностям произвольной длины.

На вход ESMFold подаются репрезентации последовательности, полученные из ESM-2. Сначала они обрабатываются кучей блоков типа упрощённого EvoFormer’а AlphaFold2, у которого вместо тяжёлых блоков для работы с MSA стоят трансформеры для работы с последовательностью. Это называется folding trunk. За ним находится структурный модуль, который выдаёт положения и уверенности.

Инференс ESMFold на порядок быстрее AlphaFold2, что даёт очевидный профит, когда надо обработать кучу новых последовательностей.
👍9
Вторая статья, ”High-resolution de novo structure prediction from primary sequence” (https://www.biorxiv.org/content/10.1101/2022.07.21.500999v1) в основном от китайцев из HeliXon Limited представляет OmegaFold.

Как я уже сказал, здесь тоже отказались от MSA и в целом работы весьма похожи.

OmegaFold также бьёт RoseTTAFold и AlphaFold2 на сетапе с только одной последовательностью на входе.

Структурно, это снова языковая модель, OmegaPLM на 66 слоёв и 670М параметров. Вместо self-attention берут Gated Attention Module (GAU, https://arxiv.org/abs/2202.10447). Тоже RoPE энкодинги. Обучается она похоже на ESM-1b, тоже BERT-style MLM с 15% скрытого.

После языковой модели стоят 50 блоков Geoformer, “a new geometry-inspired transformer neural network, to further distill the structural and physical pairwise relationships between amino acids”. Тоже в общем аналог EvoFormer’а с убранными эволюционными данными. Основная идея его в том, чтобы сделать эмбеддинги языковой модели геометрически консистентными — аминокислота и парные эмбеддинги генерят консистентные координаты и предсказания расстояний, чтобы результаты векторной арифметики указывали куда должно и соблюдались неравенства треугольника. Вроде похоже на историю с треугольниками в Evoformer.

И после пачки Geoformer’ов стоит также структурный модуль (8 слоёв), генерящий трёхмерные координаты.

В обеих моделях, кажется, есть recycling как в AlphaFold2. В OmegaFold это 10 итераций, в ESMFold не понял.

В общем в целом всё похоже: на одной последовательности хорошо предсказывает (особенно если сравнивать с AlphaFold/RoseTTAFold тоже только на одной последовательности), скорость предсказания также на порядок выше. Кажется, каждая работа очень претендует на то, чтобы быть первой.

Интересно было бы между собой их сравнить.
👍4