Какой контент вам интересен в канале:
Anonymous Poll
93%
Разборы статей по ML/DL/AI
9%
Разборы статей по другим темам (можете написать в чате)
53%
Новости индустрии ML/DL/AI
3%
Новости по других темам (напишите в чате)
63%
Колонки/обзоры по темам вокруг ML/DL/AI (как было про sentience или JAX)
3%
Колонки/обзоры по другим темам (напишите в чате)
1%
Другое (напишите, пожалуйста, в чате)
Generative AI
Последние месяцы на поляне Generative AI праздник за праздником.
Начнём с генерации картинок.
Пока OpenAI со своим DALLE-2 медленно распиаривался, под боком возник быстрорастущий офигенный сервис Midjourney, забивший на сайт, API и всё такое, и предоставивший доступ к своим моделям через бота в Discord. Midjourney очень правильно начал работать с коммьюнити, набрал популярность и вышел в законодатели мод на этом рынке.
В отличие от OpenAI, Midjourney не требовал исключительных прав на все творения, оставляя все права пользователю и беря себе лицензию на их использование. Midjourney также разрешил коммерческое использование творений. У них есть пара оговорок касающихся бесплатного плана, а также компаний с выручкой больше $1M, но это всё очень reasonable. Оно у них, конечно, менялось и уточнялось по ходу дела, но явно было более либерально в отличие от terms OpenAI, где всё их, только private use, и всё такое.
И это кстати отдельный интересный вопрос этического плана — нормально ли, что система, обученная на результатах труда множества людей, присваивает весь производный результат себе, включая кстати и труд других людей по придумыванию правильных prompt'ов и селекции результатов. Где тот современный Маркс, который напишет Капитал 2.0?
Midjourney на днях вышел из закрытой беты в открытую https://www.facebook.com/intentoco/photos/a.1093842744008324/5486357671423454/) и OpenAI вынужден был последовать той же дорогой -- сразу прекратили играть в тщательно фильтруемые инвайты и тоже вышли в public beta, а также изменили terms на более коммерчески пригодные (https://www.facebook.com/intentoco/photos/a.1093842744008324/5493404720718749/).
Если бы не Midjourney, уверен, OpenAI бы ещё полгода свою илитность эксплуатировали. Конкуренция -- это прекрасно. И это только начало.
Также из области генерации картинок недавно широко разошлась новость (https://www.facebook.com/story.php?story_fbid=pfbid035HKtaMKL9ibTW2BH66cMecbCvj7RCXusf7w5yGkFP9xVHpg64Y4BcYCmv4Ea7x7Fl&id=4) про мартовскую работу Make-A-Scene (https://arxiv.org/abs/2203.13131), где при генерации картинки дополнительно к тексту можно давать эскиз с семантической маской. Это позволяет точно контролировать где на картинке что должно быть. В каком-то смысле это продолжение истории с аналогичным графическим редактором от Nvidia.
В генерации текстов тоже большое достижение -- опубликована модель BLOOM (https://www.facebook.com/intentoco/posts/pfbid02TEHE1sQYf78pXu9ZWEXcbfJ1DfZKQrCVSnB5PFEntSSQRFJW98CCSevGegWYCib2l) проекта BigScience и HuggingFace. Модель полностью открытая, на 176B параметров, мультиязычная с поддержкой 46 человеческих и 13 программистских языков.
Кстати, OpenAI Codex вроде ещё в private beta, инвайты как-то продолжают раздавать, мне даже с месяц назад прислали. Но зато можно попробовать построенный на нём GitHub Copilot (https://github.com/features/copilot/). А также в июне вышел Amazon CodeWhisperer (https://aws.amazon.com/blogs/machine-learning/introducing-amazon-codewhisperer-the-ml-powered-coding-companion/). Интересно, насколько BLOOM здесь будет хорош.
По части мультиязычности большое достижение — это публикация модели NLLB-200, способной переводить напрямую между 200 языками (https://www.facebook.com/intentoco/photos/a.1093842744008324/5452925358100019/).
Также сравнительно недавно Яндекс выпустил в опенсорс свою YaLM на 100B параметров (https://www.facebook.com/intentoco/posts/pfbid02MNduVaBTRv2ZnBgjEiWyuSst7zFnpRbXxcDXQ5oKWENtFmNdvvx8JFkshwgxgmEul), на тот момент самую большую опенсорсную GPT-like модель.
А ещё до этого Гугл выложил в опенсорс (https://www.facebook.com/intentoco/photos/a.1093842744008324/5409287722463783/) свой Switch Transformer на 1.6T параметров (https://news.1rj.ru/str/gonzo_ML/472).
В общем, поляна расцветает буйным цветом. Bessemer Venture Partners недавно опубликовали хороший пост про то, что generative AI — это новая платформенная революция (https://www.bvp.com/atlas/is-ai-generation-the-next-platform-shift).
Последние месяцы на поляне Generative AI праздник за праздником.
Начнём с генерации картинок.
Пока OpenAI со своим DALLE-2 медленно распиаривался, под боком возник быстрорастущий офигенный сервис Midjourney, забивший на сайт, API и всё такое, и предоставивший доступ к своим моделям через бота в Discord. Midjourney очень правильно начал работать с коммьюнити, набрал популярность и вышел в законодатели мод на этом рынке.
В отличие от OpenAI, Midjourney не требовал исключительных прав на все творения, оставляя все права пользователю и беря себе лицензию на их использование. Midjourney также разрешил коммерческое использование творений. У них есть пара оговорок касающихся бесплатного плана, а также компаний с выручкой больше $1M, но это всё очень reasonable. Оно у них, конечно, менялось и уточнялось по ходу дела, но явно было более либерально в отличие от terms OpenAI, где всё их, только private use, и всё такое.
И это кстати отдельный интересный вопрос этического плана — нормально ли, что система, обученная на результатах труда множества людей, присваивает весь производный результат себе, включая кстати и труд других людей по придумыванию правильных prompt'ов и селекции результатов. Где тот современный Маркс, который напишет Капитал 2.0?
Midjourney на днях вышел из закрытой беты в открытую https://www.facebook.com/intentoco/photos/a.1093842744008324/5486357671423454/) и OpenAI вынужден был последовать той же дорогой -- сразу прекратили играть в тщательно фильтруемые инвайты и тоже вышли в public beta, а также изменили terms на более коммерчески пригодные (https://www.facebook.com/intentoco/photos/a.1093842744008324/5493404720718749/).
Если бы не Midjourney, уверен, OpenAI бы ещё полгода свою илитность эксплуатировали. Конкуренция -- это прекрасно. И это только начало.
Также из области генерации картинок недавно широко разошлась новость (https://www.facebook.com/story.php?story_fbid=pfbid035HKtaMKL9ibTW2BH66cMecbCvj7RCXusf7w5yGkFP9xVHpg64Y4BcYCmv4Ea7x7Fl&id=4) про мартовскую работу Make-A-Scene (https://arxiv.org/abs/2203.13131), где при генерации картинки дополнительно к тексту можно давать эскиз с семантической маской. Это позволяет точно контролировать где на картинке что должно быть. В каком-то смысле это продолжение истории с аналогичным графическим редактором от Nvidia.
В генерации текстов тоже большое достижение -- опубликована модель BLOOM (https://www.facebook.com/intentoco/posts/pfbid02TEHE1sQYf78pXu9ZWEXcbfJ1DfZKQrCVSnB5PFEntSSQRFJW98CCSevGegWYCib2l) проекта BigScience и HuggingFace. Модель полностью открытая, на 176B параметров, мультиязычная с поддержкой 46 человеческих и 13 программистских языков.
Кстати, OpenAI Codex вроде ещё в private beta, инвайты как-то продолжают раздавать, мне даже с месяц назад прислали. Но зато можно попробовать построенный на нём GitHub Copilot (https://github.com/features/copilot/). А также в июне вышел Amazon CodeWhisperer (https://aws.amazon.com/blogs/machine-learning/introducing-amazon-codewhisperer-the-ml-powered-coding-companion/). Интересно, насколько BLOOM здесь будет хорош.
По части мультиязычности большое достижение — это публикация модели NLLB-200, способной переводить напрямую между 200 языками (https://www.facebook.com/intentoco/photos/a.1093842744008324/5452925358100019/).
Также сравнительно недавно Яндекс выпустил в опенсорс свою YaLM на 100B параметров (https://www.facebook.com/intentoco/posts/pfbid02MNduVaBTRv2ZnBgjEiWyuSst7zFnpRbXxcDXQ5oKWENtFmNdvvx8JFkshwgxgmEul), на тот момент самую большую опенсорсную GPT-like модель.
А ещё до этого Гугл выложил в опенсорс (https://www.facebook.com/intentoco/photos/a.1093842744008324/5409287722463783/) свой Switch Transformer на 1.6T параметров (https://news.1rj.ru/str/gonzo_ML/472).
В общем, поляна расцветает буйным цветом. Bessemer Venture Partners недавно опубликовали хороший пост про то, что generative AI — это новая платформенная революция (https://www.bvp.com/atlas/is-ai-generation-the-next-platform-shift).
Facebook
Log in or sign up to view
See posts, photos and more on Facebook.
🔥21👍7❤1👎1
Их прогноз: "Today, less than 1% of online content is generated using AI. Within the next ten years, we predict that at least 50% of online content will be generated by or augmented by AI."
В качестве картинок для привлечения внимания свежие работы одного из участников коммьюнити Midjourney (https://www.facebook.com/groups/midjourneyai/posts/581151963650042/) — как выглядели бы герои "Звёздных войн" на фотографиях времён гражданской войны.
В качестве картинок для привлечения внимания свежие работы одного из участников коммьюнити Midjourney (https://www.facebook.com/groups/midjourneyai/posts/581151963650042/) — как выглядели бы герои "Звёздных войн" на фотографиях времён гражданской войны.
Facebook
Log in to Facebook
Log in to Facebook to start sharing and connecting with your friends, family and people you know.
🔥5👍1
Совсем кратко: развязка истории про sentience LaMDA (обсуждали тут https://news.1rj.ru/str/gonzo_ML/1017).
Гугл таки уволил инженера, который заявил о наличии сознания у LaMDA:
""It's regrettable that despite lengthy engagement on this topic, Blake still chose to persistently violate clear employment and data security policies that include the need to safeguard product information," a Google spokesperson said in an email to Reuters."
https://www.reuters.com/technology/google-fires-software-engineer-who-claimed-its-ai-chatbot-is-sentient-2022-07-23/
Всё-таки сложно выходит у Гугла с AI ethics...
Гугл таки уволил инженера, который заявил о наличии сознания у LaMDA:
""It's regrettable that despite lengthy engagement on this topic, Blake still chose to persistently violate clear employment and data security policies that include the need to safeguard product information," a Google spokesperson said in an email to Reuters."
https://www.reuters.com/technology/google-fires-software-engineer-who-claimed-its-ai-chatbot-is-sentient-2022-07-23/
Всё-таки сложно выходит у Гугла с AI ethics...
Telegram
gonzo-обзоры ML статей
Обзоры нескольких статей пока дозревают, запощу для разнообразия пост другого формата на злобу дня. Может, кстати, и дальше для разбавления основного потока статей что-нибудь такое буду постить, если интересно.
В последние дни разгорелась новая волна шумихи…
В последние дни разгорелась новая волна шумихи…
👍7🤮1
OmegaFold & ESMFold
Сегодня формат “маленькие, но по три”.
На этой неделе, а точнее 20-21 июля, вышли сразу две работы продвигающие тему фолдинга белков нейросетями ещё дальше, про ESMFold и про OmegaFold. Обе про отказ от множественного выравнивания (MSA, multiple sequence alignment).
Статья “Language models of protein sequences at the scale of evolution enable accurate structure prediction” (https://www.biorxiv.org/content/10.1101/2022.07.20.500902v1) от исследователей из FAIR представляет ESMFold.
ESMFold состоит из двух частей. Во-первых, это белковая языковая модель ESM-2 на 15B параметров и 48 слоёв, самая большая на данный момент. Это дальнейшее развитие ESM-1b (https://news.1rj.ru/str/gonzo_ML/609). Вторая часть, это собственно ESMFold, использующая репрезентации из ESM-2 для end-to-end предсказания трёхмерной структуры белка по одной только последовательности, без явного использования эволюционной информации в виде множественного выравнивания (MSA). Про MSA подробнее писали тут https://news.1rj.ru/str/gonzo_ML/631.
Про точность ESMFold сказано, что она выше AlphaFold2 (https://news.1rj.ru/str/gonzo_ML/649) и RoseTTAFold (https://news.1rj.ru/str/gonzo_ML/642), если тем подать только одну последовательность (не самый их родной сетап); сравнима с RoseTTAFold, если подать полную MSA; и также сравнима с SoTA на последовательностях с низкой перплексией (которые языковая модель хорошо поняла). А также что качество предсказания структуры коррелирует с улучшением перплексии. И чем больше параметров в модели, тем точнее.
Относительно ESM-1b в ESM-2 улучшилась архитектура и настройки обучение, и ESM-2 со 150М параметров даёт лучший результат, чем ESM-1b с 650M. Это хорошее движение про правильные архитектуры и процесс обучения, как и в случае с текстовыми моделями типа Chinchilla, где удаётся получать более высокое качество при меньшем числе параметров.
ESM-2 — это модель типа BERT’а, энкодер трансформера, где при обучении скрываются 15% аминокислот и модель учится их восстанавливать. В новой модели используются Rotary Position Embedding (RoPE, https://arxiv.org/abs/2104.09864, они же и в GPT-J 6B использовались), что даёт возможность применять модель к последовательностям произвольной длины.
На вход ESMFold подаются репрезентации последовательности, полученные из ESM-2. Сначала они обрабатываются кучей блоков типа упрощённого EvoFormer’а AlphaFold2, у которого вместо тяжёлых блоков для работы с MSA стоят трансформеры для работы с последовательностью. Это называется folding trunk. За ним находится структурный модуль, который выдаёт положения и уверенности.
Инференс ESMFold на порядок быстрее AlphaFold2, что даёт очевидный профит, когда надо обработать кучу новых последовательностей.
Сегодня формат “маленькие, но по три”.
На этой неделе, а точнее 20-21 июля, вышли сразу две работы продвигающие тему фолдинга белков нейросетями ещё дальше, про ESMFold и про OmegaFold. Обе про отказ от множественного выравнивания (MSA, multiple sequence alignment).
Статья “Language models of protein sequences at the scale of evolution enable accurate structure prediction” (https://www.biorxiv.org/content/10.1101/2022.07.20.500902v1) от исследователей из FAIR представляет ESMFold.
ESMFold состоит из двух частей. Во-первых, это белковая языковая модель ESM-2 на 15B параметров и 48 слоёв, самая большая на данный момент. Это дальнейшее развитие ESM-1b (https://news.1rj.ru/str/gonzo_ML/609). Вторая часть, это собственно ESMFold, использующая репрезентации из ESM-2 для end-to-end предсказания трёхмерной структуры белка по одной только последовательности, без явного использования эволюционной информации в виде множественного выравнивания (MSA). Про MSA подробнее писали тут https://news.1rj.ru/str/gonzo_ML/631.
Про точность ESMFold сказано, что она выше AlphaFold2 (https://news.1rj.ru/str/gonzo_ML/649) и RoseTTAFold (https://news.1rj.ru/str/gonzo_ML/642), если тем подать только одну последовательность (не самый их родной сетап); сравнима с RoseTTAFold, если подать полную MSA; и также сравнима с SoTA на последовательностях с низкой перплексией (которые языковая модель хорошо поняла). А также что качество предсказания структуры коррелирует с улучшением перплексии. И чем больше параметров в модели, тем точнее.
Относительно ESM-1b в ESM-2 улучшилась архитектура и настройки обучение, и ESM-2 со 150М параметров даёт лучший результат, чем ESM-1b с 650M. Это хорошее движение про правильные архитектуры и процесс обучения, как и в случае с текстовыми моделями типа Chinchilla, где удаётся получать более высокое качество при меньшем числе параметров.
ESM-2 — это модель типа BERT’а, энкодер трансформера, где при обучении скрываются 15% аминокислот и модель учится их восстанавливать. В новой модели используются Rotary Position Embedding (RoPE, https://arxiv.org/abs/2104.09864, они же и в GPT-J 6B использовались), что даёт возможность применять модель к последовательностям произвольной длины.
На вход ESMFold подаются репрезентации последовательности, полученные из ESM-2. Сначала они обрабатываются кучей блоков типа упрощённого EvoFormer’а AlphaFold2, у которого вместо тяжёлых блоков для работы с MSA стоят трансформеры для работы с последовательностью. Это называется folding trunk. За ним находится структурный модуль, который выдаёт положения и уверенности.
Инференс ESMFold на порядок быстрее AlphaFold2, что даёт очевидный профит, когда надо обработать кучу новых последовательностей.
bioRxiv
Language models of protein sequences at the scale of evolution enable accurate structure prediction
Large language models have recently been shown to develop emergent capabilities with scale, going beyond simple pattern matching to perform higher level reasoning and generate lifelike images and text. While language models trained on protein sequences have…
👍9
Вторая статья, ”High-resolution de novo structure prediction from primary sequence” (https://www.biorxiv.org/content/10.1101/2022.07.21.500999v1) в основном от китайцев из HeliXon Limited представляет OmegaFold.
Как я уже сказал, здесь тоже отказались от MSA и в целом работы весьма похожи.
OmegaFold также бьёт RoseTTAFold и AlphaFold2 на сетапе с только одной последовательностью на входе.
Структурно, это снова языковая модель, OmegaPLM на 66 слоёв и 670М параметров. Вместо self-attention берут Gated Attention Module (GAU, https://arxiv.org/abs/2202.10447). Тоже RoPE энкодинги. Обучается она похоже на ESM-1b, тоже BERT-style MLM с 15% скрытого.
После языковой модели стоят 50 блоков Geoformer, “a new geometry-inspired transformer neural network, to further distill the structural and physical pairwise relationships between amino acids”. Тоже в общем аналог EvoFormer’а с убранными эволюционными данными. Основная идея его в том, чтобы сделать эмбеддинги языковой модели геометрически консистентными — аминокислота и парные эмбеддинги генерят консистентные координаты и предсказания расстояний, чтобы результаты векторной арифметики указывали куда должно и соблюдались неравенства треугольника. Вроде похоже на историю с треугольниками в Evoformer.
И после пачки Geoformer’ов стоит также структурный модуль (8 слоёв), генерящий трёхмерные координаты.
В обеих моделях, кажется, есть recycling как в AlphaFold2. В OmegaFold это 10 итераций, в ESMFold не понял.
В общем в целом всё похоже: на одной последовательности хорошо предсказывает (особенно если сравнивать с AlphaFold/RoseTTAFold тоже только на одной последовательности), скорость предсказания также на порядок выше. Кажется, каждая работа очень претендует на то, чтобы быть первой.
Интересно было бы между собой их сравнить.
Как я уже сказал, здесь тоже отказались от MSA и в целом работы весьма похожи.
OmegaFold также бьёт RoseTTAFold и AlphaFold2 на сетапе с только одной последовательностью на входе.
Структурно, это снова языковая модель, OmegaPLM на 66 слоёв и 670М параметров. Вместо self-attention берут Gated Attention Module (GAU, https://arxiv.org/abs/2202.10447). Тоже RoPE энкодинги. Обучается она похоже на ESM-1b, тоже BERT-style MLM с 15% скрытого.
После языковой модели стоят 50 блоков Geoformer, “a new geometry-inspired transformer neural network, to further distill the structural and physical pairwise relationships between amino acids”. Тоже в общем аналог EvoFormer’а с убранными эволюционными данными. Основная идея его в том, чтобы сделать эмбеддинги языковой модели геометрически консистентными — аминокислота и парные эмбеддинги генерят консистентные координаты и предсказания расстояний, чтобы результаты векторной арифметики указывали куда должно и соблюдались неравенства треугольника. Вроде похоже на историю с треугольниками в Evoformer.
И после пачки Geoformer’ов стоит также структурный модуль (8 слоёв), генерящий трёхмерные координаты.
В обеих моделях, кажется, есть recycling как в AlphaFold2. В OmegaFold это 10 итераций, в ESMFold не понял.
В общем в целом всё похоже: на одной последовательности хорошо предсказывает (особенно если сравнивать с AlphaFold/RoseTTAFold тоже только на одной последовательности), скорость предсказания также на порядок выше. Кажется, каждая работа очень претендует на то, чтобы быть первой.
Интересно было бы между собой их сравнить.
bioRxiv
High-resolution de novo structure prediction from primary sequence
Recent breakthroughs have used deep learning to exploit evolutionary information in multiple sequence alignments (MSAs) to accurately predict protein structures. However, MSAs of homologous proteins are not always available, such as with orphan proteins or…
👍4