gonzo-обзоры ML статей – Telegram
gonzo-обзоры ML статей
24K subscribers
2.71K photos
2 videos
3 files
1.34K links
Авторы:
Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика.
Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.
Download Telegram
Их прогноз: "Today, less than 1% of online content is generated using AI. Within the next ten years, we predict that at least 50% of online content will be generated by or augmented by AI."

В качестве картинок для привлечения внимания свежие работы одного из участников коммьюнити Midjourney (https://www.facebook.com/groups/midjourneyai/posts/581151963650042/) — как выглядели бы герои "Звёздных войн" на фотографиях времён гражданской войны.
🔥5👍1
Из статьи BVP
👍1🔥1🤔1
Из статьи BVP
🔥9👍1
Совсем кратко: развязка истории про sentience LaMDA (обсуждали тут https://news.1rj.ru/str/gonzo_ML/1017).

Гугл таки уволил инженера, который заявил о наличии сознания у LaMDA:

""It's regrettable that despite lengthy engagement on this topic, Blake still chose to persistently violate clear employment and data security policies that include the need to safeguard product information," a Google spokesperson said in an email to Reuters."

https://www.reuters.com/technology/google-fires-software-engineer-who-claimed-its-ai-chatbot-is-sentient-2022-07-23/

Всё-таки сложно выходит у Гугла с AI ethics...
👍7🤮1
OmegaFold & ESMFold

Сегодня формат “маленькие, но по три”.

На этой неделе, а точнее 20-21 июля, вышли сразу две работы продвигающие тему фолдинга белков нейросетями ещё дальше, про ESMFold и про OmegaFold. Обе про отказ от множественного выравнивания (MSA, multiple sequence alignment).

Статья “Language models of protein sequences at the scale of evolution enable accurate structure prediction” (https://www.biorxiv.org/content/10.1101/2022.07.20.500902v1) от исследователей из FAIR представляет ESMFold.

ESMFold состоит из двух частей. Во-первых, это белковая языковая модель ESM-2 на 15B параметров и 48 слоёв, самая большая на данный момент. Это дальнейшее развитие ESM-1b (https://news.1rj.ru/str/gonzo_ML/609). Вторая часть, это собственно ESMFold, использующая репрезентации из ESM-2 для end-to-end предсказания трёхмерной структуры белка по одной только последовательности, без явного использования эволюционной информации в виде множественного выравнивания (MSA). Про MSA подробнее писали тут https://news.1rj.ru/str/gonzo_ML/631.

Про точность ESMFold сказано, что она выше AlphaFold2 (https://news.1rj.ru/str/gonzo_ML/649) и RoseTTAFold (https://news.1rj.ru/str/gonzo_ML/642), если тем подать только одну последовательность (не самый их родной сетап); сравнима с RoseTTAFold, если подать полную MSA; и также сравнима с SoTA на последовательностях с низкой перплексией (которые языковая модель хорошо поняла). А также что качество предсказания структуры коррелирует с улучшением перплексии. И чем больше параметров в модели, тем точнее.

Относительно ESM-1b в ESM-2 улучшилась архитектура и настройки обучение, и ESM-2 со 150М параметров даёт лучший результат, чем ESM-1b с 650M. Это хорошее движение про правильные архитектуры и процесс обучения, как и в случае с текстовыми моделями типа Chinchilla, где удаётся получать более высокое качество при меньшем числе параметров.

ESM-2 — это модель типа BERT’а, энкодер трансформера, где при обучении скрываются 15% аминокислот и модель учится их восстанавливать. В новой модели используются Rotary Position Embedding (RoPE, https://arxiv.org/abs/2104.09864, они же и в GPT-J 6B использовались), что даёт возможность применять модель к последовательностям произвольной длины.

На вход ESMFold подаются репрезентации последовательности, полученные из ESM-2. Сначала они обрабатываются кучей блоков типа упрощённого EvoFormer’а AlphaFold2, у которого вместо тяжёлых блоков для работы с MSA стоят трансформеры для работы с последовательностью. Это называется folding trunk. За ним находится структурный модуль, который выдаёт положения и уверенности.

Инференс ESMFold на порядок быстрее AlphaFold2, что даёт очевидный профит, когда надо обработать кучу новых последовательностей.
👍9
Вторая статья, ”High-resolution de novo structure prediction from primary sequence” (https://www.biorxiv.org/content/10.1101/2022.07.21.500999v1) в основном от китайцев из HeliXon Limited представляет OmegaFold.

Как я уже сказал, здесь тоже отказались от MSA и в целом работы весьма похожи.

OmegaFold также бьёт RoseTTAFold и AlphaFold2 на сетапе с только одной последовательностью на входе.

Структурно, это снова языковая модель, OmegaPLM на 66 слоёв и 670М параметров. Вместо self-attention берут Gated Attention Module (GAU, https://arxiv.org/abs/2202.10447). Тоже RoPE энкодинги. Обучается она похоже на ESM-1b, тоже BERT-style MLM с 15% скрытого.

После языковой модели стоят 50 блоков Geoformer, “a new geometry-inspired transformer neural network, to further distill the structural and physical pairwise relationships between amino acids”. Тоже в общем аналог EvoFormer’а с убранными эволюционными данными. Основная идея его в том, чтобы сделать эмбеддинги языковой модели геометрически консистентными — аминокислота и парные эмбеддинги генерят консистентные координаты и предсказания расстояний, чтобы результаты векторной арифметики указывали куда должно и соблюдались неравенства треугольника. Вроде похоже на историю с треугольниками в Evoformer.

И после пачки Geoformer’ов стоит также структурный модуль (8 слоёв), генерящий трёхмерные координаты.

В обеих моделях, кажется, есть recycling как в AlphaFold2. В OmegaFold это 10 итераций, в ESMFold не понял.

В общем в целом всё похоже: на одной последовательности хорошо предсказывает (особенно если сравнивать с AlphaFold/RoseTTAFold тоже только на одной последовательности), скорость предсказания также на порядок выше. Кажется, каждая работа очень претендует на то, чтобы быть первой.

Интересно было бы между собой их сравнить.
👍4
Now it is official.

I've started writing a book on JAX. This seems to be the first book ever on this topic.

For those who don't know, JAX is an exceptionally cool numeric computations library from Google, a kind of NumPy on steroids, with autodiff, XLA compilation, and hardware acceleration on TPU/GPU. JAX also brings the functional programming paradigm to deep learning.

JAX is heavily used for deep learning and already pretends to be the deep learning framework #3. Some companies, like DeepMind, have already switched to JAX internally. There are rumors that Google also switches to JAX.

JAX ecosystem is constantly growing. There are a lot of high-quality deep learning-related modules. But JAX is not limited to deep learning. There are many exciting applications and libraries on top of JAX for physics, including molecular dynamics, fluid dynamics, rigid body simulation, quantum computing, astrophysics, ocean modeling, and so on. There are libraries for distributed matrix factorization, streaming data processing, protein folding, and chemical modeling, with other new applications emerging constantly.

Anyway, it's a perfect time to start learning JAX!

The book is available today as a part of the Manning Early Access Program (MEAP), so you can read the book as I write it 🙂 This is a very smart way of learning something new, you do not have to wait until the complete book is ready. You can start learning right away, and at the moment the book is published, you already know everything. Your feedback will also be very valuable, and you can influence how the book is made.

Here's a link to the book: http://mng.bz/QvAG

If you want a decent discount, use the discount code mlsapunov. It will provide you with 40% off, and it's valid through August 11th.
❤‍🔥68🔥27👍16👏3💯2😁1