gonzo-обзоры ML статей – Telegram
gonzo-обзоры ML статей
24.1K subscribers
2.72K photos
2 videos
3 files
1.34K links
Авторы:
Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика.
Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.
Download Telegram
Трансформеры всегда бьют LSTM бэйзлайны, даже с тем же количеством параметров. Из интересного, авторы также показали, что перплексия по сути выступает отличной прокси метрикой для качества предсказания вторичной структуры и контактов. Прям линейная зависимость. И даже самая большая в статье модель явно не насыщается, так что можно спокойно делать ещё более тяжёлые модели и они наверняка будут ещё лучше.

Авторы также показали, что фичи ESM-1b неплохо обогащают другие классические фичи, улучшая предыдущие SoTA, то есть они содержат какую-то новую ценную информацию. Также эти фичи работают для предсказания эффекта ненаблюдавшихся мутаций, что полезно в генеративной биологии.

В общем классный пример торжества unsupervised learning на больших датасетах. Теперь в биологии. И да, модель опубликована, можно юзать в своих пайплайнах как BERT.
Transformer protein language models are unsupervised structure learners
Roshan Rao, Joshua Meier, Tom Sercu, Sergey Ovchinnikov, Alexander Rives
Статья: https://www.biorxiv.org/content/10.1101/2020.12.15.422761v1
Модель: https://github.com/facebookresearch/esm

Продолжение темы про большую языковую модель для белков ESM-1b частично от тех же авторов. Название перекликается с известными статьями из NLP/CV, например, про GPT-2 (“Language Models are Unsupervised Multitask Learners”), GPT-3 (“Language Models are Few-Shot Learners”) или SimCLRv2 (“Big Self-Supervised Models are Strong Semi-Supervised Learners”).

В данной работе фокусируются на задаче предсказания контактов в белке с целью заменить текущие многоступенчатые пайплайны на один forward pass уже предобученной сетки (та самая ESM-1b на 650М параметров). И показывают, что все необходимые для этого фичи уже содержатся в картах внимания определённых голов self-attention’а.

Предсказание контактов (contact prediction) бывает как водится supervised и unsupervised.

В supervised части уже было много интересных результатов, в том числе с обучением глубоких residual networks на структурах белков.

Unsupervised предсказание контактов обучается на последовательностях без какой-либо информации о структуре белка. Широко используемый для этого метод — это обучение Potts model (специальный вариант Markov Random Field) на множественном выравнивании (Multiple sequence alignment, MSA — это когда множество эволюционно связанных последовательностей выравнивается между собой по позициям, делая вставки, делеции и замены где надо, так чтобы минимизировать метрику типа edit distance по всем последовательностям).

Фичи из предсказания контактов могут потом использоваться для предсказания структуры (AlphaFold использовал фичи из Potts model).

Языковые модели уже использовались для предсказания контактов. Это было и в оригинальной работе про ESM-1b, и в других работах на трансформерах и LSTM, в том числе с supervised обучением предобученной модели. В данной работе показывают, что SoTA unsupervised предсказатель контактов можно напрямую извлечь из карт внимания предобученного трансформера (того же ESM-1b).

В работе сравниваются с тулом Gremlin, который принимает на вход MSA (и от качества этого выравнивания сильно зависит и качество результата). Gremlin берётся в двух вариантах: 1) на всех MSA из обучающей выборки trRosetta (которые сгенерены по Uniref100 и куда добавлены метагеномные последовательности, если глубина выравнивания по Uniref100 оказалась мала), и 2) на MSA полученных через Jackhmmer на том же датасете, на котором обучался ESM-1b (подмножество Uniref50). MSA из trRosetta называются ключевым ингредиентом state-of-the-art пайплайнов.

Что собственно делают? Последовательность белка (без какого либо MSA) прогоняют через ESM-1b, получают в трансформере карты внимания (attention maps, то есть скоры, которые получаются внутри трансформера при перемножении матриц Q и K). Эти карты отправляются независимо для каждой пары аминокислот (i,j) в L1 логрегрессию, которую обучают на каком-то небольшом числе последовательностей (например, 20). Это обучение нужно лишь для того, чтобы найти веса логрегрессии и понять, какие головы каких слоёв трансформера важны, сам трансформер никак не обновляется. Также пробуют обучать отдельные модели для предсказания близких (6-12 аминокислот), средних (12-24) и далёких контактов (24+).

Результат? На 20 обучающих последовательностях ESM-1b даёт на всех дистанциях более высокую точность, чем Gremlin (а также предыдущие языковые модели типа TAPE или ProtBERT-BFD).

Интересные абляции.

Всего с одной отобранной головой (из 660), качество ESM-1b сравнимо с Gremlin, а при усреднении 10 голов приближается к Gremlin’у на оптимизированном MSA.

Одного обучающего примера достаточно, чтобы получить статистически неотличимый от Gremlin’а результат. 10 примеров достаточно, чтобы его обойти.

Также вместо структур пробуют обучать по MSA (обучают Gremlin, берут оттуда top-L couplings и считают их настоящими контактами), получается похуже, но сравнимо с Gremlin.
Ещё пробуют ансамблирование по нескольким последовательностям из MSA, качество улучшается.

Снова (как и в предыдущей работе) показали, что перплексия хорошо коррелирует с точностью предсказания контактов (и снова видно, что есть куда скейлить).

Логрегрессия выделила 102 из 660 голов, которые помогают предсказаниям. Две головы оказались в top-10 по предсказаниям на всех масштабах. Одна голова оказалась особенно хороша для предсказания локальных контактов и мешала предсказывать дальние. И в целом видна специализация по типам контактов.

Ну и наконец показывают, что вероятности, которые выдаёт логрегрессия, близки к реальным вероятностям контактов, модель неплохо откалибрована и не overconfident. А в кейсах, где она ошибочно предсказывает контакт, он часто оказывается в пределах нескольких аминокислот от предсказанной точки, либо оказывается контактом между двумя цепочками гомодимера. К вставкам модель устойчива, можно вставить в начало/конец 256 аланинов (или 64 в середину) и модель не особенно деградирует. Более раннему трансформеру TAPE хватало 8 аланинов в начале, чтобы качество сильно ухудшилось (возможно, потому что тот обучался на белковых доменах).

Работа взята постером на ICLR 2021 (https://openreview.net/forum?id=fylclEqgvgd).