Совсем кратко: развязка истории про sentience LaMDA (обсуждали тут https://news.1rj.ru/str/gonzo_ML/1017).
Гугл таки уволил инженера, который заявил о наличии сознания у LaMDA:
""It's regrettable that despite lengthy engagement on this topic, Blake still chose to persistently violate clear employment and data security policies that include the need to safeguard product information," a Google spokesperson said in an email to Reuters."
https://www.reuters.com/technology/google-fires-software-engineer-who-claimed-its-ai-chatbot-is-sentient-2022-07-23/
Всё-таки сложно выходит у Гугла с AI ethics...
Гугл таки уволил инженера, который заявил о наличии сознания у LaMDA:
""It's regrettable that despite lengthy engagement on this topic, Blake still chose to persistently violate clear employment and data security policies that include the need to safeguard product information," a Google spokesperson said in an email to Reuters."
https://www.reuters.com/technology/google-fires-software-engineer-who-claimed-its-ai-chatbot-is-sentient-2022-07-23/
Всё-таки сложно выходит у Гугла с AI ethics...
Telegram
gonzo-обзоры ML статей
Обзоры нескольких статей пока дозревают, запощу для разнообразия пост другого формата на злобу дня. Может, кстати, и дальше для разбавления основного потока статей что-нибудь такое буду постить, если интересно.
В последние дни разгорелась новая волна шумихи…
В последние дни разгорелась новая волна шумихи…
👍7🤮1
OmegaFold & ESMFold
Сегодня формат “маленькие, но по три”.
На этой неделе, а точнее 20-21 июля, вышли сразу две работы продвигающие тему фолдинга белков нейросетями ещё дальше, про ESMFold и про OmegaFold. Обе про отказ от множественного выравнивания (MSA, multiple sequence alignment).
Статья “Language models of protein sequences at the scale of evolution enable accurate structure prediction” (https://www.biorxiv.org/content/10.1101/2022.07.20.500902v1) от исследователей из FAIR представляет ESMFold.
ESMFold состоит из двух частей. Во-первых, это белковая языковая модель ESM-2 на 15B параметров и 48 слоёв, самая большая на данный момент. Это дальнейшее развитие ESM-1b (https://news.1rj.ru/str/gonzo_ML/609). Вторая часть, это собственно ESMFold, использующая репрезентации из ESM-2 для end-to-end предсказания трёхмерной структуры белка по одной только последовательности, без явного использования эволюционной информации в виде множественного выравнивания (MSA). Про MSA подробнее писали тут https://news.1rj.ru/str/gonzo_ML/631.
Про точность ESMFold сказано, что она выше AlphaFold2 (https://news.1rj.ru/str/gonzo_ML/649) и RoseTTAFold (https://news.1rj.ru/str/gonzo_ML/642), если тем подать только одну последовательность (не самый их родной сетап); сравнима с RoseTTAFold, если подать полную MSA; и также сравнима с SoTA на последовательностях с низкой перплексией (которые языковая модель хорошо поняла). А также что качество предсказания структуры коррелирует с улучшением перплексии. И чем больше параметров в модели, тем точнее.
Относительно ESM-1b в ESM-2 улучшилась архитектура и настройки обучение, и ESM-2 со 150М параметров даёт лучший результат, чем ESM-1b с 650M. Это хорошее движение про правильные архитектуры и процесс обучения, как и в случае с текстовыми моделями типа Chinchilla, где удаётся получать более высокое качество при меньшем числе параметров.
ESM-2 — это модель типа BERT’а, энкодер трансформера, где при обучении скрываются 15% аминокислот и модель учится их восстанавливать. В новой модели используются Rotary Position Embedding (RoPE, https://arxiv.org/abs/2104.09864, они же и в GPT-J 6B использовались), что даёт возможность применять модель к последовательностям произвольной длины.
На вход ESMFold подаются репрезентации последовательности, полученные из ESM-2. Сначала они обрабатываются кучей блоков типа упрощённого EvoFormer’а AlphaFold2, у которого вместо тяжёлых блоков для работы с MSA стоят трансформеры для работы с последовательностью. Это называется folding trunk. За ним находится структурный модуль, который выдаёт положения и уверенности.
Инференс ESMFold на порядок быстрее AlphaFold2, что даёт очевидный профит, когда надо обработать кучу новых последовательностей.
Сегодня формат “маленькие, но по три”.
На этой неделе, а точнее 20-21 июля, вышли сразу две работы продвигающие тему фолдинга белков нейросетями ещё дальше, про ESMFold и про OmegaFold. Обе про отказ от множественного выравнивания (MSA, multiple sequence alignment).
Статья “Language models of protein sequences at the scale of evolution enable accurate structure prediction” (https://www.biorxiv.org/content/10.1101/2022.07.20.500902v1) от исследователей из FAIR представляет ESMFold.
ESMFold состоит из двух частей. Во-первых, это белковая языковая модель ESM-2 на 15B параметров и 48 слоёв, самая большая на данный момент. Это дальнейшее развитие ESM-1b (https://news.1rj.ru/str/gonzo_ML/609). Вторая часть, это собственно ESMFold, использующая репрезентации из ESM-2 для end-to-end предсказания трёхмерной структуры белка по одной только последовательности, без явного использования эволюционной информации в виде множественного выравнивания (MSA). Про MSA подробнее писали тут https://news.1rj.ru/str/gonzo_ML/631.
Про точность ESMFold сказано, что она выше AlphaFold2 (https://news.1rj.ru/str/gonzo_ML/649) и RoseTTAFold (https://news.1rj.ru/str/gonzo_ML/642), если тем подать только одну последовательность (не самый их родной сетап); сравнима с RoseTTAFold, если подать полную MSA; и также сравнима с SoTA на последовательностях с низкой перплексией (которые языковая модель хорошо поняла). А также что качество предсказания структуры коррелирует с улучшением перплексии. И чем больше параметров в модели, тем точнее.
Относительно ESM-1b в ESM-2 улучшилась архитектура и настройки обучение, и ESM-2 со 150М параметров даёт лучший результат, чем ESM-1b с 650M. Это хорошее движение про правильные архитектуры и процесс обучения, как и в случае с текстовыми моделями типа Chinchilla, где удаётся получать более высокое качество при меньшем числе параметров.
ESM-2 — это модель типа BERT’а, энкодер трансформера, где при обучении скрываются 15% аминокислот и модель учится их восстанавливать. В новой модели используются Rotary Position Embedding (RoPE, https://arxiv.org/abs/2104.09864, они же и в GPT-J 6B использовались), что даёт возможность применять модель к последовательностям произвольной длины.
На вход ESMFold подаются репрезентации последовательности, полученные из ESM-2. Сначала они обрабатываются кучей блоков типа упрощённого EvoFormer’а AlphaFold2, у которого вместо тяжёлых блоков для работы с MSA стоят трансформеры для работы с последовательностью. Это называется folding trunk. За ним находится структурный модуль, который выдаёт положения и уверенности.
Инференс ESMFold на порядок быстрее AlphaFold2, что даёт очевидный профит, когда надо обработать кучу новых последовательностей.
bioRxiv
Language models of protein sequences at the scale of evolution enable accurate structure prediction
Large language models have recently been shown to develop emergent capabilities with scale, going beyond simple pattern matching to perform higher level reasoning and generate lifelike images and text. While language models trained on protein sequences have…
👍9
Вторая статья, ”High-resolution de novo structure prediction from primary sequence” (https://www.biorxiv.org/content/10.1101/2022.07.21.500999v1) в основном от китайцев из HeliXon Limited представляет OmegaFold.
Как я уже сказал, здесь тоже отказались от MSA и в целом работы весьма похожи.
OmegaFold также бьёт RoseTTAFold и AlphaFold2 на сетапе с только одной последовательностью на входе.
Структурно, это снова языковая модель, OmegaPLM на 66 слоёв и 670М параметров. Вместо self-attention берут Gated Attention Module (GAU, https://arxiv.org/abs/2202.10447). Тоже RoPE энкодинги. Обучается она похоже на ESM-1b, тоже BERT-style MLM с 15% скрытого.
После языковой модели стоят 50 блоков Geoformer, “a new geometry-inspired transformer neural network, to further distill the structural and physical pairwise relationships between amino acids”. Тоже в общем аналог EvoFormer’а с убранными эволюционными данными. Основная идея его в том, чтобы сделать эмбеддинги языковой модели геометрически консистентными — аминокислота и парные эмбеддинги генерят консистентные координаты и предсказания расстояний, чтобы результаты векторной арифметики указывали куда должно и соблюдались неравенства треугольника. Вроде похоже на историю с треугольниками в Evoformer.
И после пачки Geoformer’ов стоит также структурный модуль (8 слоёв), генерящий трёхмерные координаты.
В обеих моделях, кажется, есть recycling как в AlphaFold2. В OmegaFold это 10 итераций, в ESMFold не понял.
В общем в целом всё похоже: на одной последовательности хорошо предсказывает (особенно если сравнивать с AlphaFold/RoseTTAFold тоже только на одной последовательности), скорость предсказания также на порядок выше. Кажется, каждая работа очень претендует на то, чтобы быть первой.
Интересно было бы между собой их сравнить.
Как я уже сказал, здесь тоже отказались от MSA и в целом работы весьма похожи.
OmegaFold также бьёт RoseTTAFold и AlphaFold2 на сетапе с только одной последовательностью на входе.
Структурно, это снова языковая модель, OmegaPLM на 66 слоёв и 670М параметров. Вместо self-attention берут Gated Attention Module (GAU, https://arxiv.org/abs/2202.10447). Тоже RoPE энкодинги. Обучается она похоже на ESM-1b, тоже BERT-style MLM с 15% скрытого.
После языковой модели стоят 50 блоков Geoformer, “a new geometry-inspired transformer neural network, to further distill the structural and physical pairwise relationships between amino acids”. Тоже в общем аналог EvoFormer’а с убранными эволюционными данными. Основная идея его в том, чтобы сделать эмбеддинги языковой модели геометрически консистентными — аминокислота и парные эмбеддинги генерят консистентные координаты и предсказания расстояний, чтобы результаты векторной арифметики указывали куда должно и соблюдались неравенства треугольника. Вроде похоже на историю с треугольниками в Evoformer.
И после пачки Geoformer’ов стоит также структурный модуль (8 слоёв), генерящий трёхмерные координаты.
В обеих моделях, кажется, есть recycling как в AlphaFold2. В OmegaFold это 10 итераций, в ESMFold не понял.
В общем в целом всё похоже: на одной последовательности хорошо предсказывает (особенно если сравнивать с AlphaFold/RoseTTAFold тоже только на одной последовательности), скорость предсказания также на порядок выше. Кажется, каждая работа очень претендует на то, чтобы быть первой.
Интересно было бы между собой их сравнить.
bioRxiv
High-resolution de novo structure prediction from primary sequence
Recent breakthroughs have used deep learning to exploit evolutionary information in multiple sequence alignments (MSAs) to accurately predict protein structures. However, MSAs of homologous proteins are not always available, such as with orphan proteins or…
👍4
И раз уж мы снова про биоинформатику, то в ближайший четверг Сберлога проводит семинар по биоинформатической + deep learning теме: https://news.1rj.ru/str/sberlogabig/119
Telegram
(s)Berloga Всех Наук и Технологий
🚀 @SBERLOGABIG online seminar on data science and bioinformatics:
👨🔬 М. Синдеева и Н. Чеканов (Институт искусственного интеллекта AIRI) «DeepCT: Cell type-specific interpretation of noncoding variants using deep learning methods.»
⌚️ Четверг 28 июля, 18.00…
👨🔬 М. Синдеева и Н. Чеканов (Институт искусственного интеллекта AIRI) «DeepCT: Cell type-specific interpretation of noncoding variants using deep learning methods.»
⌚️ Четверг 28 июля, 18.00…
👍13
Now it is official.
I've started writing a book on JAX. This seems to be the first book ever on this topic.
For those who don't know, JAX is an exceptionally cool numeric computations library from Google, a kind of NumPy on steroids, with autodiff, XLA compilation, and hardware acceleration on TPU/GPU. JAX also brings the functional programming paradigm to deep learning.
JAX is heavily used for deep learning and already pretends to be the deep learning framework #3. Some companies, like DeepMind, have already switched to JAX internally. There are rumors that Google also switches to JAX.
JAX ecosystem is constantly growing. There are a lot of high-quality deep learning-related modules. But JAX is not limited to deep learning. There are many exciting applications and libraries on top of JAX for physics, including molecular dynamics, fluid dynamics, rigid body simulation, quantum computing, astrophysics, ocean modeling, and so on. There are libraries for distributed matrix factorization, streaming data processing, protein folding, and chemical modeling, with other new applications emerging constantly.
Anyway, it's a perfect time to start learning JAX!
The book is available today as a part of the Manning Early Access Program (MEAP), so you can read the book as I write it 🙂 This is a very smart way of learning something new, you do not have to wait until the complete book is ready. You can start learning right away, and at the moment the book is published, you already know everything. Your feedback will also be very valuable, and you can influence how the book is made.
Here's a link to the book: http://mng.bz/QvAG
If you want a decent discount, use the discount code mlsapunov. It will provide you with 40% off, and it's valid through August 11th.
I've started writing a book on JAX. This seems to be the first book ever on this topic.
For those who don't know, JAX is an exceptionally cool numeric computations library from Google, a kind of NumPy on steroids, with autodiff, XLA compilation, and hardware acceleration on TPU/GPU. JAX also brings the functional programming paradigm to deep learning.
JAX is heavily used for deep learning and already pretends to be the deep learning framework #3. Some companies, like DeepMind, have already switched to JAX internally. There are rumors that Google also switches to JAX.
JAX ecosystem is constantly growing. There are a lot of high-quality deep learning-related modules. But JAX is not limited to deep learning. There are many exciting applications and libraries on top of JAX for physics, including molecular dynamics, fluid dynamics, rigid body simulation, quantum computing, astrophysics, ocean modeling, and so on. There are libraries for distributed matrix factorization, streaming data processing, protein folding, and chemical modeling, with other new applications emerging constantly.
Anyway, it's a perfect time to start learning JAX!
The book is available today as a part of the Manning Early Access Program (MEAP), so you can read the book as I write it 🙂 This is a very smart way of learning something new, you do not have to wait until the complete book is ready. You can start learning right away, and at the moment the book is published, you already know everything. Your feedback will also be very valuable, and you can influence how the book is made.
Here's a link to the book: http://mng.bz/QvAG
If you want a decent discount, use the discount code mlsapunov. It will provide you with 40% off, and it's valid through August 11th.
Manning Publications
Deep Learning with JAX - Grigory Sapunov
Accelerate deep learning and other number-intensive tasks with JAX, Google’s awesome high-performance numerical computing library.
The JAX numerical computing library tackles the core performance challenges at the heart of deep learning and other scientific…
The JAX numerical computing library tackles the core performance challenges at the heart of deep learning and other scientific…
❤🔥68🔥27👍16👏3💯2😁1
[Google] PaLI: A Jointly-Scaled Multilingual Language-Image Model
Xi Chen, Xiao Wang, Soravit Changpinyo, AJ Piergiovanni, Piotr Padlewski, Daniel Salz, Sebastian Goodman, Adam Grycner, Basil Mustafa, Lucas Beyer, Alexander Kolesnikov, Joan Puigcerver, Nan Ding, Keran Rong, Hassan Akbari, Gaurav Mishra, Linting Xue, Ashish Thapliyal, James Bradbury, Weicheng Kuo, Mojtaba Seyedhosseini, Chao Jia, Burcu Karagol Ayan, Carlos Riquelme, Andreas Steiner, Anelia Angelova, Xiaohua Zhai, Neil Houlsby, Radu Soricut
Статья: https://arxiv.org/abs/2209.06794
Пост в блоге: https://ai.googleblog.com/2022/09/pali-scaling-language-image-learning-in.html
Модель: снова нет и, кажется, не будет (“The model is for research prototype and the current version is not available for the public.”)
Репа (но там только карточка модели): https://github.com/google-research/google-research/tree/master/pali
Продолжение интересной движухи про картиночно-языковые модели, теперь с фокусом на скейлинг и мультиязычность. Картиночно-языковые модели ощутимо развились в этом году. Мы уже писали про CoCa (https://news.1rj.ru/str/gonzo_ML/997) и про Flamingo (https://news.1rj.ru/str/gonzo_ML/941). У таких моделей на входе картинка+текст, а на выходе текст. И все задачи сводятся к генерации выходного текста.
Новая модель PaLI (Pathways Language and Image model) это продолжение темы про скейлинг на основе гугловой системы Pathways. На ней уже была обучена большая языковая модель PaLM (https://arxiv.org/abs/2204.02311) на 540B параметров. PaLI не такая гигантская, в ней 17B параметров (4B в картиночной части и 13B в языковой). Это больше CoCa (2.1B=1B+11.1B), но меньше Flamingo (80B=10B+70B).
Интересно, что теперь модель мультиязычная, поддерживает 109 языков.
Модель состоит из картиночного энкодера, преобразующего картинку в токены, которые дальше без всякого пулинга подаются вместе с текстом в текстовый encoder-decoder архитектуры T5, выдавая на выходе текст.
PaLI не обучали совсем с нуля, а инициализировали готовыми унимодальными Лего-блоками: мультиязычным encoder-decoder mT5-XXL (https://news.1rj.ru/str/gonzo_ML/442) на 13B параметров, и предобученным ViT (https://news.1rj.ru/str/gonzo_ML/434). Что интересно, взяли большой ViT-G (https://arxiv.org/abs/2111.07991) на 1.8B параметров, а также дополнительно обучили новый ViT-e (“enormous”) на 4B параметров. Кажется, это сейчас самый большой в природе ViT, жаль неопубликованный.
Всего было три разные PaLI модели, на 3B (1B mT5-Large + 1.8B ViT-G), 15B (13B mT5-XXL + 1.8B ViT-G) и (основная) 17B (13B mT5-XXL + 3.9B ViT-e).
Для обучения собрали мультиязычный картиночно-языковой датасет WebLI с поддержкой 109 языков (русского там довольно много, кстати). В нём 10B картинок и 12B alt-текстов. В дополнение к аннотациям с веба из картинок с помощью OCR извлекли тексты через GCP Vision API, что дало 29B пар картинка-OCR. Это существенно больше датасетов для CLIP, ALIGN или LiT. Датасет не пошарен.
Модель предобучалась на смеси задач, каждая из которых задаёт текст, который должна выдать модель (обучение с обычным LM-style teacher forcing и кроссэнтропийным лоссом после софтмакса). Среди задач: восстановление испорченного текстового span’а, split-captioning картинки и captioning, OCR, English and Cross-Lingual VQA, English and Cross-Lingual visual question generation (VQG), English-only Object-Aware (OA) VQA, Object detection.
Вся модель собрана на JAX/Flax (https://news.1rj.ru/str/gonzo_ML/1083) с фреймворками T5X (https://github.com/google-research/t5x) и Flaxformer (https://github.com/google/flaxformer).
Самую большую PaLI обучали на 1,024 TPUv4 чипах 7 дней, что получается свыше $500K по ценам гугл клауда на on-demand (https://cloud.google.com/tpu/pricing). Но это меньше, чем для CoCa (2,048 TPUv4 на 5 дней) и Flamingo (1,536 TPUv4 на 15 дней). Предобучали на картинках 224×224, но самую большую PaLI затем пре-файнтюнили на 588×588.
Xi Chen, Xiao Wang, Soravit Changpinyo, AJ Piergiovanni, Piotr Padlewski, Daniel Salz, Sebastian Goodman, Adam Grycner, Basil Mustafa, Lucas Beyer, Alexander Kolesnikov, Joan Puigcerver, Nan Ding, Keran Rong, Hassan Akbari, Gaurav Mishra, Linting Xue, Ashish Thapliyal, James Bradbury, Weicheng Kuo, Mojtaba Seyedhosseini, Chao Jia, Burcu Karagol Ayan, Carlos Riquelme, Andreas Steiner, Anelia Angelova, Xiaohua Zhai, Neil Houlsby, Radu Soricut
Статья: https://arxiv.org/abs/2209.06794
Пост в блоге: https://ai.googleblog.com/2022/09/pali-scaling-language-image-learning-in.html
Модель: снова нет и, кажется, не будет (“The model is for research prototype and the current version is not available for the public.”)
Репа (но там только карточка модели): https://github.com/google-research/google-research/tree/master/pali
Продолжение интересной движухи про картиночно-языковые модели, теперь с фокусом на скейлинг и мультиязычность. Картиночно-языковые модели ощутимо развились в этом году. Мы уже писали про CoCa (https://news.1rj.ru/str/gonzo_ML/997) и про Flamingo (https://news.1rj.ru/str/gonzo_ML/941). У таких моделей на входе картинка+текст, а на выходе текст. И все задачи сводятся к генерации выходного текста.
Новая модель PaLI (Pathways Language and Image model) это продолжение темы про скейлинг на основе гугловой системы Pathways. На ней уже была обучена большая языковая модель PaLM (https://arxiv.org/abs/2204.02311) на 540B параметров. PaLI не такая гигантская, в ней 17B параметров (4B в картиночной части и 13B в языковой). Это больше CoCa (2.1B=1B+11.1B), но меньше Flamingo (80B=10B+70B).
Интересно, что теперь модель мультиязычная, поддерживает 109 языков.
Модель состоит из картиночного энкодера, преобразующего картинку в токены, которые дальше без всякого пулинга подаются вместе с текстом в текстовый encoder-decoder архитектуры T5, выдавая на выходе текст.
PaLI не обучали совсем с нуля, а инициализировали готовыми унимодальными Лего-блоками: мультиязычным encoder-decoder mT5-XXL (https://news.1rj.ru/str/gonzo_ML/442) на 13B параметров, и предобученным ViT (https://news.1rj.ru/str/gonzo_ML/434). Что интересно, взяли большой ViT-G (https://arxiv.org/abs/2111.07991) на 1.8B параметров, а также дополнительно обучили новый ViT-e (“enormous”) на 4B параметров. Кажется, это сейчас самый большой в природе ViT, жаль неопубликованный.
Всего было три разные PaLI модели, на 3B (1B mT5-Large + 1.8B ViT-G), 15B (13B mT5-XXL + 1.8B ViT-G) и (основная) 17B (13B mT5-XXL + 3.9B ViT-e).
Для обучения собрали мультиязычный картиночно-языковой датасет WebLI с поддержкой 109 языков (русского там довольно много, кстати). В нём 10B картинок и 12B alt-текстов. В дополнение к аннотациям с веба из картинок с помощью OCR извлекли тексты через GCP Vision API, что дало 29B пар картинка-OCR. Это существенно больше датасетов для CLIP, ALIGN или LiT. Датасет не пошарен.
Модель предобучалась на смеси задач, каждая из которых задаёт текст, который должна выдать модель (обучение с обычным LM-style teacher forcing и кроссэнтропийным лоссом после софтмакса). Среди задач: восстановление испорченного текстового span’а, split-captioning картинки и captioning, OCR, English and Cross-Lingual VQA, English and Cross-Lingual visual question generation (VQG), English-only Object-Aware (OA) VQA, Object detection.
Вся модель собрана на JAX/Flax (https://news.1rj.ru/str/gonzo_ML/1083) с фреймворками T5X (https://github.com/google-research/t5x) и Flaxformer (https://github.com/google/flaxformer).
Самую большую PaLI обучали на 1,024 TPUv4 чипах 7 дней, что получается свыше $500K по ценам гугл клауда на on-demand (https://cloud.google.com/tpu/pricing). Но это меньше, чем для CoCa (2,048 TPUv4 на 5 дней) и Flamingo (1,536 TPUv4 на 15 дней). Предобучали на картинках 224×224, но самую большую PaLI затем пре-файнтюнили на 588×588.
research.google
PaLI: Scaling Language-Image Learning in 100+ Languages
Posted by Xi Chen and Xiao Wang, Software Engineers, Google Research Advanced language models (e.g., GPT, GLaM, PaLM and T5) have demonstrated dive...
👍18
На 5 из 7 английских картиночно-языковых бенчмарках (включая COCO captioning и VQAv2) получили SoTA. Также SoTA на мультиязычных image captioning и VQA. Цифры перечислять неинтересно, можете посмотреть в таблицах (но Flamingo и CoCa побиты). Лучше расскажу, что из интересного.
Было опасение, что модель “подзабудет” языки из чекпойнтов инициализации оригинальной mT5-XXL. Но в целом результат PaLI-17B почти не просел относительно mT5-XXL на SuperGLUE, XNLI, XQuAD, TyDiQA-GoldP.
На ImageNet PaLI в zero-shot обошла 1-shot Flamingo и приблизилась к её же 5-shot.
Картиночный и текстовый компоненты можно скейлить независимо друг от друга, и это даёт прирост. На чисто картиночных задачах новый ViT-e был не сильно лучше ViT-G (и кстати проигрывает CoCa), но на картиночно-текстовых выигрыш заметен. При росте от ViT-G к ViT-e (на 2B параметров, что всего 12% от всей модели), прирост качества очень существенный (ждём ViT-ee/xe, extra-enormous?).
В разрезе языков прирост тоже заметный. А если файнтюнить чисто на английских данных, то часть мультиязычных способностей теряется.
В общем интересная и потенциально весьма полезная модель, можно было бы придумывать и собирать новые продукты. Жаль, что снова недоступна.
А тем временем мы ждём отскейленную версию Gato (https://news.1rj.ru/str/gonzo_ML/966). Ей тоже, конечно, не поделятся, но даже знать, чего она достигла, всё равно интересно.
Было опасение, что модель “подзабудет” языки из чекпойнтов инициализации оригинальной mT5-XXL. Но в целом результат PaLI-17B почти не просел относительно mT5-XXL на SuperGLUE, XNLI, XQuAD, TyDiQA-GoldP.
На ImageNet PaLI в zero-shot обошла 1-shot Flamingo и приблизилась к её же 5-shot.
Картиночный и текстовый компоненты можно скейлить независимо друг от друга, и это даёт прирост. На чисто картиночных задачах новый ViT-e был не сильно лучше ViT-G (и кстати проигрывает CoCa), но на картиночно-текстовых выигрыш заметен. При росте от ViT-G к ViT-e (на 2B параметров, что всего 12% от всей модели), прирост качества очень существенный (ждём ViT-ee/xe, extra-enormous?).
В разрезе языков прирост тоже заметный. А если файнтюнить чисто на английских данных, то часть мультиязычных способностей теряется.
В общем интересная и потенциально весьма полезная модель, можно было бы придумывать и собирать новые продукты. Жаль, что снова недоступна.
А тем временем мы ждём отскейленную версию Gato (https://news.1rj.ru/str/gonzo_ML/966). Ей тоже, конечно, не поделятся, но даже знать, чего она достигла, всё равно интересно.
Telegram
gonzo-обзоры ML статей
[DeepMind Gato] A Generalist Agent
Scott Reed, Konrad Zolna, Emilio Parisotto, Sergio Gomez Colmenarejo, Alexander Novikov, Gabriel Barth-Maron, Mai Gimenez, Yury Sulsky, Jackie Kay, Jost Tobias Springenberg, Tom Eccles, Jake Bruce, Ali Razavi, Ashley Edwards…
Scott Reed, Konrad Zolna, Emilio Parisotto, Sergio Gomez Colmenarejo, Alexander Novikov, Gabriel Barth-Maron, Mai Gimenez, Yury Sulsky, Jackie Kay, Jost Tobias Springenberg, Tom Eccles, Jake Bruce, Ali Razavi, Ashley Edwards…
👍7