gonzo-обзоры ML статей – Telegram
gonzo-обзоры ML статей
24K subscribers
2.75K photos
2 videos
3 files
1.36K links
Авторы:
Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика.
Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
27👍13
Пятничное.

Для тех, кто знает про GEB, но не знает про его в каком-то смысле продолжение под названием "I Am a Strange Loop":

https://www.youtube.com/watch?v=UT5CxsyKwxg
12👍4🤮2
Another beautiful reading for the weekend:

"Searching for computational zones also dissolves the boundaries between what we think of as biology and technology. At the technological extremes are hypothetical concepts like Dyson structures that would capture all of a star’s energy. If these structures are for computation, then we can figure out the design options afforded by thermodynamic and informational principles. Calculations hint that abundant substellar objects—so-called brown dwarfs, weighing in at a few percent the mass of our sun and a hundred thousand times less luminous—might be better Dyson energy sources for uncomplaining technology, but not for biology with its bothersome requirements for warmth and nutrients."

...

"It may also be the case that blended living systems are the only ones able to discover other living systems. Anything else will simply be incapable of noticing, or uninterested in what it shares the cosmos with. If that is true, we really do exist at the most exciting time for any species that has ever arisen on the Earth."

https://www.scientificamerican.com/article/to-find-life-in-the-universe-find-the-computation/
🔥19
Сейчас конечно всем не до этого, но смотрите какую таблицу собрали :)

https://spectrum.ieee.org/artificial-general-intelligence
🤣41👍12🕊73🔥2
I'm happy to announce that the 8th and 9th chapters of the "Deep Learning with JAX" book are available in MEAP!

https://www.manning.com/books/deep-learning-with-jax

Chapter 8 is dedicated to advanced parallelization and covers:
- Using easy-to-revise named-axis parallelism with xmap()
- Compiling and automatically partitioning functions with pjit()
- Using tensor sharding to achieve parallelization with XLA
- Running code in multi-host configurations

Chapter 9 is dedicated to random numbers in JAX and covers:
- Generating (pseudo) random numbers in JAX
- Differences with NumPy and using keys to represent pseudo-random number generator (PRNG) state
- Working with keys and generating random numbers in real-life applications

Chapter 10 is to be published soon. This will conclude the part of the book on core JAX. The last part of the book will be dedicated to other libraries in the JAX ecosystem, e.g., Flax, Haiku, Optax, etc.
🔥194👍3❤‍🔥1
Scaling MLPs: A Tale of Inductive Bias
Gregor Bachmann, Sotiris Anagnostidis, Thomas Hofmann
Статья: https://arxiv.org/abs/2306.13575
Код на пайторче и модели [будут тут]: https://github.com/gregorbachmann/scaling_mlps

Полтора года назад начиналась большая движуха (https://news.1rj.ru/str/gonzo_ML/800) про воскрешение универсальных старых добрых полносвязных сетей aka многослойных персептронов (MLP) в разных задачах, где доминировали специализированные архитектуры. Пойнт был в том, что можно жить с меньшим числом inductive biases, когда можно себе позволить больше данных и более долгое обучение.

Также у MLP есть де-факто преимущество в том, что это такая дрозофила deep learning’а и прокси-модель для всего остального. Большинство теоретических результатов получены именно для них, а не для более современных и используемых на практике свёрточных сетей и трансформеров. В такие результаты авторы записывают сходимость SGD, generalization bounds, benefits of overparametrization, implicit bias of SGD towards favourable solutions, а также теоретические обоснования scaling laws. В этом смысле интересно исследовать лимиты этой прокси-модели, и текущая работа изучает как перформанс MLP меняется с масштабом. Важно, что это именно обычный MLP, а не MLP-Mixer (https://news.1rj.ru/str/gonzo_ML/776), который работает с патчами изображения и шаренным MLP для патчей + MLP для смешивания -- у MLP-Mixer больше inductive biases.

Исследовали несколько вариантов MLP. Стартовый -- MLP с ReLU (потом с линейной пробой показали, что GELU рулит) и изотропным дизайном, когда все слои кроме входа одного размера + добавлен LayerNorm после функции активации. Это дефолтный блок или Standard MLP:

Block(z) = σ (W LN(z))

Картинка размера d × d × 3 эмбеддится через специальный линейный слой в пространство размерности m. Без такого эмбеддинга с большими картинками сложно.

Также пробуют Inverted Bottleneck MLP, в котором сначала вектор размерности m увеличивается до km (k=4), а потом снова уменьшается до m. И вокруг этого блока ещё и skip connection. В итоге блок выглядит так:

Block(z) = z + W^c σ (W^e LN (z))

Это добавляет сколько-то inductive bias в архитектуру, но на фоне современных моделей это всё незначительно.

Проверяют всё на картинках, потому что в этой области с inductive bias лучше всего понятно. Для предобучения берут CIFAR10, CIFAR100, STL10, TinyImageNet, и для оценки ImageNet1k и ImageNet21k. Все картинки уменьшаются до 64 × 64 × 3, центрируются и нормализуются. В качестве аугментаций используются случайные флипы, кропы и MixUp (который замешивает пару изображений и их меток).

Из интересного, используют свеженайденный оптимизатор Lion (evoLved sIgn mOmeNtum, https://arxiv.org/abs/2302.06675), который вроде как лучше Adam (в 2-3 раза быстрее достигает заданного качества на ViT). Обучают с label smoothing (α = 0.3).

У standard MLP 6 слоёв с 1024 нейронами, у inverted bottleneck MLP (MLP-Inv) тоже 6 (но видимо уже с двумя трансформациями каждый), тоже 1024 и с k=4 (такой блок будут дальше называть B-6/Wi-1024).

Без аугментации (DA) совсем всё плохо. Архитектура inverted bottleneck стабильно всё улучшает (я правда не понял, поправку на количество весов делали или нет). Аугментация при этом начинает работать ещё лучше, на ImageNet скачок с 8.7 до 28.7 (на 1000 эпохах). У обычного MLP скачок с 4.7 до 11.5 (правда тут всего 100 эпох, не понимаю, зачем делать несравнимые эксперименты?). До ResNet18 всё равно сильно недотягивает.
🦄8👍75🔥1