Пятничное.
Для тех, кто знает про GEB, но не знает про его в каком-то смысле продолжение под названием "I Am a Strange Loop":
https://www.youtube.com/watch?v=UT5CxsyKwxg
Для тех, кто знает про GEB, но не знает про его в каком-то смысле продолжение под названием "I Am a Strange Loop":
https://www.youtube.com/watch?v=UT5CxsyKwxg
❤12👍4🤮2
Another beautiful reading for the weekend:
"Searching for computational zones also dissolves the boundaries between what we think of as biology and technology. At the technological extremes are hypothetical concepts like Dyson structures that would capture all of a star’s energy. If these structures are for computation, then we can figure out the design options afforded by thermodynamic and informational principles. Calculations hint that abundant substellar objects—so-called brown dwarfs, weighing in at a few percent the mass of our sun and a hundred thousand times less luminous—might be better Dyson energy sources for uncomplaining technology, but not for biology with its bothersome requirements for warmth and nutrients."
...
"It may also be the case that blended living systems are the only ones able to discover other living systems. Anything else will simply be incapable of noticing, or uninterested in what it shares the cosmos with. If that is true, we really do exist at the most exciting time for any species that has ever arisen on the Earth."
https://www.scientificamerican.com/article/to-find-life-in-the-universe-find-the-computation/
"Searching for computational zones also dissolves the boundaries between what we think of as biology and technology. At the technological extremes are hypothetical concepts like Dyson structures that would capture all of a star’s energy. If these structures are for computation, then we can figure out the design options afforded by thermodynamic and informational principles. Calculations hint that abundant substellar objects—so-called brown dwarfs, weighing in at a few percent the mass of our sun and a hundred thousand times less luminous—might be better Dyson energy sources for uncomplaining technology, but not for biology with its bothersome requirements for warmth and nutrients."
...
"It may also be the case that blended living systems are the only ones able to discover other living systems. Anything else will simply be incapable of noticing, or uninterested in what it shares the cosmos with. If that is true, we really do exist at the most exciting time for any species that has ever arisen on the Earth."
https://www.scientificamerican.com/article/to-find-life-in-the-universe-find-the-computation/
Scientific American
To Find Life in the Universe, Find the Computation
The discovery that life on Earth looks a lot like information propagating itself offers new clues, and new directions, to the hunt for life elsewhere
🔥19
Сейчас конечно всем не до этого, но смотрите какую таблицу собрали :)
https://spectrum.ieee.org/artificial-general-intelligence
https://spectrum.ieee.org/artificial-general-intelligence
IEEE Spectrum
The AI Apocalypse: A Scorecard
How worried are top AI experts about the threat posed by large language models like GPT-4?
🤣41👍12🕊7❤3🔥2
I'm happy to announce that the 8th and 9th chapters of the "Deep Learning with JAX" book are available in MEAP!
https://www.manning.com/books/deep-learning-with-jax
Chapter 8 is dedicated to advanced parallelization and covers:
- Using easy-to-revise named-axis parallelism with xmap()
- Compiling and automatically partitioning functions with pjit()
- Using tensor sharding to achieve parallelization with XLA
- Running code in multi-host configurations
Chapter 9 is dedicated to random numbers in JAX and covers:
- Generating (pseudo) random numbers in JAX
- Differences with NumPy and using keys to represent pseudo-random number generator (PRNG) state
- Working with keys and generating random numbers in real-life applications
Chapter 10 is to be published soon. This will conclude the part of the book on core JAX. The last part of the book will be dedicated to other libraries in the JAX ecosystem, e.g., Flax, Haiku, Optax, etc.
https://www.manning.com/books/deep-learning-with-jax
Chapter 8 is dedicated to advanced parallelization and covers:
- Using easy-to-revise named-axis parallelism with xmap()
- Compiling and automatically partitioning functions with pjit()
- Using tensor sharding to achieve parallelization with XLA
- Running code in multi-host configurations
Chapter 9 is dedicated to random numbers in JAX and covers:
- Generating (pseudo) random numbers in JAX
- Differences with NumPy and using keys to represent pseudo-random number generator (PRNG) state
- Working with keys and generating random numbers in real-life applications
Chapter 10 is to be published soon. This will conclude the part of the book on core JAX. The last part of the book will be dedicated to other libraries in the JAX ecosystem, e.g., Flax, Haiku, Optax, etc.
Manning Publications
Deep Learning with JAX - Grigory Sapunov
Accelerate deep learning and other number-intensive tasks with JAX, Google’s awesome high-performance numerical computing library.
🔥19❤4👍3❤🔥1
Scaling MLPs: A Tale of Inductive Bias
Gregor Bachmann, Sotiris Anagnostidis, Thomas Hofmann
Статья: https://arxiv.org/abs/2306.13575
Код на пайторче и модели [будут тут]: https://github.com/gregorbachmann/scaling_mlps
Полтора года назад начиналась большая движуха (https://news.1rj.ru/str/gonzo_ML/800) про воскрешение универсальных старых добрых полносвязных сетей aka многослойных персептронов (MLP) в разных задачах, где доминировали специализированные архитектуры. Пойнт был в том, что можно жить с меньшим числом inductive biases, когда можно себе позволить больше данных и более долгое обучение.
Также у MLP есть де-факто преимущество в том, что это такая дрозофила deep learning’а и прокси-модель для всего остального. Большинство теоретических результатов получены именно для них, а не для более современных и используемых на практике свёрточных сетей и трансформеров. В такие результаты авторы записывают сходимость SGD, generalization bounds, benefits of overparametrization, implicit bias of SGD towards favourable solutions, а также теоретические обоснования scaling laws. В этом смысле интересно исследовать лимиты этой прокси-модели, и текущая работа изучает как перформанс MLP меняется с масштабом. Важно, что это именно обычный MLP, а не MLP-Mixer (https://news.1rj.ru/str/gonzo_ML/776), который работает с патчами изображения и шаренным MLP для патчей + MLP для смешивания -- у MLP-Mixer больше inductive biases.
Исследовали несколько вариантов MLP. Стартовый -- MLP с ReLU (потом с линейной пробой показали, что GELU рулит) и изотропным дизайном, когда все слои кроме входа одного размера + добавлен LayerNorm после функции активации. Это дефолтный блок или Standard MLP:
Block(z) = σ (W LN(z))
Картинка размера d × d × 3 эмбеддится через специальный линейный слой в пространство размерности m. Без такого эмбеддинга с большими картинками сложно.
Также пробуют Inverted Bottleneck MLP, в котором сначала вектор размерности m увеличивается до km (k=4), а потом снова уменьшается до m. И вокруг этого блока ещё и skip connection. В итоге блок выглядит так:
Block(z) = z + W^c σ (W^e LN (z))
Это добавляет сколько-то inductive bias в архитектуру, но на фоне современных моделей это всё незначительно.
Проверяют всё на картинках, потому что в этой области с inductive bias лучше всего понятно. Для предобучения берут CIFAR10, CIFAR100, STL10, TinyImageNet, и для оценки ImageNet1k и ImageNet21k. Все картинки уменьшаются до 64 × 64 × 3, центрируются и нормализуются. В качестве аугментаций используются случайные флипы, кропы и MixUp (который замешивает пару изображений и их меток).
Из интересного, используют свеженайденный оптимизатор Lion (evoLved sIgn mOmeNtum, https://arxiv.org/abs/2302.06675), который вроде как лучше Adam (в 2-3 раза быстрее достигает заданного качества на ViT). Обучают с label smoothing (α = 0.3).
У standard MLP 6 слоёв с 1024 нейронами, у inverted bottleneck MLP (MLP-Inv) тоже 6 (но видимо уже с двумя трансформациями каждый), тоже 1024 и с k=4 (такой блок будут дальше называть B-6/Wi-1024).
Без аугментации (DA) совсем всё плохо. Архитектура inverted bottleneck стабильно всё улучшает (я правда не понял, поправку на количество весов делали или нет). Аугментация при этом начинает работать ещё лучше, на ImageNet скачок с 8.7 до 28.7 (на 1000 эпохах). У обычного MLP скачок с 4.7 до 11.5 (правда тут всего 100 эпох, не понимаю, зачем делать несравнимые эксперименты?). До ResNet18 всё равно сильно недотягивает.
Gregor Bachmann, Sotiris Anagnostidis, Thomas Hofmann
Статья: https://arxiv.org/abs/2306.13575
Код на пайторче и модели [будут тут]: https://github.com/gregorbachmann/scaling_mlps
Полтора года назад начиналась большая движуха (https://news.1rj.ru/str/gonzo_ML/800) про воскрешение универсальных старых добрых полносвязных сетей aka многослойных персептронов (MLP) в разных задачах, где доминировали специализированные архитектуры. Пойнт был в том, что можно жить с меньшим числом inductive biases, когда можно себе позволить больше данных и более долгое обучение.
Также у MLP есть де-факто преимущество в том, что это такая дрозофила deep learning’а и прокси-модель для всего остального. Большинство теоретических результатов получены именно для них, а не для более современных и используемых на практике свёрточных сетей и трансформеров. В такие результаты авторы записывают сходимость SGD, generalization bounds, benefits of overparametrization, implicit bias of SGD towards favourable solutions, а также теоретические обоснования scaling laws. В этом смысле интересно исследовать лимиты этой прокси-модели, и текущая работа изучает как перформанс MLP меняется с масштабом. Важно, что это именно обычный MLP, а не MLP-Mixer (https://news.1rj.ru/str/gonzo_ML/776), который работает с патчами изображения и шаренным MLP для патчей + MLP для смешивания -- у MLP-Mixer больше inductive biases.
Исследовали несколько вариантов MLP. Стартовый -- MLP с ReLU (потом с линейной пробой показали, что GELU рулит) и изотропным дизайном, когда все слои кроме входа одного размера + добавлен LayerNorm после функции активации. Это дефолтный блок или Standard MLP:
Block(z) = σ (W LN(z))
Картинка размера d × d × 3 эмбеддится через специальный линейный слой в пространство размерности m. Без такого эмбеддинга с большими картинками сложно.
Также пробуют Inverted Bottleneck MLP, в котором сначала вектор размерности m увеличивается до km (k=4), а потом снова уменьшается до m. И вокруг этого блока ещё и skip connection. В итоге блок выглядит так:
Block(z) = z + W^c σ (W^e LN (z))
Это добавляет сколько-то inductive bias в архитектуру, но на фоне современных моделей это всё незначительно.
Проверяют всё на картинках, потому что в этой области с inductive bias лучше всего понятно. Для предобучения берут CIFAR10, CIFAR100, STL10, TinyImageNet, и для оценки ImageNet1k и ImageNet21k. Все картинки уменьшаются до 64 × 64 × 3, центрируются и нормализуются. В качестве аугментаций используются случайные флипы, кропы и MixUp (который замешивает пару изображений и их меток).
Из интересного, используют свеженайденный оптимизатор Lion (evoLved sIgn mOmeNtum, https://arxiv.org/abs/2302.06675), который вроде как лучше Adam (в 2-3 раза быстрее достигает заданного качества на ViT). Обучают с label smoothing (α = 0.3).
У standard MLP 6 слоёв с 1024 нейронами, у inverted bottleneck MLP (MLP-Inv) тоже 6 (но видимо уже с двумя трансформациями каждый), тоже 1024 и с k=4 (такой блок будут дальше называть B-6/Wi-1024).
Без аугментации (DA) совсем всё плохо. Архитектура inverted bottleneck стабильно всё улучшает (я правда не понял, поправку на количество весов делали или нет). Аугментация при этом начинает работать ещё лучше, на ImageNet скачок с 8.7 до 28.7 (на 1000 эпохах). У обычного MLP скачок с 4.7 до 11.5 (правда тут всего 100 эпох, не понимаю, зачем делать несравнимые эксперименты?). До ResNet18 всё равно сильно недотягивает.
GitHub
GitHub - gregorbachmann/scaling_mlps
Contribute to gregorbachmann/scaling_mlps development by creating an account on GitHub.
🦄8👍7❤5🔥1