NEW BOT Телеграм, страница

🔔

Новая архитектура нейросетей от польского стартапа Pathway: Biological Dragon Hatchling

Недавно польский стартап Pathway представил свою новую архитектуру нейросетей под названием Biological Dragon Hatchling (BDH). Чем же она так интересна и чем отличается от привычных нам трансформеров? Давайте разберемся!

Идея у BDH довольно амбициозна — объединить два подхода в искусственном интеллекте: мощные трансформеры и нейроподобные модели мозга. Ведь не секрет, что между трансформерами и мозгом есть определенная связь (например, в статье от DeepMind об этом тоже шла речь). Но пока трансформеры и нейросети далеко от наших мозгов, и им не хватает нескольких ключевых свойств, которые присутствуют у нас.

📌 И вот тут появляется BDH. Это модель, которая сочетает в себе трансформеры и механизмы, схожие с теми, что работают в нашем мозге. В этой архитектуре нейроны — это вершины графа, а синапсы — рёбра с весами. Модель представляет собой распределённую систему, где нейроны общаются исключительно с соседями, что делает взаимодействие между ними более гибким и адаптивным.

❓ Как работает обучение в BDH?
На удивление, оно похоже на то, как учится наш мозг. В основе лежит принцип Хебба: нейроны, которые активируются вместе, усиливают свои связи. Таким образом, если два нейрона часто активируются одновременно, вес их синапса увеличивается. Это что-то похожее на механизм внимания, который мы видим в трансформерах.

Еще одна интересная особенность — деление весов на фиксированные и динамические. Это аналог долговременной и кратковременной памяти. Фиксированные веса — это как базовые знания, которые обновляются только во время обучения, а динамические — для рассуждений и локальных обновлений.

✏️ Но как это все работает на практике?
BDH имеет тензорную версию — BDH-GPU, которая эквивалентна оригинальной архитектуре, но выражена в виде обычных матриц и векторов. Это позволяет обучать её, как классический трансформер, с использованием знакомых блоков MLP и активаций.

Эта система уже продемонстрировала несколько приятных характеристик:

• Интерпретируемость. Каждый синапс между нейронами можно наблюдать и отслеживать. Плюс, активации моносемантичны — каждый нейрон отвечает за отдельное понятие. Это даёт большую прозрачность модели.

• Масштабируемость. BDH легко интегрирует две модели через конкатенацию, что открывает широкие возможности для масштабирования. Вполне возможно, что мы увидим на этой архитектуре мощные и гибкие системы.

• Соотношение точности и размера. BDH демонстрирует те же закономерности масштабирования, что и GPT-2. При одинаковом числе параметров модель достигает аналогичной точности на разных задачах. Это означает, что основные преимущества трансформеров сохранены.

В общем, архитектура получилась очень интересной, и если в будущем на её основе будут созданы практичные приложения, то она может по-настоящему изменить игру.

Data Science

Please open Telegram to view this post