gonzo-обзоры ML статей – Telegram
gonzo-обзоры ML статей
24K subscribers
2.75K photos
2 videos
3 files
1.36K links
Авторы:
Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика.
Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.
Download Telegram
Сегодня про персоны.

Mustafa Suleyman

Многие привыкли воспринимать лицом DeepMind Демиса Хассабиса (Demis Hassabis), он всегда был более на виду, чем два других кофаундера -- Мустафа Сулейман (Mustafa Suleyman), и Шейн Легг (Shane Legg). Сегодня хочется сказать пару слов про Мустафу Сулеймана (https://en.wikipedia.org/wiki/Mustafa_Suleyman), хотя Шейн Легг тоже достоин отдельной дискуссии. В последние полгода Сулейман генерирует много новостей, полезно немного их подсобрать.

Во-первых, несколько лет назад был скандал, связанный с его стилем менеджмента в DeepMind. Мустафа тогда сначала ушёл из DeepMind в Гугл, став там VP of AI product management and AI policy, но потом ушёл и оттуда в VC, став партнёром в Greylock Partners (https://www.cnbc.com/2022/01/28/mustafa-suleyman-deepmind-co-founder-quits-google-ai-role-to-be-vc.html).

Но как верно угадал в тот момент неназванный VC, “My gut says that it’s temporary while he looks for the next company to build or join as a founder,” Сулейман не сидел спокойно и тогда же в 2022-м основал компанию Inflection AI вместе с Рейдом Хоффманом (Reid Hoffman, кофаундер LinkedIn и партнёр в Greylock) и Кареном Симоньяном (Karén Simonyan, помните VGG?).

Inflection AI разрабатывает персонального агента, personal AI, по имени Pi (можно поболтать тут: https://pi.ai/talk) и свою собственную LLM Inflection-1 (https://inflection.ai/inflection-1). По метрикам самой компании (https://inflection.ai/assets/Inflection-1.pdf) результаты лежат где-то между с одной стороны GPT-3.5 (https://news.1rj.ru/str/gonzo_ML/1140) и PaLM 540B (https://arxiv.org/abs/2204.02311), и с другой GPT-4 (https://news.1rj.ru/str/gonzo_ML/1383) и PaLM 2-L (https://news.1rj.ru/str/gonzo_ML/1559). Скоро обещают API, заявку оставить можно тут (https://docs.google.com/forms/d/e/1FAIpQLScM9Iz1KzaRlfgDrYrldoPDnXbhO5LW3-hqmQCd56YpheEN7g/viewform).

Миссия про персональный ИИ (https://inflection.ai/why-create-personal-ai) выглядит здраво, заявлено, что плохо, когда твой личный ассистент принадлежит какой-то большой корпорации, и надо чтобы он принадлежал тебе.

Компания в 2022-м поднимала $225M, а летом 2023 подняла раунд в $1.3B от Microsoft, NVIDIA, Билла Гейтса, Эрика Шмидта, и того же Хоффмана (https://www.crunchbase.com/organization/inflection-ai/company_financials).

Сейчас компания заканчивает собирать огромный кластер с 22 тысячами H100, заявлен как самый большой кластер в мире (https://inflection.ai/inflection-ai-announces-1-3-billion-of-funding) и со своими 22 exaFLOPS FP16 если бы он был в рейтинге TOP500 (https://www.top500.org/lists/top500/2023/06/) суперкомпьютеров, то был бы там на втором месте. Более подробный анализ этого кластера есть на The Next Platform (https://www.nextplatform.com/2023/07/05/the-1-billion-and-higher-ante-to-play-the-ai-game/).

Сулейман в свежем подкасте (https://podcasts.google.com/feed/aHR0cHM6Ly9hbmNob3IuZm0vcy83YzYyNGM4NC9wb2RjYXN0L3Jzcw/episode/NDU1NmU5ZjMtNDUwMS00YWQ5LTliMTYtMThmMmIyODYzNzdi) заявил, что они обучают или будут обучать модели круче GPT-4.

Компания не целится в AGI (Artificial General Intelligence) и фокусируется на продвинутом прикладном AI, сам Сулейман использует термин ACI, Artificial Capable Intelligence, это где-то посередине между просто AI и AGI. В летней статье в MIT Technology Review (https://www.technologyreview.com/2023/07/14/1076296/mustafa-suleyman-my-new-turing-test-would-see-if-ai-can-make-1-million/) он пишет много про это и про переосмысление теста Тьюринга, Modern Turing Test, в котором агент должен действовать по инструкции “Go make $1 million on a retail web platform in a few months with just a $100,000 investment.” Он считает, что до успешного прохождения этого теста, может быть, осталась пара лет.
🔥30👍178👏2😁1
Он много рассуждает про то, как потрясёт экономику (https://www.cnbc.com/video/2023/06/06/inflection-ais-mustafa-suleyman-says-a-i-will-create-a-serious-number-of-losers-for-white-collar-work.html) и вообще изменится жизнь в ближайшем будущем. В свежем Foreign Affairs (https://www.foreignaffairs.com/world/artificial-intelligence-power-paradox) он рассуждает про то, как надо глобально регулировать ИИ, с привлечением всех государств и компаний, которые этот ИИ и развивают. Тут у него модельным годом заявлен 2035-й, когда ИИ везде и мир поменялся.

Про всё это и наверное что-то ещё Сулейман написал книгу “The Coming Wave” (https://www.the-coming-wave.com/), которая выйдет 5 сентября. В свежем подкасте на Wired (https://www.wired.com/story/have-a-nice-future-podcast-18/) тоже её обсуждают. Я уже заказал, жду :)

Соревнование в целом интересное намечается. OpenAI, Google, Anthropic, Inflection AI, и многие другие с одной стороны, и бурно развивающийся опенсорс с другой. Опенсорс Сулейман, кстати, тоже предлагает регулировать, да.
🔥22🤔95👍5🤡3🤮2💩1
One Wide Feedforward is All You Need
Telmo Pessoa Pires, António V. Lopes, Yannick Assogba, Hendra Setiawan
Статья: https://arxiv.org/abs/2309.01826

Забавная работа про трансформеры из серии, чего бы там можно было выкинуть.

Традиционные блоки трансформеров состоят из двух больших компонент: self-attention и полносвязный слой (FFN). Роль FFN типа в добавлении нелинейности в преобразования эмбеддингов токенов.

Но оказывается, скрипач не нужен. Можно выкинуть блок FFN из всего декодера, и оставить только один шаренный FFN в энкодере, и будет всё ок (с точки зрения точности на выходе). Ну и FFN можно сделать сильно шире, чтобы количество параметров итогового трансформера совпадало с исходным классической архитектуры. Такую конфигурацию называют One Wide FFN.

Проверяют соответственно на полном трансформере (encoder-decoder) на задаче перевода, оценивают по BLEU. Я бы для такой задачи выбрал что-то менее проблемное и более математически формализованное, честно говоря. Классификацию там какую-нибудь или предсказание какого-то ряда, или ещё что-то, но не перевод с BLEU.

Архитектура Transformer Big: N_enc = N_dec = 6, d_model = 1024, d_ff = 4096, 16 голов внимания. Есть вариант Base, где размерности (но не количество) слоёв и число голов в два раза меньше, а также глубокий энкодер и мелкий декодер, и на одном декодере тоже проверяли.

Шаринг FFN очень мало ухудшает результат. И даже выбрасывание FFN вообще не сильно всё портит (особенно, если только из декодера -- делают вывод, что вклад энкодера и декодера сильно разный). Оставляют конфигурацию SharedEncNoDec -- без FFN в декодере, и шаринг FFN в энкодере.

Она на 41% легче по параметрам, на 22% быстрее на инференс, и всё это ценой в -1.0 BLEU. А если теперь FFN расширить так, чтобы суммарно параметров осталось столько же, то +0.9 BLEU от базовой модели и почти такое же ускорение, как у предыдущей модели. Но ещё большее расширение FFN уже не помогает, списывают на маленький датасет.

Кроме точности смотрят также на похожесть внутренних репрезентаций (через Linear Centered Kernel Alignment, CKA) и семантических пространств (через Local Neighborhood Similarity, LNS). Тут в целом довольно близко всё к бейзлайну. Хотя у более широкой модели оно подальше, причем в основном в семантическом пространстве.

Заодно на хитмепах похожести репрезентаций видно, что соседние слои обычно имеют близкие репрезентации и наверное они избыточны, от выкидывания одного слоя сильно хуже не станет. У One Wide FFN этот паттерн интереснее, там проявляется шахматная картинка и близки оказываются слои через один. Хз что это значит, но авторы считают, что модель выучивает какие-то нетривиальные трансформации и избыточность сети понижается.

Не прорыв, но забавно в общем. Не удивлюсь, если однажды придём к какой-то одной универсально лучшей FFN, которую проще будет зашить в железо :)
👍43🔥2👀21🤔1
This media is not supported in your browser
VIEW IN TELEGRAM
😁1
Falcon 180B подвезли

https://falconllm.tii.ae/falcon-180b.html

Falcon 180B is a super-powerful language model with 180 billion parameters, trained on 3.5 trillion tokens. It's currently at the top of the Hugging Face Leaderboard for pre-trained Open Large Language Models and is available for both research and commercial use.

This model performs exceptionally well in various tasks like reasoning, coding, proficiency, and knowledge tests, even beating competitors like Meta's LLaMA 2.

Among closed source models, it ranks just behind OpenAI's GPT 4, and performs on par with Google's PaLM 2 Large, which powers Bard, despite being half the size of the model
🔥40👍3
12😁8👍1🤔1
And a couple more slides
👏18🤣6👍3