Сегодня про персоны.
Mustafa Suleyman
Многие привыкли воспринимать лицом DeepMind Демиса Хассабиса (Demis Hassabis), он всегда был более на виду, чем два других кофаундера -- Мустафа Сулейман (Mustafa Suleyman), и Шейн Легг (Shane Legg). Сегодня хочется сказать пару слов про Мустафу Сулеймана (https://en.wikipedia.org/wiki/Mustafa_Suleyman), хотя Шейн Легг тоже достоин отдельной дискуссии. В последние полгода Сулейман генерирует много новостей, полезно немного их подсобрать.
Во-первых, несколько лет назад был скандал, связанный с его стилем менеджмента в DeepMind. Мустафа тогда сначала ушёл из DeepMind в Гугл, став там VP of AI product management and AI policy, но потом ушёл и оттуда в VC, став партнёром в Greylock Partners (https://www.cnbc.com/2022/01/28/mustafa-suleyman-deepmind-co-founder-quits-google-ai-role-to-be-vc.html).
Но как верно угадал в тот момент неназванный VC, “My gut says that it’s temporary while he looks for the next company to build or join as a founder,” Сулейман не сидел спокойно и тогда же в 2022-м основал компанию Inflection AI вместе с Рейдом Хоффманом (Reid Hoffman, кофаундер LinkedIn и партнёр в Greylock) и Кареном Симоньяном (Karén Simonyan, помните VGG?).
Inflection AI разрабатывает персонального агента, personal AI, по имени Pi (можно поболтать тут: https://pi.ai/talk) и свою собственную LLM Inflection-1 (https://inflection.ai/inflection-1). По метрикам самой компании (https://inflection.ai/assets/Inflection-1.pdf) результаты лежат где-то между с одной стороны GPT-3.5 (https://news.1rj.ru/str/gonzo_ML/1140) и PaLM 540B (https://arxiv.org/abs/2204.02311), и с другой GPT-4 (https://news.1rj.ru/str/gonzo_ML/1383) и PaLM 2-L (https://news.1rj.ru/str/gonzo_ML/1559). Скоро обещают API, заявку оставить можно тут (https://docs.google.com/forms/d/e/1FAIpQLScM9Iz1KzaRlfgDrYrldoPDnXbhO5LW3-hqmQCd56YpheEN7g/viewform).
Миссия про персональный ИИ (https://inflection.ai/why-create-personal-ai) выглядит здраво, заявлено, что плохо, когда твой личный ассистент принадлежит какой-то большой корпорации, и надо чтобы он принадлежал тебе.
Компания в 2022-м поднимала $225M, а летом 2023 подняла раунд в $1.3B от Microsoft, NVIDIA, Билла Гейтса, Эрика Шмидта, и того же Хоффмана (https://www.crunchbase.com/organization/inflection-ai/company_financials).
Сейчас компания заканчивает собирать огромный кластер с 22 тысячами H100, заявлен как самый большой кластер в мире (https://inflection.ai/inflection-ai-announces-1-3-billion-of-funding) и со своими 22 exaFLOPS FP16 если бы он был в рейтинге TOP500 (https://www.top500.org/lists/top500/2023/06/) суперкомпьютеров, то был бы там на втором месте. Более подробный анализ этого кластера есть на The Next Platform (https://www.nextplatform.com/2023/07/05/the-1-billion-and-higher-ante-to-play-the-ai-game/).
Сулейман в свежем подкасте (https://podcasts.google.com/feed/aHR0cHM6Ly9hbmNob3IuZm0vcy83YzYyNGM4NC9wb2RjYXN0L3Jzcw/episode/NDU1NmU5ZjMtNDUwMS00YWQ5LTliMTYtMThmMmIyODYzNzdi) заявил, что они обучают или будут обучать модели круче GPT-4.
Компания не целится в AGI (Artificial General Intelligence) и фокусируется на продвинутом прикладном AI, сам Сулейман использует термин ACI, Artificial Capable Intelligence, это где-то посередине между просто AI и AGI. В летней статье в MIT Technology Review (https://www.technologyreview.com/2023/07/14/1076296/mustafa-suleyman-my-new-turing-test-would-see-if-ai-can-make-1-million/) он пишет много про это и про переосмысление теста Тьюринга, Modern Turing Test, в котором агент должен действовать по инструкции “Go make $1 million on a retail web platform in a few months with just a $100,000 investment.” Он считает, что до успешного прохождения этого теста, может быть, осталась пара лет.
Mustafa Suleyman
Многие привыкли воспринимать лицом DeepMind Демиса Хассабиса (Demis Hassabis), он всегда был более на виду, чем два других кофаундера -- Мустафа Сулейман (Mustafa Suleyman), и Шейн Легг (Shane Legg). Сегодня хочется сказать пару слов про Мустафу Сулеймана (https://en.wikipedia.org/wiki/Mustafa_Suleyman), хотя Шейн Легг тоже достоин отдельной дискуссии. В последние полгода Сулейман генерирует много новостей, полезно немного их подсобрать.
Во-первых, несколько лет назад был скандал, связанный с его стилем менеджмента в DeepMind. Мустафа тогда сначала ушёл из DeepMind в Гугл, став там VP of AI product management and AI policy, но потом ушёл и оттуда в VC, став партнёром в Greylock Partners (https://www.cnbc.com/2022/01/28/mustafa-suleyman-deepmind-co-founder-quits-google-ai-role-to-be-vc.html).
Но как верно угадал в тот момент неназванный VC, “My gut says that it’s temporary while he looks for the next company to build or join as a founder,” Сулейман не сидел спокойно и тогда же в 2022-м основал компанию Inflection AI вместе с Рейдом Хоффманом (Reid Hoffman, кофаундер LinkedIn и партнёр в Greylock) и Кареном Симоньяном (Karén Simonyan, помните VGG?).
Inflection AI разрабатывает персонального агента, personal AI, по имени Pi (можно поболтать тут: https://pi.ai/talk) и свою собственную LLM Inflection-1 (https://inflection.ai/inflection-1). По метрикам самой компании (https://inflection.ai/assets/Inflection-1.pdf) результаты лежат где-то между с одной стороны GPT-3.5 (https://news.1rj.ru/str/gonzo_ML/1140) и PaLM 540B (https://arxiv.org/abs/2204.02311), и с другой GPT-4 (https://news.1rj.ru/str/gonzo_ML/1383) и PaLM 2-L (https://news.1rj.ru/str/gonzo_ML/1559). Скоро обещают API, заявку оставить можно тут (https://docs.google.com/forms/d/e/1FAIpQLScM9Iz1KzaRlfgDrYrldoPDnXbhO5LW3-hqmQCd56YpheEN7g/viewform).
Миссия про персональный ИИ (https://inflection.ai/why-create-personal-ai) выглядит здраво, заявлено, что плохо, когда твой личный ассистент принадлежит какой-то большой корпорации, и надо чтобы он принадлежал тебе.
Компания в 2022-м поднимала $225M, а летом 2023 подняла раунд в $1.3B от Microsoft, NVIDIA, Билла Гейтса, Эрика Шмидта, и того же Хоффмана (https://www.crunchbase.com/organization/inflection-ai/company_financials).
Сейчас компания заканчивает собирать огромный кластер с 22 тысячами H100, заявлен как самый большой кластер в мире (https://inflection.ai/inflection-ai-announces-1-3-billion-of-funding) и со своими 22 exaFLOPS FP16 если бы он был в рейтинге TOP500 (https://www.top500.org/lists/top500/2023/06/) суперкомпьютеров, то был бы там на втором месте. Более подробный анализ этого кластера есть на The Next Platform (https://www.nextplatform.com/2023/07/05/the-1-billion-and-higher-ante-to-play-the-ai-game/).
Сулейман в свежем подкасте (https://podcasts.google.com/feed/aHR0cHM6Ly9hbmNob3IuZm0vcy83YzYyNGM4NC9wb2RjYXN0L3Jzcw/episode/NDU1NmU5ZjMtNDUwMS00YWQ5LTliMTYtMThmMmIyODYzNzdi) заявил, что они обучают или будут обучать модели круче GPT-4.
Компания не целится в AGI (Artificial General Intelligence) и фокусируется на продвинутом прикладном AI, сам Сулейман использует термин ACI, Artificial Capable Intelligence, это где-то посередине между просто AI и AGI. В летней статье в MIT Technology Review (https://www.technologyreview.com/2023/07/14/1076296/mustafa-suleyman-my-new-turing-test-would-see-if-ai-can-make-1-million/) он пишет много про это и про переосмысление теста Тьюринга, Modern Turing Test, в котором агент должен действовать по инструкции “Go make $1 million on a retail web platform in a few months with just a $100,000 investment.” Он считает, что до успешного прохождения этого теста, может быть, осталась пара лет.
🔥30👍17❤8👏2😁1
Он много рассуждает про то, как потрясёт экономику (https://www.cnbc.com/video/2023/06/06/inflection-ais-mustafa-suleyman-says-a-i-will-create-a-serious-number-of-losers-for-white-collar-work.html) и вообще изменится жизнь в ближайшем будущем. В свежем Foreign Affairs (https://www.foreignaffairs.com/world/artificial-intelligence-power-paradox) он рассуждает про то, как надо глобально регулировать ИИ, с привлечением всех государств и компаний, которые этот ИИ и развивают. Тут у него модельным годом заявлен 2035-й, когда ИИ везде и мир поменялся.
Про всё это и наверное что-то ещё Сулейман написал книгу “The Coming Wave” (https://www.the-coming-wave.com/), которая выйдет 5 сентября. В свежем подкасте на Wired (https://www.wired.com/story/have-a-nice-future-podcast-18/) тоже её обсуждают. Я уже заказал, жду :)
Соревнование в целом интересное намечается. OpenAI, Google, Anthropic, Inflection AI, и многие другие с одной стороны, и бурно развивающийся опенсорс с другой. Опенсорс Сулейман, кстати, тоже предлагает регулировать, да.
Про всё это и наверное что-то ещё Сулейман написал книгу “The Coming Wave” (https://www.the-coming-wave.com/), которая выйдет 5 сентября. В свежем подкасте на Wired (https://www.wired.com/story/have-a-nice-future-podcast-18/) тоже её обсуждают. Я уже заказал, жду :)
Соревнование в целом интересное намечается. OpenAI, Google, Anthropic, Inflection AI, и многие другие с одной стороны, и бурно развивающийся опенсорс с другой. Опенсорс Сулейман, кстати, тоже предлагает регулировать, да.
CNBC
Inflection AI's Mustafa Suleyman says A.I. will create 'serious number of losers' in white collar work
Mustafa Suleyman, Deepmind co-founder, joins 'Closing Bell' to discuss his book 'The Coming Wave' which discusses the growing risks of A.i.
🔥22🤔9❤5👍5🤡3🤮2💩1
One Wide Feedforward is All You Need
Telmo Pessoa Pires, António V. Lopes, Yannick Assogba, Hendra Setiawan
Статья: https://arxiv.org/abs/2309.01826
Забавная работа про трансформеры из серии, чего бы там можно было выкинуть.
Традиционные блоки трансформеров состоят из двух больших компонент: self-attention и полносвязный слой (FFN). Роль FFN типа в добавлении нелинейности в преобразования эмбеддингов токенов.
Но оказывается, скрипач не нужен. Можно выкинуть блок FFN из всего декодера, и оставить только один шаренный FFN в энкодере, и будет всё ок (с точки зрения точности на выходе). Ну и FFN можно сделать сильно шире, чтобы количество параметров итогового трансформера совпадало с исходным классической архитектуры. Такую конфигурацию называют One Wide FFN.
Проверяют соответственно на полном трансформере (encoder-decoder) на задаче перевода, оценивают по BLEU. Я бы для такой задачи выбрал что-то менее проблемное и более математически формализованное, честно говоря. Классификацию там какую-нибудь или предсказание какого-то ряда, или ещё что-то, но не перевод с BLEU.
Архитектура Transformer Big: N_enc = N_dec = 6, d_model = 1024, d_ff = 4096, 16 голов внимания. Есть вариант Base, где размерности (но не количество) слоёв и число голов в два раза меньше, а также глубокий энкодер и мелкий декодер, и на одном декодере тоже проверяли.
Шаринг FFN очень мало ухудшает результат. И даже выбрасывание FFN вообще не сильно всё портит (особенно, если только из декодера -- делают вывод, что вклад энкодера и декодера сильно разный). Оставляют конфигурацию SharedEncNoDec -- без FFN в декодере, и шаринг FFN в энкодере.
Она на 41% легче по параметрам, на 22% быстрее на инференс, и всё это ценой в -1.0 BLEU. А если теперь FFN расширить так, чтобы суммарно параметров осталось столько же, то +0.9 BLEU от базовой модели и почти такое же ускорение, как у предыдущей модели. Но ещё большее расширение FFN уже не помогает, списывают на маленький датасет.
Кроме точности смотрят также на похожесть внутренних репрезентаций (через Linear Centered Kernel Alignment, CKA) и семантических пространств (через Local Neighborhood Similarity, LNS). Тут в целом довольно близко всё к бейзлайну. Хотя у более широкой модели оно подальше, причем в основном в семантическом пространстве.
Заодно на хитмепах похожести репрезентаций видно, что соседние слои обычно имеют близкие репрезентации и наверное они избыточны, от выкидывания одного слоя сильно хуже не станет. У One Wide FFN этот паттерн интереснее, там проявляется шахматная картинка и близки оказываются слои через один. Хз что это значит, но авторы считают, что модель выучивает какие-то нетривиальные трансформации и избыточность сети понижается.
Не прорыв, но забавно в общем. Не удивлюсь, если однажды придём к какой-то одной универсально лучшей FFN, которую проще будет зашить в железо :)
Telmo Pessoa Pires, António V. Lopes, Yannick Assogba, Hendra Setiawan
Статья: https://arxiv.org/abs/2309.01826
Забавная работа про трансформеры из серии, чего бы там можно было выкинуть.
Традиционные блоки трансформеров состоят из двух больших компонент: self-attention и полносвязный слой (FFN). Роль FFN типа в добавлении нелинейности в преобразования эмбеддингов токенов.
Но оказывается, скрипач не нужен. Можно выкинуть блок FFN из всего декодера, и оставить только один шаренный FFN в энкодере, и будет всё ок (с точки зрения точности на выходе). Ну и FFN можно сделать сильно шире, чтобы количество параметров итогового трансформера совпадало с исходным классической архитектуры. Такую конфигурацию называют One Wide FFN.
Проверяют соответственно на полном трансформере (encoder-decoder) на задаче перевода, оценивают по BLEU. Я бы для такой задачи выбрал что-то менее проблемное и более математически формализованное, честно говоря. Классификацию там какую-нибудь или предсказание какого-то ряда, или ещё что-то, но не перевод с BLEU.
Архитектура Transformer Big: N_enc = N_dec = 6, d_model = 1024, d_ff = 4096, 16 голов внимания. Есть вариант Base, где размерности (но не количество) слоёв и число голов в два раза меньше, а также глубокий энкодер и мелкий декодер, и на одном декодере тоже проверяли.
Шаринг FFN очень мало ухудшает результат. И даже выбрасывание FFN вообще не сильно всё портит (особенно, если только из декодера -- делают вывод, что вклад энкодера и декодера сильно разный). Оставляют конфигурацию SharedEncNoDec -- без FFN в декодере, и шаринг FFN в энкодере.
Она на 41% легче по параметрам, на 22% быстрее на инференс, и всё это ценой в -1.0 BLEU. А если теперь FFN расширить так, чтобы суммарно параметров осталось столько же, то +0.9 BLEU от базовой модели и почти такое же ускорение, как у предыдущей модели. Но ещё большее расширение FFN уже не помогает, списывают на маленький датасет.
Кроме точности смотрят также на похожесть внутренних репрезентаций (через Linear Centered Kernel Alignment, CKA) и семантических пространств (через Local Neighborhood Similarity, LNS). Тут в целом довольно близко всё к бейзлайну. Хотя у более широкой модели оно подальше, причем в основном в семантическом пространстве.
Заодно на хитмепах похожести репрезентаций видно, что соседние слои обычно имеют близкие репрезентации и наверное они избыточны, от выкидывания одного слоя сильно хуже не станет. У One Wide FFN этот паттерн интереснее, там проявляется шахматная картинка и близки оказываются слои через один. Хз что это значит, но авторы считают, что модель выучивает какие-то нетривиальные трансформации и избыточность сети понижается.
Не прорыв, но забавно в общем. Не удивлюсь, если однажды придём к какой-то одной универсально лучшей FFN, которую проще будет зашить в железо :)
👍43🔥2👀2❤1🤔1
Falcon 180B подвезли
https://falconllm.tii.ae/falcon-180b.html
Falcon 180B is a super-powerful language model with 180 billion parameters, trained on 3.5 trillion tokens. It's currently at the top of the Hugging Face Leaderboard for pre-trained Open Large Language Models and is available for both research and commercial use.
This model performs exceptionally well in various tasks like reasoning, coding, proficiency, and knowledge tests, even beating competitors like Meta's LLaMA 2.
Among closed source models, it ranks just behind OpenAI's GPT 4, and performs on par with Google's PaLM 2 Large, which powers Bard, despite being half the size of the model
https://falconllm.tii.ae/falcon-180b.html
Falcon 180B is a super-powerful language model with 180 billion parameters, trained on 3.5 trillion tokens. It's currently at the top of the Hugging Face Leaderboard for pre-trained Open Large Language Models and is available for both research and commercial use.
This model performs exceptionally well in various tasks like reasoning, coding, proficiency, and knowledge tests, even beating competitors like Meta's LLaMA 2.
Among closed source models, it ranks just behind OpenAI's GPT 4, and performs on par with Google's PaLM 2 Large, which powers Bard, despite being half the size of the model
falconllm.tii.ae
Introducing the Technology Innovation Institute’s Falcon 3 Making Advanced AI accessible and Available to Everyone, Everywhere
Falcon LLM is a generative large language model (LLM) that helps advance applications and use cases to future-proof our world.
🔥40👍3
gonzo-обзоры ML статей
Highly accurate protein structure prediction with AlphaFold John Jumper, Richard Evans, Alexander Pritzel, Tim Green, Michael Figurnov, Olaf Ronneberger, Kathryn Tunyasuvunakool, Russ Bates, Augustin Žídek, Anna Potapenko, Alex Bridgland, Clemens Meyer, Simon…
Some updates on the AlphaFold and thoughts from the authors: