NEW BOT Телеграм, страница

gonzo-обзоры ML статей

[GFlowNets]: Flow Network based Generative Models for Non-Iterative Diverse Candidate Generation Emmanuel Bengio, Moksh Jain, Maksym Korablyov, Doina Precup, Yoshua Bengio Статья: https://arxiv.org/abs/2106.04399 Код: https://github.com/GFNOrg/gflownet Пост:…

Продолжая тему с GFlowNets, Йошуа Бенжио набирает постдоков, исследователей и инженеров в свою группу по работе над AI Alignment с вероятностными гарантиями безопасности. И отдельно ищет себе сильного постдока на тему про GFlowNets с применением к AI Safety. Пишите!

"I am looking for postdocs, research engineers and research scientists who would like to join me in one form or another in figuring out AI alignment with probabilistic safety guarantees, along the lines of the research program described in my keynote (https://www.alignment-workshop.com/nola-2023) at the New Orleans December 2023 Alignment Workshop.

I am also specifically looking for a postdoc with a strong mathematical background (ideally an actual math or math+physics or math+CS degree) to take a leadership role in supervising the Mila research on probabilistic inference and GFlowNets, with applications in AI safety, system 2 deep learning, and AI for science.

Please contact me if you are interested."

https://www.facebook.com/yoshua.bengio/posts/pfbid02EhTdd3HFEfhj2qfTqCKMrJCqjHPa9gu8A8tm8d6jrsqpN5znG2nGYonFEtLob5Bxl

Также смотрите его тематический кейноут про AI Alignment и немного про GFlowNets:

https://slideslive.com/39014230/towards-quantitative-safety-guarantees-and-alignment

far.ai

New Orleans Alignment Workshop | Events at FAR.AI

December 10 – 11, 2023. New Orleans, LA. Yoshua Bengio: Towards Quantitative Safety Guarantees and Alignment

❤10👍7

6K views23:41

gonzo-обзоры ML статей

Прикольная статья из серии "на почитать".

Perspectives on the State and Future of Deep Learning - 2023
Micah Goldblum, Anima Anandkumar, Richard Baraniuk, Tom Goldstein, Kyunghyun Cho, Zachary C Lipton, Melanie Mitchell, Preetum Nakkiran, Max Welling, Andrew Gordon Wilson
https://arxiv.org/abs/2312.09323

"The goal of this series is to chronicle opinions and issues in the field of machine learning as they stand today and as they change over time. The plan is to host this survey periodically until the AI singularity paperclip-frenzy-driven doomsday, keeping an updated list of topical questions and interviewing new community members for each edition. In this issue, we probed people’s opinions on interpretable AI, the value of benchmarking in modern NLP, the state of progress towards understanding deep learning, and the future of academia."

Пересказывать тут особо нечего, читайте и найдёте что-то для себя. Мне вот ответы Andrew Gordon Wilson понравились, достаточно глубокие и с кучей ссылок. Узнал про его прикольный проект "CoLA: Exploiting Compositional Structure for Automatic and Efficient Numerical Linear Algebra" (https://arxiv.org/abs/2309.03060, https://github.com/wilson-labs/cola).

arXiv.org

Perspectives on the State and Future of Deep Learning - 2023

The goal of this series is to chronicle opinions and issues in the field of machine learning as they stand today and as they change over time. The plan is to host this survey periodically until...

👍26❤2🔥1

6.99K views23:31

gonzo-обзоры ML статей

NVIDIA анонсировала на CES 2024 обновление линейки карт GeForce RTX 40 добавкой карт SUPER (https://nvidianews.nvidia.com/news/geforce-rtx-40-super-series): 4080 SUPER, 4070 Ti SUPER, 4070 SUPER.

Каким-то особым прорывом не выглядит, флагман 4090 всё равно быстрее (https://www.nvidia.com/en-gb/geforce/graphics-cards/compare/). С другой стороны неплохая производительность меньше чем за $1000.

NVIDIA Blog

NVIDIA Reveals Gaming, Creating, Generative AI, Robotics Innovations at CES

Generative AI models that will bring lifelike characters to games and applications and new GPUs for gamers and creators were among the highlights of NVIDIA's news-packed address ahead of CES.

👍9💩5

5.35K views19:21

gonzo-обзоры ML статей

5.35K views19:21

gonzo-обзоры ML статей

5.58K views19:21

gonzo-обзоры ML статей

Поехали

https://openai.com/blog/introducing-the-gpt-store

5.54K viewsedited 01:24

gonzo-обзоры ML статей

Forwarded from Сиолошная

Запустился GPTs Store: https://chat.openai.com/gpts
(правильная страница пока открывается не у всех, но если вы читаете это 11.01 — то уже должно работать. Доступно только для платных подписчиков!)

Тезисно:
— есть тренды, можно смотреть, что популярно у других (не придётся перелопачивать кучи всякого разного)
— каждую неделю будут показываться новые GPTs в секции «featured» (читай «выбор редакции»)
— на первой неделе это:
1) Персональные рекомендации по маршруту AllTrail s
2) Поиск и суммаризация по 200М научных документов Consensus
3) Учитель программирования от Khan Academy
4) Ассистент в создании презентаций Canva
5) Помощник по выбору следующей к прочтению книги
6) AI-учитель по математике и другим наукам
— есть автоматическая система ревью GPTs (видимо, через агента на GPT-4): постить NSFW без устали не удастся
— И самое главное: авторы из США будут получать оплату в зависимости от user engagement (деталей нет — не ясно, время ли это, кол-во сообщений или что-то ещё). Оплата запустится до конца Q1

Всем творцам — удачи, а пользователям — пользы от моделек!

🔥24👍12🤮2❤1🤩1

5.17K views01:24

gonzo-обзоры ML статей

А новостей для вас у меня сегодня нет, кроме свежего бицепса Шмидхубера.

https://twitter.com/SchmidhuberAI/status/1745475698737938543?t=_X-WsN5TCusvNMCRHkIxgA&s=19

Судьба области в надёжных руках!

😁47👍25❤2⚡1🔥1🤮1🤡1💯1🤝1

6.29K views22:46

gonzo-обзоры ML статей

Prepare for the (nearest) future

https://x.com/H0wie_Xu/status/1745657992459272423?t=fi6WkF29_jId1ggju-H3kQ&s=09

X (formerly Twitter)

Howie Xu (@H0wie_Xu) on X

At @ycombinator W24 kickoff today, @sama suggested ppl build w/ the mindset GPT-5 and AGI will be achieved "relatively soon"; most GPT-4 limitations will get fixed in GPT-5, per YC founder Richard He.

Expect @OpenAI #GPT5 in 2024 and #AGI in 2025?
What's…

👍6🤡6🔥3❤2💅2

5.83K views12:24

gonzo-обзоры ML статей

🔥4👍3❤1😁1🤔1😱1

5.84K views12:24

gonzo-обзоры ML статей

Optimizing Distributed Training on Frontier for Large Language Models
Sajal Dash, Isaac Lyngaas, Junqi Yin, Xiao Wang, Romain Egele, Guojing Cong, Feiyi Wang, Prasanna Balaprakash
Статья: https://arxiv.org/abs/2312.12705

Интересная статья про то, как обучали большие LLM на суперкомпьютере Frontier (https://www.olcf.ornl.gov/frontier/), номер 1 в рейтинге TOP500 (https://www.top500.org/lists/top500/list/2023/11/).

Frontier интересен тем, что он построен на процессорах и GPU от AMD, EPYC и MI250X (https://www.amd.com/en/products/accelerators/instinct/mi200/mi250x.html) соответственно. Второй суперкомпьютер в TOP500, Aurora, кстати, построен целиком на Интеле (тоже процы и GPU). И только третий, Eagle, на NVIDIA H100 и Xeon.

Обучали модели 22B, 175B (размер GPT-3) и 1T. Две последние на 1024 и 3072 MI250X (из 37,888).

Самое интересное для меня в этой истории -- это как именно обучали на этих карточках, потому что долгое время пользоваться ничем кроме Нвидии и CUDA было невозможно, а тут пошли валом работы про обучение больших сеток на AMD. Можно вспомнить финский суперкомпьютер LUMI (https://news.1rj.ru/str/gonzo_ML/2084), поддержку в HF Transformers (https://news.1rj.ru/str/gonzo_ML/2167), обучение RetNet в MS (https://news.1rj.ru/str/gonzo_ML/1754). Наконец какая-то реальная конкуренция, кажется. Ну и большой масштаб и возникающие там проблемы тоже интересны, конечно.

В mixed precision обучении нужно 6 байт на каждый параметр модели (4 для модели в fp32, 2 для вычислений в fp16), 4 байта на параметр оптимизатора (для сохранения момента в Adam в fp32), и 4 байта на градиент каждого параметра (fp32). Итого, для 1T модели надо 14T параметров. Каждый узел Frontier содержит 8 MI250X каждый с 64 GB HBM, так что без model parallelism не обойтись.

Возможны варианты. В Tensor parallelism большие матрицы весов разбивается по строкам или столбцам. В Pipeline Parallelism модель разбивается по слоям на несколько живущих на одном GPU этапов, в каждом из которых несколько слоёв. Sharded Data Parallelism похож на классический Data Parallelism, но вместо того, чтобы хостить копии целой модели на каждом устройстве (анрил), на каждом устройстве размещается только вычисляемый в данный момент слой. Разные методы можно смешивать, получая гибрид (минутка рекламы, в моей книге про JAX (https://www.manning.com/books/deep-learning-with-jax) есть пример смешивания data + tensor parallelism при обучении, ну и вообще про параллелизацию получились самые большие главы, и их целых три). В текущей работе для лучшей утилизации ресурсов используют 3D parallelism включающий tensor, pipeline, и data (обычный и sharded) parallelism.

Взяли фреймворк Megatron-DeepSpeed с поддержкой разных видов параллелизма (tensor, pipeline, data, sharded data parallelism). В оригинале он заточен на NVIDIA (и является форком их Megatron-LM с добавленными фичами), в работе его адаптировали под AMD ROCm.

Адаптация включала:
1) Конвертацию CUDA кода в HIP код через утилиту hipify, компилирование so через hipcc и привязку к питону через pybind.
2) Подготовку DeepSpeed Ops (расширений CUDA, полученных в оригинале JIT компиляцией) под ROCm и отключение JIT на всякий пожарный.
3) Инициализацию PyTorch Distributed Environment хостом из SLURM.
4) Работу с AMD над получением ROCm версий нужных библиотек, типа APEX для mixed precision, FlashAttention и FlashAttention2 (для этих использовали Composable Kernel library, https://github.com/ROCm/composable_kernel).

Экспериментировали с разными стратегиями распараллеливания и их параметрами, а также с гиперпараметрами обучения, подобрали оптимум. За деталями и наблюдениями вэлкам в статью.

В итоге получили рабочую конфигурацию, достигающую 32-38% от пиковых FLOPS. Через Roofline Analysis (писал про это когда-то тут https://moocaholic.medium.com/hardware-for-deep-learning-part-3-gpu-8906c1644664#8dd5) показали, что обучение не memory-bound. Потестировали скейлинг, получили 100% weak scaling и 87.05% strong scaling efficiency на 1T модели.

🔥14👍9✍3❤1🤔1

4.97K views00:00

gonzo-обзоры ML статей

Каких-то обученных моделей не выкладывали, цель была не в этом. Надеюсь, это всё дойдёт до опенсорса и поддержка AMD в итоге везде выйдет на достойный уровень. Ждём, надеемся.

Пользуясь случаем, хочу напомнить, что у канала теперь есть Патреон (https://patreon.com/GonzoML). Вступайте в ряды Фурье!

arXiv.org

Optimizing Distributed Training on Frontier for Large Language Models

Large language models (LLMs) have demonstrated remarkable success as foundational models, benefiting various downstream applications through fine-tuning. Recent studies on loss scaling have...

👍13😁1

4.73K views00:00

gonzo-обзоры ML статей

4.52K views00:01

gonzo-обзоры ML статей

4.54K views00:02

gonzo-обзоры ML статей

4.95K views00:03

gonzo-обзоры ML статей

5.11K views00:04

gonzo-обзоры ML статей

5.09K views00:05

gonzo-обзоры ML статей

5.72K views00:05

gonzo-обзоры ML статей

6.08K views00:06

gonzo-обзоры ML статей

This media is not supported in your browser

VIEW IN TELEGRAM

5.73K views00:08

❤8👍6

gonzo-обзоры ML статей

Пока просто новость

https://deepmind.google/discover/blog/alphageometry-an-olympiad-level-ai-system-for-geometry/

Результат между серебряной и золотой медалями на одимпиадных геометрических задачах.

С открытым кодом: https://github.com/google-deepmind/alphageometry

AlphaGeometry is a neuro-symbolic system made up of a neural language model and a symbolic deduction engine, which work together to find proofs for complex geometry theorems.

Google DeepMind

AlphaGeometry: An Olympiad-level AI system for geometry

Our AI system surpasses the state-of-the-art approach for geometry problems, advancing AI reasoning in mathematics

👍12🔥6👏6❤3

5.45K viewsedited 19:24

About

Blog

Apps

Platform