gonzo-обзоры ML статей – Telegram
gonzo-обзоры ML статей
24.1K subscribers
2.72K photos
2 videos
3 files
1.35K links
Авторы:
Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика.
Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
8
gonzo-обзоры ML статей
[GFlowNets]: Flow Network based Generative Models for Non-Iterative Diverse Candidate Generation Emmanuel Bengio, Moksh Jain, Maksym Korablyov, Doina Precup, Yoshua Bengio Статья: https://arxiv.org/abs/2106.04399 Код: https://github.com/GFNOrg/gflownet Пост:…
Продолжая тему с GFlowNets, Йошуа Бенжио набирает постдоков, исследователей и инженеров в свою группу по работе над AI Alignment с вероятностными гарантиями безопасности. И отдельно ищет себе сильного постдока на тему про GFlowNets с применением к AI Safety. Пишите!

"I am looking for postdocs, research engineers and research scientists who would like to join me in one form or another in figuring out AI alignment with probabilistic safety guarantees, along the lines of the research program described in my keynote (https://www.alignment-workshop.com/nola-2023) at the New Orleans December 2023 Alignment Workshop.

I am also specifically looking for a postdoc with a strong mathematical background (ideally an actual math or math+physics or math+CS degree) to take a leadership role in supervising the Mila research on probabilistic inference and GFlowNets, with applications in AI safety, system 2 deep learning, and AI for science.

Please contact me if you are interested."


https://www.facebook.com/yoshua.bengio/posts/pfbid02EhTdd3HFEfhj2qfTqCKMrJCqjHPa9gu8A8tm8d6jrsqpN5znG2nGYonFEtLob5Bxl

Также смотрите его тематический кейноут про AI Alignment и немного про GFlowNets:

https://slideslive.com/39014230/towards-quantitative-safety-guarantees-and-alignment
10👍7
Прикольная статья из серии "на почитать".

Perspectives on the State and Future of Deep Learning - 2023
Micah Goldblum, Anima Anandkumar, Richard Baraniuk, Tom Goldstein, Kyunghyun Cho, Zachary C Lipton, Melanie Mitchell, Preetum Nakkiran, Max Welling, Andrew Gordon Wilson
https://arxiv.org/abs/2312.09323

"The goal of this series is to chronicle opinions and issues in the field of machine learning as they stand today and as they change over time. The plan is to host this survey periodically until the AI singularity paperclip-frenzy-driven doomsday, keeping an updated list of topical questions and interviewing new community members for each edition. In this issue, we probed people’s opinions on interpretable AI, the value of benchmarking in modern NLP, the state of progress towards understanding deep learning, and the future of academia."

Пересказывать тут особо нечего, читайте и найдёте что-то для себя. Мне вот ответы Andrew Gordon Wilson понравились, достаточно глубокие и с кучей ссылок. Узнал про его прикольный проект "CoLA: Exploiting Compositional Structure for Automatic and Efficient Numerical Linear Algebra" (https://arxiv.org/abs/2309.03060, https://github.com/wilson-labs/cola).
👍262🔥1
NVIDIA анонсировала на CES 2024 обновление линейки карт GeForce RTX 40 добавкой карт SUPER (https://nvidianews.nvidia.com/news/geforce-rtx-40-super-series): 4080 SUPER, 4070 Ti SUPER, 4070 SUPER.

Каким-то особым прорывом не выглядит, флагман 4090 всё равно быстрее (https://www.nvidia.com/en-gb/geforce/graphics-cards/compare/). С другой стороны неплохая производительность меньше чем за $1000.
👍9💩5
Forwarded from Сиолошная
Запустился GPTs Store: https://chat.openai.com/gpts
(правильная страница пока открывается не у всех, но если вы читаете это 11.01 — то уже должно работать. Доступно только для платных подписчиков!)

Тезисно:
— есть тренды, можно смотреть, что популярно у других (не придётся перелопачивать кучи всякого разного)
— каждую неделю будут показываться новые GPTs в секции «featured» (читай «выбор редакции»)
— на первой неделе это:
1) Персональные рекомендации по маршруту AllTrails
2) Поиск и суммаризация по 200М научных документов Consensus
3) Учитель программирования от Khan Academy
4) Ассистент в создании презентаций Canva
5) Помощник по выбору следующей к прочтению книги
6) AI-учитель по математике и другим наукам
— есть автоматическая система ревью GPTs (видимо, через агента на GPT-4): постить NSFW без устали не удастся
— И самое главное: авторы из США будут получать оплату в зависимости от user engagement (деталей нет — не ясно, время ли это, кол-во сообщений или что-то ещё). Оплата запустится до конца Q1

Всем творцам — удачи, а пользователям — пользы от моделек!
🔥24👍12🤮21🤩1
А новостей для вас у меня сегодня нет, кроме свежего бицепса Шмидхубера.

https://twitter.com/SchmidhuberAI/status/1745475698737938543?t=_X-WsN5TCusvNMCRHkIxgA&s=19

Судьба области в надёжных руках!
😁47👍2521🔥1🤮1🤡1💯1🤝1
🔥4👍31😁1🤔1😱1
Optimizing Distributed Training on Frontier for Large Language Models
Sajal Dash, Isaac Lyngaas, Junqi Yin, Xiao Wang, Romain Egele, Guojing Cong, Feiyi Wang, Prasanna Balaprakash
Статья: https://arxiv.org/abs/2312.12705

Интересная статья про то, как обучали большие LLM на суперкомпьютере Frontier (https://www.olcf.ornl.gov/frontier/), номер 1 в рейтинге TOP500 (https://www.top500.org/lists/top500/list/2023/11/).

Frontier интересен тем, что он построен на процессорах и GPU от AMD, EPYC и MI250X (https://www.amd.com/en/products/accelerators/instinct/mi200/mi250x.html) соответственно. Второй суперкомпьютер в TOP500, Aurora, кстати, построен целиком на Интеле (тоже процы и GPU). И только третий, Eagle, на NVIDIA H100 и Xeon.

Обучали модели 22B, 175B (размер GPT-3) и 1T. Две последние на 1024 и 3072 MI250X (из 37,888).

Самое интересное для меня в этой истории -- это как именно обучали на этих карточках, потому что долгое время пользоваться ничем кроме Нвидии и CUDA было невозможно, а тут пошли валом работы про обучение больших сеток на AMD. Можно вспомнить финский суперкомпьютер LUMI (https://news.1rj.ru/str/gonzo_ML/2084), поддержку в HF Transformers (https://news.1rj.ru/str/gonzo_ML/2167), обучение RetNet в MS (https://news.1rj.ru/str/gonzo_ML/1754). Наконец какая-то реальная конкуренция, кажется. Ну и большой масштаб и возникающие там проблемы тоже интересны, конечно.

В mixed precision обучении нужно 6 байт на каждый параметр модели (4 для модели в fp32, 2 для вычислений в fp16), 4 байта на параметр оптимизатора (для сохранения момента в Adam в fp32), и 4 байта на градиент каждого параметра (fp32). Итого, для 1T модели надо 14T параметров. Каждый узел Frontier содержит 8 MI250X каждый с 64 GB HBM, так что без model parallelism не обойтись.

Возможны варианты. В Tensor parallelism большие матрицы весов разбивается по строкам или столбцам. В Pipeline Parallelism модель разбивается по слоям на несколько живущих на одном GPU этапов, в каждом из которых несколько слоёв. Sharded Data Parallelism похож на классический Data Parallelism, но вместо того, чтобы хостить копии целой модели на каждом устройстве (анрил), на каждом устройстве размещается только вычисляемый в данный момент слой. Разные методы можно смешивать, получая гибрид (минутка рекламы, в моей книге про JAX (https://www.manning.com/books/deep-learning-with-jax) есть пример смешивания data + tensor parallelism при обучении, ну и вообще про параллелизацию получились самые большие главы, и их целых три). В текущей работе для лучшей утилизации ресурсов используют 3D parallelism включающий tensor, pipeline, и data (обычный и sharded) parallelism.

Взяли фреймворк Megatron-DeepSpeed с поддержкой разных видов параллелизма (tensor, pipeline, data, sharded data parallelism). В оригинале он заточен на NVIDIA (и является форком их Megatron-LM с добавленными фичами), в работе его адаптировали под AMD ROCm.

Адаптация включала:
1) Конвертацию CUDA кода в HIP код через утилиту hipify, компилирование so через hipcc и привязку к питону через pybind.
2) Подготовку DeepSpeed Ops (расширений CUDA, полученных в оригинале JIT компиляцией) под ROCm и отключение JIT на всякий пожарный.
3) Инициализацию PyTorch Distributed Environment хостом из SLURM.
4) Работу с AMD над получением ROCm версий нужных библиотек, типа APEX для mixed precision, FlashAttention и FlashAttention2 (для этих использовали Composable Kernel library, https://github.com/ROCm/composable_kernel).

Экспериментировали с разными стратегиями распараллеливания и их параметрами, а также с гиперпараметрами обучения, подобрали оптимум. За деталями и наблюдениями вэлкам в статью.

В итоге получили рабочую конфигурацию, достигающую 32-38% от пиковых FLOPS. Через Roofline Analysis (писал про это когда-то тут https://moocaholic.medium.com/hardware-for-deep-learning-part-3-gpu-8906c1644664#8dd5) показали, что обучение не memory-bound. Потестировали скейлинг, получили 100% weak scaling и 87.05% strong scaling efficiency на 1T модели.
🔥14👍931🤔1
Каких-то обученных моделей не выкладывали, цель была не в этом. Надеюсь, это всё дойдёт до опенсорса и поддержка AMD в итоге везде выйдет на достойный уровень. Ждём, надеемся.

Пользуясь случаем, хочу напомнить, что у канала теперь есть Патреон (https://patreon.com/GonzoML). Вступайте в ряды Фурье!
👍13😁1