Записки CPU designer'a – Telegram
Записки CPU designer'a
2.93K subscribers
195 photos
2 videos
5 files
292 links
Всем привет. Меня зовут Николай.
Работаю RTL design инженером, амбассадором в RISC-V International.
В свободное время пишу о магии процессоростроения и цифровом дизайне.
Download Telegram
Не знаю, как и зачем алгоритмы Твиттера завели меня в сегмент мемов про полупроводники, но теперь вам придется смотреть их вместе со мной 🤡

Btw, хочу обсудить с вами следующую идею. На quicksilicon появился раздел с задачами на SystemVerilog — от самых простых, таких как mux 2 в 1, до написания синхронного FIFO, арбитра Round Robin и разработки APB slave.

В задачах уже приведено решение, но нету никаких описаний и пояснений. Делаем разбор интересных задачек? С картинками, времянками, подробным объяснением. Как вам такой контент?

Помню, что обещал разбор лабораторной работы из RVfpga, но пришел к выводу, что лучше это делать либо в формате live-стрима, либо записи, а не текстом.

Ниже я подготовлю опрос, чтобы понять уровень экспертности моей аудитории в цифровом дизайне и их заинтересованность в этой теме ☺️
Please open Telegram to view this post
VIEW IN TELEGRAM
👍43🔥1231
Fourth International workshop on RISC-V for HPC

16 мая в Гамбурге прошёл международный workshop, посвящённый использованию RISC-V в высокопроизводительных вычислениях (HPC). Презентации докладов доступны по этой ссылке.

Must see доклады:

1) Performance analysis (and optimization) of BERT on RISC-V processors with SIMD units: В докладе рассматриваются три платформы на базе процессорных IP Xuantie и описываются оптимизации для высокопроизводительной операции GEMM. В докладе найдете ссылки на классные источники по оптимизации алгоритмов для GEMM и High-Performance BLIS.

2) Performance characterisation of the 64-core SG2042 RISC-V CPU for HPC: Сравнение 64-ядерного процессора на базе ядра C920 с одноплатниками VisionFive, HiFive Unmatched и процессорами на других архитектурах, такими как AMD Epyc 7742, Xeon Platinum 8170, Marvell ThunderX2. Значения бенчмарков и красивые графики найдете по ссылке выше.

Так же загляните конечно в Vendor talk'и от Semidynamics (где я работаю над тензорным ядром) и Codasip. Доклады отлично подходят для понимания над какими IP и в каких направлениях работают европейские RISC-V дизайн центры.
👍13🔥8
Community Notes — лучшее, что произошло с Твиттером 😎
Please open Telegram to view this post
VIEW IN TELEGRAM
👍26🥰3🤓3
31st IEEE International Symposium on Computer Arithmetic ARITH 2024

В Испании прошел 31-й симпозиум по компьютерной арифметике. На конференции было представлено много интересных докладов, которые мы разберем в следующих постах.

Сегодня остановимся на докладе от ARM Fused FP8 4-Way/2-Way Dot Product With Scaling and FP32/FP16 Accumulation.

В докладе и статье описаны подходы, которые применялись при разработке SIMD умножителя с накоплением (матричного умножителя) — базовый блок в дизайне любого NPU/TSU ускорителя.

В работе представлен дизайн с FP8 двух типов +/-e5m2, +/-e4m3, etc (IEEE P3109) в двух имплементациях с ранним (EA) и поздним (LA) аккумулированием результата.
Обе микроархитектуры имеют конвейерное построение с четырьмя этапами для достижения целевой частоты 3,6 ГГц.

Подходы, предложенные авторами статьи, были синтезированы на базе 5-нм технологии. На основе полученных результатов синтеза авторы делают следующие предложение по использованию подходов с ранним и поздним аккумулированием в вычислительных системах:

FP8-DOT4-LA можно адаптировать для высокопроизводительных вычислительных блоков CPU с уже существующими блоками fma32, поскольку данный подход обеспечивает прирост производительности при минимальных дополнительных затратах в площади целевого дизайна.

FP8-DOT4-EA лучше подходит для специализированных ускорителей, где важно снизить общую площадь вычислительного юнита, что полезно при масштабировании вычислительных блоков.

Для более детального ознакомления с работой рекомендую обратиться к статье David R. Lutz.

ссылка на материалы конференции https://www.ac.uma.es/arith2024/program.html

ссылка на презентацию от ARM: https://www.ac.uma.es/arith2024/slides/3_ARITH-2024.paper45.pdf
👍1822👎1🤓1
RISC-V Europe Summit 2024

В последнюю неделю июня пройдет RISC-V Summit в городе Мюнхен.

Ожидаю много интересных докладов. В первую очередь про программно-аппаратную поддержку матричных расширений в RISC-V экосистеме. А если матрицы поднадоели, то сможете найти доклад на свой вкус в программе конференции.

Даты и место проведения саммита:
Июнь 24 - 28
MOC – Event Center Messe Munich

Если кто-то читателей канала будет присутствовать на саммите приходите развиртуализироваться к стендy компании Semidynamics 👋🏻
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥9👍4🤓3🐳2
Попался на YouTube занимательный ролик, где рассказывается о подборке книг по тематике Computer / Hardware Engineering. Список книг можно найти в описании к видео, а также в первом комментарии к посту.

В русскоязычном сегменте уже есть хорошая подборка книг от Юрия Панчула "Следующие шаги в черной магии процессоростроения после того, как вы освоили Харрис & Харрис". Ознакомиться с ней можно на Хабре.

Обсуждать, какая книга лучше и является той самой для изучения того или иного топика, можно бесконечно. Однако такие подборки решают другую проблему. Литературы по цифровому дизайну не так много, а искать её — отдельная задача. В этих двух подборках представлены книги по различным направлениям, начиная от компьютерной архитектуры, продолжая подходу к работе с SystemVerilog assertion и заканчивая книгой по скриптовому языку Tcl.

Такие подборки выступают второй ступенькой, когда базовый учебник, которым, по моему мнению, в профессии проектировщика процессорных систем является Харрис & Харрис "Цифровая схемотехника и архитектура компьютера", уже прочитан и изучен. Ознакомиться с этой книгой можно по этой ссылке.

Для себя из списка выделил книгу по Static Timing Analysis for Nanometer Design (pdf файл на которую находится по второй ссылке в гугле).
До этого момента я не сталкивался с литературой по тематике STA, однако содержание этой книги показалось мне весьма увлекательным. Задачи по достижению timing closure и обеспечению требуемой рабочей частоты остаются одними из самых трудоемких этапов при проектировании конечного устройства.
👍28🔥54🤓3👀3
Принес вам с просторов Твиттера Die Yield Calculator

В калькуляторе можно задавать диаметр пластины, указывать размеры чипа и другие дополнительные параметры, такие как Edge Loss — ширина внешней области пластины, которая не может быть использована для размещения кристаллов из-за технологических ограничений.

Энтузиасты ввели в калькулятор значения для чипов Apple A15 и Nvidia H100. Согласно данным этого калькулятора, даже при выходе годных кристаллов в 90% для Apple, для NVIDIA этот показатель всё равно составляет менее 50%. Не думаю, что эта информация может быть применима для чего-то, кроме понимания того, что конечная стоимость продукта и размер партии, а вследствие этого и цены конечного изделия, в том числе определяется физическим размером чипа на пластине.

Отдельно в калькуляторе указан параметр для Murphy’s Model of Die Yield. Эта модель используется в полупроводниковой промышленности для прогнозирования числа годных (не имеющих дефектов) кристаллов, которые можно получить из одной пластины. Больше деталей про закон/модель Мёрфи можно найти здесь.
👍23🔥65
Каюсь, что снова пропал на месяц.
Контент настаивается, готовится к релизу, поэтому пока что предлагаю небольшую разминку.

Не подсматривайте и выбирайте сердцем.
Ответ будет в комментариях☕️
Please open Telegram to view this post
VIEW IN TELEGRAM
😱6👍3👀3
VGF2P8AFFINEINVQB что это?🤔
Anonymous Quiz
36%
Sony headphone name
64%
Intel x86_64 instruction
😱8👍1
Пополнение в железе для RISC-V AI — канадская компания, под руководством Джима Келлера представила новый чип Wormhole.
Tenstorrent Launches Wormhole AI Processors: 466 FP8 TFLOPS at 300W

Представлены 2 варианта плат разработчика n150 и n300, с производительностью равной 262 и 466 TeraFLOPs (FP8) соответственно.
Младшую плату можно приобрести за 1000$. за старшую модель придется заплатить уже 1400$.

Больше деталей и характеристик найдется на сайте компании.

Компилятор, для запуска ML-моделей на железе от TT называется CUDA BUDA😬
Cофт стек в целом - TT-Metalium, открытый низкоуровневый SDK.
SDK TT-Metalium будет полезен для разработчиков, которые хотят настроить и оптимизировать свои модели машинного обучения, писать новые ядра для выполнения ключевых операций, экспериментировать с низкоуровневыми вычислениями и запускать код, не связанный с машинным обучением, с максимальной производительностью и эффективностью.
[Спасибо Artem E, за подсказку в комментариях]

Подробности о софтверном стeке от Tenstorrent можно найти на github'e проекта.

Так же для понимания и правильного позиционирования продукта рекомендую прочитать интервью с Джимом Кэеллером порталу Nikkei Asia. В этом интервью CEO Tenstorrent бегло отвечает на вопрос о использовании HBM в AI ускорителях с точки зрения энергопотребления и цены конечного продукта.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13🔥3
Intel сократит более 15 000 сотрудников

Число невероятно большое, иногда забываю, насколько огромны такие корпорации. Интересно, наберется ли во всем СНГ 15 000 сотрудников в области полупроводников?

The Verge пишет, что в планах также остановить некую "non-essential work". Конечно же, загадка, что именно скрывается за этой обтекаемой формулировкой.

Больше всего интересно узнать, какая судьба будет у Intel ARC в сегменте GPU и Intel Gaudi в сегменте AI-ускорителей. Оба этих семейства пока что не произвели большого впечатления на рынке.

Intel — одна из немногих компаний, у которой есть собственные производственные мощности для выпуска чипов. Intel занимается буквально всем: разработкой и поддержкой новых техпроцессов, процессорами общего назначения, серверными процессорами, GPU, AI-ускорителями, FPGA-подразделением (бывшая настоящая Altera), разработкой программной экосистемы для новых продуктов.

В 2018 году, когда TSMC уже начала производство 7-нм чипов, у Intel появились проблемы с внедрением 10-нм технологий. Как только у Intel пропало явное преимущество в технологическом процессе перед AMD, конкуренция резко обострилась, и скомпенсировать утерю преимущества микроархитектурой, как мы видим, не удалось.

Так что запасаемся попкорном, а обсудить взлеты и падения Intel всегда можно в комментариях 👀
👍16😱9😁5🐳3👀2
Фиксируем прибыль с акций Интела?

По ссылке выше грустная история инвестиций в 700 000 долларов, полученных по наследству и слитых за 1 день☕️
Please open Telegram to view this post
VIEW IN TELEGRAM
🗿14😁6😨3👍2🤡2
Если бурления вокруг Intel уже приелись, а душа требует срача, то на хабре случился очередной panchul-gate.
Я, наверное, подожду ещё пару дней, пока комментарии настоятся, но ревнители жанра могут ознакомиться с мнениями хабра-экспертов уже сейчас ☺️
Please open Telegram to view this post
VIEW IN TELEGRAM
25😁9👀4🤡32
Коллеги софтварщики, заводите трактор? 🚜

Трянслятор C to Rust от DARPA
😁32
Продолжая тему проблемы энергоэффективности, стоит отметить, что вопрос энергоснабжения AI/HPC-кластеров, становится всё более актуальным. Всё чаще можно встретить новости такого рода: "Tech companies are turning to nuclear plants as AI increases demand for power".

Так что, кроме привычного "почем киловатт-час", вскоре будут спрашивать и "сколько TOPS-ватт?", "сколько FLOPs на Джоуль?" Самое время получше разобраться в вопросе энергоэффективности вычислительных операций.

Энергоэффективность
операций в вычислительной технике наглядно демонстрируется в лекции Онура Мутлу (профессора в ETH Zurich) "Memory-Centric Computing".
Например, разница между выполнением целочисленной операции сложения и обращением к памяти DRAM может достигать 6400 раз.

Лекцию можете посмотреть по ссылке на YouTube, а презентацию, на скромные 456 слайдов найдете в первом комментарии к посту😏
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13🤓7🔥621
В дополнение к посту — вот отрывок из статьи журнала HPCwire "A Zettascale Computer Today Would Need 21 Nuclear Power Plants".

Лиза Су, генеральный директор AMD, на выставке ISSCC поделилась перспективами создания суперкомпьютера с производительностью на уровне зеттафлопс. Однако она также подчеркнула серьезные проблемы с энергоэффективностью современных технологий.

Главная проблема, по словам Лизы Су, заключается в том, что производительность вычислительных систем растет быстрее, чем разрабатываются решения для повышения их энергоэффективности. В докладе отмечается, что для работы суперкомпьютера с производительностью на уровне зеттафлопс, если использовать сегодняшние технологии, потребуется около 21 гигаватта, что эквивалентно мощности 21 атомной электростанции, согласно тексту статьи. Но даже с лучшими технологиями и оптимизациями, предполагается, что минимальная потребляемая мощность такого суперкомпьютера составит около 500 мегаватт, что по-прежнему является значительным показателем.

Для сравнения: на Смоленской АЭС работают три энергоблока с реакторами РБМК-1000, каждый из которых имеет электрическую мощность до 1000 мегаватт. Таким образом, даже минимальная оценка в 500 мегаватт для зеттафлопсного компьютера составляет половину мощности одного такого энергоблока.
👍9🤯7🤔3
Понедельник день тяжелый. Поэтому меньше слов, больше картинок☺️

Принес вам floorplan нового мобильного процессора AMD Strix Point.
Процессор изготовлен на базе техпроцесса TSMC N4P.

На floorplan'e можно оценить площадь NPU на базе архитектуры XDNA 2, относительно ядер Zen5.

Краткий обзор XDNA 2 NPU можно посмотреть на AnandTech.
В обзоре также упоминаются блочные флоты, обратите на них внимание.
О Microscaling форматах мы с вами поговорим позже.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍15🔥121
На портале chipsandcheese три дня назад вышел детальный разбор AMD’s Strix Point. Так что если ищите лонг-лонг рид про новый чип от AMD, добро пожаловать☺️
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7👍62
Вернемся к теме матричных расширений 👀

Не так давно я делился с вами выступлением Валерии Пузиковой с обзором архитектур матричных расширений.

На портале Истовый Инженер, теперь можно ознакомиться с этим докладом в текстовом формате, а так же с подробным разбором AME расширения от T-head и обзором работы SiG ( special interest groups) по разработке новых матричных расширений для архитектуры RISC-V.

Ниже приведены ссылки на эти материалы:

1) Панорама матричных расширений: от x86 до RISC-V
(расширенная, текстовая версия доклада с Митапа RISC-V Альянса)
2) Заглянем в хрустальный шар: как продвигается разработка стандартных матричных расширений RISC-V (обзор работы рабочих групп по разработке интегрированного матричного расширения [IME] и независимого матричного расширения [AME])
3) Погружение в матрицу: расширение RISC-V от T-Head (обзор открытого AME-расширения от T-Head)
4) Математика матричных расширений: умножение матриц на примере T-Head Matrix Extension (разбор матричного умножения на программном уровне с использованием расширения от T-Head)
Please open Telegram to view this post
VIEW IN TELEGRAM
👍193😁31
Вышел новый микроконтроллер от Raspberry Pi - RP2350.

Подробнее с характеристиками микроконтроллера можете ознакомиться на странице продукта.

На канале подготовлю несколько небольших постов про новый чип, но сегодня остановимся на главной особенности микроконтроллера.
С RP2350 вы сможете работать и как с ARM-контроллером на базе ядер Cortex-M33, так и с RISC-V решением на базе IP-core с открытым кодом Hazard3.
Работать можно либо с двумя ядрами на базе RISC-V, либо с ARM ядрами.

Также стоит отметить, что RP2350 поддерживает возможность работы в смешанных комбинациях архитектур, где одно ядро может быть Arm, а другое — RISC-V. Однако это требует использования двух отдельных программных образов, и хотя аппаратные средства поддерживают такую конфигурацию, практическое применение может быть ограничено.
Подробнее про это можно прочитать в разделе 3.9.2 RP2350 Datasheet.

Вот выдержка из документации на микроконтроллер:

Architecture Switching

RP2350 includes a pair of open-hardware Hazard3 RISC-V cores which can be substituted at boot time for the Cortex-M33 cores. Our boot ROM can even auto-detect the architecture for which a second-stage binary has been built and reboot the chip into the appropriate mode. All features of the chip, apart from a handful of security features, and the double-precision floating-point accelerator, are available in RISC-V mode.


Так же Raspberry Pi выпустили devboard на базе данного контроллера с рекомендованной стоимостью 5$. Изображение платы можно увидеть в шапке поста. Вопрос к плате только 1 — micro-usb в 2024? Серьёзно?💀
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥105👍3🤡3🗿1