Записки CPU designer'a – Telegram
Записки CPU designer'a
2.93K subscribers
195 photos
2 videos
5 files
292 links
Всем привет. Меня зовут Николай.
Работаю RTL design инженером, амбассадором в RISC-V International.
В свободное время пишу о магии процессоростроения и цифровом дизайне.
Download Telegram
В продолжение к новости о спецификации iME от SpacemiT, наткнулся на реддите на такой занимательный пост.

SpacemiT подготовили бенчмарк для оценки пиковой производительности float-point операций.
Исходники бенчмарка открыты и найти их можно в репозитории проекта.

Что интересно, так это результаты бенчмарков. Помимо хорошо знакомых процессоров семейства Cortex-57 и относительно нового Neoverse V1, можно найти результаты для Kendryte K230, на базе C908 про который я писал тут, а также результаты для дизайна от SpacemiT с поддержкой кастомного расширения iME.

Сначала хочется сравнить производительность MAC-вычислений для векторов и матриц. Однако SpacemiT предоставили результаты только для целочисленных операций vmadot с поддержкой iME. Описанная в спецификации, но отсутствующая в результатах, версия vfmadot для чисел с плавающей запятой представляется более интересной. Остается довольствоваться векторной vfma инструкцией и сравнением с VPU ядра C908.

В качестве приятного дополнения также представлены оценки производительности китайской архитектуры loongarch64. Однако значения для loongarch представлены только для типов данных fp32/64, что может быть интересно для задач общего назначения, но не для AI-приложений.
👍13
Книжная полка Истового Инженера: «Цифровой синтез: RISC-V»

Вышло переиздание книги по цифровому синтезу, адаптированное для RISC-V.

Читал я сам только первую часть, которая оставила отличные впечатления от материала. Рекомендую эту книгу как энтузиастам, так и тем, кто собирается строить карьеру в области аппаратного проектирования.

Для поддержки авторов, предзаказал себе pdf версию. Действительно хороших книг по тематике проектирования процессорных систем и цифрового дизайна не так и много, а авторов, кто пишет на русском языке на порядок меньше, поэтому стараюсь поддерживать написание новых книг материально, покупая новая книги, фильтруя откровенный треш за редким исключением.

С оглавлением книги и отрывками из глав можно ознакомиться по этой ссылке с сайта издательства ДМК.

Отдельное спасибо Михаилу Коробкову за упоминание моего канала в книге. Этим жестом ты мне подарил кучу мотивации и хороших эмоций.

Книгу можно купить здесь:
Промокод на скидку 25% от МИЭМ НИУ ВШЭ: MIEM

P.S. Промокод применяется к базовой стоимости и не суммируется с текущей акцией по предзаказу.

P.P.S. почему вы еще не подписаны на моего коллегу, который пишет редкие, но меткие посты про верификацию и магию стандарта SystemVerilog? Надо исправляться
🔥33🎉12👍5
За последние две недели компания SpacemiT вызвала много шума в новостных порталах. Мы едва успели ознакомиться с кастомной спецификацией для iME, как уже появляются новости о том, что их чип готов в кремнии. Релиз от SpacemiT можно протестировать, заказав отладочную плату на Алиэкспресс или дождаться выпуска ноутубка MuseBook, на базе процессора X60 от SpacemiT.

Не буду переписывать технические характеристики отладочной платы и ноутбука – те, кому это интересно, могут найти подробности по соответствующим ссылкам.

Laptop: link
Dev board: link

Но давайте углубимся в документацию по 8-ядерному процессорному. Особенно интересно разобраться, как именно в нем реализованы блоки матричного умножения и каковы характеристики его AI-ускорителя. Присутствует ли он во всех ядрах или нет? Недавно мы уже обсуждали AI модуль в K230.

В документации на отладочную плату есть overview процессора K1.

8-ядерный процессор представлен двумя кластерами по 4 ядра. Оба кластера имеют векторный сопроцессор с VLEN = 256bit (128bit x2 execution width). Каждое ядро поддерживает набор расширений 64GCVB и соответствует профилю RVA22.
Нулевой кластер имеет как раз дополнительную аппаратную логику для ускорения AI приложений. Дополнительную накристальную память 512KB TCM, как я понимаю для хранения значений аккумуляторов при обработке матричных вычислениях. На кластер заявляется 2 TOPS, что дает нам 0.5 TOPS на ядро, но при этом не совсем понятно о каком datatype идет речь. Но т.к. совсем недавно мы обсуждали бенчмарк cpufp обратимся к нему и увидим, что инструкция vmadot матричного умножения для int8 на 1 ядро дает 511.53 GOPS, а для 4-ядрерного cluster 0 (with ime extension) дает 2.046 TOPS, что соответствует заявленной в документации производительности.

Пока RISC-V спецификация от sig для матричных вычислений только разрабатывается, а увидим первый драфт функциональной части только к ноябрю 2024 года на рынке представлены спецификации от SpacemiT для iME и от T-head для iMA

На этом заканчиваю двухнедельный обзор новостей о SpacemiT☺️
Please open Telegram to view this post
VIEW IN TELEGRAM
👍18👀82
Конференция FPGA-Systems 2024.1

Всем привет 👋🏻
Если конференций, митапов по программированию десятки, сотни, то с конференциями по цифровому проектированию и верификации дела обстоят не так хорошо.

Одна из немногих ламповых, локальных конференций - это конференция FPGA-Systems.
Кстати, кто-то из читателей канала был на самой первой конференции? Давайте устроим перепись в комментариях.

Участие полностью бесплатно, не надо покупать никаких билетов на офлайн/онлайн участие. Для офлайн участия нужно только зарегистрироваться и получить подтверждение, что в аудитории есть свободные места.
Делается конференция полностью на альтруизме Михаила Коробкова (организатора комьюнити ПЛИС Систем) и силами неравнодушных помощников.

Подробнее о программе и месте проведения по ссылкам:

• Санкт-Петербург, 25 мая → подробности на сайте
• Москва, 1 июня → подробности на сайте
🔥1022
RISC-V обновили спецификацию

Команда RISC-V объединила в одном документе все ратифицированные спецификации. Например, теперь не нужно отдельно выкачивать документацию для векторного или bitmanip расширения.

Объем PDF-документа значительно увеличился: с чуть более чем 250 страниц до 670.

Общая стилистика документа переработана и все спецификации приведены к единому оформлению.

Дополнительно приведу еще полезную ссылку, где можно получать актуальную информацию о последних ратифицированных расширениях:

https://wiki.riscv.org/display/HOME/Ratified+Extensions

А чтобы рабочая пятница проходила повеселее держите мемес, сворованный позаимствованный из флудилки с коллегами☺️
Please open Telegram to view this post
VIEW IN TELEGRAM
👍23🔥101😱1
Не знаю, как и зачем алгоритмы Твиттера завели меня в сегмент мемов про полупроводники, но теперь вам придется смотреть их вместе со мной 🤡

Btw, хочу обсудить с вами следующую идею. На quicksilicon появился раздел с задачами на SystemVerilog — от самых простых, таких как mux 2 в 1, до написания синхронного FIFO, арбитра Round Robin и разработки APB slave.

В задачах уже приведено решение, но нету никаких описаний и пояснений. Делаем разбор интересных задачек? С картинками, времянками, подробным объяснением. Как вам такой контент?

Помню, что обещал разбор лабораторной работы из RVfpga, но пришел к выводу, что лучше это делать либо в формате live-стрима, либо записи, а не текстом.

Ниже я подготовлю опрос, чтобы понять уровень экспертности моей аудитории в цифровом дизайне и их заинтересованность в этой теме ☺️
Please open Telegram to view this post
VIEW IN TELEGRAM
👍43🔥1231
Fourth International workshop on RISC-V for HPC

16 мая в Гамбурге прошёл международный workshop, посвящённый использованию RISC-V в высокопроизводительных вычислениях (HPC). Презентации докладов доступны по этой ссылке.

Must see доклады:

1) Performance analysis (and optimization) of BERT on RISC-V processors with SIMD units: В докладе рассматриваются три платформы на базе процессорных IP Xuantie и описываются оптимизации для высокопроизводительной операции GEMM. В докладе найдете ссылки на классные источники по оптимизации алгоритмов для GEMM и High-Performance BLIS.

2) Performance characterisation of the 64-core SG2042 RISC-V CPU for HPC: Сравнение 64-ядерного процессора на базе ядра C920 с одноплатниками VisionFive, HiFive Unmatched и процессорами на других архитектурах, такими как AMD Epyc 7742, Xeon Platinum 8170, Marvell ThunderX2. Значения бенчмарков и красивые графики найдете по ссылке выше.

Так же загляните конечно в Vendor talk'и от Semidynamics (где я работаю над тензорным ядром) и Codasip. Доклады отлично подходят для понимания над какими IP и в каких направлениях работают европейские RISC-V дизайн центры.
👍13🔥8
Community Notes — лучшее, что произошло с Твиттером 😎
Please open Telegram to view this post
VIEW IN TELEGRAM
👍26🥰3🤓3
31st IEEE International Symposium on Computer Arithmetic ARITH 2024

В Испании прошел 31-й симпозиум по компьютерной арифметике. На конференции было представлено много интересных докладов, которые мы разберем в следующих постах.

Сегодня остановимся на докладе от ARM Fused FP8 4-Way/2-Way Dot Product With Scaling and FP32/FP16 Accumulation.

В докладе и статье описаны подходы, которые применялись при разработке SIMD умножителя с накоплением (матричного умножителя) — базовый блок в дизайне любого NPU/TSU ускорителя.

В работе представлен дизайн с FP8 двух типов +/-e5m2, +/-e4m3, etc (IEEE P3109) в двух имплементациях с ранним (EA) и поздним (LA) аккумулированием результата.
Обе микроархитектуры имеют конвейерное построение с четырьмя этапами для достижения целевой частоты 3,6 ГГц.

Подходы, предложенные авторами статьи, были синтезированы на базе 5-нм технологии. На основе полученных результатов синтеза авторы делают следующие предложение по использованию подходов с ранним и поздним аккумулированием в вычислительных системах:

FP8-DOT4-LA можно адаптировать для высокопроизводительных вычислительных блоков CPU с уже существующими блоками fma32, поскольку данный подход обеспечивает прирост производительности при минимальных дополнительных затратах в площади целевого дизайна.

FP8-DOT4-EA лучше подходит для специализированных ускорителей, где важно снизить общую площадь вычислительного юнита, что полезно при масштабировании вычислительных блоков.

Для более детального ознакомления с работой рекомендую обратиться к статье David R. Lutz.

ссылка на материалы конференции https://www.ac.uma.es/arith2024/program.html

ссылка на презентацию от ARM: https://www.ac.uma.es/arith2024/slides/3_ARITH-2024.paper45.pdf
👍1822👎1🤓1
RISC-V Europe Summit 2024

В последнюю неделю июня пройдет RISC-V Summit в городе Мюнхен.

Ожидаю много интересных докладов. В первую очередь про программно-аппаратную поддержку матричных расширений в RISC-V экосистеме. А если матрицы поднадоели, то сможете найти доклад на свой вкус в программе конференции.

Даты и место проведения саммита:
Июнь 24 - 28
MOC – Event Center Messe Munich

Если кто-то читателей канала будет присутствовать на саммите приходите развиртуализироваться к стендy компании Semidynamics 👋🏻
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥9👍4🤓3🐳2
Попался на YouTube занимательный ролик, где рассказывается о подборке книг по тематике Computer / Hardware Engineering. Список книг можно найти в описании к видео, а также в первом комментарии к посту.

В русскоязычном сегменте уже есть хорошая подборка книг от Юрия Панчула "Следующие шаги в черной магии процессоростроения после того, как вы освоили Харрис & Харрис". Ознакомиться с ней можно на Хабре.

Обсуждать, какая книга лучше и является той самой для изучения того или иного топика, можно бесконечно. Однако такие подборки решают другую проблему. Литературы по цифровому дизайну не так много, а искать её — отдельная задача. В этих двух подборках представлены книги по различным направлениям, начиная от компьютерной архитектуры, продолжая подходу к работе с SystemVerilog assertion и заканчивая книгой по скриптовому языку Tcl.

Такие подборки выступают второй ступенькой, когда базовый учебник, которым, по моему мнению, в профессии проектировщика процессорных систем является Харрис & Харрис "Цифровая схемотехника и архитектура компьютера", уже прочитан и изучен. Ознакомиться с этой книгой можно по этой ссылке.

Для себя из списка выделил книгу по Static Timing Analysis for Nanometer Design (pdf файл на которую находится по второй ссылке в гугле).
До этого момента я не сталкивался с литературой по тематике STA, однако содержание этой книги показалось мне весьма увлекательным. Задачи по достижению timing closure и обеспечению требуемой рабочей частоты остаются одними из самых трудоемких этапов при проектировании конечного устройства.
👍28🔥54🤓3👀3
Принес вам с просторов Твиттера Die Yield Calculator

В калькуляторе можно задавать диаметр пластины, указывать размеры чипа и другие дополнительные параметры, такие как Edge Loss — ширина внешней области пластины, которая не может быть использована для размещения кристаллов из-за технологических ограничений.

Энтузиасты ввели в калькулятор значения для чипов Apple A15 и Nvidia H100. Согласно данным этого калькулятора, даже при выходе годных кристаллов в 90% для Apple, для NVIDIA этот показатель всё равно составляет менее 50%. Не думаю, что эта информация может быть применима для чего-то, кроме понимания того, что конечная стоимость продукта и размер партии, а вследствие этого и цены конечного изделия, в том числе определяется физическим размером чипа на пластине.

Отдельно в калькуляторе указан параметр для Murphy’s Model of Die Yield. Эта модель используется в полупроводниковой промышленности для прогнозирования числа годных (не имеющих дефектов) кристаллов, которые можно получить из одной пластины. Больше деталей про закон/модель Мёрфи можно найти здесь.
👍23🔥65
Каюсь, что снова пропал на месяц.
Контент настаивается, готовится к релизу, поэтому пока что предлагаю небольшую разминку.

Не подсматривайте и выбирайте сердцем.
Ответ будет в комментариях☕️
Please open Telegram to view this post
VIEW IN TELEGRAM
😱6👍3👀3
VGF2P8AFFINEINVQB что это?🤔
Anonymous Quiz
36%
Sony headphone name
64%
Intel x86_64 instruction
😱8👍1
Пополнение в железе для RISC-V AI — канадская компания, под руководством Джима Келлера представила новый чип Wormhole.
Tenstorrent Launches Wormhole AI Processors: 466 FP8 TFLOPS at 300W

Представлены 2 варианта плат разработчика n150 и n300, с производительностью равной 262 и 466 TeraFLOPs (FP8) соответственно.
Младшую плату можно приобрести за 1000$. за старшую модель придется заплатить уже 1400$.

Больше деталей и характеристик найдется на сайте компании.

Компилятор, для запуска ML-моделей на железе от TT называется CUDA BUDA😬
Cофт стек в целом - TT-Metalium, открытый низкоуровневый SDK.
SDK TT-Metalium будет полезен для разработчиков, которые хотят настроить и оптимизировать свои модели машинного обучения, писать новые ядра для выполнения ключевых операций, экспериментировать с низкоуровневыми вычислениями и запускать код, не связанный с машинным обучением, с максимальной производительностью и эффективностью.
[Спасибо Artem E, за подсказку в комментариях]

Подробности о софтверном стeке от Tenstorrent можно найти на github'e проекта.

Так же для понимания и правильного позиционирования продукта рекомендую прочитать интервью с Джимом Кэеллером порталу Nikkei Asia. В этом интервью CEO Tenstorrent бегло отвечает на вопрос о использовании HBM в AI ускорителях с точки зрения энергопотребления и цены конечного продукта.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13🔥3
Intel сократит более 15 000 сотрудников

Число невероятно большое, иногда забываю, насколько огромны такие корпорации. Интересно, наберется ли во всем СНГ 15 000 сотрудников в области полупроводников?

The Verge пишет, что в планах также остановить некую "non-essential work". Конечно же, загадка, что именно скрывается за этой обтекаемой формулировкой.

Больше всего интересно узнать, какая судьба будет у Intel ARC в сегменте GPU и Intel Gaudi в сегменте AI-ускорителей. Оба этих семейства пока что не произвели большого впечатления на рынке.

Intel — одна из немногих компаний, у которой есть собственные производственные мощности для выпуска чипов. Intel занимается буквально всем: разработкой и поддержкой новых техпроцессов, процессорами общего назначения, серверными процессорами, GPU, AI-ускорителями, FPGA-подразделением (бывшая настоящая Altera), разработкой программной экосистемы для новых продуктов.

В 2018 году, когда TSMC уже начала производство 7-нм чипов, у Intel появились проблемы с внедрением 10-нм технологий. Как только у Intel пропало явное преимущество в технологическом процессе перед AMD, конкуренция резко обострилась, и скомпенсировать утерю преимущества микроархитектурой, как мы видим, не удалось.

Так что запасаемся попкорном, а обсудить взлеты и падения Intel всегда можно в комментариях 👀
👍16😱9😁5🐳3👀2
Фиксируем прибыль с акций Интела?

По ссылке выше грустная история инвестиций в 700 000 долларов, полученных по наследству и слитых за 1 день☕️
Please open Telegram to view this post
VIEW IN TELEGRAM
🗿14😁6😨3👍2🤡2
Если бурления вокруг Intel уже приелись, а душа требует срача, то на хабре случился очередной panchul-gate.
Я, наверное, подожду ещё пару дней, пока комментарии настоятся, но ревнители жанра могут ознакомиться с мнениями хабра-экспертов уже сейчас ☺️
Please open Telegram to view this post
VIEW IN TELEGRAM
25😁9👀4🤡32
Коллеги софтварщики, заводите трактор? 🚜

Трянслятор C to Rust от DARPA
😁32
Продолжая тему проблемы энергоэффективности, стоит отметить, что вопрос энергоснабжения AI/HPC-кластеров, становится всё более актуальным. Всё чаще можно встретить новости такого рода: "Tech companies are turning to nuclear plants as AI increases demand for power".

Так что, кроме привычного "почем киловатт-час", вскоре будут спрашивать и "сколько TOPS-ватт?", "сколько FLOPs на Джоуль?" Самое время получше разобраться в вопросе энергоэффективности вычислительных операций.

Энергоэффективность
операций в вычислительной технике наглядно демонстрируется в лекции Онура Мутлу (профессора в ETH Zurich) "Memory-Centric Computing".
Например, разница между выполнением целочисленной операции сложения и обращением к памяти DRAM может достигать 6400 раз.

Лекцию можете посмотреть по ссылке на YouTube, а презентацию, на скромные 456 слайдов найдете в первом комментарии к посту😏
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13🤓7🔥621