NEW BOT Телеграм, страница

Записки CPU designer'a

В продолжение к новости о спецификации iME от SpacemiT, наткнулся на реддите на такой занимательный пост.

SpacemiT подготовили бенчмарк для оценки пиковой производительности float-point операций.
Исходники бенчмарка открыты и найти их можно в репозитории проекта.

Что интересно, так это результаты бенчмарков. Помимо хорошо знакомых процессоров семейства Cortex-57 и относительно нового Neoverse V1, можно найти результаты для Kendryte K230, на базе C908 про который я писал тут, а также результаты для дизайна от SpacemiT с поддержкой кастомного расширения iME.

Сначала хочется сравнить производительность MAC-вычислений для векторов и матриц. Однако SpacemiT предоставили результаты только для целочисленных операций vmadot с поддержкой iME. Описанная в спецификации, но отсутствующая в результатах, версия vfmadot для чисел с плавающей запятой представляется более интересной. Остается довольствоваться векторной vfma инструкцией и сравнением с VPU ядра C908.

В качестве приятного дополнения также представлены оценки производительности китайской архитектуры loongarch64. Однако значения для loongarch представлены только для типов данных fp32/64, что может быть интересно для задач общего назначения, но не для AI-приложений.

From the RISCV community on Reddit: SpacemiT K1 (8 x SpacemiT-X60) floating-points benchmarks

Explore this post and more from the RISCV community

👍13

3.49K viewsНиколай, 19:33

Записки CPU designer'a

Книжная полка Истового Инженера: «Цифровой синтез: RISC-V»

Вышло переиздание книги по цифровому синтезу, адаптированное для RISC-V.

Читал я сам только первую часть, которая оставила отличные впечатления от материала. Рекомендую эту книгу как энтузиастам, так и тем, кто собирается строить карьеру в области аппаратного проектирования.

Для поддержки авторов, предзаказал себе pdf версию. Действительно хороших книг по тематике проектирования процессорных систем и цифрового дизайна не так и много, а авторов, кто пишет на русском языке на порядок меньше, поэтому стараюсь поддерживать написание новых книг материально, покупая новая книги, фильтруя откровенный треш за редким исключением.

С оглавлением книги и отрывками из глав можно ознакомиться по этой ссылке с сайта издательства ДМК.

Отдельное спасибо Михаилу Коробкову за упоминание моего канала в книге. Этим жестом ты мне подарил кучу мотивации и хороших эмоций.

Книгу можно купить здесь:
Промокод на скидку 25% от МИЭМ НИУ ВШЭ: MIEM

P.S. Промокод применяется к базовой стоимости и не суммируется с текущей акцией по предзаказу.

P.P.S. почему вы еще не подписаны на моего коллегу, который пишет редкие, но меткие посты про верификацию и магию стандарта SystemVerilog? Надо исправляться

🔥33🎉13👍5

2.92K viewsНиколай, edited 17:54

Записки CPU designer'a

За последние две недели компания SpacemiT вызвала много шума в новостных порталах. Мы едва успели ознакомиться с кастомной спецификацией для iME, как уже появляются новости о том, что их чип готов в кремнии. Релиз от SpacemiT можно протестировать, заказав отладочную плату на Алиэкспресс или дождаться выпуска ноутубка MuseBook, на базе процессора X60 от SpacemiT.

Не буду переписывать технические характеристики отладочной платы и ноутбука – те, кому это интересно, могут найти подробности по соответствующим ссылкам.

Laptop: link
Dev board: link

Но давайте углубимся в документацию по 8-ядерному процессорному. Особенно интересно разобраться, как именно в нем реализованы блоки матричного умножения и каковы характеристики его AI-ускорителя. Присутствует ли он во всех ядрах или нет? Недавно мы уже обсуждали AI модуль в K230.

В документации на отладочную плату есть overview процессора K1.

8-ядерный процессор представлен двумя кластерами по 4 ядра. Оба кластера имеют векторный сопроцессор с VLEN = 256bit (128bit x2 execution width). Каждое ядро поддерживает набор расширений 64GCVB и соответствует профилю RVA22.
Нулевой кластер имеет как раз дополнительную аппаратную логику для ускорения AI приложений. Дополнительную накристальную память 512KB TCM, как я понимаю для хранения значений аккумуляторов при обработке матричных вычислениях. На кластер заявляется 2 TOPS, что дает нам 0.5 TOPS на ядро, но при этом не совсем понятно о каком datatype идет речь. Но т.к. совсем недавно мы обсуждали бенчмарк cpufp обратимся к нему и увидим, что инструкция vmadot матричного умножения для int8 на 1 ядро дает 511.53 GOPS, а для 4-ядрерного cluster 0 (with ime extension) дает 2.046 TOPS, что соответствует заявленной в документации производительности.

Пока RISC-V спецификация от sig для матричных вычислений только разрабатывается, а увидим первый драфт функциональной части только к ноябрю 2024 года на рынке представлены спецификации от SpacemiT для iME и от T-head для iMA

На этом заканчиваю двухнедельный обзор новостей о SpacemiT☺️

Please open Telegram to view this post

VIEW IN TELEGRAM

👍18👀8❤2

2.76K viewsНиколай, 15:12

Записки CPU designer'a

Конференция FPGA-Systems 2024.1

Всем привет 👋🏻
Если конференций, митапов по программированию десятки, сотни, то с конференциями по цифровому проектированию и верификации дела обстоят не так хорошо.

Одна из немногих ламповых, локальных конференций - это конференция FPGA-Systems.
Кстати, кто-то из читателей канала был на самой первой конференции? Давайте устроим перепись в комментариях.

Участие полностью бесплатно, не надо покупать никаких билетов на офлайн/онлайн участие. Для офлайн участия нужно только зарегистрироваться и получить подтверждение, что в аудитории есть свободные места.
Делается конференция полностью на альтруизме Михаила Коробкова (организатора комьюнити ПЛИС Систем) и силами неравнодушных помощников.

Подробнее о программе и месте проведения по ссылкам:

• Санкт-Петербург, 25 мая → подробности на сайте
• Москва, 1 июня → подробности на сайте

🔥10❤2✍2

2.88K viewsНиколай, 12:15

Записки CPU designer'a

RISC-V обновили спецификацию

Команда RISC-V объединила в одном документе все ратифицированные спецификации. Например, теперь не нужно отдельно выкачивать документацию для векторного или bitmanip расширения.

Объем PDF-документа значительно увеличился: с чуть более чем 250 страниц до 670.

Общая стилистика документа переработана и все спецификации приведены к единому оформлению.

Дополнительно приведу еще полезную ссылку, где можно получать актуальную информацию о последних ратифицированных расширениях:

https://wiki.riscv.org/display/HOME/Ratified+Extensions

А чтобы рабочая пятница проходила повеселее держите мемес, ~~сворованный~~ позаимствованный из флудилки с коллегами☺️

Please open Telegram to view this post

VIEW IN TELEGRAM

👍23🔥10⚡1😱1

3.88K viewsНиколай, 12:41

Записки CPU designer'a

Не знаю, как и зачем алгоритмы Твиттера завели меня в сегмент мемов про полупроводники, но теперь вам придется смотреть их вместе со мной 🤡

Btw, хочу обсудить с вами следующую идею. На quicksilicon появился раздел с задачами на SystemVerilog — от самых простых, таких как mux 2 в 1, до написания синхронного FIFO, арбитра Round Robin и разработки APB slave.

В задачах уже приведено решение, но нету никаких описаний и пояснений. Делаем разбор интересных задачек? С картинками, времянками, подробным объяснением. Как вам такой контент?

Помню, что обещал разбор лабораторной работы из RVfpga, но пришел к выводу, что лучше это делать либо в формате live-стрима, либо записи, а не текстом.

Ниже я подготовлю опрос, чтобы понять уровень экспертности моей аудитории в цифровом дизайне и их заинтересованность в этой теме ☺️

Please open Telegram to view this post

VIEW IN TELEGRAM

👍43🔥123❤1

2.98K viewsНиколай, edited 15:38

Записки CPU designer'a

Разбираем задачки с quicksilicon?

Anonymous Poll

32%

У меня есть опыт в цифровом дизайне, интересны только сложные задачи 😎

61%

У меня нет опыта в цифровом дизайне, давай разбор всех задачек ✍️

Не нужен никакой разбор, жду больше постов про новости в мире полупроводников и RISC-V ✍️

🤓75🔥3

320 voters2.81K viewsНиколай, 15:40

Записки CPU designer'a

Fourth International workshop on RISC-V for HPC

16 мая в Гамбурге прошёл международный workshop, посвящённый использованию RISC-V в высокопроизводительных вычислениях (HPC). Презентации докладов доступны по этой ссылке.

Must see доклады:

1) Performance analysis (and optimization) of BERT on RISC-V processors with SIMD units: В докладе рассматриваются три платформы на базе процессорных IP Xuantie и описываются оптимизации для высокопроизводительной операции GEMM. В докладе найдете ссылки на классные источники по оптимизации алгоритмов для GEMM и High-Performance BLIS.

2) Performance characterisation of the 64-core SG2042 RISC-V CPU for HPC: Сравнение 64-ядерного процессора на базе ядра C920 с одноплатниками VisionFive, HiFive Unmatched и процессорами на других архитектурах, такими как AMD Epyc 7742, Xeon Platinum 8170, Marvell ThunderX2. Значения бенчмарков и красивые графики найдете по ссылке выше.

Так же загляните конечно в Vendor talk'и от Semidynamics (где я работаю над тензорным ядром) и Codasip. Доклады отлично подходят для понимания над какими IP и в каких направлениях работают европейские RISC-V дизайн центры.

ExCALIBUR H&ES RISC-V testbed

Fourth International workshop on RISC-V for HPC

Workshop details Co-located with ISC 2024, this is a half day morning workshop on Thursday 16th May 2024 in Hamburg, Germany in Hall Y8 - 2nd Floor of the Congress Center Hamburg.

👍13🔥8

3.52K viewsНиколай, edited 15:33

Записки CPU designer'a

Community Notes — лучшее, что произошло с Твиттером 😎

Please open Telegram to view this post

VIEW IN TELEGRAM

👍26🥰3🤓3

2.85K viewsНиколай, 18:24

Записки CPU designer'a

31st IEEE International Symposium on Computer Arithmetic ARITH 2024

В Испании прошел 31-й симпозиум по компьютерной арифметике. На конференции было представлено много интересных докладов, которые мы разберем в следующих постах.

Сегодня остановимся на докладе от ARM Fused FP8 4-Way/2-Way Dot Product With Scaling and FP32/FP16 Accumulation.

В докладе и статье описаны подходы, которые применялись при разработке SIMD умножителя с накоплением (матричного умножителя) — базовый блок в дизайне любого NPU/TSU ускорителя.

В работе представлен дизайн с FP8 двух типов +/-e5m2, +/-e4m3, etc (IEEE P3109) в двух имплементациях с ранним (EA) и поздним (LA) аккумулированием результата.
Обе микроархитектуры имеют конвейерное построение с четырьмя этапами для достижения целевой частоты 3,6 ГГц.

Подходы, предложенные авторами статьи, были синтезированы на базе 5-нм технологии. На основе полученных результатов синтеза авторы делают следующие предложение по использованию подходов с ранним и поздним аккумулированием в вычислительных системах:

FP8-DOT4-LA можно адаптировать для высокопроизводительных вычислительных блоков CPU с уже существующими блоками fma32, поскольку данный подход обеспечивает прирост производительности при минимальных дополнительных затратах в площади целевого дизайна.

FP8-DOT4-EA лучше подходит для специализированных ускорителей, где важно снизить общую площадь вычислительного юнита, что полезно при масштабировании вычислительных блоков.

Для более детального ознакомления с работой рекомендую обратиться к статье David R. Lutz.

ссылка на материалы конференции https://www.ac.uma.es/arith2024/program.html

ссылка на презентацию от ARM: https://www.ac.uma.es/arith2024/slides/3_ARITH-2024.paper45.pdf

👍18✍2❤2👎1🤓1

3.58K viewsНиколай, edited 19:10

Записки CPU designer'a

RISC-V Europe Summit 2024

В последнюю неделю июня пройдет RISC-V Summit в городе Мюнхен.

Ожидаю много интересных докладов. В первую очередь про программно-аппаратную поддержку матричных расширений в RISC-V экосистеме. А если матрицы поднадоели, то сможете найти доклад на свой вкус в программе конференции.

Даты и место проведения саммита:
⏺Июнь 24 - 28
⏺MOC – Event Center Messe Munich

Если кто-то читателей канала будет присутствовать на саммите приходите развиртуализироваться к стендy компании Semidynamics 👋🏻

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥9👍4🤓3🐳2

2.71K viewsНиколай, edited 12:40

Записки CPU designer'a

Попался на YouTube занимательный ролик, где рассказывается о подборке книг по тематике Computer / Hardware Engineering. Список книг можно найти в описании к видео, а также в первом комментарии к посту.

В русскоязычном сегменте уже есть хорошая подборка книг от Юрия Панчула "Следующие шаги в черной магии процессоростроения после того, как вы освоили Харрис & Харрис". Ознакомиться с ней можно на Хабре.

Обсуждать, какая книга лучше и является той самой для изучения того или иного топика, можно бесконечно. Однако такие подборки решают другую проблему. Литературы по цифровому дизайну не так много, а искать её — отдельная задача. В этих двух подборках представлены книги по различным направлениям, начиная от компьютерной архитектуры, продолжая подходу к работе с SystemVerilog assertion и заканчивая книгой по скриптовому языку Tcl.

Такие подборки выступают второй ступенькой, когда базовый учебник, которым, по моему мнению, в профессии проектировщика процессорных систем является Харрис & Харрис "Цифровая схемотехника и архитектура компьютера", уже прочитан и изучен. Ознакомиться с этой книгой можно по этой ссылке.

Для себя из списка выделил книгу по Static Timing Analysis for Nanometer Design (pdf файл на которую находится по второй ссылке в гугле).
До этого момента я не сталкивался с литературой по тематике STA, однако содержание этой книги показалось мне весьма увлекательным. Задачи по достижению timing closure и обеспечению требуемой рабочей частоты остаются одними из самых трудоемких этапов при проектировании конечного устройства.

Хабр

Следущие шаги в черной магии процессоростроения после того, как вы освоили Харрис & Харрис

Недавно вышло еще одно печатное издание книжки Харрис & Харрис на русском языке . Это широкоохватывающий ликбез про то, как проектируют микросхемы в компаниях типа Apple и Intel (методология...

👍28🔥5❤4🤓3👀3

4.52K viewsНиколай, edited 18:00

Записки CPU designer'a

Принес вам с просторов Твиттера Die Yield Calculator

В калькуляторе можно задавать диаметр пластины, указывать размеры чипа и другие дополнительные параметры, такие как Edge Loss — ширина внешней области пластины, которая не может быть использована для размещения кристаллов из-за технологических ограничений.

Энтузиасты ввели в калькулятор значения для чипов Apple A15 и Nvidia H100. Согласно данным этого калькулятора, даже при выходе годных кристаллов в 90% для Apple, для NVIDIA этот показатель всё равно составляет менее 50%. Не думаю, что эта информация может быть применима для чего-то, кроме понимания того, что конечная стоимость продукта и размер партии, а вследствие этого и цены конечного изделия, в том числе определяется физическим размером чипа на пластине.

Отдельно в калькуляторе указан параметр для Murphy’s Model of Die Yield. Эта модель используется в полупроводниковой промышленности для прогнозирования числа годных (не имеющих дефектов) кристаллов, которые можно получить из одной пластины. Больше деталей про закон/модель Мёрфи можно найти здесь.

👍23🔥6❤5

4.77K viewsНиколай, 14:01

Записки CPU designer'a

Каюсь, что снова пропал на месяц.
Контент настаивается, готовится к релизу, поэтому пока что предлагаю небольшую разминку.

Не подсматривайте и выбирайте сердцем.
Ответ будет в комментариях☕️

Please open Telegram to view this post

VIEW IN TELEGRAM

😱6👍3👀3

2.72K viewsНиколай, edited 20:20

Записки CPU designer'a

VGF2P8AFFINEINVQB что это?🤔

Anonymous Quiz

36%

Sony headphone name

64%

Intel x86_64 instruction

😱8👍1

418 voters2.86K viewsНиколай, 20:21

Записки CPU designer'a

Пополнение в железе для RISC-V AI — канадская компания, под руководством Джима Келлера представила новый чип Wormhole.
Tenstorrent Launches Wormhole AI Processors: 466 FP8 TFLOPS at 300W

Представлены 2 варианта плат разработчика n150 и n300, с производительностью равной 262 и 466 TeraFLOPs (FP8) соответственно.
Младшую плату можно приобрести за 1000$. за старшую модель придется заплатить уже 1400$.

Больше деталей и характеристик найдется на сайте компании.

Компилятор, для запуска ML-моделей на железе от TT называется ~~CUDA~~ BUDA

😬

Cофт стек в целом - TT-Metalium, открытый низкоуровневый SDK.
SDK TT-Metalium будет полезен для разработчиков, которые хотят настроить и оптимизировать свои модели машинного обучения, писать новые ядра для выполнения ключевых операций, экспериментировать с низкоуровневыми вычислениями и запускать код, не связанный с машинным обучением, с максимальной производительностью и эффективностью.
[Спасибо Artem E, за подсказку в комментариях]

Подробности о софтверном стeке от Tenstorrent можно найти на github'e проекта.

Так же для понимания и правильного позиционирования продукта рекомендую прочитать интервью с Джимом Кэеллером порталу Nikkei Asia. В этом интервью CEO Tenstorrent бегло отвечает на вопрос о использовании HBM в AI ускорителях с точки зрения энергопотребления и цены конечного продукта.

Please open Telegram to view this post

VIEW IN TELEGRAM

👍13🔥3

2.53K viewsНиколай, edited 12:11

Записки CPU designer'a

Intel сократит более 15 000 сотрудников

Число невероятно большое, иногда забываю, насколько огромны такие корпорации. Интересно, наберется ли во всем СНГ 15 000 сотрудников в области полупроводников?

The Verge пишет, что в планах также остановить некую "non-essential work". Конечно же, загадка, что именно скрывается за этой обтекаемой формулировкой.

Больше всего интересно узнать, какая судьба будет у Intel ARC в сегменте GPU и Intel Gaudi в сегменте AI-ускорителей. Оба этих семейства пока что не произвели большого впечатления на рынке.

Intel — одна из немногих компаний, у которой есть собственные производственные мощности для выпуска чипов. Intel занимается буквально всем: разработкой и поддержкой новых техпроцессов, процессорами общего назначения, серверными процессорами, GPU, AI-ускорителями, FPGA-подразделением (~~бывшая~~ настоящая Altera), разработкой программной экосистемы для новых продуктов.

В 2018 году, когда TSMC уже начала производство 7-нм чипов, у Intel появились проблемы с внедрением 10-нм технологий. Как только у Intel пропало явное преимущество в технологическом процессе перед AMD, конкуренция резко обострилась, и скомпенсировать утерю преимущества микроархитектурой, как мы видим, не удалось.

Так что запасаемся попкорном, а обсудить взлеты и падения Intel всегда можно в комментариях 👀

👍16😱9😁5🐳3👀2

2.4K viewsНиколай, edited 17:14

Записки CPU designer'a

Фиксируем прибыль с акций Интела?

По ссылке выше грустная история инвестиций в 700 000 долларов, полученных по наследству и слитых за 1 день☕️

Please open Telegram to view this post

VIEW IN TELEGRAM

🗿14😁6😨3👍2🤡2

2.67K viewsНиколай, 15:31

Записки CPU designer'a

Если бурления вокруг Intel уже приелись, а душа требует срача, то на хабре случился очередной panchul-gate.
Я, наверное, подожду ещё пару дней, пока комментарии настоятся, но ревнители жанра могут ознакомиться с мнениями хабра-экспертов уже сейчас ☺️

Please open Telegram to view this post

VIEW IN TELEGRAM

25😁9👀4🤡3✍2

2.86K viewsНиколай, 11:01

Записки CPU designer'a

Коллеги софтварщики, заводите трактор? 🚜

Трянслятор C to Rust от DARPA

😁32

2.38K viewsНиколай, 12:16

Записки CPU designer'a

Продолжая тему проблемы энергоэффективности, стоит отметить, что вопрос энергоснабжения AI/HPC-кластеров, становится всё более актуальным. Всё чаще можно встретить новости такого рода: "Tech companies are turning to nuclear plants as AI increases demand for power".

Так что, кроме привычного "почем киловатт-час", вскоре будут спрашивать и "сколько TOPS-ватт?", "сколько FLOPs на Джоуль?" Самое время получше разобраться в вопросе энергоэффективности вычислительных операций.

Энергоэффективность операций в вычислительной технике наглядно демонстрируется в лекции Онура Мутлу (профессора в ETH Zurich) "Memory-Centric Computing".
Например, разница между выполнением целочисленной операции сложения и обращением к памяти DRAM может достигать 6400 раз.

Лекцию можете посмотреть по ссылке на YouTube, а презентацию, на скромные 456 слайдов найдете в первом комментарии к посту😏

Please open Telegram to view this post

VIEW IN TELEGRAM

👍13🤓7🔥6❤2⚡1

2.71K viewsНиколай, edited 10:30

About

Blog

Apps

Platform