Записки CPU designer'a – Telegram
Записки CPU designer'a
2.93K subscribers
195 photos
2 videos
5 files
292 links
Всем привет. Меня зовут Николай.
Работаю RTL design инженером, амбассадором в RISC-V International.
В свободное время пишу о магии процессоростроения и цифровом дизайне.
Download Telegram
Принес вам классную статью с портала semianalysis: Groq Inference Tokenomics: Speed, But At What Cost?

В статье обсуждается производительность программно-аппаратного комплекса от Groq при работе с моделью Mixtral 8x7b. Обратите внимание, что на первом же графике указывается соотношение USD на 1 миллион токенов. Числа для топсов/флопсов придержите для рекламы и продакт брифов.

Интересен Groq в первую очередь с архитектурной точки зрения. Это VLIW машина, без внешний памяти, блоков типа предсказателя переходов, префетчеров, контроллера кэшей, а вся модель размещается на кластере, состоящей из Groq чипов.
В данной статье описывается, что для работы с моделью Mixtral потребовалось подключить 576-чипов, каждый из чипов обладает на кристальной SRAM памятью в 230 MB!

Фактически DSP-core AI/ML ускоритель от Groq — это классическая числодробилка. Блоки умножения матриц, как ни странно - для умножения матриц, VectorUnit для вычислений посложнее, например, обсчет активационных функций (sigmoid, softmax, и.т.п), а между модулями матричной и векторной обработки расположены блоки SRAM памяти.

Больше чисел, графиков и ссылок найдете в вышеуказанной статье
👍14🔥432
Продолжая тему чипа от Groq настоятельно рекомендую ознакомиться с докладом Andrew Bitar'a, Principal Compiler Engineer в компании Groq:
Groq’s Software-Defined Hardware for Dataflow Compute

Это доклад посвящен современным вызовам и решениям в области вычислительных архитектур. С окончанием закона Деннарда и ростом вычислений, связанных с обработкой больших массивов данных, особенно в области AI/ML ускорителей и высокопроизводительных вычислений, возрождается тренд на проектирование чипов на базе Domain-specific architecture.

В докладе рассказывается о концепции Software-Defined Hardware на примере архитектуры Groq.
Этот подход позволяет упростить управление вычислительными ресурсами, устраняя необходимость в аппаратном контроле за потоками данных, что в свою очередь значительно упрощает микроархитектуру конечного чипа. Важность такого подхода заключается в том, что он делает работу с данными более предсказуемыми и эффективными, что особенно критично в эпоху замедления закона Мура и роста требований к производительности в задачах AI/ML ускорителей.

В качестве дополнительной литературы автор доклада рекомендует ознакомиться со следующими статьями:

1) A Software-defined Tensor Streaming Multiprocessor forLarge-scale Machine Learning

2) Think Fast: A Tensor Streaming Processor (TSP)for Accelerating Deep Learning Workloads
👍175👀4
Редакция канала Истовый Инженер поделилась замечательным ресурсом — Silicon Zoo, где собраны чип-арты, оставленные разработчиками микросхем.

На портале Silicon Zoo собраны самые разные чип арты, созданные разработчиками микросхем.
Эти рисунки создаются дизайнерами на свободных участках чипа и могут включать в себя как простые инициалы, так и сложные изображения, которые можно увидеть только под микроскопом. Такие изображения можно сравнить с аппаратной версией пасхальных яиц в программном обеспечении.

А в этом разделе, можете почувствовать себя в роли silicon art хантера и отыскать кремниевую creature на предложенном dieshot.

Chip Art из шапки поста — AMD Athlon K7 Pluto.

#dieshots
👍18🔥4👀41
Понедельник день тяжелый — никаких лонгридов, только мемы.
Мне дико зашел шаблон Triangle Factory.
Принес вам интерпретацию мема про Texas Instruments.
😁166👍2🔥2
13000 тестов для проверки процессоров на базе RISC-V ISA от Tenstorrent

Компания Tenstorrent продолжает вносить свой вклад в экосистему открытого исходного кода RISC-V. На GitHub представлено более 13 000 программных тестов, охватывающих широкий спектр RISC-V ISA, включая RV64-I, RV-M, RV-F, RV-D, RV-C, RV-V и другие.

Для RISC-V Vector поддерживаются две конфигурации для 128 и 256 битной длины векторного регистра.

Важно отметить, что несмотря на то, что тесты являются микроархитектурно-нейтральными и могут работать на популярных симуляторах RISC-V, таких как Whisper и Spike, успешный запуск этих тестов на конечной аппаратуре зависит от соответствия с memory map, проверяемого устройства.
Если карта памяти проверяемого устройства отличается от той, что используется в тестах, это может помешать их корректному запуску.
В репозитории можно найти только .elf файлы и файлы дизасемблера, которые и так можно получить из .elf файла.
В таком случае может потребоваться адаптация или перекомпиляция тестов в соответствии с картой памяти тестируемого устройства, а местами возможно и ручное обновления адресов, что кратно усложняет задачу по использованию данного тестового окружения.

Почему Tenstorent не предоставили исходники, который каждый может собрать под себя остаётся вопросом🖥
Please open Telegram to view this post
VIEW IN TELEGRAM
👍137🔥3👀1
Год назад я писал про AI-ускорители от SAPEON 220-й серии. Чипы выпускались по устаревшему 28-нм техпроцессу, но при этом 220-я серия позиционировалась как прямой конкурент Nvidia A2. Среди особенностей - ускорители работали только с целочисленными форматами данных int16/8/4.

Недавно SAPEON анонсировала 330-ю серию. Основные обновления: 7-нм техпроцесс, добавлена поддержка FP16/8. В 330-й серии наблюдается четырёхкратный прирост производительности по сравнению с 220-й при работе с моделью Resnet-50 v1.5.

Больше подробностей смотрите на сайте компании и в product brief🖥
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8👀43
RARS - RISC-V Assembler and Runtime Simulator

Многие старожилы моего канала и энтузиасты RISC-V знакомы с академическим симулятором RARS. Когда я учился в университете и читал первое издание книги Харриса и Харриса, я активно пользовался MIPS-версией симулятора MARS.

RARS — это программа для написания, сборки и симуляции выполнения программ на языке ассемблера для архитектуры RISC-V. Основная цель RARS — предоставить удобную и простую в использовании среду разработки для тех, кто только начинает изучать RISC-V.

Грустно наблюдать, но в последний год не видно никаких новых коммитов и исправлений, а десятки issues остаются открытыми.

Преподавательский состав из Университета Квебека в Монреале использует данный симулятор в своём курсе INF2171. Однако, поскольку поддержка RARS фактически остановилась, и у авторов не получается внести свои изменения в основной репозиторий, поэтому они продолжают исправлять проблемы RARS и добавлять новый функционал в собственной версии — RARSM.

Рекомендую обратить внимание на этот форк, так как он является поддерживаемой веткой RARS. В README можно ознакомиться со списком обновлений, исправлений в RARSM версии.
👍19🔥6👀2
AMD ограничивает проект ZLUDA по запуску CUDA-приложений на своих ускорителях

Open Source проект ZLUDA изначально был создан для нативного запуска CUDA-приложений на GPU Intel, но позже автор проекта, Анджей Яник, начал сотрудничество с AMD для создания аналогичного инструмента для "красных" GPU.
В 2022 году разработка проекта для AMD велась в закрытом формате, но в 2024 году, после прекращения финансирования со стороны AMD и по взаимному соглашению, проект вновь стал доступен в открытом доступе.

Однако позже AMD изменила своё решение и потребовала удалить код, несмотря на ранее данное разрешение на публикацию. AMD утверждала, что предыдущее согласие, данное по электронной почте, не имеет юридической силы. Интересно, что это требование исходило от AMD, а не от NVIDIA, хотя проект ZLUDA мог потенциально нарушать условия использования CUDA, установленные NVIDIA.

С проектом ZLUDA можно ознакомиться на GitHub-странице проекта.

Buen finde!☕️
Please open Telegram to view this post
VIEW IN TELEGRAM
👍107😁31
Понедельник день тяжелый. Только мемы, ничего лишнего😠
Please open Telegram to view this post
VIEW IN TELEGRAM
😁65👍61
Завершилась конференция HotChips 2024 — одно из самых значимых и увлекательных ежегодных событий, посвященных передовым разработкам в области микропроцессоров и полупроводниковых технологий.

С программой конференции можно ознакомиться на сайте HotChips. Тут найдете и доклады от Nvidia, Intel, Qualcomm, AMD, OpenAI.
Но чтобы получить доступ к докладам и видеозаписям конференции придется раскошелиться на примерно на 130 долларов.

Если делать этого не хотите, то можно обратиться к изданиям, которые уже вовсю пишут статьи по прошедшим докладам. Один из таких сайтов — горячо мною любимый ChiP and Chease.

На момент публикации поста на портале уже доступны 3 доклада с прошедшей конференции:

1) AmpereOne at Hot Chips 2024: Maximizing Density. Особый интерес в том, что в докладе рассматриваются особенности архитектуры процессора от Ampere, включая детали разработки собственного ядра и отказа от лицензирования ядер Neoverse от Arm.

2) Hot Chips 2024: Qualcomm’s Oryon Core. Разбор микроархитектуры Snapdragon X Elite. Обсуждение предсказателя переходов TAGE, работы с памятью, особенности проектирования крупных TLB.

3) Tesla’s TTPoE at Hot Chips 2024: Replacing TCP for Low Latency Applications. Доклад посвящен суперкомпьютеру Dojo от Tesla и разбора проблемы ограничения пропускной способности из-за медленной передачи данных между хостами и суперкомпьютером через PCIe.

Вы еще тут? Бегом читать доклады, а потом обсудим их в комментариях 🤓
👍13🔥5👀2
Очередной стартап вышел из стелс режима. Встречайте - Akeana.

Akeana представила три семейства процессорных IP на базе RISC-V:

1) Akeana 100 Series: 32-битные решения микроконтроллерного класса.
2) Akeana 1000 Series: 64-битные процессоры с поддержкой многоядерности, векторных расширений, гипервизора и неких опциональных AI расширений. Ну куда же без них в 2024-м.
3) Akeana 5000 Series: Высокопроизводительные 64-битные процессоры для ноутбуков, дата-центров и облачных инфраструктур.

Кроме процессоров, Akeana также представила набор IP для создания SoC, который включает контроллеры прерываний (AIA RISC-V APLIC) и когерентные кластеры. Кроме того, компания анонсировала Matrix Engine, о котором пока доступно очень мало информации.

Более подробную информацию о характеристиках продуктов можно найти на сайте компании. Однако отсутствие реальных бенчмарков и возможности тестирования предлагаемого продукта — затрудняет оценку нового игрока в экосистеме RISC-V на данный момент.
👀11🔥6👍443
Введение в работу с EDA Vivado

Лектор Школы Синтеза Дмитрий Смехов подготовил прекрасное руководство по работе с инструментом Vivado, который используется при разработке аппаратуры для ПЛИС фирмы Xilinx (AMD).

Это руководство содержит рекомендации по организации репозитория проекта, запуска моделирования как в CLI, так и в GUI режимах.

Версия руководства на русском языке — link
Версия руководства на английском языке — link

#bestpractice
🔥25👍92👀2
Это вам за то, что шутите про a*x + b

Please open Telegram to view this post
VIEW IN TELEGRAM
😁27👀8🔥5
Не уходя далеко от темы Vivado, хочу напомнить, что в одном из лучших курсов по процессорным архитектурам есть руководство, которое помогает новичкам освоить основы работы с Vivado.

Если объём материалов курса АПС кажется пугающим и вы не знаете, с чего лучше начать, почему бы не начать знакомство со средой проектирования Vivado?

В руководстве разобраны следующие темы:

1) Создание нового проекта под отладочный стенд Nexys A7;
2) Навигатор по маршруту проектирования;
3) Менеджер проекта;
4) Как запустить симуляцию в Vivado;
5) Руководство по поиску функциональных ошибок;
6) Анализ RTL;
7) Как прошить ПЛИС;
8) Руководство по работе с ошибками обработки кода.

#bestpractice
👍14👀5🔥4
Новая книга от авторов «Цифровая схемотехника и архитектура компьютера»

На сайте издательства Elsevier появилась страничка книги RISC-V Microprocessor System-On-Chip Design.
В авторах указаны хорошо знакомые нам Харрис и Харрис.
Кстати, знали ли вы, что они не муж и жена, а просто однофамильцы?

На данный момент книга не имеет цены и возможности предзаказа, но уже сейчас можно ознакомиться с оглавлением во вкладке «Table Of Contents».
🔥54
Помните план США и TSMC по строительству завода в Аризоне?

В одном из чатов по ПЛИСам наткнулся на крутую статью "TSMC’s debacle in the American desert" от 23-го апреля.

Крайне рекомендую ознакомиться.

В статье описываются трудности, с которыми столкнулись американские инженеры во время стажировки на тайваньском заводе Fab 18, где они пытались адаптироваться к местной рабочей культуре.

В частности, они столкнулись с проблемами, вызванными языковым барьером и различиями в подходах к работе: тайваньские инженеры привыкли работать по 12 часов в день, тогда как их американские коллеги предпочитали более сбалансированный рабочий график.

Кроме того американские сотрудники столкнулись с серьёзными проблемами из-за языковых барьеров. Почти всё общение на заводе, включая обучение и собрания, велось на тайваньском или китайском языках, что затрудняло понимание задач.
В теории, будущие тайваньские сотрудники Аризонского завода должны были помогать американским коллегам с переводом, но на практике у многих не хватало времени или опыта для этого.
В результате американские инженеры были вынуждены полагаться на Google Translate и программы для распознавания рукописного текста, которые часто давали неудовлетворительные результаты.

Другим аспектом культурных различий стало то, что некоторые тайваньские инженеры держали на своих рабочих столах календари с изображениями моделей в бикини и обменивались эротическими мемами в рабочих чатах. Это вызвало недовольство среди американских сотрудников, которые считали такие материалы неуместными и просили коллег их убрать.

Как итог — некоторые американские инженеры начали искать новые карьерные предложения в компаниях с менее жесткими требованиями и лучшими карьерными перспективами. В статье также упоминается, что один инженер, работавший как в Intel, так и в TSMC, рассказал, что его тайваньские коллеги интересовались вакансиями в Intel, где они надеялись на лучший баланс между работой и личной жизнью.
😁307👍6👀6
На просторах LinkedIn наткнулся на интересный пейпер — "The Microarchitecture of Superscalar Processors"

В нем доступно и понятно описаны техники проектирования микроархитектуры суперскалярных процессоров, а также приведены реальные примеры суперскалярных процессоров, таких как MIPS R10000, DEC Alpha 21164 и AMD K5. Несмотря на то что статья была опубликована в 1995 году, она все еще актуальна, поскольку многие принципы и подходы, описанные в ней, продолжают применяться в современных процессорах.

Статья отлично подойдет новичкам и энтузиастам в области проектирования процессорных систем.
🔥2510👍5
И чтобы не скучали, вот вам в догонку статья от 1996-го года с обзором микроархитектуры MIPS R10000.

Buen Finde! 🖥
Please open Telegram to view this post
VIEW IN TELEGRAM
8🔥6👀2👍1
Помните проект Пекинского университета XiangShan?

Проект XiangShan, разработанный Пекинским университетом, представляет собой процессорный IP с открытым исходным кодом, написанный на языке Chisel. Впервые я писал об этом проекте ещё в 2021 году.

Спустя 3 года проект с академических конференций добрался до Hot Chips 2024.

В обзоре доклада можно узнать о последних нововведениях в XiangShan, ознакомиться с актуальной дорожной картой (roadmap) проекта, а также понять, почему в проекте используются две разные микроархитектуры ядра.

На сегодняшний день XiangShan ставит перед собой цель достичь уровня производительности Neoverse V2.

Больше информации можно найти в обзоре доклада - servethehome.
👍16🔥84
Продолжая тему китайских академических инициатив принес вам презентацию программы - One Student One Chip.

Инициатива "One Student One Chip" нацелена на то, чтобы каждый студент мог спроектировать и выпустить свой собственный процессор еще до окончания университета.
Особенность проекта в том, что студенты проходят весь путь разработки — от идеи до реализации системы на кристалле.
В рамках программы OSOC студенты не ограничиваются симуляцией или FPGA-прототипами, а создают полноценный чип, который проходит этап tape-out для дальнейшего тестирования и изучения.

Презентация о инициативе One Student One Chip: https://ysyx.oscc.cc/res/files/ysyx-en.pdf

Сайт программы One Student One Chip: https://ysyx.oscc.cc/en/
🔥36👀14👍22
Вернемся к новому чипу от RaspberryPi.
Особенности микроархитектуры RP2350.

Микроконтроллер RP2350 на базе ядра Cortex-M33 обладает интересными микроархитектурными решениями в области работы с числами с плавающей запятой.

Одной из особенностей является интеграция кастомного математического сопроцессора двойной точности (DCP), который обеспечивает ускорение операций с числами double, включая сложение, вычитание, умножение, деление и извлечение квадратного корня.

Вместо использования стандартного IP-блока FPU двойной точности от ARM, который занимает значительную площадь кристалла, разработчики RP2350 внедрили компактный сопроцессор, меньший по площади в сравнении с типовым IP-core для поддержки double precision операций. Данное решение позволяет существенно ускорить операции с числами double по сравнению с программной реализацией, при этом минимизируя затраты на аппаратные ресурсы.

Модель программирования для кастомного сопроцессора DCP в RP2350 существенно отличается от стандартного FPU от ARM. При использовании стандартного FPU операции с плавающей запятой выполняются с помощью стандартных ARM-инструкций, и компилятор автоматически генерирует эти инструкции на основе кода высокого уровня, что упрощает разработку. В случае с DCP, разработчикам необходимо использовать специальные последовательности инструкций сопроцессора, известные как "canned instruction sequences", для выполнения операций с числами двойной точности. Это требует более низкоуровневого подхода к программированию и прямого взаимодействия с сопроцессором, что отличается от автоматизированного использования стандартного FPU.

С DCP возможно работать только в ARM режиме, RISC-V ядра не поддерживают работу с кастомным DCP, что обусловлено особенностями микроархитектуры RP2350.

За компактность DCP приходиться платить. Любое решение это компромисс, в данном случае компромисс в вопросах поддержки стандарта ieee-754. В DCP все денормализованные числа обрабатываются как ноль, что негативно сказывается на точности вычислений.

Подробности об ограничениях компактного FPU можно найти в разделе 3.6.2.9 "IEEE 754 compliance" спецификации микроконтроллера RP2350.

Больше деталей про устройство DCP можно найти в разделе 3.6.2 Double-precision Coprocessor (DCP) спецификации на микроконтроллер RP2350.

Примеры кода для работы с DCP можно найти в github репозитории микроконтроллера: https://github.com/raspberrypi/pico-examples/tree/develop/dcp

Библиотека Canned instruction sequences: https://github.com/raspberrypi/pico-sdk/blob/develop/src/rp2_common/hardware_dcp/include/hardware/dcp_canned.inc.S

🖥
Please open Telegram to view this post
VIEW IN TELEGRAM
👍14👀843