NEW BOT Телеграм, страница

Записки CPU designer'a

Принес вам классную статью с портала semianalysis: Groq Inference Tokenomics: Speed, But At What Cost?

В статье обсуждается производительность программно-аппаратного комплекса от Groq при работе с моделью Mixtral 8x7b. Обратите внимание, что на первом же графике указывается соотношение USD на 1 миллион токенов. Числа для топсов/флопсов придержите для рекламы и продакт брифов.

Интересен Groq в первую очередь с архитектурной точки зрения. Это VLIW машина, без внешний памяти, блоков типа предсказателя переходов, префетчеров, контроллера кэшей, а вся модель размещается на кластере, состоящей из Groq чипов.
В данной статье описывается, что для работы с моделью Mixtral потребовалось подключить 576-чипов, каждый из чипов обладает на кристальной SRAM памятью в 230 MB!

Фактически ~~DSP-core~~ AI/ML ускоритель от Groq — это классическая числодробилка. Блоки умножения матриц, как ни странно - для умножения матриц, VectorUnit для вычислений посложнее, например, обсчет активационных функций (sigmoid, softmax, и.т.п), а между модулями матричной и векторной обработки расположены блоки SRAM памяти.

Больше чисел, графиков и ссылок найдете в вышеуказанной статье

👍15🔥43❤2

2.7K viewsНиколай, 15:25

Записки CPU designer'a

Продолжая тему чипа от Groq настоятельно рекомендую ознакомиться с докладом Andrew Bitar'a, Principal Compiler Engineer в компании Groq:
Groq’s Software-Defined Hardware for Dataflow Compute

Это доклад посвящен современным вызовам и решениям в области вычислительных архитектур. С окончанием закона Деннарда и ростом вычислений, связанных с обработкой больших массивов данных, особенно в области AI/ML ускорителей и высокопроизводительных вычислений, возрождается тренд на проектирование чипов на базе Domain-specific architecture.

В докладе рассказывается о концепции Software-Defined Hardware на примере архитектуры Groq.
Этот подход позволяет упростить управление вычислительными ресурсами, устраняя необходимость в аппаратном контроле за потоками данных, что в свою очередь значительно упрощает микроархитектуру конечного чипа. Важность такого подхода заключается в том, что он делает работу с данными более предсказуемыми и эффективными, что особенно критично в эпоху замедления закона Мура и роста требований к производительности в задачах AI/ML ускорителей.

В качестве дополнительной литературы автор доклада рекомендует ознакомиться со следующими статьями:

1) A Software-defined Tensor Streaming Multiprocessor forLarge-scale Machine Learning

2) Think Fast: A Tensor Streaming Processor (TSP)for Accelerating Deep Learning Workloads

👍185👀4

4.03K viewsНиколай, edited 14:26

Записки CPU designer'a

Редакция канала Истовый Инженер поделилась замечательным ресурсом — Silicon Zoo, где собраны чип-арты, оставленные разработчиками микросхем.

На портале Silicon Zoo собраны самые разные чип арты, созданные разработчиками микросхем.
Эти рисунки создаются дизайнерами на свободных участках чипа и могут включать в себя как простые инициалы, так и сложные изображения, которые можно увидеть только под микроскопом. Такие изображения можно сравнить с аппаратной версией пасхальных яиц в программном обеспечении.

А в этом разделе, можете почувствовать себя в роли silicon art хантера и отыскать кремниевую creature на предложенном dieshot.

Chip Art из шапки поста — AMD Athlon K7 Pluto.

#dieshots

👍19🔥4👀41

3.81K viewsНиколай, 12:31

Записки CPU designer'a

Понедельник день тяжелый — никаких лонгридов, только мемы.
Мне дико зашел шаблон Triangle Factory.
Принес вам интерпретацию мема про Texas Instruments.

😁166👍2🔥2

2.51K viewsНиколай, 15:35

Записки CPU designer'a

13000 тестов для проверки процессоров на базе RISC-V ISA от Tenstorrent

Компания Tenstorrent продолжает вносить свой вклад в экосистему открытого исходного кода RISC-V. На GitHub представлено более 13 000 программных тестов, охватывающих широкий спектр RISC-V ISA, включая RV64-I, RV-M, RV-F, RV-D, RV-C, RV-V и другие.

Для RISC-V Vector поддерживаются две конфигурации для 128 и 256 битной длины векторного регистра.

Важно отметить, что несмотря на то, что тесты являются микроархитектурно-нейтральными и могут работать на популярных симуляторах RISC-V, таких как Whisper и Spike, успешный запуск этих тестов на конечной аппаратуре зависит от соответствия с memory map, проверяемого устройства.
Если карта памяти проверяемого устройства отличается от той, что используется в тестах, это может помешать их корректному запуску.
В репозитории можно найти только .elf файлы и файлы дизасемблера, которые и так можно получить из .elf файла.
В таком случае может потребоваться адаптация или перекомпиляция тестов в соответствии с картой памяти тестируемого устройства, а местами возможно и ручное обновления адресов, что кратно усложняет задачу по использованию данного тестового окружения.

Почему Tenstorent не предоставили исходники, который каждый может собрать под себя остаётся вопросом🖥

Please open Telegram to view this post

VIEW IN TELEGRAM

👍137🔥3👀1

2.62K viewsНиколай, 10:50

Записки CPU designer'a

Год назад я писал про AI-ускорители от SAPEON 220-й серии. Чипы выпускались по устаревшему 28-нм техпроцессу, но при этом 220-я серия позиционировалась как прямой конкурент Nvidia A2. Среди особенностей - ускорители работали только с целочисленными форматами данных int16/8/4.

Недавно SAPEON анонсировала 330-ю серию. Основные обновления: 7-нм техпроцесс, добавлена поддержка FP16/8. В 330-й серии наблюдается четырёхкратный прирост производительности по сравнению с 220-й при работе с моделью Resnet-50 v1.5.

Больше подробностей смотрите на сайте компании и в product brief

🖥

Please open Telegram to view this post

VIEW IN TELEGRAM

👍8👀43

2.5K viewsНиколай, edited 10:54

Записки CPU designer'a

RARS - RISC-V Assembler and Runtime Simulator

Многие старожилы моего канала и энтузиасты RISC-V знакомы с академическим симулятором RARS. Когда я учился в университете и читал первое издание книги Харриса и Харриса, я активно пользовался MIPS-версией симулятора MARS.

RARS — это программа для написания, сборки и симуляции выполнения программ на языке ассемблера для архитектуры RISC-V. Основная цель RARS — предоставить удобную и простую в использовании среду разработки для тех, кто только начинает изучать RISC-V.

Грустно наблюдать, но в последний год не видно никаких новых коммитов и исправлений, а десятки issues остаются открытыми.

Преподавательский состав из Университета Квебека в Монреале использует данный симулятор в своём курсе INF2171. Однако, поскольку поддержка RARS фактически остановилась, и у авторов не получается внести свои изменения в основной репозиторий, поэтому они продолжают исправлять проблемы RARS и добавлять новый функционал в собственной версии — RARSM.

Рекомендую обратить внимание на этот форк, так как он является поддерживаемой веткой RARS. В README можно ознакомиться со списком обновлений, исправлений в RARSM версии.

👍19🔥7👀2

3.72K viewsНиколай, edited 15:35

Записки CPU designer'a

AMD ограничивает проект ZLUDA по запуску CUDA-приложений на своих ускорителях

Open Source проект ZLUDA изначально был создан для нативного запуска CUDA-приложений на GPU Intel, но позже автор проекта, Анджей Яник, начал сотрудничество с AMD для создания аналогичного инструмента для "красных" GPU.
В 2022 году разработка проекта для AMD велась в закрытом формате, но в 2024 году, после прекращения финансирования со стороны AMD и по взаимному соглашению, проект вновь стал доступен в открытом доступе.

Однако позже AMD изменила своё решение и потребовала удалить код, несмотря на ранее данное разрешение на публикацию. AMD утверждала, что предыдущее согласие, данное по электронной почте, не имеет юридической силы. Интересно, что это требование исходило от AMD, а не от NVIDIA, хотя проект ZLUDA мог потенциально нарушать условия использования CUDA, установленные NVIDIA.

С проектом ZLUDA можно ознакомиться на GitHub-странице проекта.

Buen finde!☕️

Please open Telegram to view this post

VIEW IN TELEGRAM

👍107😁3✍1

3.15K viewsНиколай, 08:01

Записки CPU designer'a

Понедельник день тяжелый. Только мемы, ничего лишнего😠

Please open Telegram to view this post

VIEW IN TELEGRAM

😁66👍61

6.35K viewsНиколай, 07:45

Записки CPU designer'a

Завершилась конференция HotChips 2024 — одно из самых значимых и увлекательных ежегодных событий, посвященных передовым разработкам в области микропроцессоров и полупроводниковых технологий.

С программой конференции можно ознакомиться на сайте HotChips. Тут найдете и доклады от Nvidia, Intel, Qualcomm, AMD, OpenAI.
Но чтобы получить доступ к докладам и видеозаписям конференции придется раскошелиться на примерно на 130 долларов.

Если делать этого не хотите, то можно обратиться к изданиям, которые уже вовсю пишут статьи по прошедшим докладам. Один из таких сайтов — горячо мною любимый ChiP and Chease.

На момент публикации поста на портале уже доступны 3 доклада с прошедшей конференции:

1) AmpereOne at Hot Chips 2024: Maximizing Density. Особый интерес в том, что в докладе рассматриваются особенности архитектуры процессора от Ampere, включая детали разработки собственного ядра и отказа от лицензирования ядер Neoverse от Arm.

2) Hot Chips 2024: Qualcomm’s Oryon Core. Разбор микроархитектуры Snapdragon X Elite. Обсуждение предсказателя переходов TAGE, работы с памятью, особенности проектирования крупных TLB.

3) Tesla’s TTPoE at Hot Chips 2024: Replacing TCP for Low Latency Applications. Доклад посвящен суперкомпьютеру Dojo от Tesla и разбора проблемы ограничения пропускной способности из-за медленной передачи данных между хостами и суперкомпьютером через PCIe.

Вы еще тут? Бегом читать доклады, а потом обсудим их в комментариях 🤓

👍13🔥5👀2

2.69K viewsНиколай, 08:53

Записки CPU designer'a

Очередной стартап вышел из стелс режима. Встречайте - Akeana.

Akeana представила три семейства процессорных IP на базе RISC-V:

1) Akeana 100 Series: 32-битные решения микроконтроллерного класса.
2) Akeana 1000 Series: 64-битные процессоры с поддержкой многоядерности, векторных расширений, гипервизора и неких опциональных AI расширений. Ну куда же без них в 2024-м.
3) Akeana 5000 Series: Высокопроизводительные 64-битные процессоры для ноутбуков, дата-центров и облачных инфраструктур.

Кроме процессоров, Akeana также представила набор IP для создания SoC, который включает контроллеры прерываний (AIA RISC-V APLIC) и когерентные кластеры. Кроме того, компания анонсировала Matrix Engine, о котором пока доступно очень мало информации.

Более подробную информацию о характеристиках продуктов можно найти на сайте компании. Однако отсутствие реальных бенчмарков и возможности тестирования предлагаемого продукта — затрудняет оценку нового игрока в экосистеме RISC-V на данный момент.

👀11🔥6👍44✍3

3.03K viewsНиколай, edited 09:42

Записки CPU designer'a

Введение в работу с EDA Vivado

Лектор Школы Синтеза Дмитрий Смехов подготовил прекрасное руководство по работе с инструментом Vivado, который используется при разработке аппаратуры для ПЛИС фирмы Xilinx (AMD).

Это руководство содержит рекомендации по организации репозитория проекта, запуска моделирования как в CLI, так и в GUI режимах.

Версия руководства на русском языке — link
Версия руководства на английском языке — link

#bestpractice

🔥25👍9✍2👀2

3.87K viewsНиколай, edited 16:23

Записки CPU designer'a

Это вам за то, что шутите про a*x + b

✝

Please open Telegram to view this post

VIEW IN TELEGRAM

😁27👀8🔥5

2.56K viewsНиколай, edited 11:41

Записки CPU designer'a

Не уходя далеко от темы Vivado, хочу напомнить, что в одном из лучших курсов по процессорным архитектурам есть руководство, которое помогает новичкам освоить основы работы с Vivado.

Если объём материалов курса АПС кажется пугающим и вы не знаете, с чего лучше начать, почему бы не начать знакомство со средой проектирования Vivado?

В руководстве разобраны следующие темы:

1) Создание нового проекта под отладочный стенд Nexys A7;
2) Навигатор по маршруту проектирования;
3) Менеджер проекта;
4) Как запустить симуляцию в Vivado;
5) Руководство по поиску функциональных ошибок;
6) Анализ RTL;
7) Как прошить ПЛИС;
8) Руководство по работе с ошибками обработки кода.

#bestpractice

👍14👀5🔥4

4.81K viewsНиколай, edited 09:39

Записки CPU designer'a

Новая книга от авторов «Цифровая схемотехника и архитектура компьютера»

На сайте издательства Elsevier появилась страничка книги RISC-V Microprocessor System-On-Chip Design.
В авторах указаны хорошо знакомые нам Харрис и Харрис.
Кстати, знали ли вы, что они не муж и жена, а просто однофамильцы?

На данный момент книга не имеет цены и возможности предзаказа, но уже сейчас можно ознакомиться с оглавлением во вкладке «Table Of Contents».

🔥54

2.79K viewsНиколай, edited 09:54

Записки CPU designer'a

Помните план США и TSMC по строительству завода в Аризоне?

В одном из чатов по ПЛИСам наткнулся на крутую статью "TSMC’s debacle in the American desert" от 23-го апреля.

Крайне рекомендую ознакомиться.

В статье описываются трудности, с которыми столкнулись американские инженеры во время стажировки на тайваньском заводе Fab 18, где они пытались адаптироваться к местной рабочей культуре.

В частности, они столкнулись с проблемами, вызванными языковым барьером и различиями в подходах к работе: тайваньские инженеры привыкли работать по 12 часов в день, тогда как их американские коллеги предпочитали более сбалансированный рабочий график.

Кроме того американские сотрудники столкнулись с серьёзными проблемами из-за языковых барьеров. Почти всё общение на заводе, включая обучение и собрания, велось на тайваньском или китайском языках, что затрудняло понимание задач.
В теории, будущие тайваньские сотрудники Аризонского завода должны были помогать американским коллегам с переводом, но на практике у многих не хватало времени или опыта для этого.
В результате американские инженеры были вынуждены полагаться на Google Translate и программы для распознавания рукописного текста, которые часто давали неудовлетворительные результаты.

Другим аспектом культурных различий стало то, что некоторые тайваньские инженеры держали на своих рабочих столах календари с изображениями моделей в бикини и обменивались эротическими мемами в рабочих чатах. Это вызвало недовольство среди американских сотрудников, которые считали такие материалы неуместными и просили коллег их убрать.

Как итог — некоторые американские инженеры начали искать новые карьерные предложения в компаниях с менее жесткими требованиями и лучшими карьерными перспективами. В статье также упоминается, что один инженер, работавший как в Intel, так и в TSMC, рассказал, что его тайваньские коллеги интересовались вакансиями в Intel, где они надеялись на лучший баланс между работой и личной жизнью.

Rest of World

TSMC’s debacle in the American desert

Missed deadlines and tension among Taiwanese and American coworkers are plaguing the chip giant’s Phoenix expansion.

😁307👍6👀6

6.5K viewsНиколай, 09:14

Записки CPU designer'a

На просторах LinkedIn наткнулся на интересный пейпер — "The Microarchitecture of Superscalar Processors"

В нем доступно и понятно описаны техники проектирования микроархитектуры суперскалярных процессоров, а также приведены реальные примеры суперскалярных процессоров, таких как MIPS R10000, DEC Alpha 21164 и AMD K5. Несмотря на то что статья была опубликована в 1995 году, она все еще актуальна, поскольку многие принципы и подходы, описанные в ней, продолжают применяться в современных процессорах.

Статья отлично подойдет новичкам и энтузиастам в области проектирования процессорных систем.

🔥25✍10👍5

3.49K viewsНиколай, 11:43

Записки CPU designer'a

И чтобы не скучали, вот вам в догонку статья от 1996-го года с обзором микроархитектуры MIPS R10000.

Buen Finde! 🖥

Please open Telegram to view this post

VIEW IN TELEGRAM

✍8🔥6👀2👍1

2.97K viewsНиколай, edited 13:41

Записки CPU designer'a

Помните проект Пекинского университета XiangShan?

Проект XiangShan, разработанный Пекинским университетом, представляет собой процессорный IP с открытым исходным кодом, написанный на языке Chisel. Впервые я писал об этом проекте ещё в 2021 году.

Спустя 3 года проект с академических конференций добрался до Hot Chips 2024.

В обзоре доклада можно узнать о последних нововведениях в XiangShan, ознакомиться с актуальной дорожной картой (roadmap) проекта, а также понять, почему в проекте используются две разные микроархитектуры ядра.

На сегодняшний день XiangShan ставит перед собой цель достичь уровня производительности Neoverse V2.

Больше информации можно найти в обзоре доклада - servethehome.

👍16🔥8✍4

2.65K viewsНиколай, edited 15:08

Записки CPU designer'a

Продолжая тему китайских академических инициатив принес вам презентацию программы - One Student One Chip.

Инициатива "One Student One Chip" нацелена на то, чтобы каждый студент мог спроектировать и выпустить свой собственный процессор еще до окончания университета.
Особенность проекта в том, что студенты проходят весь путь разработки — от идеи до реализации системы на кристалле.
В рамках программы OSOC студенты не ограничиваются симуляцией или FPGA-прототипами, а создают полноценный чип, который проходит этап tape-out для дальнейшего тестирования и изучения.

Презентация о инициативе One Student One Chip: https://ysyx.oscc.cc/res/files/ysyx-en.pdf

Сайт программы One Student One Chip: https://ysyx.oscc.cc/en/

🔥36👀14👍22

3.02K viewsНиколай, edited 14:28

Записки CPU designer'a

Вернемся к новому чипу от RaspberryPi.
Особенности микроархитектуры RP2350.

Микроконтроллер RP2350 на базе ядра Cortex-M33 обладает интересными микроархитектурными решениями в области работы с числами с плавающей запятой.

Одной из особенностей является интеграция кастомного математического сопроцессора двойной точности (DCP), который обеспечивает ускорение операций с числами double, включая сложение, вычитание, умножение, деление и извлечение квадратного корня.

Вместо использования стандартного IP-блока FPU двойной точности от ARM, который занимает значительную площадь кристалла, разработчики RP2350 внедрили компактный сопроцессор, меньший по площади в сравнении с типовым IP-core для поддержки double precision операций. Данное решение позволяет существенно ускорить операции с числами double по сравнению с программной реализацией, при этом минимизируя затраты на аппаратные ресурсы.

Модель программирования для кастомного сопроцессора DCP в RP2350 существенно отличается от стандартного FPU от ARM. При использовании стандартного FPU операции с плавающей запятой выполняются с помощью стандартных ARM-инструкций, и компилятор автоматически генерирует эти инструкции на основе кода высокого уровня, что упрощает разработку. В случае с DCP, разработчикам необходимо использовать специальные последовательности инструкций сопроцессора, известные как "canned instruction sequences", для выполнения операций с числами двойной точности. Это требует более низкоуровневого подхода к программированию и прямого взаимодействия с сопроцессором, что отличается от автоматизированного использования стандартного FPU.

С DCP возможно работать только в ARM режиме, RISC-V ядра не поддерживают работу с кастомным DCP, что обусловлено особенностями микроархитектуры RP2350.

За компактность DCP приходиться платить. Любое решение это компромисс, в данном случае компромисс в вопросах поддержки стандарта ieee-754. В DCP все денормализованные числа обрабатываются как ноль, что негативно сказывается на точности вычислений.

Подробности об ограничениях компактного FPU можно найти в разделе 3.6.2.9 "IEEE 754 compliance" спецификации микроконтроллера RP2350.

Больше деталей про устройство DCP можно найти в разделе 3.6.2 Double-precision Coprocessor (DCP) спецификации на микроконтроллер RP2350.

Примеры кода для работы с DCP можно найти в github репозитории микроконтроллера: https://github.com/raspberrypi/pico-examples/tree/develop/dcp

Библиотека Canned instruction sequences: https://github.com/raspberrypi/pico-sdk/blob/develop/src/rp2_common/hardware_dcp/include/hardware/dcp_canned.inc.S

🖥

Please open Telegram to view this post

VIEW IN TELEGRAM

👍14👀84✍3

2.47K viewsНиколай, edited 13:22

About

Blog

Apps

Platform