Продолжая тему чипа от Groq настоятельно рекомендую ознакомиться с докладом Andrew Bitar'a, Principal Compiler Engineer в компании Groq:
Groq’s Software-Defined Hardware for Dataflow Compute
Это доклад посвящен современным вызовам и решениям в области вычислительных архитектур. С окончанием закона Деннарда и ростом вычислений, связанных с обработкой больших массивов данных, особенно в области AI/ML ускорителей и высокопроизводительных вычислений, возрождается тренд на проектирование чипов на базе Domain-specific architecture.
В докладе рассказывается о концепции Software-Defined Hardware на примере архитектуры Groq.
Этот подход позволяет упростить управление вычислительными ресурсами, устраняя необходимость в аппаратном контроле за потоками данных, что в свою очередь значительно упрощает микроархитектуру конечного чипа. Важность такого подхода заключается в том, что он делает работу с данными более предсказуемыми и эффективными, что особенно критично в эпоху замедления закона Мура и роста требований к производительности в задачах AI/ML ускорителей.
В качестве дополнительной литературы автор доклада рекомендует ознакомиться со следующими статьями:
1) A Software-defined Tensor Streaming Multiprocessor forLarge-scale Machine Learning
2) Think Fast: A Tensor Streaming Processor (TSP)for Accelerating Deep Learning Workloads
Groq’s Software-Defined Hardware for Dataflow Compute
Это доклад посвящен современным вызовам и решениям в области вычислительных архитектур. С окончанием закона Деннарда и ростом вычислений, связанных с обработкой больших массивов данных, особенно в области AI/ML ускорителей и высокопроизводительных вычислений, возрождается тренд на проектирование чипов на базе Domain-specific architecture.
В докладе рассказывается о концепции Software-Defined Hardware на примере архитектуры Groq.
Этот подход позволяет упростить управление вычислительными ресурсами, устраняя необходимость в аппаратном контроле за потоками данных, что в свою очередь значительно упрощает микроархитектуру конечного чипа. Важность такого подхода заключается в том, что он делает работу с данными более предсказуемыми и эффективными, что особенно критично в эпоху замедления закона Мура и роста требований к производительности в задачах AI/ML ускорителей.
В качестве дополнительной литературы автор доклада рекомендует ознакомиться со следующими статьями:
1) A Software-defined Tensor Streaming Multiprocessor forLarge-scale Machine Learning
2) Think Fast: A Tensor Streaming Processor (TSP)for Accelerating Deep Learning Workloads
👍17 5👀4
Редакция канала Истовый Инженер поделилась замечательным ресурсом — Silicon Zoo, где собраны чип-арты, оставленные разработчиками микросхем.
На портале Silicon Zoo собраны самые разные чип арты, созданные разработчиками микросхем.
Эти рисунки создаются дизайнерами на свободных участках чипа и могут включать в себя как простые инициалы, так и сложные изображения, которые можно увидеть только под микроскопом. Такие изображения можно сравнить с аппаратной версией пасхальных яиц в программном обеспечении.
А в этом разделе, можете почувствовать себя в роли silicon art хантера и отыскать кремниевую creature на предложенном dieshot.
Chip Art из шапки поста — AMD Athlon K7 Pluto.
#dieshots
На портале Silicon Zoo собраны самые разные чип арты, созданные разработчиками микросхем.
Эти рисунки создаются дизайнерами на свободных участках чипа и могут включать в себя как простые инициалы, так и сложные изображения, которые можно увидеть только под микроскопом. Такие изображения можно сравнить с аппаратной версией пасхальных яиц в программном обеспечении.
А в этом разделе, можете почувствовать себя в роли silicon art хантера и отыскать кремниевую creature на предложенном dieshot.
Chip Art из шапки поста — AMD Athlon K7 Pluto.
#dieshots
👍18🔥4👀4 1
Понедельник день тяжелый — никаких лонгридов, только мемы.
Мне дико зашел шаблон Triangle Factory.
Принес вам интерпретацию мема про Texas Instruments.
Мне дико зашел шаблон Triangle Factory.
Принес вам интерпретацию мема про Texas Instruments.
😁16 6👍2🔥2
13000 тестов для проверки процессоров на базе RISC-V ISA от Tenstorrent
Компания Tenstorrent продолжает вносить свой вклад в экосистему открытого исходного кода RISC-V. На GitHub представлено более 13 000 программных тестов, охватывающих широкий спектр RISC-V ISA, включая RV64-I, RV-M, RV-F, RV-D, RV-C, RV-V и другие.
Для RISC-V Vector поддерживаются две конфигурации для 128 и 256 битной длины векторного регистра.
Важно отметить, что несмотря на то, что тесты являются микроархитектурно-нейтральными и могут работать на популярных симуляторах RISC-V, таких как Whisper и Spike, успешный запуск этих тестов на конечной аппаратуре зависит от соответствия с memory map, проверяемого устройства.
Если карта памяти проверяемого устройства отличается от той, что используется в тестах, это может помешать их корректному запуску.
В репозитории можно найти только .elf файлы и файлы дизасемблера, которые и так можно получить из .elf файла.
В таком случае может потребоваться адаптация или перекомпиляция тестов в соответствии с картой памяти тестируемого устройства, а местами возможно и ручное обновления адресов, что кратно усложняет задачу по использованию данного тестового окружения.
Почему Tenstorent не предоставили исходники, который каждый может собрать под себя остаётся вопросом🖥
Компания Tenstorrent продолжает вносить свой вклад в экосистему открытого исходного кода RISC-V. На GitHub представлено более 13 000 программных тестов, охватывающих широкий спектр RISC-V ISA, включая RV64-I, RV-M, RV-F, RV-D, RV-C, RV-V и другие.
Для RISC-V Vector поддерживаются две конфигурации для 128 и 256 битной длины векторного регистра.
Важно отметить, что несмотря на то, что тесты являются микроархитектурно-нейтральными и могут работать на популярных симуляторах RISC-V, таких как Whisper и Spike, успешный запуск этих тестов на конечной аппаратуре зависит от соответствия с memory map, проверяемого устройства.
Если карта памяти проверяемого устройства отличается от той, что используется в тестах, это может помешать их корректному запуску.
В репозитории можно найти только .elf файлы и файлы дизасемблера, которые и так можно получить из .elf файла.
В таком случае может потребоваться адаптация или перекомпиляция тестов в соответствии с картой памяти тестируемого устройства, а местами возможно и ручное обновления адресов, что кратно усложняет задачу по использованию данного тестового окружения.
Почему Tenstorent не предоставили исходники, который каждый может собрать под себя остаётся вопросом
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13 7🔥3👀1
Год назад я писал про AI-ускорители от SAPEON 220-й серии. Чипы выпускались по устаревшему 28-нм техпроцессу, но при этом 220-я серия позиционировалась как прямой конкурент Nvidia A2. Среди особенностей - ускорители работали только с целочисленными форматами данных int16/8/4.
Недавно SAPEON анонсировала 330-ю серию. Основные обновления: 7-нм техпроцесс, добавлена поддержка FP16/8. В 330-й серии наблюдается четырёхкратный прирост производительности по сравнению с 220-й при работе с моделью Resnet-50 v1.5.
Больше подробностей смотрите на сайте компании и в product brief🖥
Недавно SAPEON анонсировала 330-ю серию. Основные обновления: 7-нм техпроцесс, добавлена поддержка FP16/8. В 330-й серии наблюдается четырёхкратный прирост производительности по сравнению с 220-й при работе с моделью Resnet-50 v1.5.
Больше подробностей смотрите на сайте компании и в product brief
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8👀4 3
RARS - RISC-V Assembler and Runtime Simulator
Многие старожилы моего канала и энтузиасты RISC-V знакомы с академическим симулятором RARS. Когда я учился в университете и читал первое издание книги Харриса и Харриса, я активно пользовался MIPS-версией симулятора MARS.
RARS — это программа для написания, сборки и симуляции выполнения программ на языке ассемблера для архитектуры RISC-V. Основная цель RARS — предоставить удобную и простую в использовании среду разработки для тех, кто только начинает изучать RISC-V.
Грустно наблюдать, но в последний год не видно никаких новых коммитов и исправлений, а десятки issues остаются открытыми.
Преподавательский состав из Университета Квебека в Монреале использует данный симулятор в своём курсе INF2171. Однако, поскольку поддержка RARS фактически остановилась, и у авторов не получается внести свои изменения в основной репозиторий, поэтому они продолжают исправлять проблемы RARS и добавлять новый функционал в собственной версии — RARSM.
Рекомендую обратить внимание на этот форк, так как он является поддерживаемой веткой RARS. В README можно ознакомиться со списком обновлений, исправлений в RARSM версии.
Многие старожилы моего канала и энтузиасты RISC-V знакомы с академическим симулятором RARS. Когда я учился в университете и читал первое издание книги Харриса и Харриса, я активно пользовался MIPS-версией симулятора MARS.
RARS — это программа для написания, сборки и симуляции выполнения программ на языке ассемблера для архитектуры RISC-V. Основная цель RARS — предоставить удобную и простую в использовании среду разработки для тех, кто только начинает изучать RISC-V.
Грустно наблюдать, но в последний год не видно никаких новых коммитов и исправлений, а десятки issues остаются открытыми.
Преподавательский состав из Университета Квебека в Монреале использует данный симулятор в своём курсе INF2171. Однако, поскольку поддержка RARS фактически остановилась, и у авторов не получается внести свои изменения в основной репозиторий, поэтому они продолжают исправлять проблемы RARS и добавлять новый функционал в собственной версии — RARSM.
Рекомендую обратить внимание на этот форк, так как он является поддерживаемой веткой RARS. В README можно ознакомиться со списком обновлений, исправлений в RARSM версии.
👍19🔥6👀2
AMD ограничивает проект ZLUDA по запуску CUDA-приложений на своих ускорителях
Open Source проект ZLUDA изначально был создан для нативного запуска CUDA-приложений на GPU Intel, но позже автор проекта, Анджей Яник, начал сотрудничество с AMD для создания аналогичного инструмента для "красных" GPU.
В 2022 году разработка проекта для AMD велась в закрытом формате, но в 2024 году, после прекращения финансирования со стороны AMD и по взаимному соглашению, проект вновь стал доступен в открытом доступе.
Однако позже AMD изменила своё решение и потребовала удалить код, несмотря на ранее данное разрешение на публикацию. AMD утверждала, что предыдущее согласие, данное по электронной почте, не имеет юридической силы. Интересно, что это требование исходило от AMD, а не от NVIDIA, хотя проект ZLUDA мог потенциально нарушать условия использования CUDA, установленные NVIDIA.
С проектом ZLUDA можно ознакомиться на GitHub-странице проекта.
Buen finde!☕️
Open Source проект ZLUDA изначально был создан для нативного запуска CUDA-приложений на GPU Intel, но позже автор проекта, Анджей Яник, начал сотрудничество с AMD для создания аналогичного инструмента для "красных" GPU.
В 2022 году разработка проекта для AMD велась в закрытом формате, но в 2024 году, после прекращения финансирования со стороны AMD и по взаимному соглашению, проект вновь стал доступен в открытом доступе.
Однако позже AMD изменила своё решение и потребовала удалить код, несмотря на ранее данное разрешение на публикацию. AMD утверждала, что предыдущее согласие, данное по электронной почте, не имеет юридической силы. Интересно, что это требование исходило от AMD, а не от NVIDIA, хотя проект ZLUDA мог потенциально нарушать условия использования CUDA, установленные NVIDIA.
С проектом ZLUDA можно ознакомиться на GitHub-странице проекта.
Buen finde!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10 7😁3✍1
Please open Telegram to view this post
VIEW IN TELEGRAM
😁65👍6 1
Завершилась конференция HotChips 2024 — одно из самых значимых и увлекательных ежегодных событий, посвященных передовым разработкам в области микропроцессоров и полупроводниковых технологий.
С программой конференции можно ознакомиться на сайте HotChips. Тут найдете и доклады от Nvidia, Intel, Qualcomm, AMD, OpenAI.
Но чтобы получить доступ к докладам и видеозаписям конференции придется раскошелиться на примерно на 130 долларов.
Если делать этого не хотите, то можно обратиться к изданиям, которые уже вовсю пишут статьи по прошедшим докладам. Один из таких сайтов — горячо мною любимый ChiP and Chease.
На момент публикации поста на портале уже доступны 3 доклада с прошедшей конференции:
1) AmpereOne at Hot Chips 2024: Maximizing Density. Особый интерес в том, что в докладе рассматриваются особенности архитектуры процессора от Ampere, включая детали разработки собственного ядра и отказа от лицензирования ядер Neoverse от Arm.
2) Hot Chips 2024: Qualcomm’s Oryon Core. Разбор микроархитектуры Snapdragon X Elite. Обсуждение предсказателя переходов TAGE, работы с памятью, особенности проектирования крупных TLB.
3) Tesla’s TTPoE at Hot Chips 2024: Replacing TCP for Low Latency Applications. Доклад посвящен суперкомпьютеру Dojo от Tesla и разбора проблемы ограничения пропускной способности из-за медленной передачи данных между хостами и суперкомпьютером через PCIe.
Вы еще тут? Бегом читать доклады, а потом обсудим их в комментариях 🤓
С программой конференции можно ознакомиться на сайте HotChips. Тут найдете и доклады от Nvidia, Intel, Qualcomm, AMD, OpenAI.
Но чтобы получить доступ к докладам и видеозаписям конференции придется раскошелиться на примерно на 130 долларов.
Если делать этого не хотите, то можно обратиться к изданиям, которые уже вовсю пишут статьи по прошедшим докладам. Один из таких сайтов — горячо мною любимый ChiP and Chease.
На момент публикации поста на портале уже доступны 3 доклада с прошедшей конференции:
1) AmpereOne at Hot Chips 2024: Maximizing Density. Особый интерес в том, что в докладе рассматриваются особенности архитектуры процессора от Ampere, включая детали разработки собственного ядра и отказа от лицензирования ядер Neoverse от Arm.
2) Hot Chips 2024: Qualcomm’s Oryon Core. Разбор микроархитектуры Snapdragon X Elite. Обсуждение предсказателя переходов TAGE, работы с памятью, особенности проектирования крупных TLB.
3) Tesla’s TTPoE at Hot Chips 2024: Replacing TCP for Low Latency Applications. Доклад посвящен суперкомпьютеру Dojo от Tesla и разбора проблемы ограничения пропускной способности из-за медленной передачи данных между хостами и суперкомпьютером через PCIe.
Вы еще тут? Бегом читать доклады, а потом обсудим их в комментариях 🤓
👍13🔥5👀2
Очередной стартап вышел из стелс режима. Встречайте - Akeana.
Akeana представила три семейства процессорных IP на базе RISC-V:
1) Akeana 100 Series: 32-битные решения микроконтроллерного класса.
2) Akeana 1000 Series: 64-битные процессоры с поддержкой многоядерности, векторных расширений, гипервизора и неких опциональных AI расширений. Ну куда же без них в 2024-м.
3) Akeana 5000 Series: Высокопроизводительные 64-битные процессоры для ноутбуков, дата-центров и облачных инфраструктур.
Кроме процессоров, Akeana также представила набор IP для создания SoC, который включает контроллеры прерываний (AIA RISC-V APLIC) и когерентные кластеры. Кроме того, компания анонсировала Matrix Engine, о котором пока доступно очень мало информации.
Более подробную информацию о характеристиках продуктов можно найти на сайте компании. Однако отсутствие реальных бенчмарков и возможности тестирования предлагаемого продукта — затрудняет оценку нового игрока в экосистеме RISC-V на данный момент.
Akeana представила три семейства процессорных IP на базе RISC-V:
1) Akeana 100 Series: 32-битные решения микроконтроллерного класса.
2) Akeana 1000 Series: 64-битные процессоры с поддержкой многоядерности, векторных расширений, гипервизора и неких опциональных AI расширений. Ну куда же без них в 2024-м.
3) Akeana 5000 Series: Высокопроизводительные 64-битные процессоры для ноутбуков, дата-центров и облачных инфраструктур.
Кроме процессоров, Akeana также представила набор IP для создания SoC, который включает контроллеры прерываний (AIA RISC-V APLIC) и когерентные кластеры. Кроме того, компания анонсировала Matrix Engine, о котором пока доступно очень мало информации.
Более подробную информацию о характеристиках продуктов можно найти на сайте компании. Однако отсутствие реальных бенчмарков и возможности тестирования предлагаемого продукта — затрудняет оценку нового игрока в экосистеме RISC-V на данный момент.
👀11🔥6👍4 4✍3
Введение в работу с EDA Vivado
Лектор Школы Синтеза Дмитрий Смехов подготовил прекрасное руководство по работе с инструментом Vivado, который используется при разработке аппаратуры для ПЛИС фирмы Xilinx (AMD).
Это руководство содержит рекомендации по организации репозитория проекта, запуска моделирования как в CLI, так и в GUI режимах.
Версия руководства на русском языке — link
Версия руководства на английском языке — link
#bestpractice
Лектор Школы Синтеза Дмитрий Смехов подготовил прекрасное руководство по работе с инструментом Vivado, который используется при разработке аппаратуры для ПЛИС фирмы Xilinx (AMD).
Это руководство содержит рекомендации по организации репозитория проекта, запуска моделирования как в CLI, так и в GUI режимах.
Версия руководства на русском языке — link
Версия руководства на английском языке — link
#bestpractice
🔥25👍9✍2👀2
Please open Telegram to view this post
VIEW IN TELEGRAM
😁27👀8🔥5
Не уходя далеко от темы Vivado, хочу напомнить, что в одном из лучших курсов по процессорным архитектурам есть руководство, которое помогает новичкам освоить основы работы с Vivado.
Если объём материалов курса АПС кажется пугающим и вы не знаете, с чего лучше начать, почему бы не начать знакомство со средой проектирования Vivado?
В руководстве разобраны следующие темы:
1) Создание нового проекта под отладочный стенд Nexys A7;
2) Навигатор по маршруту проектирования;
3) Менеджер проекта;
4) Как запустить симуляцию в Vivado;
5) Руководство по поиску функциональных ошибок;
6) Анализ RTL;
7) Как прошить ПЛИС;
8) Руководство по работе с ошибками обработки кода.
#bestpractice
Если объём материалов курса АПС кажется пугающим и вы не знаете, с чего лучше начать, почему бы не начать знакомство со средой проектирования Vivado?
В руководстве разобраны следующие темы:
1) Создание нового проекта под отладочный стенд Nexys A7;
2) Навигатор по маршруту проектирования;
3) Менеджер проекта;
4) Как запустить симуляцию в Vivado;
5) Руководство по поиску функциональных ошибок;
6) Анализ RTL;
7) Как прошить ПЛИС;
8) Руководство по работе с ошибками обработки кода.
#bestpractice
👍14👀5🔥4
Новая книга от авторов «Цифровая схемотехника и архитектура компьютера»
На сайте издательства Elsevier появилась страничка книги RISC-V Microprocessor System-On-Chip Design.
В авторах указаны хорошо знакомые нам Харрис и Харрис.
Кстати, знали ли вы, что они не муж и жена, а просто однофамильцы?
На данный момент книга не имеет цены и возможности предзаказа, но уже сейчас можно ознакомиться с оглавлением во вкладке «Table Of Contents».
На сайте издательства Elsevier появилась страничка книги RISC-V Microprocessor System-On-Chip Design.
В авторах указаны хорошо знакомые нам Харрис и Харрис.
Кстати, знали ли вы, что они не муж и жена, а просто однофамильцы?
На данный момент книга не имеет цены и возможности предзаказа, но уже сейчас можно ознакомиться с оглавлением во вкладке «Table Of Contents».
🔥54
Помните план США и TSMC по строительству завода в Аризоне?
В одном из чатов по ПЛИСам наткнулся на крутую статью "TSMC’s debacle in the American desert" от 23-го апреля.
Крайне рекомендую ознакомиться.
В статье описываются трудности, с которыми столкнулись американские инженеры во время стажировки на тайваньском заводе Fab 18, где они пытались адаптироваться к местной рабочей культуре.
В частности, они столкнулись с проблемами, вызванными языковым барьером и различиями в подходах к работе: тайваньские инженеры привыкли работать по 12 часов в день, тогда как их американские коллеги предпочитали более сбалансированный рабочий график.
Кроме того американские сотрудники столкнулись с серьёзными проблемами из-за языковых барьеров. Почти всё общение на заводе, включая обучение и собрания, велось на тайваньском или китайском языках, что затрудняло понимание задач.
В теории, будущие тайваньские сотрудники Аризонского завода должны были помогать американским коллегам с переводом, но на практике у многих не хватало времени или опыта для этого.
В результате американские инженеры были вынуждены полагаться на Google Translate и программы для распознавания рукописного текста, которые часто давали неудовлетворительные результаты.
Другим аспектом культурных различий стало то, что некоторые тайваньские инженеры держали на своих рабочих столах календари с изображениями моделей в бикини и обменивались эротическими мемами в рабочих чатах. Это вызвало недовольство среди американских сотрудников, которые считали такие материалы неуместными и просили коллег их убрать.
Как итог — некоторые американские инженеры начали искать новые карьерные предложения в компаниях с менее жесткими требованиями и лучшими карьерными перспективами. В статье также упоминается, что один инженер, работавший как в Intel, так и в TSMC, рассказал, что его тайваньские коллеги интересовались вакансиями в Intel, где они надеялись на лучший баланс между работой и личной жизнью.
В одном из чатов по ПЛИСам наткнулся на крутую статью "TSMC’s debacle in the American desert" от 23-го апреля.
Крайне рекомендую ознакомиться.
В статье описываются трудности, с которыми столкнулись американские инженеры во время стажировки на тайваньском заводе Fab 18, где они пытались адаптироваться к местной рабочей культуре.
В частности, они столкнулись с проблемами, вызванными языковым барьером и различиями в подходах к работе: тайваньские инженеры привыкли работать по 12 часов в день, тогда как их американские коллеги предпочитали более сбалансированный рабочий график.
Кроме того американские сотрудники столкнулись с серьёзными проблемами из-за языковых барьеров. Почти всё общение на заводе, включая обучение и собрания, велось на тайваньском или китайском языках, что затрудняло понимание задач.
В теории, будущие тайваньские сотрудники Аризонского завода должны были помогать американским коллегам с переводом, но на практике у многих не хватало времени или опыта для этого.
В результате американские инженеры были вынуждены полагаться на Google Translate и программы для распознавания рукописного текста, которые часто давали неудовлетворительные результаты.
Другим аспектом культурных различий стало то, что некоторые тайваньские инженеры держали на своих рабочих столах календари с изображениями моделей в бикини и обменивались эротическими мемами в рабочих чатах. Это вызвало недовольство среди американских сотрудников, которые считали такие материалы неуместными и просили коллег их убрать.
Как итог — некоторые американские инженеры начали искать новые карьерные предложения в компаниях с менее жесткими требованиями и лучшими карьерными перспективами. В статье также упоминается, что один инженер, работавший как в Intel, так и в TSMC, рассказал, что его тайваньские коллеги интересовались вакансиями в Intel, где они надеялись на лучший баланс между работой и личной жизнью.
Rest of World
TSMC’s debacle in the American desert
Missed deadlines and tension among Taiwanese and American coworkers are plaguing the chip giant’s Phoenix expansion.
😁30 7👍6👀6
На просторах LinkedIn наткнулся на интересный пейпер — "The Microarchitecture of Superscalar Processors"
В нем доступно и понятно описаны техники проектирования микроархитектуры суперскалярных процессоров, а также приведены реальные примеры суперскалярных процессоров, таких как MIPS R10000, DEC Alpha 21164 и AMD K5. Несмотря на то что статья была опубликована в 1995 году, она все еще актуальна, поскольку многие принципы и подходы, описанные в ней, продолжают применяться в современных процессорах.
Статья отлично подойдет новичкам и энтузиастам в области проектирования процессорных систем.
В нем доступно и понятно описаны техники проектирования микроархитектуры суперскалярных процессоров, а также приведены реальные примеры суперскалярных процессоров, таких как MIPS R10000, DEC Alpha 21164 и AMD K5. Несмотря на то что статья была опубликована в 1995 году, она все еще актуальна, поскольку многие принципы и подходы, описанные в ней, продолжают применяться в современных процессорах.
Статья отлично подойдет новичкам и энтузиастам в области проектирования процессорных систем.
🔥25✍10👍5
И чтобы не скучали, вот вам в догонку статья от 1996-го года с обзором микроархитектуры MIPS R10000.
Buen Finde!🖥
Buen Finde!
Please open Telegram to view this post
VIEW IN TELEGRAM
✍8🔥6👀2👍1
Помните проект Пекинского университета XiangShan?
Проект XiangShan, разработанный Пекинским университетом, представляет собой процессорный IP с открытым исходным кодом, написанный на языке Chisel. Впервые я писал об этом проекте ещё в 2021 году.
Спустя 3 года проект с академических конференций добрался до Hot Chips 2024.
В обзоре доклада можно узнать о последних нововведениях в XiangShan, ознакомиться с актуальной дорожной картой (roadmap) проекта, а также понять, почему в проекте используются две разные микроархитектуры ядра.
На сегодняшний день XiangShan ставит перед собой цель достичь уровня производительности Neoverse V2.
Больше информации можно найти в обзоре доклада - servethehome.
Проект XiangShan, разработанный Пекинским университетом, представляет собой процессорный IP с открытым исходным кодом, написанный на языке Chisel. Впервые я писал об этом проекте ещё в 2021 году.
Спустя 3 года проект с академических конференций добрался до Hot Chips 2024.
В обзоре доклада можно узнать о последних нововведениях в XiangShan, ознакомиться с актуальной дорожной картой (roadmap) проекта, а также понять, почему в проекте используются две разные микроархитектуры ядра.
На сегодняшний день XiangShan ставит перед собой цель достичь уровня производительности Neoverse V2.
Больше информации можно найти в обзоре доклада - servethehome.
👍16🔥8✍4
Продолжая тему китайских академических инициатив принес вам презентацию программы - One Student One Chip.
Инициатива "One Student One Chip" нацелена на то, чтобы каждый студент мог спроектировать и выпустить свой собственный процессор еще до окончания университета.
Особенность проекта в том, что студенты проходят весь путь разработки — от идеи до реализации системы на кристалле.
В рамках программы OSOC студенты не ограничиваются симуляцией или FPGA-прототипами, а создают полноценный чип, который проходит этап tape-out для дальнейшего тестирования и изучения.
Презентация о инициативе One Student One Chip: https://ysyx.oscc.cc/res/files/ysyx-en.pdf
Сайт программы One Student One Chip: https://ysyx.oscc.cc/en/
Инициатива "One Student One Chip" нацелена на то, чтобы каждый студент мог спроектировать и выпустить свой собственный процессор еще до окончания университета.
Особенность проекта в том, что студенты проходят весь путь разработки — от идеи до реализации системы на кристалле.
В рамках программы OSOC студенты не ограничиваются симуляцией или FPGA-прототипами, а создают полноценный чип, который проходит этап tape-out для дальнейшего тестирования и изучения.
Презентация о инициативе One Student One Chip: https://ysyx.oscc.cc/res/files/ysyx-en.pdf
Сайт программы One Student One Chip: https://ysyx.oscc.cc/en/
🔥36👀14👍2 2
Вернемся к новому чипу от RaspberryPi.
Особенности микроархитектуры RP2350.
Микроконтроллер RP2350 на базе ядра Cortex-M33 обладает интересными микроархитектурными решениями в области работы с числами с плавающей запятой.
Одной из особенностей является интеграция кастомного математического сопроцессора двойной точности (DCP), который обеспечивает ускорение операций с числами double, включая сложение, вычитание, умножение, деление и извлечение квадратного корня.
Вместо использования стандартного IP-блока FPU двойной точности от ARM, который занимает значительную площадь кристалла, разработчики RP2350 внедрили компактный сопроцессор, меньший по площади в сравнении с типовым IP-core для поддержки double precision операций. Данное решение позволяет существенно ускорить операции с числами double по сравнению с программной реализацией, при этом минимизируя затраты на аппаратные ресурсы.
Модель программирования для кастомного сопроцессора DCP в RP2350 существенно отличается от стандартного FPU от ARM. При использовании стандартного FPU операции с плавающей запятой выполняются с помощью стандартных ARM-инструкций, и компилятор автоматически генерирует эти инструкции на основе кода высокого уровня, что упрощает разработку. В случае с DCP, разработчикам необходимо использовать специальные последовательности инструкций сопроцессора, известные как "canned instruction sequences", для выполнения операций с числами двойной точности. Это требует более низкоуровневого подхода к программированию и прямого взаимодействия с сопроцессором, что отличается от автоматизированного использования стандартного FPU.
С DCP возможно работать только в ARM режиме, RISC-V ядра не поддерживают работу с кастомным DCP, что обусловлено особенностями микроархитектуры RP2350.
За компактность DCP приходиться платить. Любое решение это компромисс, в данном случае компромисс в вопросах поддержки стандарта ieee-754. В DCP все денормализованные числа обрабатываются как ноль, что негативно сказывается на точности вычислений.
Подробности об ограничениях компактного FPU можно найти в разделе 3.6.2.9 "IEEE 754 compliance" спецификации микроконтроллера RP2350.
Больше деталей про устройство DCP можно найти в разделе 3.6.2 Double-precision Coprocessor (DCP) спецификации на микроконтроллер RP2350.
Примеры кода для работы с DCP можно найти в github репозитории микроконтроллера: https://github.com/raspberrypi/pico-examples/tree/develop/dcp
Библиотека Canned instruction sequences: https://github.com/raspberrypi/pico-sdk/blob/develop/src/rp2_common/hardware_dcp/include/hardware/dcp_canned.inc.S
🖥
Особенности микроархитектуры RP2350.
Микроконтроллер RP2350 на базе ядра Cortex-M33 обладает интересными микроархитектурными решениями в области работы с числами с плавающей запятой.
Одной из особенностей является интеграция кастомного математического сопроцессора двойной точности (DCP), который обеспечивает ускорение операций с числами double, включая сложение, вычитание, умножение, деление и извлечение квадратного корня.
Вместо использования стандартного IP-блока FPU двойной точности от ARM, который занимает значительную площадь кристалла, разработчики RP2350 внедрили компактный сопроцессор, меньший по площади в сравнении с типовым IP-core для поддержки double precision операций. Данное решение позволяет существенно ускорить операции с числами double по сравнению с программной реализацией, при этом минимизируя затраты на аппаратные ресурсы.
Модель программирования для кастомного сопроцессора DCP в RP2350 существенно отличается от стандартного FPU от ARM. При использовании стандартного FPU операции с плавающей запятой выполняются с помощью стандартных ARM-инструкций, и компилятор автоматически генерирует эти инструкции на основе кода высокого уровня, что упрощает разработку. В случае с DCP, разработчикам необходимо использовать специальные последовательности инструкций сопроцессора, известные как "canned instruction sequences", для выполнения операций с числами двойной точности. Это требует более низкоуровневого подхода к программированию и прямого взаимодействия с сопроцессором, что отличается от автоматизированного использования стандартного FPU.
С DCP возможно работать только в ARM режиме, RISC-V ядра не поддерживают работу с кастомным DCP, что обусловлено особенностями микроархитектуры RP2350.
За компактность DCP приходиться платить. Любое решение это компромисс, в данном случае компромисс в вопросах поддержки стандарта ieee-754. В DCP все денормализованные числа обрабатываются как ноль, что негативно сказывается на точности вычислений.
Подробности об ограничениях компактного FPU можно найти в разделе 3.6.2.9 "IEEE 754 compliance" спецификации микроконтроллера RP2350.
Больше деталей про устройство DCP можно найти в разделе 3.6.2 Double-precision Coprocessor (DCP) спецификации на микроконтроллер RP2350.
Примеры кода для работы с DCP можно найти в github репозитории микроконтроллера: https://github.com/raspberrypi/pico-examples/tree/develop/dcp
Библиотека Canned instruction sequences: https://github.com/raspberrypi/pico-sdk/blob/develop/src/rp2_common/hardware_dcp/include/hardware/dcp_canned.inc.S
Please open Telegram to view this post
VIEW IN TELEGRAM
👍14👀8 4✍3
Принес вам чтиво на выходные.
Последнее время слежу на LinkedIn за основателем QuickSilicon Rahul Behl, он периодически публикует классные статьи и заметки в своем профиле.
Rahul поделился статьей про техники проектирования предсказателя переходов.
В этой статье рассматриваются ключевые метрики, связанные с размером предсказателей, а также проводится сравнительный анализ эффективности различных архитектур предсказания, таких как ITTAGE и OGEHL.
Для всех, кто интересуется высокопроизводительными вычислительными системами и микроархитектурой процессоров, рекомендую ознакомиться — отличное погружение в тему оптимизации предсказания ветвлений.
Buen Finde!🖥
Последнее время слежу на LinkedIn за основателем QuickSilicon Rahul Behl, он периодически публикует классные статьи и заметки в своем профиле.
Rahul поделился статьей про техники проектирования предсказателя переходов.
В этой статье рассматриваются ключевые метрики, связанные с размером предсказателей, а также проводится сравнительный анализ эффективности различных архитектур предсказания, таких как ITTAGE и OGEHL.
Для всех, кто интересуется высокопроизводительными вычислительными системами и микроархитектурой процессоров, рекомендую ознакомиться — отличное погружение в тему оптимизации предсказания ветвлений.
Buen Finde!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍16🔥3👀3 1