На канале этот год объявляется годом матричных расширений для RISC-V.
Для контекста, что же такое матричная ISA - советую посмотреть доклад Валерии Пузиковой с первого митапа Альянса RISC-V.
Что сейчас происходит в рабочих группах RISC-V?
До конца года к североамериканскому саммиту рабочие группы для iME (i - Integrated, встроенное матричное расширение переиспользует векторные регистры) и aME (a - Attached, независимое матричное расширение работает с областью памяти или вводятся новые матричные регистры) должны представить функциональные спецификации для матричных расширений, а к концу 2025-го года мы должны увидеть ратифицированные спецификации прошедшие public review.
Однако, кастомеры уже сегодня хотят получить в том или ином виде RISC-V чипы в тандеме с аппаратными ускорителями для AI/ML приложений.
На прошедшем RISC-V China Summit сотрудники компании T-head представили их видение независимого матричного расширения. Документацию и некоторые бенчмарки можно найти в репозитории проекта.
Также не так давно североамериканская компания SiFive открыла часть спецификации для матричных вычислений. Про это я уже писал на канале тут.
Сейчас же еще одна компания
Hangzhou Spacemit представила собственное видение iME спецификации.
Расширение поддерживает значения длины вектора (VLEN) от 128 до 4096. Размер элемента (SEW) может быть только 4, 8 или 16 бит. Введена новая переменная-термин под названием "Copy", которая указывает на количество параллельных операций умножения-накопления (MAC), которые можно выполнить за одну инструкцию. Если значение "Copy" равно 1, это означает, что за одну инструкцию может быть выполнена одна операция MAC для одной пары данных. Если значение "Copy" равно 2, за одну инструкцию можно выполнить две независимые операции MAC для двух разных пар данных. Это позволяет увеличить производительность обработки данных, выполняя несколько операций одновременно.
Набор инструкций, поддерживаемые типы данных, и предлагаемые layout для данных в зависимости от VLEN/SEW найдете в спецификации SpacemiT IME.
Для контекста, что же такое матричная ISA - советую посмотреть доклад Валерии Пузиковой с первого митапа Альянса RISC-V.
Что сейчас происходит в рабочих группах RISC-V?
До конца года к североамериканскому саммиту рабочие группы для iME (i - Integrated, встроенное матричное расширение переиспользует векторные регистры) и aME (a - Attached, независимое матричное расширение работает с областью памяти или вводятся новые матричные регистры) должны представить функциональные спецификации для матричных расширений, а к концу 2025-го года мы должны увидеть ратифицированные спецификации прошедшие public review.
Однако, кастомеры уже сегодня хотят получить в том или ином виде RISC-V чипы в тандеме с аппаратными ускорителями для AI/ML приложений.
На прошедшем RISC-V China Summit сотрудники компании T-head представили их видение независимого матричного расширения. Документацию и некоторые бенчмарки можно найти в репозитории проекта.
Также не так давно североамериканская компания SiFive открыла часть спецификации для матричных вычислений. Про это я уже писал на канале тут.
Сейчас же еще одна компания
Hangzhou Spacemit представила собственное видение iME спецификации.
Расширение поддерживает значения длины вектора (VLEN) от 128 до 4096. Размер элемента (SEW) может быть только 4, 8 или 16 бит. Введена новая переменная-термин под названием "Copy", которая указывает на количество параллельных операций умножения-накопления (MAC), которые можно выполнить за одну инструкцию. Если значение "Copy" равно 1, это означает, что за одну инструкцию может быть выполнена одна операция MAC для одной пары данных. Если значение "Copy" равно 2, за одну инструкцию можно выполнить две независимые операции MAC для двух разных пар данных. Это позволяет увеличить производительность обработки данных, выполняя несколько операций одновременно.
Набор инструкций, поддерживаемые типы данных, и предлагаемые layout для данных в зависимости от VLEN/SEW найдете в спецификации SpacemiT IME.
YouTube
Матричные расширения RISC-V: где, когда, куда, откуда, почему, зачем и как
Операции над матрицами — вечные хот-споты не только в задачах AI/ML и HPC, но и в приложениях AR/VR, обработке изображений и других. Не так давно появился еще один способ их ускорения — матричные расширения CPU. Валерия Пузикова рассмотрела, какие они бывают…
👍28✍2⚡1
В продолжение к новости о спецификации iME от SpacemiT, наткнулся на реддите на такой занимательный пост.
SpacemiT подготовили бенчмарк для оценки пиковой производительности float-point операций.
Исходники бенчмарка открыты и найти их можно в репозитории проекта.
Что интересно, так это результаты бенчмарков. Помимо хорошо знакомых процессоров семейства Cortex-57 и относительно нового Neoverse V1, можно найти результаты для Kendryte K230, на базе C908 про который я писал тут, а также результаты для дизайна от SpacemiT с поддержкой кастомного расширения iME.
Сначала хочется сравнить производительность MAC-вычислений для векторов и матриц. Однако SpacemiT предоставили результаты только для целочисленных операций vmadot с поддержкой iME. Описанная в спецификации, но отсутствующая в результатах, версия vfmadot для чисел с плавающей запятой представляется более интересной. Остается довольствоваться векторной vfma инструкцией и сравнением с VPU ядра C908.
В качестве приятного дополнения также представлены оценки производительности китайской архитектуры loongarch64. Однако значения для loongarch представлены только для типов данных fp32/64, что может быть интересно для задач общего назначения, но не для AI-приложений.
SpacemiT подготовили бенчмарк для оценки пиковой производительности float-point операций.
Исходники бенчмарка открыты и найти их можно в репозитории проекта.
Что интересно, так это результаты бенчмарков. Помимо хорошо знакомых процессоров семейства Cortex-57 и относительно нового Neoverse V1, можно найти результаты для Kendryte K230, на базе C908 про который я писал тут, а также результаты для дизайна от SpacemiT с поддержкой кастомного расширения iME.
Сначала хочется сравнить производительность MAC-вычислений для векторов и матриц. Однако SpacemiT предоставили результаты только для целочисленных операций vmadot с поддержкой iME. Описанная в спецификации, но отсутствующая в результатах, версия vfmadot для чисел с плавающей запятой представляется более интересной. Остается довольствоваться векторной vfma инструкцией и сравнением с VPU ядра C908.
В качестве приятного дополнения также представлены оценки производительности китайской архитектуры loongarch64. Однако значения для loongarch представлены только для типов данных fp32/64, что может быть интересно для задач общего назначения, но не для AI-приложений.
Reddit
From the RISCV community on Reddit: SpacemiT K1 (8 x SpacemiT-X60) floating-points benchmarks
Explore this post and more from the RISCV community
👍13
Книжная полка Истового Инженера: «Цифровой синтез: RISC-V»
Вышло переиздание книги по цифровому синтезу, адаптированное для RISC-V.
Читал я сам только первую часть, которая оставила отличные впечатления от материала. Рекомендую эту книгу как энтузиастам, так и тем, кто собирается строить карьеру в области аппаратного проектирования.
Для поддержки авторов, предзаказал себе pdf версию. Действительно хороших книг по тематике проектирования процессорных систем и цифрового дизайна не так и много, а авторов, кто пишет на русском языке на порядок меньше, поэтому стараюсь поддерживать написание новых книг материально, покупая новая книги, фильтруя откровенный треш за редким исключением.
С оглавлением книги и отрывками из глав можно ознакомиться по этой ссылке с сайта издательства ДМК.
Отдельное спасибо Михаилу Коробкову за упоминание моего канала в книге. Этим жестом ты мне подарил кучу мотивации и хороших эмоций.
Книгу можно купить здесь:
Промокод на скидку 25% от МИЭМ НИУ ВШЭ: MIEM
P.S. Промокод применяется к базовой стоимости и не суммируется с текущей акцией по предзаказу.
P.P.S. почему вы еще не подписаны на моего коллегу, который пишет редкие, но меткие посты про верификацию и магию стандарта SystemVerilog? Надо исправляться
Вышло переиздание книги по цифровому синтезу, адаптированное для RISC-V.
Читал я сам только первую часть, которая оставила отличные впечатления от материала. Рекомендую эту книгу как энтузиастам, так и тем, кто собирается строить карьеру в области аппаратного проектирования.
Для поддержки авторов, предзаказал себе pdf версию. Действительно хороших книг по тематике проектирования процессорных систем и цифрового дизайна не так и много, а авторов, кто пишет на русском языке на порядок меньше, поэтому стараюсь поддерживать написание новых книг материально, покупая новая книги, фильтруя откровенный треш за редким исключением.
С оглавлением книги и отрывками из глав можно ознакомиться по этой ссылке с сайта издательства ДМК.
Отдельное спасибо Михаилу Коробкову за упоминание моего канала в книге. Этим жестом ты мне подарил кучу мотивации и хороших эмоций.
Книгу можно купить здесь:
Промокод на скидку 25% от МИЭМ НИУ ВШЭ: MIEM
P.S. Промокод применяется к базовой стоимости и не суммируется с текущей акцией по предзаказу.
P.P.S. почему вы еще не подписаны на моего коллегу, который пишет редкие, но меткие посты про верификацию и магию стандарта SystemVerilog? Надо исправляться
🔥33🎉12👍5
За последние две недели компания SpacemiT вызвала много шума в новостных порталах. Мы едва успели ознакомиться с кастомной спецификацией для iME, как уже появляются новости о том, что их чип готов в кремнии. Релиз от SpacemiT можно протестировать, заказав отладочную плату на Алиэкспресс или дождаться выпуска ноутубка MuseBook, на базе процессора X60 от SpacemiT.
Не буду переписывать технические характеристики отладочной платы и ноутбука – те, кому это интересно, могут найти подробности по соответствующим ссылкам.
Laptop: link
Dev board: link
Но давайте углубимся в документацию по 8-ядерному процессорному. Особенно интересно разобраться, как именно в нем реализованы блоки матричного умножения и каковы характеристики его AI-ускорителя. Присутствует ли он во всех ядрах или нет? Недавно мы уже обсуждали AI модуль в K230.
В документации на отладочную плату есть overview процессора K1.
8-ядерный процессор представлен двумя кластерами по 4 ядра. Оба кластера имеют векторный сопроцессор с VLEN = 256bit (128bit x2 execution width). Каждое ядро поддерживает набор расширений 64GCVB и соответствует профилю RVA22.
Нулевой кластер имеет как раз дополнительную аппаратную логику для ускорения AI приложений. Дополнительную накристальную память 512KB TCM, как я понимаю для хранения значений аккумуляторов при обработке матричных вычислениях. На кластер заявляется 2 TOPS, что дает нам 0.5 TOPS на ядро, но при этом не совсем понятно о каком datatype идет речь. Но т.к. совсем недавно мы обсуждали бенчмарк cpufp обратимся к нему и увидим, что инструкция
Пока RISC-V спецификация от sig для матричных вычислений только разрабатывается, а увидим первый драфт функциональной части только к ноябрю 2024 года на рынке представлены спецификации от SpacemiT для iME и от T-head для iMA
На этом заканчиваю двухнедельный обзор новостей о SpacemiT☺️
Не буду переписывать технические характеристики отладочной платы и ноутбука – те, кому это интересно, могут найти подробности по соответствующим ссылкам.
Laptop: link
Dev board: link
Но давайте углубимся в документацию по 8-ядерному процессорному. Особенно интересно разобраться, как именно в нем реализованы блоки матричного умножения и каковы характеристики его AI-ускорителя. Присутствует ли он во всех ядрах или нет? Недавно мы уже обсуждали AI модуль в K230.
В документации на отладочную плату есть overview процессора K1.
8-ядерный процессор представлен двумя кластерами по 4 ядра. Оба кластера имеют векторный сопроцессор с VLEN = 256bit (128bit x2 execution width). Каждое ядро поддерживает набор расширений 64GCVB и соответствует профилю RVA22.
Нулевой кластер имеет как раз дополнительную аппаратную логику для ускорения AI приложений. Дополнительную накристальную память 512KB TCM, как я понимаю для хранения значений аккумуляторов при обработке матричных вычислениях. На кластер заявляется 2 TOPS, что дает нам 0.5 TOPS на ядро, но при этом не совсем понятно о каком datatype идет речь. Но т.к. совсем недавно мы обсуждали бенчмарк cpufp обратимся к нему и увидим, что инструкция
vmadot матричного умножения для int8 на 1 ядро дает 511.53 GOPS, а для 4-ядрерного cluster 0 (with ime extension) дает 2.046 TOPS, что соответствует заявленной в документации производительности. Пока RISC-V спецификация от sig для матричных вычислений только разрабатывается, а увидим первый драфт функциональной части только к ноябрю 2024 года на рынке представлены спецификации от SpacemiT для iME и от T-head для iMA
На этом заканчиваю двухнедельный обзор новостей о SpacemiT
Please open Telegram to view this post
VIEW IN TELEGRAM
👍18👀8❤2
Конференция FPGA-Systems 2024.1
Всем привет 👋🏻
Если конференций, митапов по программированию десятки, сотни, то с конференциями по цифровому проектированию и верификации дела обстоят не так хорошо.
Одна из немногих ламповых, локальных конференций - это конференция FPGA-Systems.
Кстати, кто-то из читателей канала был на самой первой конференции? Давайте устроим перепись в комментариях.
Участие полностью бесплатно, не надо покупать никаких билетов на офлайн/онлайн участие. Для офлайн участия нужно только зарегистрироваться и получить подтверждение, что в аудитории есть свободные места.
Делается конференция полностью на альтруизме Михаила Коробкова (организатора комьюнити ПЛИС Систем) и силами неравнодушных помощников.
Подробнее о программе и месте проведения по ссылкам:
• Санкт-Петербург, 25 мая → подробности на сайте
• Москва, 1 июня → подробности на сайте
Всем привет 👋🏻
Если конференций, митапов по программированию десятки, сотни, то с конференциями по цифровому проектированию и верификации дела обстоят не так хорошо.
Одна из немногих ламповых, локальных конференций - это конференция FPGA-Systems.
Кстати, кто-то из читателей канала был на самой первой конференции? Давайте устроим перепись в комментариях.
Участие полностью бесплатно, не надо покупать никаких билетов на офлайн/онлайн участие. Для офлайн участия нужно только зарегистрироваться и получить подтверждение, что в аудитории есть свободные места.
Делается конференция полностью на альтруизме Михаила Коробкова (организатора комьюнити ПЛИС Систем) и силами неравнодушных помощников.
Подробнее о программе и месте проведения по ссылкам:
• Санкт-Петербург, 25 мая → подробности на сайте
• Москва, 1 июня → подробности на сайте
🔥10❤2✍2
RISC-V обновили спецификацию
Команда RISC-V объединила в одном документе все ратифицированные спецификации. Например, теперь не нужно отдельно выкачивать документацию для векторного или bitmanip расширения.
Объем PDF-документа значительно увеличился: с чуть более чем 250 страниц до 670.
Общая стилистика документа переработана и все спецификации приведены к единому оформлению.
Дополнительно приведу еще полезную ссылку, где можно получать актуальную информацию о последних ратифицированных расширениях:
https://wiki.riscv.org/display/HOME/Ratified+Extensions
А чтобы рабочая пятница проходила повеселее держите мемес,сворованный позаимствованный из флудилки с коллегами☺️
Команда RISC-V объединила в одном документе все ратифицированные спецификации. Например, теперь не нужно отдельно выкачивать документацию для векторного или bitmanip расширения.
Объем PDF-документа значительно увеличился: с чуть более чем 250 страниц до 670.
Общая стилистика документа переработана и все спецификации приведены к единому оформлению.
Дополнительно приведу еще полезную ссылку, где можно получать актуальную информацию о последних ратифицированных расширениях:
https://wiki.riscv.org/display/HOME/Ratified+Extensions
А чтобы рабочая пятница проходила повеселее держите мемес,
Please open Telegram to view this post
VIEW IN TELEGRAM
👍23🔥10⚡1😱1
Не знаю, как и зачем алгоритмы Твиттера завели меня в сегмент мемов про полупроводники, но теперь вам придется смотреть их вместе со мной 🤡
Btw, хочу обсудить с вами следующую идею. На quicksilicon появился раздел с задачами на SystemVerilog — от самых простых, таких как mux 2 в 1, до написания синхронного FIFO, арбитра Round Robin и разработки APB slave.
В задачах уже приведено решение, но нету никаких описаний и пояснений. Делаем разбор интересных задачек? С картинками, времянками, подробным объяснением. Как вам такой контент?
Помню, что обещал разбор лабораторной работы из RVfpga, но пришел к выводу, что лучше это делать либо в формате live-стрима, либо записи, а не текстом.
Ниже я подготовлю опрос, чтобы понять уровень экспертности моей аудитории в цифровом дизайне и их заинтересованность в этой теме☺️
Btw, хочу обсудить с вами следующую идею. На quicksilicon появился раздел с задачами на SystemVerilog — от самых простых, таких как mux 2 в 1, до написания синхронного FIFO, арбитра Round Robin и разработки APB slave.
В задачах уже приведено решение, но нету никаких описаний и пояснений. Делаем разбор интересных задачек? С картинками, времянками, подробным объяснением. Как вам такой контент?
Помню, что обещал разбор лабораторной работы из RVfpga, но пришел к выводу, что лучше это делать либо в формате live-стрима, либо записи, а не текстом.
Ниже я подготовлю опрос, чтобы понять уровень экспертности моей аудитории в цифровом дизайне и их заинтересованность в этой теме
Please open Telegram to view this post
VIEW IN TELEGRAM
👍43🔥12 3❤1
Fourth International workshop on RISC-V for HPC
16 мая в Гамбурге прошёл международный workshop, посвящённый использованию RISC-V в высокопроизводительных вычислениях (HPC). Презентации докладов доступны по этой ссылке.
Must see доклады:
1) Performance analysis (and optimization) of BERT on RISC-V processors with SIMD units: В докладе рассматриваются три платформы на базе процессорных IP Xuantie и описываются оптимизации для высокопроизводительной операции GEMM. В докладе найдете ссылки на классные источники по оптимизации алгоритмов для GEMM и High-Performance BLIS.
2) Performance characterisation of the 64-core SG2042 RISC-V CPU for HPC: Сравнение 64-ядерного процессора на базе ядра C920 с одноплатниками VisionFive, HiFive Unmatched и процессорами на других архитектурах, такими как AMD Epyc 7742, Xeon Platinum 8170, Marvell ThunderX2. Значения бенчмарков и красивые графики найдете по ссылке выше.
Так же загляните конечно в Vendor talk'и от Semidynamics (где я работаю над тензорным ядром) и Codasip. Доклады отлично подходят для понимания над какими IP и в каких направлениях работают европейские RISC-V дизайн центры.
16 мая в Гамбурге прошёл международный workshop, посвящённый использованию RISC-V в высокопроизводительных вычислениях (HPC). Презентации докладов доступны по этой ссылке.
Must see доклады:
1) Performance analysis (and optimization) of BERT on RISC-V processors with SIMD units: В докладе рассматриваются три платформы на базе процессорных IP Xuantie и описываются оптимизации для высокопроизводительной операции GEMM. В докладе найдете ссылки на классные источники по оптимизации алгоритмов для GEMM и High-Performance BLIS.
2) Performance characterisation of the 64-core SG2042 RISC-V CPU for HPC: Сравнение 64-ядерного процессора на базе ядра C920 с одноплатниками VisionFive, HiFive Unmatched и процессорами на других архитектурах, такими как AMD Epyc 7742, Xeon Platinum 8170, Marvell ThunderX2. Значения бенчмарков и красивые графики найдете по ссылке выше.
Так же загляните конечно в Vendor talk'и от Semidynamics (где я работаю над тензорным ядром) и Codasip. Доклады отлично подходят для понимания над какими IP и в каких направлениях работают европейские RISC-V дизайн центры.
ExCALIBUR H&ES RISC-V testbed
Fourth International workshop on RISC-V for HPC
Workshop details Co-located with ISC 2024, this is a half day morning workshop on Thursday 16th May 2024 in Hamburg, Germany in Hall Y8 - 2nd Floor of the Congress Center Hamburg.
👍13🔥8
Please open Telegram to view this post
VIEW IN TELEGRAM
👍26🥰3🤓3
31st IEEE International Symposium on Computer Arithmetic ARITH 2024
В Испании прошел 31-й симпозиум по компьютерной арифметике. На конференции было представлено много интересных докладов, которые мы разберем в следующих постах.
Сегодня остановимся на докладе от ARM Fused FP8 4-Way/2-Way Dot Product With Scaling and FP32/FP16 Accumulation.
В докладе и статье описаны подходы, которые применялись при разработке SIMD умножителя с накоплением (матричного умножителя) — базовый блок в дизайне любого NPU/TSU ускорителя.
В работе представлен дизайн с FP8 двух типов +/-e5m2, +/-e4m3, etc (IEEE P3109) в двух имплементациях с ранним (EA) и поздним (LA) аккумулированием результата.
Обе микроархитектуры имеют конвейерное построение с четырьмя этапами для достижения целевой частоты 3,6 ГГц.
Подходы, предложенные авторами статьи, были синтезированы на базе 5-нм технологии. На основе полученных результатов синтеза авторы делают следующие предложение по использованию подходов с ранним и поздним аккумулированием в вычислительных системах:
FP8-DOT4-LA можно адаптировать для высокопроизводительных вычислительных блоков CPU с уже существующими блоками fma32, поскольку данный подход обеспечивает прирост производительности при минимальных дополнительных затратах в площади целевого дизайна.
FP8-DOT4-EA лучше подходит для специализированных ускорителей, где важно снизить общую площадь вычислительного юнита, что полезно при масштабировании вычислительных блоков.
Для более детального ознакомления с работой рекомендую обратиться к статье David R. Lutz.
ссылка на материалы конференции https://www.ac.uma.es/arith2024/program.html
ссылка на презентацию от ARM: https://www.ac.uma.es/arith2024/slides/3_ARITH-2024.paper45.pdf
В Испании прошел 31-й симпозиум по компьютерной арифметике. На конференции было представлено много интересных докладов, которые мы разберем в следующих постах.
Сегодня остановимся на докладе от ARM Fused FP8 4-Way/2-Way Dot Product With Scaling and FP32/FP16 Accumulation.
В докладе и статье описаны подходы, которые применялись при разработке SIMD умножителя с накоплением (матричного умножителя) — базовый блок в дизайне любого NPU/TSU ускорителя.
В работе представлен дизайн с FP8 двух типов +/-e5m2, +/-e4m3, etc (IEEE P3109) в двух имплементациях с ранним (EA) и поздним (LA) аккумулированием результата.
Обе микроархитектуры имеют конвейерное построение с четырьмя этапами для достижения целевой частоты 3,6 ГГц.
Подходы, предложенные авторами статьи, были синтезированы на базе 5-нм технологии. На основе полученных результатов синтеза авторы делают следующие предложение по использованию подходов с ранним и поздним аккумулированием в вычислительных системах:
FP8-DOT4-LA можно адаптировать для высокопроизводительных вычислительных блоков CPU с уже существующими блоками fma32, поскольку данный подход обеспечивает прирост производительности при минимальных дополнительных затратах в площади целевого дизайна.
FP8-DOT4-EA лучше подходит для специализированных ускорителей, где важно снизить общую площадь вычислительного юнита, что полезно при масштабировании вычислительных блоков.
Для более детального ознакомления с работой рекомендую обратиться к статье David R. Lutz.
ссылка на материалы конференции https://www.ac.uma.es/arith2024/program.html
ссылка на презентацию от ARM: https://www.ac.uma.es/arith2024/slides/3_ARITH-2024.paper45.pdf
👍18✍2❤2👎1🤓1
RISC-V Europe Summit 2024
В последнюю неделю июня пройдет RISC-V Summit в городе Мюнхен.
Ожидаю много интересных докладов. В первую очередь про программно-аппаратную поддержку матричных расширений в RISC-V экосистеме. А если матрицы поднадоели, то сможете найти доклад на свой вкус в программе конференции.
Даты и место проведения саммита:
⏺ Июнь 24 - 28
⏺ MOC – Event Center Messe Munich
Если кто-то читателей канала будет присутствовать на саммите приходите развиртуализироваться к стендy компании Semidynamics 👋🏻
В последнюю неделю июня пройдет RISC-V Summit в городе Мюнхен.
Ожидаю много интересных докладов. В первую очередь про программно-аппаратную поддержку матричных расширений в RISC-V экосистеме. А если матрицы поднадоели, то сможете найти доклад на свой вкус в программе конференции.
Даты и место проведения саммита:
Если кто-то читателей канала будет присутствовать на саммите приходите развиртуализироваться к стендy компании Semidynamics 👋🏻
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥9👍4🤓3🐳2
Попался на YouTube занимательный ролик, где рассказывается о подборке книг по тематике Computer / Hardware Engineering. Список книг можно найти в описании к видео, а также в первом комментарии к посту.
В русскоязычном сегменте уже есть хорошая подборка книг от Юрия Панчула "Следующие шаги в черной магии процессоростроения после того, как вы освоили Харрис & Харрис". Ознакомиться с ней можно на Хабре.
Обсуждать, какая книга лучше и является той самой для изучения того или иного топика, можно бесконечно. Однако такие подборки решают другую проблему. Литературы по цифровому дизайну не так много, а искать её — отдельная задача. В этих двух подборках представлены книги по различным направлениям, начиная от компьютерной архитектуры, продолжая подходу к работе с SystemVerilog assertion и заканчивая книгой по скриптовому языку Tcl.
Такие подборки выступают второй ступенькой, когда базовый учебник, которым, по моему мнению, в профессии проектировщика процессорных систем является Харрис & Харрис "Цифровая схемотехника и архитектура компьютера", уже прочитан и изучен. Ознакомиться с этой книгой можно по этой ссылке.
Для себя из списка выделил книгу по Static Timing Analysis for Nanometer Design (pdf файл на которую находится по второй ссылке в гугле).
До этого момента я не сталкивался с литературой по тематике STA, однако содержание этой книги показалось мне весьма увлекательным. Задачи по достижению timing closure и обеспечению требуемой рабочей частоты остаются одними из самых трудоемких этапов при проектировании конечного устройства.
В русскоязычном сегменте уже есть хорошая подборка книг от Юрия Панчула "Следующие шаги в черной магии процессоростроения после того, как вы освоили Харрис & Харрис". Ознакомиться с ней можно на Хабре.
Обсуждать, какая книга лучше и является той самой для изучения того или иного топика, можно бесконечно. Однако такие подборки решают другую проблему. Литературы по цифровому дизайну не так много, а искать её — отдельная задача. В этих двух подборках представлены книги по различным направлениям, начиная от компьютерной архитектуры, продолжая подходу к работе с SystemVerilog assertion и заканчивая книгой по скриптовому языку Tcl.
Такие подборки выступают второй ступенькой, когда базовый учебник, которым, по моему мнению, в профессии проектировщика процессорных систем является Харрис & Харрис "Цифровая схемотехника и архитектура компьютера", уже прочитан и изучен. Ознакомиться с этой книгой можно по этой ссылке.
Для себя из списка выделил книгу по Static Timing Analysis for Nanometer Design (pdf файл на которую находится по второй ссылке в гугле).
До этого момента я не сталкивался с литературой по тематике STA, однако содержание этой книги показалось мне весьма увлекательным. Задачи по достижению timing closure и обеспечению требуемой рабочей частоты остаются одними из самых трудоемких этапов при проектировании конечного устройства.
Хабр
Следущие шаги в черной магии процессоростроения после того, как вы освоили Харрис & Харрис
Недавно вышло еще одно печатное издание книжки Харрис & Харрис на русском языке . Это широкоохватывающий ликбез про то, как проектируют микросхемы в компаниях типа Apple и Intel (методология...
👍28🔥5❤4🤓3👀3
Принес вам с просторов Твиттера Die Yield Calculator
В калькуляторе можно задавать диаметр пластины, указывать размеры чипа и другие дополнительные параметры, такие как Edge Loss — ширина внешней области пластины, которая не может быть использована для размещения кристаллов из-за технологических ограничений.
Энтузиасты ввели в калькулятор значения для чипов Apple A15 и Nvidia H100. Согласно данным этого калькулятора, даже при выходе годных кристаллов в 90% для Apple, для NVIDIA этот показатель всё равно составляет менее 50%. Не думаю, что эта информация может быть применима для чего-то, кроме понимания того, что конечная стоимость продукта и размер партии, а вследствие этого и цены конечного изделия, в том числе определяется физическим размером чипа на пластине.
Отдельно в калькуляторе указан параметр для Murphy’s Model of Die Yield. Эта модель используется в полупроводниковой промышленности для прогнозирования числа годных (не имеющих дефектов) кристаллов, которые можно получить из одной пластины. Больше деталей про закон/модель Мёрфи можно найти здесь.
В калькуляторе можно задавать диаметр пластины, указывать размеры чипа и другие дополнительные параметры, такие как Edge Loss — ширина внешней области пластины, которая не может быть использована для размещения кристаллов из-за технологических ограничений.
Энтузиасты ввели в калькулятор значения для чипов Apple A15 и Nvidia H100. Согласно данным этого калькулятора, даже при выходе годных кристаллов в 90% для Apple, для NVIDIA этот показатель всё равно составляет менее 50%. Не думаю, что эта информация может быть применима для чего-то, кроме понимания того, что конечная стоимость продукта и размер партии, а вследствие этого и цены конечного изделия, в том числе определяется физическим размером чипа на пластине.
Отдельно в калькуляторе указан параметр для Murphy’s Model of Die Yield. Эта модель используется в полупроводниковой промышленности для прогнозирования числа годных (не имеющих дефектов) кристаллов, которые можно получить из одной пластины. Больше деталей про закон/модель Мёрфи можно найти здесь.
👍23🔥6❤5
Каюсь, что снова пропал на месяц.
Контент настаивается, готовится к релизу, поэтому пока что предлагаю небольшую разминку.
Не подсматривайте и выбирайте сердцем.
Ответ будет в комментариях☕️
Контент настаивается, готовится к релизу, поэтому пока что предлагаю небольшую разминку.
Не подсматривайте и выбирайте сердцем.
Ответ будет в комментариях
Please open Telegram to view this post
VIEW IN TELEGRAM
😱6👍3👀3
😱8👍1
Пополнение в железе для RISC-V AI — канадская компания, под руководством Джима Келлера представила новый чип Wormhole.
Tenstorrent Launches Wormhole AI Processors: 466 FP8 TFLOPS at 300W
Представлены 2 варианта плат разработчика n150 и n300, с производительностью равной 262 и 466 TeraFLOPs (FP8) соответственно.
Младшую плату можно приобрести за 1000$. за старшую модель придется заплатить уже 1400$.
Больше деталей и характеристик найдется на сайте компании.
Компилятор, для запуска ML-моделей на железе от TT называетсяCUDA BUDA😬
Cофт стек в целом - TT-Metalium, открытый низкоуровневый SDK.
SDK TT-Metalium будет полезен для разработчиков, которые хотят настроить и оптимизировать свои модели машинного обучения, писать новые ядра для выполнения ключевых операций, экспериментировать с низкоуровневыми вычислениями и запускать код, не связанный с машинным обучением, с максимальной производительностью и эффективностью.
[Спасибо Artem E, за подсказку в комментариях]
Подробности о софтверном стeке от Tenstorrent можно найти на github'e проекта.
Так же для понимания и правильного позиционирования продукта рекомендую прочитать интервью с Джимом Кэеллером порталу Nikkei Asia. В этом интервью CEO Tenstorrent бегло отвечает на вопрос о использовании HBM в AI ускорителях с точки зрения энергопотребления и цены конечного продукта.
Tenstorrent Launches Wormhole AI Processors: 466 FP8 TFLOPS at 300W
Представлены 2 варианта плат разработчика n150 и n300, с производительностью равной 262 и 466 TeraFLOPs (FP8) соответственно.
Младшую плату можно приобрести за 1000$. за старшую модель придется заплатить уже 1400$.
Больше деталей и характеристик найдется на сайте компании.
Компилятор, для запуска ML-моделей на железе от TT называется
Cофт стек в целом - TT-Metalium, открытый низкоуровневый SDK.
SDK TT-Metalium будет полезен для разработчиков, которые хотят настроить и оптимизировать свои модели машинного обучения, писать новые ядра для выполнения ключевых операций, экспериментировать с низкоуровневыми вычислениями и запускать код, не связанный с машинным обучением, с максимальной производительностью и эффективностью.
[Спасибо Artem E, за подсказку в комментариях]
Подробности о софтверном стeке от Tenstorrent можно найти на github'e проекта.
Так же для понимания и правильного позиционирования продукта рекомендую прочитать интервью с Джимом Кэеллером порталу Nikkei Asia. В этом интервью CEO Tenstorrent бегло отвечает на вопрос о использовании HBM в AI ускорителях с точки зрения энергопотребления и цены конечного продукта.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13🔥3
Intel сократит более 15 000 сотрудников
Число невероятно большое, иногда забываю, насколько огромны такие корпорации. Интересно, наберется ли во всем СНГ 15 000 сотрудников в области полупроводников?
The Verge пишет, что в планах также остановить некую "non-essential work". Конечно же, загадка, что именно скрывается за этой обтекаемой формулировкой.
Больше всего интересно узнать, какая судьба будет у Intel ARC в сегменте GPU и Intel Gaudi в сегменте AI-ускорителей. Оба этих семейства пока что не произвели большого впечатления на рынке.
Intel — одна из немногих компаний, у которой есть собственные производственные мощности для выпуска чипов. Intel занимается буквально всем: разработкой и поддержкой новых техпроцессов, процессорами общего назначения, серверными процессорами, GPU, AI-ускорителями, FPGA-подразделением (бывшая настоящая Altera), разработкой программной экосистемы для новых продуктов.
В 2018 году, когда TSMC уже начала производство 7-нм чипов, у Intel появились проблемы с внедрением 10-нм технологий. Как только у Intel пропало явное преимущество в технологическом процессе перед AMD, конкуренция резко обострилась, и скомпенсировать утерю преимущества микроархитектурой, как мы видим, не удалось.
Так что запасаемся попкорном, а обсудить взлеты и падения Intel всегда можно в комментариях 👀
Число невероятно большое, иногда забываю, насколько огромны такие корпорации. Интересно, наберется ли во всем СНГ 15 000 сотрудников в области полупроводников?
The Verge пишет, что в планах также остановить некую "non-essential work". Конечно же, загадка, что именно скрывается за этой обтекаемой формулировкой.
Больше всего интересно узнать, какая судьба будет у Intel ARC в сегменте GPU и Intel Gaudi в сегменте AI-ускорителей. Оба этих семейства пока что не произвели большого впечатления на рынке.
Intel — одна из немногих компаний, у которой есть собственные производственные мощности для выпуска чипов. Intel занимается буквально всем: разработкой и поддержкой новых техпроцессов, процессорами общего назначения, серверными процессорами, GPU, AI-ускорителями, FPGA-подразделением (
В 2018 году, когда TSMC уже начала производство 7-нм чипов, у Intel появились проблемы с внедрением 10-нм технологий. Как только у Intel пропало явное преимущество в технологическом процессе перед AMD, конкуренция резко обострилась, и скомпенсировать утерю преимущества микроархитектурой, как мы видим, не удалось.
Так что запасаемся попкорном, а обсудить взлеты и падения Intel всегда можно в комментариях 👀
👍16😱9😁5🐳3👀2
Фиксируем прибыль с акций Интела?
По ссылке выше грустная история инвестиций в 700 000 долларов, полученных по наследству и слитых за 1 день☕️
По ссылке выше грустная история инвестиций в 700 000 долларов, полученных по наследству и слитых за 1 день
Please open Telegram to view this post
VIEW IN TELEGRAM
🗿14😁6😨3👍2🤡2
Если бурления вокруг Intel уже приелись, а душа требует срача, то на хабре случился очередной panchul-gate.
Я, наверное, подожду ещё пару дней, пока комментарии настоятся, но ревнители жанра могут ознакомиться с мнениями хабра-экспертов уже сейчас☺️
Я, наверное, подожду ещё пару дней, пока комментарии настоятся, но ревнители жанра могут ознакомиться с мнениями хабра-экспертов уже сейчас
Please open Telegram to view this post
VIEW IN TELEGRAM