В продолжение к новости о спецификации iME от SpacemiT, наткнулся на реддите на такой занимательный пост.
SpacemiT подготовили бенчмарк для оценки пиковой производительности float-point операций.
Исходники бенчмарка открыты и найти их можно в репозитории проекта.
Что интересно, так это результаты бенчмарков. Помимо хорошо знакомых процессоров семейства Cortex-57 и относительно нового Neoverse V1, можно найти результаты для Kendryte K230, на базе C908 про который я писал тут, а также результаты для дизайна от SpacemiT с поддержкой кастомного расширения iME.
Сначала хочется сравнить производительность MAC-вычислений для векторов и матриц. Однако SpacemiT предоставили результаты только для целочисленных операций vmadot с поддержкой iME. Описанная в спецификации, но отсутствующая в результатах, версия vfmadot для чисел с плавающей запятой представляется более интересной. Остается довольствоваться векторной vfma инструкцией и сравнением с VPU ядра C908.
В качестве приятного дополнения также представлены оценки производительности китайской архитектуры loongarch64. Однако значения для loongarch представлены только для типов данных fp32/64, что может быть интересно для задач общего назначения, но не для AI-приложений.
SpacemiT подготовили бенчмарк для оценки пиковой производительности float-point операций.
Исходники бенчмарка открыты и найти их можно в репозитории проекта.
Что интересно, так это результаты бенчмарков. Помимо хорошо знакомых процессоров семейства Cortex-57 и относительно нового Neoverse V1, можно найти результаты для Kendryte K230, на базе C908 про который я писал тут, а также результаты для дизайна от SpacemiT с поддержкой кастомного расширения iME.
Сначала хочется сравнить производительность MAC-вычислений для векторов и матриц. Однако SpacemiT предоставили результаты только для целочисленных операций vmadot с поддержкой iME. Описанная в спецификации, но отсутствующая в результатах, версия vfmadot для чисел с плавающей запятой представляется более интересной. Остается довольствоваться векторной vfma инструкцией и сравнением с VPU ядра C908.
В качестве приятного дополнения также представлены оценки производительности китайской архитектуры loongarch64. Однако значения для loongarch представлены только для типов данных fp32/64, что может быть интересно для задач общего назначения, но не для AI-приложений.
Reddit
From the RISCV community on Reddit: SpacemiT K1 (8 x SpacemiT-X60) floating-points benchmarks
Explore this post and more from the RISCV community
👍13
Книжная полка Истового Инженера: «Цифровой синтез: RISC-V»
Вышло переиздание книги по цифровому синтезу, адаптированное для RISC-V.
Читал я сам только первую часть, которая оставила отличные впечатления от материала. Рекомендую эту книгу как энтузиастам, так и тем, кто собирается строить карьеру в области аппаратного проектирования.
Для поддержки авторов, предзаказал себе pdf версию. Действительно хороших книг по тематике проектирования процессорных систем и цифрового дизайна не так и много, а авторов, кто пишет на русском языке на порядок меньше, поэтому стараюсь поддерживать написание новых книг материально, покупая новая книги, фильтруя откровенный треш за редким исключением.
С оглавлением книги и отрывками из глав можно ознакомиться по этой ссылке с сайта издательства ДМК.
Отдельное спасибо Михаилу Коробкову за упоминание моего канала в книге. Этим жестом ты мне подарил кучу мотивации и хороших эмоций.
Книгу можно купить здесь:
Промокод на скидку 25% от МИЭМ НИУ ВШЭ: MIEM
P.S. Промокод применяется к базовой стоимости и не суммируется с текущей акцией по предзаказу.
P.P.S. почему вы еще не подписаны на моего коллегу, который пишет редкие, но меткие посты про верификацию и магию стандарта SystemVerilog? Надо исправляться
Вышло переиздание книги по цифровому синтезу, адаптированное для RISC-V.
Читал я сам только первую часть, которая оставила отличные впечатления от материала. Рекомендую эту книгу как энтузиастам, так и тем, кто собирается строить карьеру в области аппаратного проектирования.
Для поддержки авторов, предзаказал себе pdf версию. Действительно хороших книг по тематике проектирования процессорных систем и цифрового дизайна не так и много, а авторов, кто пишет на русском языке на порядок меньше, поэтому стараюсь поддерживать написание новых книг материально, покупая новая книги, фильтруя откровенный треш за редким исключением.
С оглавлением книги и отрывками из глав можно ознакомиться по этой ссылке с сайта издательства ДМК.
Отдельное спасибо Михаилу Коробкову за упоминание моего канала в книге. Этим жестом ты мне подарил кучу мотивации и хороших эмоций.
Книгу можно купить здесь:
Промокод на скидку 25% от МИЭМ НИУ ВШЭ: MIEM
P.S. Промокод применяется к базовой стоимости и не суммируется с текущей акцией по предзаказу.
P.P.S. почему вы еще не подписаны на моего коллегу, который пишет редкие, но меткие посты про верификацию и магию стандарта SystemVerilog? Надо исправляться
🔥33🎉12👍5
За последние две недели компания SpacemiT вызвала много шума в новостных порталах. Мы едва успели ознакомиться с кастомной спецификацией для iME, как уже появляются новости о том, что их чип готов в кремнии. Релиз от SpacemiT можно протестировать, заказав отладочную плату на Алиэкспресс или дождаться выпуска ноутубка MuseBook, на базе процессора X60 от SpacemiT.
Не буду переписывать технические характеристики отладочной платы и ноутбука – те, кому это интересно, могут найти подробности по соответствующим ссылкам.
Laptop: link
Dev board: link
Но давайте углубимся в документацию по 8-ядерному процессорному. Особенно интересно разобраться, как именно в нем реализованы блоки матричного умножения и каковы характеристики его AI-ускорителя. Присутствует ли он во всех ядрах или нет? Недавно мы уже обсуждали AI модуль в K230.
В документации на отладочную плату есть overview процессора K1.
8-ядерный процессор представлен двумя кластерами по 4 ядра. Оба кластера имеют векторный сопроцессор с VLEN = 256bit (128bit x2 execution width). Каждое ядро поддерживает набор расширений 64GCVB и соответствует профилю RVA22.
Нулевой кластер имеет как раз дополнительную аппаратную логику для ускорения AI приложений. Дополнительную накристальную память 512KB TCM, как я понимаю для хранения значений аккумуляторов при обработке матричных вычислениях. На кластер заявляется 2 TOPS, что дает нам 0.5 TOPS на ядро, но при этом не совсем понятно о каком datatype идет речь. Но т.к. совсем недавно мы обсуждали бенчмарк cpufp обратимся к нему и увидим, что инструкция
Пока RISC-V спецификация от sig для матричных вычислений только разрабатывается, а увидим первый драфт функциональной части только к ноябрю 2024 года на рынке представлены спецификации от SpacemiT для iME и от T-head для iMA
На этом заканчиваю двухнедельный обзор новостей о SpacemiT☺️
Не буду переписывать технические характеристики отладочной платы и ноутбука – те, кому это интересно, могут найти подробности по соответствующим ссылкам.
Laptop: link
Dev board: link
Но давайте углубимся в документацию по 8-ядерному процессорному. Особенно интересно разобраться, как именно в нем реализованы блоки матричного умножения и каковы характеристики его AI-ускорителя. Присутствует ли он во всех ядрах или нет? Недавно мы уже обсуждали AI модуль в K230.
В документации на отладочную плату есть overview процессора K1.
8-ядерный процессор представлен двумя кластерами по 4 ядра. Оба кластера имеют векторный сопроцессор с VLEN = 256bit (128bit x2 execution width). Каждое ядро поддерживает набор расширений 64GCVB и соответствует профилю RVA22.
Нулевой кластер имеет как раз дополнительную аппаратную логику для ускорения AI приложений. Дополнительную накристальную память 512KB TCM, как я понимаю для хранения значений аккумуляторов при обработке матричных вычислениях. На кластер заявляется 2 TOPS, что дает нам 0.5 TOPS на ядро, но при этом не совсем понятно о каком datatype идет речь. Но т.к. совсем недавно мы обсуждали бенчмарк cpufp обратимся к нему и увидим, что инструкция
vmadot матричного умножения для int8 на 1 ядро дает 511.53 GOPS, а для 4-ядрерного cluster 0 (with ime extension) дает 2.046 TOPS, что соответствует заявленной в документации производительности. Пока RISC-V спецификация от sig для матричных вычислений только разрабатывается, а увидим первый драфт функциональной части только к ноябрю 2024 года на рынке представлены спецификации от SpacemiT для iME и от T-head для iMA
На этом заканчиваю двухнедельный обзор новостей о SpacemiT
Please open Telegram to view this post
VIEW IN TELEGRAM
👍18👀8❤2
Конференция FPGA-Systems 2024.1
Всем привет 👋🏻
Если конференций, митапов по программированию десятки, сотни, то с конференциями по цифровому проектированию и верификации дела обстоят не так хорошо.
Одна из немногих ламповых, локальных конференций - это конференция FPGA-Systems.
Кстати, кто-то из читателей канала был на самой первой конференции? Давайте устроим перепись в комментариях.
Участие полностью бесплатно, не надо покупать никаких билетов на офлайн/онлайн участие. Для офлайн участия нужно только зарегистрироваться и получить подтверждение, что в аудитории есть свободные места.
Делается конференция полностью на альтруизме Михаила Коробкова (организатора комьюнити ПЛИС Систем) и силами неравнодушных помощников.
Подробнее о программе и месте проведения по ссылкам:
• Санкт-Петербург, 25 мая → подробности на сайте
• Москва, 1 июня → подробности на сайте
Всем привет 👋🏻
Если конференций, митапов по программированию десятки, сотни, то с конференциями по цифровому проектированию и верификации дела обстоят не так хорошо.
Одна из немногих ламповых, локальных конференций - это конференция FPGA-Systems.
Кстати, кто-то из читателей канала был на самой первой конференции? Давайте устроим перепись в комментариях.
Участие полностью бесплатно, не надо покупать никаких билетов на офлайн/онлайн участие. Для офлайн участия нужно только зарегистрироваться и получить подтверждение, что в аудитории есть свободные места.
Делается конференция полностью на альтруизме Михаила Коробкова (организатора комьюнити ПЛИС Систем) и силами неравнодушных помощников.
Подробнее о программе и месте проведения по ссылкам:
• Санкт-Петербург, 25 мая → подробности на сайте
• Москва, 1 июня → подробности на сайте
🔥10❤2✍2
RISC-V обновили спецификацию
Команда RISC-V объединила в одном документе все ратифицированные спецификации. Например, теперь не нужно отдельно выкачивать документацию для векторного или bitmanip расширения.
Объем PDF-документа значительно увеличился: с чуть более чем 250 страниц до 670.
Общая стилистика документа переработана и все спецификации приведены к единому оформлению.
Дополнительно приведу еще полезную ссылку, где можно получать актуальную информацию о последних ратифицированных расширениях:
https://wiki.riscv.org/display/HOME/Ratified+Extensions
А чтобы рабочая пятница проходила повеселее держите мемес,сворованный позаимствованный из флудилки с коллегами☺️
Команда RISC-V объединила в одном документе все ратифицированные спецификации. Например, теперь не нужно отдельно выкачивать документацию для векторного или bitmanip расширения.
Объем PDF-документа значительно увеличился: с чуть более чем 250 страниц до 670.
Общая стилистика документа переработана и все спецификации приведены к единому оформлению.
Дополнительно приведу еще полезную ссылку, где можно получать актуальную информацию о последних ратифицированных расширениях:
https://wiki.riscv.org/display/HOME/Ratified+Extensions
А чтобы рабочая пятница проходила повеселее держите мемес,
Please open Telegram to view this post
VIEW IN TELEGRAM
👍23🔥10⚡1😱1
Не знаю, как и зачем алгоритмы Твиттера завели меня в сегмент мемов про полупроводники, но теперь вам придется смотреть их вместе со мной 🤡
Btw, хочу обсудить с вами следующую идею. На quicksilicon появился раздел с задачами на SystemVerilog — от самых простых, таких как mux 2 в 1, до написания синхронного FIFO, арбитра Round Robin и разработки APB slave.
В задачах уже приведено решение, но нету никаких описаний и пояснений. Делаем разбор интересных задачек? С картинками, времянками, подробным объяснением. Как вам такой контент?
Помню, что обещал разбор лабораторной работы из RVfpga, но пришел к выводу, что лучше это делать либо в формате live-стрима, либо записи, а не текстом.
Ниже я подготовлю опрос, чтобы понять уровень экспертности моей аудитории в цифровом дизайне и их заинтересованность в этой теме☺️
Btw, хочу обсудить с вами следующую идею. На quicksilicon появился раздел с задачами на SystemVerilog — от самых простых, таких как mux 2 в 1, до написания синхронного FIFO, арбитра Round Robin и разработки APB slave.
В задачах уже приведено решение, но нету никаких описаний и пояснений. Делаем разбор интересных задачек? С картинками, времянками, подробным объяснением. Как вам такой контент?
Помню, что обещал разбор лабораторной работы из RVfpga, но пришел к выводу, что лучше это делать либо в формате live-стрима, либо записи, а не текстом.
Ниже я подготовлю опрос, чтобы понять уровень экспертности моей аудитории в цифровом дизайне и их заинтересованность в этой теме
Please open Telegram to view this post
VIEW IN TELEGRAM
👍43🔥12 3❤1
Fourth International workshop on RISC-V for HPC
16 мая в Гамбурге прошёл международный workshop, посвящённый использованию RISC-V в высокопроизводительных вычислениях (HPC). Презентации докладов доступны по этой ссылке.
Must see доклады:
1) Performance analysis (and optimization) of BERT on RISC-V processors with SIMD units: В докладе рассматриваются три платформы на базе процессорных IP Xuantie и описываются оптимизации для высокопроизводительной операции GEMM. В докладе найдете ссылки на классные источники по оптимизации алгоритмов для GEMM и High-Performance BLIS.
2) Performance characterisation of the 64-core SG2042 RISC-V CPU for HPC: Сравнение 64-ядерного процессора на базе ядра C920 с одноплатниками VisionFive, HiFive Unmatched и процессорами на других архитектурах, такими как AMD Epyc 7742, Xeon Platinum 8170, Marvell ThunderX2. Значения бенчмарков и красивые графики найдете по ссылке выше.
Так же загляните конечно в Vendor talk'и от Semidynamics (где я работаю над тензорным ядром) и Codasip. Доклады отлично подходят для понимания над какими IP и в каких направлениях работают европейские RISC-V дизайн центры.
16 мая в Гамбурге прошёл международный workshop, посвящённый использованию RISC-V в высокопроизводительных вычислениях (HPC). Презентации докладов доступны по этой ссылке.
Must see доклады:
1) Performance analysis (and optimization) of BERT on RISC-V processors with SIMD units: В докладе рассматриваются три платформы на базе процессорных IP Xuantie и описываются оптимизации для высокопроизводительной операции GEMM. В докладе найдете ссылки на классные источники по оптимизации алгоритмов для GEMM и High-Performance BLIS.
2) Performance characterisation of the 64-core SG2042 RISC-V CPU for HPC: Сравнение 64-ядерного процессора на базе ядра C920 с одноплатниками VisionFive, HiFive Unmatched и процессорами на других архитектурах, такими как AMD Epyc 7742, Xeon Platinum 8170, Marvell ThunderX2. Значения бенчмарков и красивые графики найдете по ссылке выше.
Так же загляните конечно в Vendor talk'и от Semidynamics (где я работаю над тензорным ядром) и Codasip. Доклады отлично подходят для понимания над какими IP и в каких направлениях работают европейские RISC-V дизайн центры.
ExCALIBUR H&ES RISC-V testbed
Fourth International workshop on RISC-V for HPC
Workshop details Co-located with ISC 2024, this is a half day morning workshop on Thursday 16th May 2024 in Hamburg, Germany in Hall Y8 - 2nd Floor of the Congress Center Hamburg.
👍13🔥8
Please open Telegram to view this post
VIEW IN TELEGRAM
👍26🥰3🤓3
31st IEEE International Symposium on Computer Arithmetic ARITH 2024
В Испании прошел 31-й симпозиум по компьютерной арифметике. На конференции было представлено много интересных докладов, которые мы разберем в следующих постах.
Сегодня остановимся на докладе от ARM Fused FP8 4-Way/2-Way Dot Product With Scaling and FP32/FP16 Accumulation.
В докладе и статье описаны подходы, которые применялись при разработке SIMD умножителя с накоплением (матричного умножителя) — базовый блок в дизайне любого NPU/TSU ускорителя.
В работе представлен дизайн с FP8 двух типов +/-e5m2, +/-e4m3, etc (IEEE P3109) в двух имплементациях с ранним (EA) и поздним (LA) аккумулированием результата.
Обе микроархитектуры имеют конвейерное построение с четырьмя этапами для достижения целевой частоты 3,6 ГГц.
Подходы, предложенные авторами статьи, были синтезированы на базе 5-нм технологии. На основе полученных результатов синтеза авторы делают следующие предложение по использованию подходов с ранним и поздним аккумулированием в вычислительных системах:
FP8-DOT4-LA можно адаптировать для высокопроизводительных вычислительных блоков CPU с уже существующими блоками fma32, поскольку данный подход обеспечивает прирост производительности при минимальных дополнительных затратах в площади целевого дизайна.
FP8-DOT4-EA лучше подходит для специализированных ускорителей, где важно снизить общую площадь вычислительного юнита, что полезно при масштабировании вычислительных блоков.
Для более детального ознакомления с работой рекомендую обратиться к статье David R. Lutz.
ссылка на материалы конференции https://www.ac.uma.es/arith2024/program.html
ссылка на презентацию от ARM: https://www.ac.uma.es/arith2024/slides/3_ARITH-2024.paper45.pdf
В Испании прошел 31-й симпозиум по компьютерной арифметике. На конференции было представлено много интересных докладов, которые мы разберем в следующих постах.
Сегодня остановимся на докладе от ARM Fused FP8 4-Way/2-Way Dot Product With Scaling and FP32/FP16 Accumulation.
В докладе и статье описаны подходы, которые применялись при разработке SIMD умножителя с накоплением (матричного умножителя) — базовый блок в дизайне любого NPU/TSU ускорителя.
В работе представлен дизайн с FP8 двух типов +/-e5m2, +/-e4m3, etc (IEEE P3109) в двух имплементациях с ранним (EA) и поздним (LA) аккумулированием результата.
Обе микроархитектуры имеют конвейерное построение с четырьмя этапами для достижения целевой частоты 3,6 ГГц.
Подходы, предложенные авторами статьи, были синтезированы на базе 5-нм технологии. На основе полученных результатов синтеза авторы делают следующие предложение по использованию подходов с ранним и поздним аккумулированием в вычислительных системах:
FP8-DOT4-LA можно адаптировать для высокопроизводительных вычислительных блоков CPU с уже существующими блоками fma32, поскольку данный подход обеспечивает прирост производительности при минимальных дополнительных затратах в площади целевого дизайна.
FP8-DOT4-EA лучше подходит для специализированных ускорителей, где важно снизить общую площадь вычислительного юнита, что полезно при масштабировании вычислительных блоков.
Для более детального ознакомления с работой рекомендую обратиться к статье David R. Lutz.
ссылка на материалы конференции https://www.ac.uma.es/arith2024/program.html
ссылка на презентацию от ARM: https://www.ac.uma.es/arith2024/slides/3_ARITH-2024.paper45.pdf
👍18✍2❤2👎1🤓1
RISC-V Europe Summit 2024
В последнюю неделю июня пройдет RISC-V Summit в городе Мюнхен.
Ожидаю много интересных докладов. В первую очередь про программно-аппаратную поддержку матричных расширений в RISC-V экосистеме. А если матрицы поднадоели, то сможете найти доклад на свой вкус в программе конференции.
Даты и место проведения саммита:
⏺ Июнь 24 - 28
⏺ MOC – Event Center Messe Munich
Если кто-то читателей канала будет присутствовать на саммите приходите развиртуализироваться к стендy компании Semidynamics 👋🏻
В последнюю неделю июня пройдет RISC-V Summit в городе Мюнхен.
Ожидаю много интересных докладов. В первую очередь про программно-аппаратную поддержку матричных расширений в RISC-V экосистеме. А если матрицы поднадоели, то сможете найти доклад на свой вкус в программе конференции.
Даты и место проведения саммита:
Если кто-то читателей канала будет присутствовать на саммите приходите развиртуализироваться к стендy компании Semidynamics 👋🏻
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥9👍4🤓3🐳2
Попался на YouTube занимательный ролик, где рассказывается о подборке книг по тематике Computer / Hardware Engineering. Список книг можно найти в описании к видео, а также в первом комментарии к посту.
В русскоязычном сегменте уже есть хорошая подборка книг от Юрия Панчула "Следующие шаги в черной магии процессоростроения после того, как вы освоили Харрис & Харрис". Ознакомиться с ней можно на Хабре.
Обсуждать, какая книга лучше и является той самой для изучения того или иного топика, можно бесконечно. Однако такие подборки решают другую проблему. Литературы по цифровому дизайну не так много, а искать её — отдельная задача. В этих двух подборках представлены книги по различным направлениям, начиная от компьютерной архитектуры, продолжая подходу к работе с SystemVerilog assertion и заканчивая книгой по скриптовому языку Tcl.
Такие подборки выступают второй ступенькой, когда базовый учебник, которым, по моему мнению, в профессии проектировщика процессорных систем является Харрис & Харрис "Цифровая схемотехника и архитектура компьютера", уже прочитан и изучен. Ознакомиться с этой книгой можно по этой ссылке.
Для себя из списка выделил книгу по Static Timing Analysis for Nanometer Design (pdf файл на которую находится по второй ссылке в гугле).
До этого момента я не сталкивался с литературой по тематике STA, однако содержание этой книги показалось мне весьма увлекательным. Задачи по достижению timing closure и обеспечению требуемой рабочей частоты остаются одними из самых трудоемких этапов при проектировании конечного устройства.
В русскоязычном сегменте уже есть хорошая подборка книг от Юрия Панчула "Следующие шаги в черной магии процессоростроения после того, как вы освоили Харрис & Харрис". Ознакомиться с ней можно на Хабре.
Обсуждать, какая книга лучше и является той самой для изучения того или иного топика, можно бесконечно. Однако такие подборки решают другую проблему. Литературы по цифровому дизайну не так много, а искать её — отдельная задача. В этих двух подборках представлены книги по различным направлениям, начиная от компьютерной архитектуры, продолжая подходу к работе с SystemVerilog assertion и заканчивая книгой по скриптовому языку Tcl.
Такие подборки выступают второй ступенькой, когда базовый учебник, которым, по моему мнению, в профессии проектировщика процессорных систем является Харрис & Харрис "Цифровая схемотехника и архитектура компьютера", уже прочитан и изучен. Ознакомиться с этой книгой можно по этой ссылке.
Для себя из списка выделил книгу по Static Timing Analysis for Nanometer Design (pdf файл на которую находится по второй ссылке в гугле).
До этого момента я не сталкивался с литературой по тематике STA, однако содержание этой книги показалось мне весьма увлекательным. Задачи по достижению timing closure и обеспечению требуемой рабочей частоты остаются одними из самых трудоемких этапов при проектировании конечного устройства.
Хабр
Следущие шаги в черной магии процессоростроения после того, как вы освоили Харрис & Харрис
Недавно вышло еще одно печатное издание книжки Харрис & Харрис на русском языке . Это широкоохватывающий ликбез про то, как проектируют микросхемы в компаниях типа Apple и Intel (методология...
👍28🔥5❤4🤓3👀3
Принес вам с просторов Твиттера Die Yield Calculator
В калькуляторе можно задавать диаметр пластины, указывать размеры чипа и другие дополнительные параметры, такие как Edge Loss — ширина внешней области пластины, которая не может быть использована для размещения кристаллов из-за технологических ограничений.
Энтузиасты ввели в калькулятор значения для чипов Apple A15 и Nvidia H100. Согласно данным этого калькулятора, даже при выходе годных кристаллов в 90% для Apple, для NVIDIA этот показатель всё равно составляет менее 50%. Не думаю, что эта информация может быть применима для чего-то, кроме понимания того, что конечная стоимость продукта и размер партии, а вследствие этого и цены конечного изделия, в том числе определяется физическим размером чипа на пластине.
Отдельно в калькуляторе указан параметр для Murphy’s Model of Die Yield. Эта модель используется в полупроводниковой промышленности для прогнозирования числа годных (не имеющих дефектов) кристаллов, которые можно получить из одной пластины. Больше деталей про закон/модель Мёрфи можно найти здесь.
В калькуляторе можно задавать диаметр пластины, указывать размеры чипа и другие дополнительные параметры, такие как Edge Loss — ширина внешней области пластины, которая не может быть использована для размещения кристаллов из-за технологических ограничений.
Энтузиасты ввели в калькулятор значения для чипов Apple A15 и Nvidia H100. Согласно данным этого калькулятора, даже при выходе годных кристаллов в 90% для Apple, для NVIDIA этот показатель всё равно составляет менее 50%. Не думаю, что эта информация может быть применима для чего-то, кроме понимания того, что конечная стоимость продукта и размер партии, а вследствие этого и цены конечного изделия, в том числе определяется физическим размером чипа на пластине.
Отдельно в калькуляторе указан параметр для Murphy’s Model of Die Yield. Эта модель используется в полупроводниковой промышленности для прогнозирования числа годных (не имеющих дефектов) кристаллов, которые можно получить из одной пластины. Больше деталей про закон/модель Мёрфи можно найти здесь.
👍23🔥6❤5
Каюсь, что снова пропал на месяц.
Контент настаивается, готовится к релизу, поэтому пока что предлагаю небольшую разминку.
Не подсматривайте и выбирайте сердцем.
Ответ будет в комментариях☕️
Контент настаивается, готовится к релизу, поэтому пока что предлагаю небольшую разминку.
Не подсматривайте и выбирайте сердцем.
Ответ будет в комментариях
Please open Telegram to view this post
VIEW IN TELEGRAM
😱6👍3👀3
😱8👍1
Пополнение в железе для RISC-V AI — канадская компания, под руководством Джима Келлера представила новый чип Wormhole.
Tenstorrent Launches Wormhole AI Processors: 466 FP8 TFLOPS at 300W
Представлены 2 варианта плат разработчика n150 и n300, с производительностью равной 262 и 466 TeraFLOPs (FP8) соответственно.
Младшую плату можно приобрести за 1000$. за старшую модель придется заплатить уже 1400$.
Больше деталей и характеристик найдется на сайте компании.
Компилятор, для запуска ML-моделей на железе от TT называетсяCUDA BUDA😬
Cофт стек в целом - TT-Metalium, открытый низкоуровневый SDK.
SDK TT-Metalium будет полезен для разработчиков, которые хотят настроить и оптимизировать свои модели машинного обучения, писать новые ядра для выполнения ключевых операций, экспериментировать с низкоуровневыми вычислениями и запускать код, не связанный с машинным обучением, с максимальной производительностью и эффективностью.
[Спасибо Artem E, за подсказку в комментариях]
Подробности о софтверном стeке от Tenstorrent можно найти на github'e проекта.
Так же для понимания и правильного позиционирования продукта рекомендую прочитать интервью с Джимом Кэеллером порталу Nikkei Asia. В этом интервью CEO Tenstorrent бегло отвечает на вопрос о использовании HBM в AI ускорителях с точки зрения энергопотребления и цены конечного продукта.
Tenstorrent Launches Wormhole AI Processors: 466 FP8 TFLOPS at 300W
Представлены 2 варианта плат разработчика n150 и n300, с производительностью равной 262 и 466 TeraFLOPs (FP8) соответственно.
Младшую плату можно приобрести за 1000$. за старшую модель придется заплатить уже 1400$.
Больше деталей и характеристик найдется на сайте компании.
Компилятор, для запуска ML-моделей на железе от TT называется
Cофт стек в целом - TT-Metalium, открытый низкоуровневый SDK.
SDK TT-Metalium будет полезен для разработчиков, которые хотят настроить и оптимизировать свои модели машинного обучения, писать новые ядра для выполнения ключевых операций, экспериментировать с низкоуровневыми вычислениями и запускать код, не связанный с машинным обучением, с максимальной производительностью и эффективностью.
[Спасибо Artem E, за подсказку в комментариях]
Подробности о софтверном стeке от Tenstorrent можно найти на github'e проекта.
Так же для понимания и правильного позиционирования продукта рекомендую прочитать интервью с Джимом Кэеллером порталу Nikkei Asia. В этом интервью CEO Tenstorrent бегло отвечает на вопрос о использовании HBM в AI ускорителях с точки зрения энергопотребления и цены конечного продукта.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13🔥3
Intel сократит более 15 000 сотрудников
Число невероятно большое, иногда забываю, насколько огромны такие корпорации. Интересно, наберется ли во всем СНГ 15 000 сотрудников в области полупроводников?
The Verge пишет, что в планах также остановить некую "non-essential work". Конечно же, загадка, что именно скрывается за этой обтекаемой формулировкой.
Больше всего интересно узнать, какая судьба будет у Intel ARC в сегменте GPU и Intel Gaudi в сегменте AI-ускорителей. Оба этих семейства пока что не произвели большого впечатления на рынке.
Intel — одна из немногих компаний, у которой есть собственные производственные мощности для выпуска чипов. Intel занимается буквально всем: разработкой и поддержкой новых техпроцессов, процессорами общего назначения, серверными процессорами, GPU, AI-ускорителями, FPGA-подразделением (бывшая настоящая Altera), разработкой программной экосистемы для новых продуктов.
В 2018 году, когда TSMC уже начала производство 7-нм чипов, у Intel появились проблемы с внедрением 10-нм технологий. Как только у Intel пропало явное преимущество в технологическом процессе перед AMD, конкуренция резко обострилась, и скомпенсировать утерю преимущества микроархитектурой, как мы видим, не удалось.
Так что запасаемся попкорном, а обсудить взлеты и падения Intel всегда можно в комментариях 👀
Число невероятно большое, иногда забываю, насколько огромны такие корпорации. Интересно, наберется ли во всем СНГ 15 000 сотрудников в области полупроводников?
The Verge пишет, что в планах также остановить некую "non-essential work". Конечно же, загадка, что именно скрывается за этой обтекаемой формулировкой.
Больше всего интересно узнать, какая судьба будет у Intel ARC в сегменте GPU и Intel Gaudi в сегменте AI-ускорителей. Оба этих семейства пока что не произвели большого впечатления на рынке.
Intel — одна из немногих компаний, у которой есть собственные производственные мощности для выпуска чипов. Intel занимается буквально всем: разработкой и поддержкой новых техпроцессов, процессорами общего назначения, серверными процессорами, GPU, AI-ускорителями, FPGA-подразделением (
В 2018 году, когда TSMC уже начала производство 7-нм чипов, у Intel появились проблемы с внедрением 10-нм технологий. Как только у Intel пропало явное преимущество в технологическом процессе перед AMD, конкуренция резко обострилась, и скомпенсировать утерю преимущества микроархитектурой, как мы видим, не удалось.
Так что запасаемся попкорном, а обсудить взлеты и падения Intel всегда можно в комментариях 👀
👍16😱9😁5🐳3👀2
Фиксируем прибыль с акций Интела?
По ссылке выше грустная история инвестиций в 700 000 долларов, полученных по наследству и слитых за 1 день☕️
По ссылке выше грустная история инвестиций в 700 000 долларов, полученных по наследству и слитых за 1 день
Please open Telegram to view this post
VIEW IN TELEGRAM
🗿14😁6😨3👍2🤡2
Если бурления вокруг Intel уже приелись, а душа требует срача, то на хабре случился очередной panchul-gate.
Я, наверное, подожду ещё пару дней, пока комментарии настоятся, но ревнители жанра могут ознакомиться с мнениями хабра-экспертов уже сейчас☺️
Я, наверное, подожду ещё пару дней, пока комментарии настоятся, но ревнители жанра могут ознакомиться с мнениями хабра-экспертов уже сейчас
Please open Telegram to view this post
VIEW IN TELEGRAM
Продолжая тему проблемы энергоэффективности, стоит отметить, что вопрос энергоснабжения AI/HPC-кластеров, становится всё более актуальным. Всё чаще можно встретить новости такого рода: "Tech companies are turning to nuclear plants as AI increases demand for power".
Так что, кроме привычного "почем киловатт-час", вскоре будут спрашивать и "сколько TOPS-ватт?", "сколько FLOPs на Джоуль?" Самое время получше разобраться в вопросе энергоэффективности вычислительных операций.
Энергоэффективность операций в вычислительной технике наглядно демонстрируется в лекции Онура Мутлу (профессора в ETH Zurich) "Memory-Centric Computing".
Например, разница между выполнением целочисленной операции сложения и обращением к памяти DRAM может достигать 6400 раз.
Лекцию можете посмотреть по ссылке на YouTube, а презентацию, на скромные 456 слайдов найдете в первом комментарии к посту😏
Так что, кроме привычного "почем киловатт-час", вскоре будут спрашивать и "сколько TOPS-ватт?", "сколько FLOPs на Джоуль?" Самое время получше разобраться в вопросе энергоэффективности вычислительных операций.
Энергоэффективность операций в вычислительной технике наглядно демонстрируется в лекции Онура Мутлу (профессора в ETH Zurich) "Memory-Centric Computing".
Например, разница между выполнением целочисленной операции сложения и обращением к памяти DRAM может достигать 6400 раз.
Лекцию можете посмотреть по ссылке на YouTube, а презентацию, на скромные 456 слайдов найдете в первом комментарии к посту
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13🤓7🔥6❤2⚡1