Decoupled Vector Processing Unit: Past, Present, and Future
Принес вам обзорную работу про decoupled векторные сопроцессоры.
Почему стоит читать: Статья заслуживает внимания благодаря качественной систематизации подходов взаимодействия между скалярным и векторным ядром.
Авторы детально разбирают спектр архитектурных решений: модели памяти, типы интерфейсов, механизмы очередей, организация векторного регистрового файла и варианты «развязки» (decoupling) скалярных и векторных ядер. Дополнительный интерес представляет структурированный обзор китайских индустриальных решений (Huawei Ascend, Baidu Kunlun), а богатый набор источников указанный в статье, значительно упрощает поиск достойных и интересных работ по SIMD тематике.
Откройте форточку : Работа заметно страдает от «академической инерции» и игнорирования современных продуктов, как индустриальных, представленных на множестве самшитов и конференций, так и академических проектов с открытым исходным кодом.
Много внимания уделено устаревшим FPGA прототипам (VESPA, VIRAM, VIPERS), практически не рассматривая современные проекты (например, ETH Zurich Ara/Spatz, TT Ocelot или BSC LOCA Sargantana).
Также полностью отсутствуют решения ключевых индустриальных игроков RISC-V (SiFive, Andes), хотя последние достаточно много информации с той же конференции Hot Chips, например.
Статью всё равно рекомендую к прочтению: это хорошо структурированный обзор с богатой подборкой источников, который станет отличной отправной точкой для дальнейшего погружения в тему.
В частности, в конце работы поднимается важная проблема масштабирования shuffle-операций и обсуждаются перспективные подходы на основе новых типов и режимов работы SRAM. Эта тема сегодня является одним из ключевых инженерных вызовов при проектировании высокопроизводительных векторных процессоров, и обзор даёт неплохое понимание направления, в котором развивается область.
Принес вам обзорную работу про decoupled векторные сопроцессоры.
Почему стоит читать: Статья заслуживает внимания благодаря качественной систематизации подходов взаимодействия между скалярным и векторным ядром.
Авторы детально разбирают спектр архитектурных решений: модели памяти, типы интерфейсов, механизмы очередей, организация векторного регистрового файла и варианты «развязки» (decoupling) скалярных и векторных ядер. Дополнительный интерес представляет структурированный обзор китайских индустриальных решений (Huawei Ascend, Baidu Kunlun), а богатый набор источников указанный в статье, значительно упрощает поиск достойных и интересных работ по SIMD тематике.
Много внимания уделено устаревшим FPGA прототипам (VESPA, VIRAM, VIPERS), практически не рассматривая современные проекты (например, ETH Zurich Ara/Spatz, TT Ocelot или BSC LOCA Sargantana).
Также полностью отсутствуют решения ключевых индустриальных игроков RISC-V (SiFive, Andes), хотя последние достаточно много информации с той же конференции Hot Chips, например.
Статью всё равно рекомендую к прочтению: это хорошо структурированный обзор с богатой подборкой источников, который станет отличной отправной точкой для дальнейшего погружения в тему.
В частности, в конце работы поднимается важная проблема масштабирования shuffle-операций и обсуждаются перспективные подходы на основе новых типов и режимов работы SRAM. Эта тема сегодня является одним из ключевых инженерных вызовов при проектировании высокопроизводительных векторных процессоров, и обзор даёт неплохое понимание направления, в котором развивается область.
jcst.ict.ac.cn
Decoupled Vector Processing Unit: Past, Present, and Future
<p>Vector architectures are widely employed in modern processors due to their high performance and energy efficiency in exploiting data-level parallelism through single instruction multiple data (SIMD) paradigms. The built-in scalar cores and the vector processing…
👍15👀5🔥1
Instruction Scheduling in the Saturn Vector Unit
Принёс вам ещё один отличный пейпер про векторные архитектуры, я же знаю как вы любите вектора(по статистике знаю что не любите) 😑
Работа написана под руководством Кристе Асановича - одного из авторов RISC-V Vector Extension, человека, который уже почти 30 лет занимается исследованиями и проектированием векторных процессоров.
Почему стоит прочитать:
- Статья очень чётко показывает, в чём реальная разница между long-vector и short-vector архитектурами, где выигрывает каждая, какие накладывают ограничения на векторные регистровые файлы, подсистему памяти и планировщик инструкций.
- Отлично объяснена концепция chime length (VLEN/DLEN - соотношение архитектурной длины векторного регистра и ширины вычислительного тракта, то есть, сколько бит за такт может быть обработано) - одна из ключевых метрик, определяющих поведение и эффективность любого VPU, а также позволяющая эффективно маскировать латентность вычислительных блоков (например, FMA), значительно повышая их утилизацию без сложных OoO-техник.
- Разобран механизм explicit chaining и динамического micro-scheduling на уровне групп элементо, как получить гибкость OoO без OoO-сложности.
- Хорошо показано, как устроить и спроектировать векторный LSU.
- Подробно разобран векторный регистровый файл: его физическая организация, ограничения по портам и почему именно это определяет сложность всей архитектуры.
Принёс вам ещё один отличный пейпер про векторные архитектуры, я же знаю как вы любите вектора
Работа написана под руководством Кристе Асановича - одного из авторов RISC-V Vector Extension, человека, который уже почти 30 лет занимается исследованиями и проектированием векторных процессоров.
Почему стоит прочитать:
- Статья очень чётко показывает, в чём реальная разница между long-vector и short-vector архитектурами, где выигрывает каждая, какие накладывают ограничения на векторные регистровые файлы, подсистему памяти и планировщик инструкций.
- Отлично объяснена концепция chime length (VLEN/DLEN - соотношение архитектурной длины векторного регистра и ширины вычислительного тракта, то есть, сколько бит за такт может быть обработано) - одна из ключевых метрик, определяющих поведение и эффективность любого VPU, а также позволяющая эффективно маскировать латентность вычислительных блоков (например, FMA), значительно повышая их утилизацию без сложных OoO-техник.
- Разобран механизм explicit chaining и динамического micro-scheduling на уровне групп элементо, как получить гибкость OoO без OoO-сложности.
- Хорошо показано, как устроить и спроектировать векторный LSU.
- Подробно разобран векторный регистровый файл: его физическая организация, ограничения по портам и почему именно это определяет сложность всей архитектуры.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥18👀5👍4✍3
Forwarded from позитивслэк (Bogdan)
This media is not supported in your browser
VIEW IN TELEGRAM
Topwrap
А вы видели, что ребята из Antmicro сделали стильный опенсорсный тул для блок-дизайна?
https://antmicro.github.io/topwrap/introduction.html
Можно парсить существующий RTL и визуализировать, можно соединять и сохранять подключения во враппер. Притом можно работать с тулом как из GUI, так и через YAML и CLI.
И что меня особо радует, как любителя разработки всякой автоматизации и тулов, что всё это на их же открытом Pipeline Manager. На основе этой штуки можно строить свои красивые тулы для работы с любыми графо-подобными данными и сущностями.
#tool
@positiveslack
А вы видели, что ребята из Antmicro сделали стильный опенсорсный тул для блок-дизайна?
https://antmicro.github.io/topwrap/introduction.html
Можно парсить существующий RTL и визуализировать, можно соединять и сохранять подключения во враппер. Притом можно работать с тулом как из GUI, так и через YAML и CLI.
И что меня особо радует, как любителя разработки всякой автоматизации и тулов, что всё это на их же открытом Pipeline Manager. На основе этой штуки можно строить свои красивые тулы для работы с любыми графо-подобными данными и сущностями.
#tool
@positiveslack
🔥26👍6👀3
Записки CPU designer'a
Micron to exit consumer memory business amid global supply shortage Производитель микросхем памяти Micron Technology (MU.O) заявил в среду, что выйдет из потребительского бизнеса, поскольку компания усиливает внимание на передовых чипах памяти, используемых…
Проект Stargate компании OpenAI, который может потреблять до 40% мирового производства DRAM, заключил соглашения с Samsung и SK hynix на объёмы до 900 000 кремниевых пластин в месяц.
И чтобы не отходить далеко сразу вторая новость:
Framework Raises DDR5 Memory Prices By 50% For DIY Laptops
Возвращаем в моду ноутбуки с 8гб ОЗУ в 2026?😈
Для полного контекста рекомендую почитать: Sam Altman’s Dirty DRAM Deal
И чтобы не отходить далеко сразу вторая новость:
Framework Raises DDR5 Memory Prices By 50% For DIY Laptops
Возвращаем в моду ноутбуки с 8гб ОЗУ в 2026?
Для полного контекста рекомендую почитать: Sam Altman’s Dirty DRAM Deal
Please open Telegram to view this post
VIEW IN TELEGRAM
Tom's Hardware
OpenAI's Stargate project to consume up to 40% of global DRAM output — inks deal with Samsung and SK hynix to the tune of up to…
Working at scale.
Я принес вам подарок под новый год 🤭
sv-pathfinder - это расширение для VS Code, предназначенное для навигации по проектам на SystemVerilog и трейсинга сигналов.
Расширение позволяет удобно исследовать иерархию дизайна, просматривать и переходить к модулям, инстансам, объявлениям сигналов и блокам generate, а также интегрируется с инструментом отображения временных диаграмм VaporView для пост-симуляционного дебага.
Наконец-то появился инструмент, где можно работать с value annotation прямо в VS Code (!!!), а не переключаться на условный DVE или Questa.
Все ещё нет такого важного функционала вроде trace driver или сравнения сигналов между двумя вейвформами, но это всё равно невероятно интересный и крутой проект, особенно для тех, кто хочет более удобный UX в сравнении с решениями от big3 😁
sv-pathfinder - это расширение для VS Code, предназначенное для навигации по проектам на SystemVerilog и трейсинга сигналов.
Расширение позволяет удобно исследовать иерархию дизайна, просматривать и переходить к модулям, инстансам, объявлениям сигналов и блокам generate, а также интегрируется с инструментом отображения временных диаграмм VaporView для пост-симуляционного дебага.
Наконец-то появился инструмент, где можно работать с value annotation прямо в VS Code (!!!), а не переключаться на условный DVE или Questa.
Все ещё нет такого важного функционала вроде trace driver или сравнения сигналов между двумя вейвформами, но это всё равно невероятно интересный и крутой проект, особенно для тех, кто хочет более удобный UX в сравнении с решениями от big3 😁
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥46👍14 3
Forwarded from позитивслэк (Bogdan)
slang-server
Ну и закрою тему тулов в этом году новым LSP для SystemVerilog поверх Slang. Есть подозрение, что в будущем это может стать выбором по умолчанию для написания SV🎧
Ликбез. LSP это та штука, что живёт в IDE и даёт редактору возможность делать переходы по символам,показывать хинты, делать автодополнение и другие вещи для нужного языка. Ну а Slang это просто наиболее полный и самый быстрый парсер SV (по заявлениям разработчиков).
В итоге в IDE получаем ту самую эргономику в написании SV, которая есть по умолчанию у программистов на языках высокого уровня. Все фичи перечислять долго, лучше посмотрите доклад или полистайте слайды.
Некоторые хайлайты:
▫️поддерживается neovim и vscode из коробки (последний пока в меньшей мере)
▫️индексация тысяч sv файлов на десятки мегабайт менее чем за секунду
▫️автодополнение, переходы по ссылкам, всплывающие хинты, раскрытие макросов
▫️иерархия, список модулей, поиск по инстансам
▫️интеграция с surfer для связывания кода и вейформ, трассировки driver/load и отображение текущих значений в коде (экспериментально)
Из будущих фич зацепило что будет больше хинтов, переименование символов (рефакторинг), более тесная интеграция с vscode и surfer, автофиксы и slang-format. Полноценный форматтер🍒
Btw, сервер разработан в Hudson River Trading (там и автор slang работает кстати), а ещё кто-то говорил что HFTшники ничего полезного не делают🫣
В соседнем чатике даже отзыв-сравнение есть:
#tool
@positiveslack
Ну и закрою тему тулов в этом году новым LSP для SystemVerilog поверх Slang. Есть подозрение, что в будущем это может стать выбором по умолчанию для написания SV
Ликбез. LSP это та штука, что живёт в IDE и даёт редактору возможность делать переходы по символам,показывать хинты, делать автодополнение и другие вещи для нужного языка. Ну а Slang это просто наиболее полный и самый быстрый парсер SV (по заявлениям разработчиков).
В итоге в IDE получаем ту самую эргономику в написании SV, которая есть по умолчанию у программистов на языках высокого уровня. Все фичи перечислять долго, лучше посмотрите доклад или полистайте слайды.
Некоторые хайлайты:
▫️поддерживается neovim и vscode из коробки (последний пока в меньшей мере)
▫️индексация тысяч sv файлов на десятки мегабайт менее чем за секунду
▫️автодополнение, переходы по ссылкам, всплывающие хинты, раскрытие макросов
▫️иерархия, список модулей, поиск по инстансам
▫️интеграция с surfer для связывания кода и вейформ, трассировки driver/load и отображение текущих значений в коде (экспериментально)
Из будущих фич зацепило что будет больше хинтов, переименование символов (рефакторинг), более тесная интеграция с vscode и surfer, автофиксы и slang-format. Полноценный форматтер
Btw, сервер разработан в Hudson River Trading (там и автор slang работает кстати), а ещё кто-то говорил что HFTшники ничего полезного не делают
В соседнем чатике даже отзыв-сравнение есть:
Уже недели 3 пользуюсь этим LSP, фантастическая штука
Из всего, что пробовал, мне этот больше всего нравится. У verible слабый препроцессор, на макросах сразу падает, пришлось вообще выключить. Svls не умеет делать symbol rename, да и линт что-то не понравился, уже не помню почему. Svlangserver в основном хорошее автодополнение, но фич немного, опять же нет symbol rename. Хочу попробовать еще verilog-mode, но для этого надо выучить emacs, так что как-нибудь потом.
#tool
@positiveslack
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥17✍2
Nvidia заключила крупную сделку с ИИ-стартапом Groq примерно на $20 миллиардов, получив права на его технологии и часть активов, а также привлекая ключевых сотрудников.
Этот шаг позволит Nvidia интегрировать уникальную LPU-архитектуру для высокопроизводительного инференса нейросетевых моделей, одновременно устранив одного из заметных конкурентов на рынке.
Про архитектуру Groq я подробнее писал в этих постах.
При этом, если я верно уловил суть сделки, Groq сохранит независимость под руководством нового CEO и продолжит развивать облачную платформу GroqCloud.
Этот шаг позволит Nvidia интегрировать уникальную LPU-архитектуру для высокопроизводительного инференса нейросетевых моделей, одновременно устранив одного из заметных конкурентов на рынке.
Про архитектуру Groq я подробнее писал в этих постах.
При этом, если я верно уловил суть сделки, Groq сохранит независимость под руководством нового CEO и продолжит развивать облачную платформу GroqCloud.
Groq will continue to operate as an independent company with Simon Edwards stepping into the role of Chief Executive Officer.
CNBC
Nvidia buying AI chip startup Groq's assets for about $20 billion in its largest deal on record
Nvidia is making its largest purchase ever, acquiring assets from 9-year-old chip startup Groq for about $20 billion.
👀13 11👍2
Всё думал, какой бы пост написать под конец года, чтобы добрать ещё 40 подписчиков и наконец-то закрыть отметку в 3000 на канале. Но потом понял, что специально писать «условный» пост с анонсом курса или лекции в эти даты - так себе идея.
Не уверен, что кто-то из вас сейчас захочет смотреть полуторачасовую лекцию по микроархитектуре Skylake или обсуждать очередной открытый курс от ETH Zürich. Так что давайте оставим это уже на после праздников☺️
К тому же куда приятнее поставить себе цель набрать 3000 читателей уже в следующем году - звучит вполне реалистично 😄
Я всё ещё не перестаю удивляться, как много людей интересуются такой узкой и довольно специализированной темой, о которой я пишу на канале. Это правда очень круто - спасибо, что читаете.
Отдельное большое спасибо за обратную связь. Особенно порадовала история одного читателя: он написал, что нашёл на канале много полезных и классных материалов, которые реально помогли ему при подготовке к собеседованию. Ради таких сообщений всё это и затевается🙃
В новом году, по традиции, желаю: чтобы slack в репортах был без минуса, чтобы в synthesis-lоgs не было combi-loop’ов, и чтобы RTL-щики честно писали SVA на свои блоки (хотя… этого, конечно, не будет).
А ну-ка все в комментарии поздравлять друг друга 🎄
С наступающим!🤭
Не уверен, что кто-то из вас сейчас захочет смотреть полуторачасовую лекцию по микроархитектуре Skylake или обсуждать очередной открытый курс от ETH Zürich. Так что давайте оставим это уже на после праздников
К тому же куда приятнее поставить себе цель набрать 3000 читателей уже в следующем году - звучит вполне реалистично 😄
Я всё ещё не перестаю удивляться, как много людей интересуются такой узкой и довольно специализированной темой, о которой я пишу на канале. Это правда очень круто - спасибо, что читаете.
Отдельное большое спасибо за обратную связь. Особенно порадовала история одного читателя: он написал, что нашёл на канале много полезных и классных материалов, которые реально помогли ему при подготовке к собеседованию. Ради таких сообщений всё это и затевается🙃
В новом году, по традиции, желаю: чтобы slack в репортах был без минуса, чтобы в synthesis-lоgs не было combi-loop’ов, и чтобы RTL-щики честно писали SVA на свои блоки
А ну-ка все в комментарии поздравлять друг друга 🎄
С наступающим!
Please open Telegram to view this post
VIEW IN TELEGRAM
🎉47 13👍4🔥3
Лекция о микроархитектуре x86-процессоров на примере Intel Skylake.
Разбираются базовые принципы работы современного out-of-order CPU: конвейер, декодирование x86-инструкций в микрооперации (µops), внеочередное исполнение, переименование регистров и аппаратные механизмы повышения производительности.
Лектор: Мэтт Годболт
Создатель Compiler Explorer и
C++ разработчик.
Разбираются базовые принципы работы современного out-of-order CPU: конвейер, декодирование x86-инструкций в микрооперации (µops), внеочередное исполнение, переименование регистров и аппаратные механизмы повышения производительности.
Лектор: Мэтт Годболт
Создатель Compiler Explorer и
C++ разработчик.
🔥51 15👀6👍2
Документальный ролик о самой сложной и важной инженерной машине в мире: EUV-литографической системе от ASML, которая позволяет выпускать самые передовые микрочипы.
Видео подробно объясняет, как работают EUV-литографические установки, из каких подсистем они состоят, почему их стоимость достигает сотен миллионов долларов и какие оптические и физические ограничения стоят за их конструкцией.
Меня удивило, что меньше чем за неделю видео уже набрало 10 миллионов просмотров!
Всем смотреть😎
Видео подробно объясняет, как работают EUV-литографические установки, из каких подсистем они состоят, почему их стоимость достигает сотен миллионов долларов и какие оптические и физические ограничения стоят за их конструкцией.
Меня удивило, что меньше чем за неделю видео уже набрало 10 миллионов просмотров!
Всем смотреть😎
YouTube
The Ridiculous Engineering Of The World's Most Important Machine
The insane machines that make the most advanced computer chips. Sponsored by Brilliant - To learn for free for a full 30 days, go to https://brilliant.org/veritasium and get started. Plus, our viewers get 20% off an annual Premium subnoscription for unlimited…
🔥27 14👍6👀4
Forwarded from позитивслэк (Bogdan)
How to render cloud FPGA useless
Очень крутой доклад на тему исследования возможных векторов атак на облачные плисины (типа AWS) через питание и прогрев.
tl;dr атакующий должен хирургически точно организовать нужное количество осцилляторов (ring oscillator) внутри дизайна, чтобы либо увести плату или инстанс в отказ, либо повредить/"состарить" конкретные пути в плисине. Обе атаки работают. В первом случае удалось сделать сотню инстансов недоступными на часы, а во втором удалось состарить некоторые пути так, что они стали медленнее на 50-70%.
Довольно много интересных деталей всего процесса с мемными комментариями докладчика.
Интересно, что базовые DRC в AWS пропускают такие "вредоносные" дизайны, поэтому исследователи даже предложили "щит" против своего же "меча".
Доклад с конфы 39c3.
#fpga
@positiveslack
Очень крутой доклад на тему исследования возможных векторов атак на облачные плисины (типа AWS) через питание и прогрев.
tl;dr атакующий должен хирургически точно организовать нужное количество осцилляторов (ring oscillator) внутри дизайна, чтобы либо увести плату или инстанс в отказ, либо повредить/"состарить" конкретные пути в плисине. Обе атаки работают. В первом случае удалось сделать сотню инстансов недоступными на часы, а во втором удалось состарить некоторые пути так, что они стали медленнее на 50-70%.
Довольно много интересных деталей всего процесса с мемными комментариями докладчика.
Интересно, что базовые DRC в AWS пропускают такие "вредоносные" дизайны, поэтому исследователи даже предложили "щит" против своего же "меча".
Доклад с конфы 39c3.
#fpga
@positiveslack
🔥19 5👍4