Помните этот пост?
AMD ограничивает проект ZLUDA по запуску CUDA-приложений на своих ускорителях
Продолжение истории👀
AMD ограничивает проект ZLUDA по запуску CUDA-приложений на своих ускорителях
Продолжение истории
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
Записки CPU designer'a
AMD ограничивает проект ZLUDA по запуску CUDA-приложений на своих ускорителях
Open Source проект ZLUDA изначально был создан для нативного запуска CUDA-приложений на GPU Intel, но позже автор проекта, Анджей Яник, начал сотрудничество с AMD для создания…
Open Source проект ZLUDA изначально был создан для нативного запуска CUDA-приложений на GPU Intel, но позже автор проекта, Анджей Яник, начал сотрудничество с AMD для создания…
✍3👍3
Forwarded from commit -m "better"
https://www.opennet.ru/opennews/art.shtml?num=62499
Очень упорный товарищ, таки подчистил код от наследия из AMD, и продолжает пилить #zluda. Наверное, из этого получится что-то интересное.
Очень упорный товарищ, таки подчистил код от наследия из AMD, и продолжает пилить #zluda. Наверное, из этого получится что-то интересное.
www.opennet.ru
Выпуск ZLUDA 4, универсальной реализации технологии CUDA
Анджей Яник (Andrzej Janik) представил обновление проекта ZLUDA, развивающего открытую реализацию технологии CUDA. Целью проекта является предоставление возможности запуска немодифицированных приложений CUDA на системах с GPU, отличных от GPU NVIDIA, с п…
👍20 1
Возвращаемся в рабочий режим вещания👀
Делюсь с вами новым чипом от d-Matrix — Corsair
Основные моменты из статьи:
1) Авторы называют свой чип представителем архитектуры Digital In-Memory Compute (DIMC). В этой архитектуре вычислительные блоки, такие как умножители и аккумуляторы, интегрированы в ячейки памяти, что снижает задержку и энергозатраты на передачу данных.
2) Организация системы памяти. В чипе Corsair доступны два режима работы. Первый режим очень похож на подход Groq, где модели хранятся в 1 GB SRAM (1), доступной в каждом чипе Corsair, что в сумме составляет 2 GB SRAM на карту. Это означает, что при использовании формата MXINT8 на 8 картах Corsair может разместиться модель Llama3-8B.
3) Упор на современные форматы данных. d-matrix используют новые типы данных OCP Microscaling Formats. Эти форматы поддерживают вычисления с 8-битными числами с общей экспонентой. Однако классические форматы IEEE-754 (FP64, FP32, FP16), а также BF16 и TF32 не поддерживаются для повышения эффективности вычислительных мощностей современных форматов.
4) Один чип Corsair обеспечивает производительность 4,8 Petaflops для формата MXINT4, 1,2 Petaflops для MXINT8 и 300 Teraflops для MXINT16. Каждая карта Corsair содержит два чипа, что удваивает потенциальную вычислительную производительность.
Что еще почитать? d-Matrix’s Corsair Whitepaper
Что еще за Groq? Groq’s Software-Defined Hardware for Dataflow Compute
Делюсь с вами новым чипом от d-Matrix — Corsair
Основные моменты из статьи:
1) Авторы называют свой чип представителем архитектуры Digital In-Memory Compute (DIMC). В этой архитектуре вычислительные блоки, такие как умножители и аккумуляторы, интегрированы в ячейки памяти, что снижает задержку и энергозатраты на передачу данных.
2) Организация системы памяти. В чипе Corsair доступны два режима работы. Первый режим очень похож на подход Groq, где модели хранятся в 1 GB SRAM (1), доступной в каждом чипе Corsair, что в сумме составляет 2 GB SRAM на карту. Это означает, что при использовании формата MXINT8 на 8 картах Corsair может разместиться модель Llama3-8B.
3) Упор на современные форматы данных. d-matrix используют новые типы данных OCP Microscaling Formats. Эти форматы поддерживают вычисления с 8-битными числами с общей экспонентой. Однако классические форматы IEEE-754 (FP64, FP32, FP16), а также BF16 и TF32 не поддерживаются для повышения эффективности вычислительных мощностей современных форматов.
However, in order to maximize the amount of MX compute, Corsair does not support any IEEE 754 Floating Point numbers such as FP64, FP32, or even FP16 nor does it support popular lower-precision data types such as BF16 or TF32.
4) Один чип Corsair обеспечивает производительность 4,8 Petaflops для формата MXINT4, 1,2 Petaflops для MXINT8 и 300 Teraflops для MXINT16. Каждая карта Corsair содержит два чипа, что удваивает потенциальную вычислительную производительность.
Что еще почитать? d-Matrix’s Corsair Whitepaper
Что еще за Groq? Groq’s Software-Defined Hardware for Dataflow Compute
Please open Telegram to view this post
VIEW IN TELEGRAM
Chipsandcheese
d-Matrix Corsair: 256GB of LPDDR for AI Models
With Microscaling Number Formats to boot!
👍7 6🔥4
С 1 января Altera официально отделилась от Intel и стала крупнейшей в мире независимой компанией, занимающейся разработкой FPGA.
Директор компании Ed McGettigan отметил, что одним из основных направлений компании остаются развитие и поддержка серии Agilex, а также упрощение работы с FPGA для инженеров.
Новый сайт компании: altera.com👀
Директор компании Ed McGettigan отметил, что одним из основных направлений компании остаются развитие и поддержка серии Agilex, а также упрощение работы с FPGA для инженеров.
Новый сайт компании: altera.com
Please open Telegram to view this post
VIEW IN TELEGRAM
🎉53👍7👀6✍1
Бывшая CEO RISC-V Calista Redmond перешла в Nvidia.
Конспираси, о том, что она переходит в Intel на место Pat Gelsinger, не оправдалась😑
Конспираси, о том, что она переходит в Intel на место Pat Gelsinger, не оправдалась
Please open Telegram to view this post
VIEW IN TELEGRAM
👀15👍4✍2😁2
Зимняя школа программирования для RISC-V
Зимняя школа от YADRO — это лекции и практическая проектная работа, посвящённые программированию и оптимизации программ под архитектуру RISC-V. Лекции будут доступны всем после регистрации, а участие в проектной части — в очном формате, рассчитано на студентов.
Лекторий: пройдёт онлайн с 13 по 30 января 2025 года.
Проектная работа: будет проводиться очно с 3 по 8 февраля 2025 года. Участники смогут работать в группах над реальными задачами под руководством опытных наставников.
Для себя я отметил два интересных доклада:
1) Компиляция: тулчейн на основе GCC, кросс-сборка, multilib.
2) Обзор докладов, новинок и трендов 2024 года по RISC-V.
Подробности и регистрация доступны на сайте школы 🤓
Зимняя школа от YADRO — это лекции и практическая проектная работа, посвящённые программированию и оптимизации программ под архитектуру RISC-V. Лекции будут доступны всем после регистрации, а участие в проектной части — в очном формате, рассчитано на студентов.
Лекторий: пройдёт онлайн с 13 по 30 января 2025 года.
Проектная работа: будет проводиться очно с 3 по 8 февраля 2025 года. Участники смогут работать в группах над реальными задачами под руководством опытных наставников.
Для себя я отметил два интересных доклада:
1) Компиляция: тулчейн на основе GCC, кросс-сборка, multilib.
2) Обзор докладов, новинок и трендов 2024 года по RISC-V.
Подробности и регистрация доступны на сайте школы 🤓
👍14🔥5🎉1
HiPEAC 2025
С 20 по 23 января 2025 года в Барселоне пройдет конференция HiPEAC (European Network on High Performance and Embedded Architecture and Compilation).
В программе — доклады и воркшопы от лидеров индустрии, включая ARM, Nvidia, Google, а также от европейских дизайн-центров и исследовательских институтов.
С программой конференции можно ознакомиться здесь.
А если захотите развиртуализироваться я буду на конференции 20-го и 22-го января, найти меня можно будет у стенда Semidynamics👀
С 20 по 23 января 2025 года в Барселоне пройдет конференция HiPEAC (European Network on High Performance and Embedded Architecture and Compilation).
В программе — доклады и воркшопы от лидеров индустрии, включая ARM, Nvidia, Google, а также от европейских дизайн-центров и исследовательских институтов.
С программой конференции можно ознакомиться здесь.
А если захотите развиртуализироваться я буду на конференции 20-го и 22-го января, найти меня можно будет у стенда Semidynamics
Please open Telegram to view this post
VIEW IN TELEGRAM
👍16🔥7
В сообществе RISC-V вводятся новые правила голосования. Теперь участие в Special Interests Groups (SIGs) делится на две категории: Наблюдатели (Observers) и Участники (Participants). Только участники получат право голосовать в будущем.
Критерии, по которым будет определяться статус участника или контрибьютора, пока находятся в разработке. Подробные инструкции ожидаются на следующей неделе, а их официальное утверждение займет 2–3 недели.
Оригинал сообщения от Greg Favor в IME TG - click
Критерии, по которым будет определяться статус участника или контрибьютора, пока находятся в разработке. Подробные инструкции ожидаются на следующей неделе, а их официальное утверждение займет 2–3 недели.
I will also give a brief preview of the first steps for deploying the new RVI BoD policies over the next several weeks. This involves members officially self-identifying as Observers and Participants, and sorting out which participants will have voting rights (as well as preparing to track what is necessary to keep from losing one's voting right). This will just be a brief preview. Detailed guidelines are expected to be distributed to all technical groups (TGs, SIGs, IC/HCs, TSC) in the coming week. At which point putting together this official documentation will then happen over the next 2-3 weeks.
Оригинал сообщения от Greg Favor в IME TG - click
👀8👍3
Принес вам простой, но полезный инструмент анализа систолических массивов - SystoliC AcceLErator SIMulator (SCALE Sim)
SCALE Sim — это симулятор для анализа ускорителей на базе систолических массивов, для обработки операций свертки, матричного умножения (GEMM). Симулятор позволяет настраивать параметры систолического массива (размер, соотношение сторон) и памяти, а также моделировать производительность различных конфигураций,
что позволяет быстро итеративно проверять гипотезы и анализировать проектные решения для аппаратных ускорителей на базе систолических массивов.
Подробнее о методологии и возможностях SCALE Sim можно прочитать в статье - A Systematic Methodology for Characterizing Scalability of DNN Accelerators using SCALE-Sim
SCALE Sim — это симулятор для анализа ускорителей на базе систолических массивов, для обработки операций свертки, матричного умножения (GEMM). Симулятор позволяет настраивать параметры систолического массива (размер, соотношение сторон) и памяти, а также моделировать производительность различных конфигураций,
что позволяет быстро итеративно проверять гипотезы и анализировать проектные решения для аппаратных ускорителей на базе систолических массивов.
Подробнее о методологии и возможностях SCALE Sim можно прочитать в статье - A Systematic Methodology for Characterizing Scalability of DNN Accelerators using SCALE-Sim
👍19🔥8
Hola!
Хардвера на конференции было немного, но удалось пообщаться с инженерами из redpitaya.
Компания занимается проектированием программного и аппаратного обеспечения для индустриальных, исследовательских и академических применений.
На фото представлена отладочная плата STEMlab 125-14, подключенная к ПК, с софтом от redpitaya.
Отладочная плата спроектирована на базе AMD Xilinx ZYNQ 7010 SoC.
Среди её особенностей – богатый набор интерфейсов: RF inputs/outputs, GPIO, Ethernet, USB, а также возможность работы через различные среды разработки, такие как MATLAB и LabVIEW.
Но мы со всем справимся через Vivado в batch-mode 👀
Хардвера на конференции было немного, но удалось пообщаться с инженерами из redpitaya.
Компания занимается проектированием программного и аппаратного обеспечения для индустриальных, исследовательских и академических применений.
На фото представлена отладочная плата STEMlab 125-14, подключенная к ПК, с софтом от redpitaya.
Отладочная плата спроектирована на базе AMD Xilinx ZYNQ 7010 SoC.
Среди её особенностей – богатый набор интерфейсов: RF inputs/outputs, GPIO, Ethernet, USB, а также возможность работы через различные среды разработки, такие как MATLAB и LabVIEW.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍18🔥11😁1
PhD_Thesis_Bertaccini.pdf
12.2 MB
Принес вам диссертацию на тему:
Architectural and Microarchitectural Solutions for Multi-Precision Hardware Acceleration
Работа была выполнена в ETH Zurich, а её рецензентом выступил известный специалист Luca Benini.
Диссертация посвящена архитектурным и микроархитектурным решениям для специализированных аппаратных ускорителей, а также вычислениям с низкоточными (low-precision) форматами чисел с плавающей запятой.
В разделе Doctoral Thesis можно также поискать другие работы по интересующим вас темам.
А если вы вдруг забыли или не знали, что такое HAL Open Science, предлагаю перечитать один из моих старых постов☺️
Architectural and Microarchitectural Solutions for Multi-Precision Hardware Acceleration
Работа была выполнена в ETH Zurich, а её рецензентом выступил известный специалист Luca Benini.
Диссертация посвящена архитектурным и микроархитектурным решениям для специализированных аппаратных ускорителей, а также вычислениям с низкоточными (low-precision) форматами чисел с плавающей запятой.
В разделе Doctoral Thesis можно также поискать другие работы по интересующим вас темам.
А если вы вдруг забыли или не знали, что такое HAL Open Science, предлагаю перечитать один из моих старых постов
Please open Telegram to view this post
VIEW IN TELEGRAM
👍38
Лента в LinkedIn с каждым годом все активнее забивается абсолютно неинформативным трэшем, но, наверное, моя любимая рубрика в этом — VLSI-эксперты с методичками о том, как проходить собеседования, с типовыми вопросами для вакансии ASIC/FPGA-разработчика и т. д.
В чем проблема этих методичек? В том, что содержащиеся в них советы и рекомендации не просто бесполезны, а зачастую даже вредны.
И, наверное, я нашел просто эталон таких вредных советов.
Например, как вам имплементация 4-стадийного RISC-процессора в 20 строчках на Verilog или целочисленное АЛУ, которое почему-то называется FPU?
Единственное объяснение, которое я нашел, — это обычный кликбейт, на который я повелся и заодно потащил за собой еще и вас.
Иначе я просто не понимаю, зачем кто-то верстает эти PDF-файлы, постит их — и при этом они набирают сотни реакций и десятки репостов.
Не так давно, на канале обсуждали теорию мертвого интернета , а теперь я выкатываю разбор поста, который с 50% вероятностью составлен ботом👀
Почему я поднял этот вопрос? Потому что начинающим инженерам и студентам теперь приходится не только осваивать сложные технические темы, но и критически оценивать источники информации. В море контента легко наткнуться на бесполезные практики и явную дезинформацию, которые могут не только запутать, но и сформировать у новичков и студентов ошибочные представления о профессии.
Поэтому важно учиться фильтровать учебные материалы, отличать качественные источники от сомнительных.
Stay tuned
В чем проблема этих методичек? В том, что содержащиеся в них советы и рекомендации не просто бесполезны, а зачастую даже вредны.
И, наверное, я нашел просто эталон таких вредных советов.
Например, как вам имплементация 4-стадийного RISC-процессора в 20 строчках на Verilog или целочисленное АЛУ, которое почему-то называется FPU?
Единственное объяснение, которое я нашел, — это обычный кликбейт, на который я повелся и заодно потащил за собой еще и вас.
Иначе я просто не понимаю, зачем кто-то верстает эти PDF-файлы, постит их — и при этом они набирают сотни реакций и десятки репостов.
Не так давно, на канале обсуждали теорию мертвого интернета , а теперь я выкатываю разбор поста, который с 50% вероятностью составлен ботом
Почему я поднял этот вопрос? Потому что начинающим инженерам и студентам теперь приходится не только осваивать сложные технические темы, но и критически оценивать источники информации. В море контента легко наткнуться на бесполезные практики и явную дезинформацию, которые могут не только запутать, но и сформировать у новичков и студентов ошибочные представления о профессии.
Поэтому важно учиться фильтровать учебные материалы, отличать качественные источники от сомнительных.
Stay tuned
Please open Telegram to view this post
VIEW IN TELEGRAM
👍38🔥12😁2👀2✍1
У SemiAnalysis вышла новая классная статья про DeepSeek:
DeepSeek Debates: Chinese Leadership On Cost, True Training Cost, Closed Model Margin Impacts
Читать на SemiAnalysis
В этой статье разбирается стремительный рост компании DeepSeek и ее влияние на AI-рынок.
Одна из наиболее обсуждаемых тем — действительно ли обучение модели DeepSeek-V3 обошлось всего в $6M.
Авторы статьи утверждают, что реальные затраты гораздо выше:
Также рассматриваются технические достижения DeepSeek, такие как Multi-Token Prediction (MTP), Multi-head Latent Attention (MLA) и Mixture-of-Experts (MoE). MTP оптимизирует процесс обучения, а MLA и MoE снижают затраты на инференс и увеличивают производительность моделей, сокращая ненужные вычисления.
Отдельное внимание уделяется ситуации с GPU, инвестициям DeepSeek и High-Flyer в ускорители Nvidia H100/H800, а также влиянию экспортного контроля США на поставки оборудования в Китай.
Все подробности — в статье, а самое интересное, как обычно, спрятано за пейволлом🐱
p.s. В комментариях добавили важное замечание:
"Но подождите, даже в самом пейпере на дипсик ровно это и говорится - что они просто умножили число гпу-часов на 2 бакса:"
DeepSeek Debates: Chinese Leadership On Cost, True Training Cost, Closed Model Margin Impacts
Читать на SemiAnalysis
В этой статье разбирается стремительный рост компании DeepSeek и ее влияние на AI-рынок.
Одна из наиболее обсуждаемых тем — действительно ли обучение модели DeepSeek-V3 обошлось всего в $6M.
Авторы статьи утверждают, что реальные затраты гораздо выше:
We believe the pre-training number is nowhere near the actual amount spent on the model. We are confident their hardware spend is well over $500M over the company’s history. To develop new architecture innovations, during the model development, there is a considerable spend on testing new ideas, new architecture ideas, and ablations.
Также рассматриваются технические достижения DeepSeek, такие как Multi-Token Prediction (MTP), Multi-head Latent Attention (MLA) и Mixture-of-Experts (MoE). MTP оптимизирует процесс обучения, а MLA и MoE снижают затраты на инференс и увеличивают производительность моделей, сокращая ненужные вычисления.
Отдельное внимание уделяется ситуации с GPU, инвестициям DeepSeek и High-Flyer в ускорители Nvidia H100/H800, а также влиянию экспортного контроля США на поставки оборудования в Китай.
Все подробности — в статье, а самое интересное, как обычно, спрятано за пейволлом
p.s. В комментариях добавили важное замечание:
"Но подождите, даже в самом пейпере на дипсик ровно это и говорится - что они просто умножили число гпу-часов на 2 бакса:"
Lastly, we emphasize again the economical training costs of DeepSeek-V3, summarized in Table 1, achieved through our optimized co-design of algorithms, frameworks, and hardware. During the pre-training stage, training DeepSeek-V3 on each trillion tokens requires only 180K H800 GPU hours, i.e., 3.7 days on our cluster with 2048 H800 GPUs. Consequently, our pre-training stage is completed in less than two months and costs 2664K GPU hours. Combined with 119K GPU hours for the context length extension and 5K GPU hours for post-training, DeepSeek-V3 costs only 2.788M GPU hours for its full training. Assuming the rental price of the H800 GPU is $2 per GPU hour, our total training costs amount to only $5.576M. Note that the aforementioned costs include only the official training of DeepSeek-V3, excluding the costs associated with prior research and ablation experiments on architectures, algorithms, or data.
Please open Telegram to view this post
VIEW IN TELEGRAM
Semianalysis
DeepSeek Debates: Chinese Leadership On Cost, True Training Cost, Closed Model Margin Impacts
H100 Pricing Soaring, Subsidized Inference Pricing, Export Controls, MLA
👍13🔥5👀1
Будничное напоминание, что плавающая точка — зло, а спасение мы найдём только в 1.58 битном типе данных 🙏 🙏 🙏
А пока что принёс вам две классные обзорные статьи по работе с точками, которые плавают.
1. Обзор от Texas Instruments об имплементации Block Floating Point на DSP-ядрах TMS320C54xактуалочка из 1999-го года .
Программная часть не особо интересна, но введение в блочные флоты и теоретическая база хорошо раскрыты в этом руководстве. Рекомендую ознакомиться, особенно в свете популярности новой концепции — MicroScaling Floating Point, о которой мы обязательно поговорим в будущих постах на канале.
A Block Floating Point Implementation on the TMS320C54x DSP
2. В одном из профессиональных чатов нашёл занимательную статью на русском языке - "Стандартизация и тестирование реализаций
математических функций, работающих с числами с
плавающей точкой"
Как видно из названия статьи, материал отлично подойдёт для тех, кто занимается имплементацией математических функций на базе IEEE-754, либо для тех, кто проверяет корректность вычислений или имплементацию, будь то программного, будь то аппаратного алгоритма. Статья неплохо покрывает базовые понятия 754-го стандарта и содержит богатый набор ссылок, которые можно и нужно использовать как дополнительный материал.
А пока что принёс вам две классные обзорные статьи по работе с точками, которые плавают.
1. Обзор от Texas Instruments об имплементации Block Floating Point на DSP-ядрах TMS320C54x
Программная часть не особо интересна, но введение в блочные флоты и теоретическая база хорошо раскрыты в этом руководстве. Рекомендую ознакомиться, особенно в свете популярности новой концепции — MicroScaling Floating Point, о которой мы обязательно поговорим в будущих постах на канале.
A Block Floating Point Implementation on the TMS320C54x DSP
2. В одном из профессиональных чатов нашёл занимательную статью на русском языке - "Стандартизация и тестирование реализаций
математических функций, работающих с числами с
плавающей точкой"
Как видно из названия статьи, материал отлично подойдёт для тех, кто занимается имплементацией математических функций на базе IEEE-754, либо для тех, кто проверяет корректность вычислений или имплементацию, будь то программного, будь то аппаратного алгоритма. Статья неплохо покрывает базовые понятия 754-го стандарта и содержит богатый набор ссылок, которые можно и нужно использовать как дополнительный материал.
Please open Telegram to view this post
VIEW IN TELEGRAM
✍29👍17🔥12😁2
Как можно не любить FP4, где умножение мантисс, да и пары FP4 операндов можно сделать через простейший LUT, а не заморачиваться с CSA reduction tree и алгоритмом Booth'a, логикой нормализации и прочим классическим floating-point/digital arithmetic стафом? 👀
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11😁4
Forwarded from gonzo-обзоры ML статей
Optimizing Large Language Model Training Using FP4 Quantization
Ruizhe Wang, Yeyun Gong, Xiao Liu, Guoshuai Zhao, Ziyue Yang, Baining Guo, Zhengjun Zha, Peng Cheng
Статья: https://arxiv.org/abs/2501.17116
Формат мини.
Только обсудили обучение DeepSeek в FP8 (https://news.1rj.ru/str/gonzo_ML/3294) и упомянули старую работу про FP8-LM (https://arxiv.org/abs/2310.18313) от Microsoft, как та же команда анонсировала обучение в FP4!
С помощью ухищрений в виде differentiable quantization estimator для точного обновления весов и outlier clamping and compensation strategy для предотвращения коллапса активаций достигли качества аналогичного обучению в BF16 и FP8 и обучили 13B модель на 100B токенов.
FP16 использует формат E5M10 (5 бит на экспоненту, 10 на мантиссу), BF16 — E8M7, FP8 обычно есть в двух вариантах с E4M3 (был у DeepSeek-V3) и E5M2, а здесь FP4 сделали в формате E2M1. Ещё один бит — знак, если что.
Нвидиа теперь репортит флопсы в FP4 (https://news.1rj.ru/str/gonzo_ML/3182), эта разрядность поддерживается новыми GPU, так что можно ожидать ещё одного удвоения производительности/размера моделей относительно DeepSeek, или учетверения относительно более традиционных моделей типа Llama.
Так и доFP1 INT1 дойдём!
Очень круто.
Ruizhe Wang, Yeyun Gong, Xiao Liu, Guoshuai Zhao, Ziyue Yang, Baining Guo, Zhengjun Zha, Peng Cheng
Статья: https://arxiv.org/abs/2501.17116
Формат мини.
Только обсудили обучение DeepSeek в FP8 (https://news.1rj.ru/str/gonzo_ML/3294) и упомянули старую работу про FP8-LM (https://arxiv.org/abs/2310.18313) от Microsoft, как та же команда анонсировала обучение в FP4!
С помощью ухищрений в виде differentiable quantization estimator для точного обновления весов и outlier clamping and compensation strategy для предотвращения коллапса активаций достигли качества аналогичного обучению в BF16 и FP8 и обучили 13B модель на 100B токенов.
FP16 использует формат E5M10 (5 бит на экспоненту, 10 на мантиссу), BF16 — E8M7, FP8 обычно есть в двух вариантах с E4M3 (был у DeepSeek-V3) и E5M2, а здесь FP4 сделали в формате E2M1. Ещё один бит — знак, если что.
Нвидиа теперь репортит флопсы в FP4 (https://news.1rj.ru/str/gonzo_ML/3182), эта разрядность поддерживается новыми GPU, так что можно ожидать ещё одного удвоения производительности/размера моделей относительно DeepSeek, или учетверения относительно более традиционных моделей типа Llama.
Так и до
Очень круто.
arXiv.org
Optimizing Large Language Model Training Using FP4 Quantization
The growing computational demands of training large language models (LLMs) necessitate more efficient methods. Quantized training presents a promising solution by enabling low-bit arithmetic...
👍10🔥2😁1
В работе начал активно пользоваться NotebookLM от Google.
Загрузил в workspace документы, связанные со стандартом RISC-V и некоторыми драфтами расширений, над которыми я сейчас работаю.
Вместо Ctrl + F и поиска по PDF быстро нахожу нужные куски информации не по ключевым словам, а по контексту, что значительно ускоряет работу с документацией и спецификациями.
И что наиболее важно к каждому ответу приводятся ссылки на куски документации, на основе которых сформирован ответ, так что если нет доверия к сгенерированному ответу можно сразу же обратиться к исходнику документа.
Вроде где-то даже видел функцию генерации подкаста на основе загруженных документов, так что загружайте IA-32 Software Developer’s Manuals на 5к страниц и наслаждайтесь 🫠
Остаётся вопрос загрузки чувствительных внутренних документов компании, но для работы с открытыми стандартами или со спецификациями от ARM или IEEE данный сервис подходит отлично.
Загрузил в workspace документы, связанные со стандартом RISC-V и некоторыми драфтами расширений, над которыми я сейчас работаю.
Вместо Ctrl + F и поиска по PDF быстро нахожу нужные куски информации не по ключевым словам, а по контексту, что значительно ускоряет работу с документацией и спецификациями.
И что наиболее важно к каждому ответу приводятся ссылки на куски документации, на основе которых сформирован ответ, так что если нет доверия к сгенерированному ответу можно сразу же обратиться к исходнику документа.
Вроде где-то даже видел функцию генерации подкаста на основе загруженных документов, так что загружайте IA-32 Software Developer’s Manuals на 5к страниц и наслаждайтесь 🫠
Остаётся вопрос загрузки чувствительных внутренних документов компании, но для работы с открытыми стандартами или со спецификациями от ARM или IEEE данный сервис подходит отлично.
🔥56👍9✍6
Framework (2nd Gen) Event
Коммерчески доступная материнская плата на базе AMD Ryzen™ AI Max 300 Series (NPU 50 TOPS)
Компания Framework разрабатывает модульные ноутбуки с упором на ремонтопригодность и заменяемые компоненты. Такой подход не только снижает количество электронных отходов, но и позволяет продлевать срок службы устройств — вместо полной замены на новую модель можно обновить отдельные компоненты. Кроме того, старые комплектующие можно использовать в кастомных проектах, например, для сборки домашнего сервера или специализированных рабочих станций.
На данный момент отдельно приобрести материнскую плату с процессором AMD Ryzen AI Max 300 Series можно только у компании Framework. При этом сам процессор уже используется и другими производителями ноутбуков, например, MSI.
Поэтому, если есть желание собрать домашний компактный сервер или рабочую станцию, или даже кластер с фокусом на AI-приложения - это выглядит как интересное решение.
В целом, это интересный конкурент миниатюрной рабочей станции от Apple Mac Mini на базе M4 Pro. К слову о компактности, эта плата умещается в 4.5 литровый корпус, но ничто не мешает вам заколхозить свое решение в духе DIY 👀
Стоит учитывать, что у Framework есть вопросы к контролю качества, и их ноутбуки не всегда бывают безупречными, как с софтверной стороны, так и с точки зрения сборки конечного продукта.
Материнская плата, конечно, менее сложное устройство, но всё же кажется, что стоит дождаться первых тестов и отзывов.
Хотя если у вас достаточно времени и энтузиазма, вы можете попробовать себя в роли тестера. В аналогичной роли я побывал сам, заказав fw13 и спустя 4 недели так называемого юзер экспириенса - успешно рефанднул эту машину.
Несмотря на в целом негативный опыт при работе с fw13, все еще считаю, что компания идет в верном направлении и представляет действительно интересные продукты, заслуживающие внимания, а существующие шероховатости будут исправлены в следующих релизах☺️
Коммерчески доступная материнская плата на базе AMD Ryzen™ AI Max 300 Series (NPU 50 TOPS)
Компания Framework разрабатывает модульные ноутбуки с упором на ремонтопригодность и заменяемые компоненты. Такой подход не только снижает количество электронных отходов, но и позволяет продлевать срок службы устройств — вместо полной замены на новую модель можно обновить отдельные компоненты. Кроме того, старые комплектующие можно использовать в кастомных проектах, например, для сборки домашнего сервера или специализированных рабочих станций.
На данный момент отдельно приобрести материнскую плату с процессором AMD Ryzen AI Max 300 Series можно только у компании Framework. При этом сам процессор уже используется и другими производителями ноутбуков, например, MSI.
Поэтому, если есть желание собрать домашний компактный сервер или рабочую станцию, или даже кластер с фокусом на AI-приложения - это выглядит как интересное решение.
В целом, это интересный конкурент миниатюрной рабочей станции от Apple Mac Mini на базе M4 Pro. К слову о компактности, эта плата умещается в 4.5 литровый корпус
Стоит учитывать, что у Framework есть вопросы к контролю качества, и их ноутбуки не всегда бывают безупречными, как с софтверной стороны, так и с точки зрения сборки конечного продукта.
Материнская плата, конечно, менее сложное устройство, но всё же кажется, что стоит дождаться первых тестов и отзывов.
Хотя если у вас достаточно времени и энтузиазма, вы можете попробовать себя в роли тестера. В аналогичной роли я побывал сам, заказав fw13 и спустя 4 недели так называемого юзер экспириенса - успешно рефанднул эту машину.
Несмотря на в целом негативный опыт при работе с fw13, все еще считаю, что компания идет в верном направлении и представляет действительно интересные продукты, заслуживающие внимания, а существующие шероховатости будут исправлены в следующих релизах
Please open Telegram to view this post
VIEW IN TELEGRAM
👍14🔥3
Forwarded from ❆
Firefox latest drama
В силу последних новостей с Firefox, хочется напомнить об одном замечательном ресурсе:
https://spyware.neocities.org/
spyware watchdog — сайт на платформе neocities посвящённый обзору на различные spyware. То есть программное обеспечения осуществляющего шпионаж за пользователем.
На сайте приведены обзоры на различное ПО и его spyware status, то есть осуществляет ли это ПО слежку за пользователем. Заходите в раздел с браузерами, заходите в обзор firefox — и ВНЕЗАПНО firefox считался spyware ещё задолго до этой новости. В статье приведена инфа про то как именно файрфокс звонит домой в mozilla. Правда там рядом есть ещё mitigation guide — tutorial на тему того как отключить всю слежку.
Я его не читал правда, я сразу использовал arkenfox, сборку user.js для firefox, которую рекомендовала Solene%.
Что же делать пользователям Firefox в такое трудное для приватности время ?
Ну почти ничего: вы можете не дожидаться того как выйдет новый браузер ladybird. Вы можете не переходить на материалистичный Dillo, на хацкерский quterbrowser, на лисповый nyxt.
Вы точно так же можете просто поставить Arkenfox.
Если хотите меньше тратить времени на настройку может поставить ungoogled-chromium, в винде он доступен через пакетник scoop например. Этот браузер собран из свободного chromium, только в нём ещё все домены гугла заменены регулярным выражением на несуществующий домен. Это набор патчей.
Если ещё меньше хочется настраивать, то можно поставить iridium и по гайду с spyware watchdog прожать одну галочку.
Что же буду делать я ?
Я останусь на firefox с arkenfox, потому что я плотно подсел на вкладки контейнеры.
Правда это фича приватности, а не безопасности. Она обеспечивает цифровую компартментализацию (digital compartmentalization): все куки которые получает браузер теперь лежат не в одном профиле браузера, каждый в своём контейнере.
Я так например могу открыть вкладку с AWS в контейнере «работа», cloudflare со своим доменом и github в контейнере «личное», а iis.bsuir.by в контейнере «bsuir». Да, вы можете добавлять контейнеры сами.
Ещё меня держит интеграция с парольным менеджером keepassxc.
Что же делать, если действительно заботиться не только о приватности, но и безопасности, OPSEC, и прочих вечных вопросах существования ?
Ну, по хорошему компьютер без интернета или qubes os, а так можно поставить вместо очередного браузера virtualbox с операционной системой whonix.
В силу последних новостей с Firefox, хочется напомнить об одном замечательном ресурсе:
https://spyware.neocities.org/
spyware watchdog — сайт на платформе neocities посвящённый обзору на различные spyware. То есть программное обеспечения осуществляющего шпионаж за пользователем.
На сайте приведены обзоры на различное ПО и его spyware status, то есть осуществляет ли это ПО слежку за пользователем. Заходите в раздел с браузерами, заходите в обзор firefox — и ВНЕЗАПНО firefox считался spyware ещё задолго до этой новости. В статье приведена инфа про то как именно файрфокс звонит домой в mozilla. Правда там рядом есть ещё mitigation guide — tutorial на тему того как отключить всю слежку.
Я его не читал правда, я сразу использовал arkenfox, сборку user.js для firefox, которую рекомендовала Solene%.
Что же делать пользователям Firefox в такое трудное для приватности время ?
Ну почти ничего: вы можете не дожидаться того как выйдет новый браузер ladybird. Вы можете не переходить на материалистичный Dillo, на хацкерский quterbrowser, на лисповый nyxt.
Вы точно так же можете просто поставить Arkenfox.
Если хотите меньше тратить времени на настройку может поставить ungoogled-chromium, в винде он доступен через пакетник scoop например. Этот браузер собран из свободного chromium, только в нём ещё все домены гугла заменены регулярным выражением на несуществующий домен. Это набор патчей.
Если ещё меньше хочется настраивать, то можно поставить iridium и по гайду с spyware watchdog прожать одну галочку.
Что же буду делать я ?
Я останусь на firefox с arkenfox, потому что я плотно подсел на вкладки контейнеры.
Правда это фича приватности, а не безопасности. Она обеспечивает цифровую компартментализацию (digital compartmentalization): все куки которые получает браузер теперь лежат не в одном профиле браузера, каждый в своём контейнере.
Я так например могу открыть вкладку с AWS в контейнере «работа», cloudflare со своим доменом и github в контейнере «личное», а iis.bsuir.by в контейнере «bsuir». Да, вы можете добавлять контейнеры сами.
Ещё меня держит интеграция с парольным менеджером keepassxc.
Что же делать, если действительно заботиться не только о приватности, но и безопасности, OPSEC, и прочих вечных вопросах существования ?
Ну, по хорошему компьютер без интернета или qubes os, а так можно поставить вместо очередного браузера virtualbox с операционной системой whonix.
Telegram
Okhsunrog's Logs
У Firefox совсем дела стали плохи?
👍19👀9😁1