
超越CUDA的魔法:从DeepSeek看PTX指令的终极优化之道 – Phirs
2025年2月2日 · PTX作为虚拟指令集,允许开发者直接操控GPU的微观架构。DeepSeek团队在R1模型中展现了三大杀手锏: 寄存器分配艺术 通过手动混合使用32位和64位寄存器,将寄存器压力降低23%。在多头注意力计算中,这种优化使得每个线程块可承载的token数量从512提升 …
快速了解DeepSeek中用到的PTX - 知乎 - 知乎专栏
2025年1月29日 · PTX即Parallel Thread Execution,属于一种low-level的虚拟机 (VM)和指令集 (ISA),有专门的几百页的pdf文档 (比如ptx_isa_8.2.pdf)。 在PTX中也将CUDA block称作 CTA (Cooperative Thread Array)。 基于C/C++的CUDA程序经过编译后可以生成PTX指令,然后通过PTX-to-GPU translator & driver让GPU以并行计算的方式执行这些指令。
DeepSeek优化PTX,AI挑战CUDA生态?英伟达护城河仍稳固吗?
DeepSeek 直接操作 PTX(Parallel Thread Execution) 代码,而不是使用 CUDA 高级 API。 PTX 是英伟达 GPU 计算架构中的中间表示层, 接近汇编语言 ,允许对寄存器分配、线程管理、流式处理等进行更细粒度的优化。
DeepSeek 如何优化 AI 计算?PTX 代码解析与 AI 计算优化策 …
2025年1月30日 · PTX(Parallel Thread Execution)是 NVIDIA CUDA 的中间表示语言,它决定了 GPU 如何执行计算任务。 DeepSeek 通过 手动优化 PTX 代码,减少冗余计算,提高推理速度。 示例代码: : "=r" (threadIdx.x) 以上代码通过位运算(shl.b32)优化索引计算,相比普通的整数乘法 (mul.wide.u32),减少了额外计算步骤,提高了执行效率。 2. 低成本高性能:动态计算图优化. DeepSeek 采用 动态图计算优化 (类似 PyTorch),在运行时调整计算路径,从而减少不必要 …
DeepSeek 的 PTX 训练 | JrunDing
2025年2月24日 · PTX是英伟达GPU的一种中间指令集架构,位于高级编程语言(如CUDA)和底层机器码之间。这种技术选择为DeepSeek带来了多方面的好处。 PTX作为一种接近汇编语言的中间指令集,允许开发者对GPU进行更细致的硬件层面优化。
Cuda PTX的入门实践-以矩阵乘法为例 - 知乎 - 知乎专栏
本文以矩阵乘法为例,简单介绍如何使用在cuda代码中inline PTX代码,不考虑性能问题。 矩阵乘法的C语言代码的naive实现: C = A*B,A的形状为M*K,B为K*N。 如何使用内联PTX代码使用上述的功能呢? 示例代码如下: asm(".reg .f32 f1, f2, f3;\n" "mov.f32 f1, 0.0;\n" ::); for (int i = 0; i < K; ++i) { // 从全局内存中读取数据到寄存器中,并进行乘法+加法运算.
PTX指令集深度解析:架构、优化与应用实践 - JackYang - 博客园
2025年3月3日 · PTX到其他架构的翻译层. 开源项目Triton对AMD CDNA架构的PTX模拟. 华为昇腾Ascend芯片的PTX兼容层设计挑战. 性能对比:ResNet50在模拟层与原生指令集的差异. 自主指令集生态构建. 基于PTX语义的国产GPU指令集设计(如壁仞BR100) LLVM PTX前端到自主架构后 …
2023年的深度学习入门指南(27) - CUDA的汇编语言PTX与SASS …
PTX(Parallel Thread Execution)是英伟达GPU架构中的中间指令集架构,介于高级编程语言(如CUDA C++)和底层机器码(SASS)之间。 它类似于传统计算机体系中的 汇编语言 ,但抽象层级略高于直接操作硬件的机器码,主要用于实现跨GPU架构的兼容性。
PTX是否做到绕过CUDA垄断?我的同事黄海平的结论:正好昨天 …
2025年2月8日 · 所以,DEPPSEEK能够使用PTX(全称为:并行计算任务线程的执行)进行任务执行的优化,也是因为英伟达的“可编辑性”允许的,英伟达经常会吸收这些创新工程方法,到官方那边的,这也是CUDA生态的魅力优势。 而 AMD 、华为、 寒武纪 的芯片,也有这种中间表达层,但他们用的是开源的架构叫OPENCL,并且是不给开发者暴露和可编辑的。 以上原理弄清楚之后,我们可以思考,Deepseek使用PTX进行硬件的任务执行优化,是否可以绕过CUDA。 首 …
CUDA PTX ISA阅读笔记(一) - CSDN博客
2017年7月17日 · ptx是一种虚拟指令集架构(isa),由nvidia设计,用于描述gpu上的数据并行计算。本手册的v7.1版本发布于2020年9月,它涵盖了最新的ptx特性,帮助开发者更深入地理解和利用cuda平台。 1. 可扩展的数据并行计算使用...