
超越CUDA的魔法:从DeepSeek看PTX指令的终极优化之道 – Phirs
2025年2月2日 · PTX作为虚拟指令集,允许开发者直接操控GPU的微观架构。DeepSeek团队在R1模型中展现了三大杀手锏: 寄存器分配艺术 通过手动混合使用32位和64位寄存器,将寄存 …
快速了解DeepSeek中用到的PTX - 知乎 - 知乎专栏
2025年1月29日 · PTX即Parallel Thread Execution,属于一种low-level的虚拟机 (VM)和指令集 (ISA),有专门的几百页的pdf文档 (比如ptx_isa_8.2.pdf)。 在PTX中也将CUDA block称作 …
DeepSeek优化PTX,AI挑战CUDA生态?英伟达护城河仍稳固吗?
DeepSeek 直接操作 PTX(Parallel Thread Execution) 代码,而不是使用 CUDA 高级 API。 PTX 是英伟达 GPU 计算架构中的中间表示层, 接近汇编语言 ,允许对寄存器分配、线程管理、 …
DeepSeek 如何优化 AI 计算?PTX 代码解析与 AI 计算优化策 …
2025年1月30日 · PTX(Parallel Thread Execution)是 NVIDIA CUDA 的中间表示语言,它决定了 GPU 如何执行计算任务。 DeepSeek 通过 手动优化 PTX 代码,减少冗余计算,提高推理速度 …
DeepSeek 的 PTX 训练 | JrunDing
2025年2月24日 · PTX是英伟达GPU的一种中间指令集架构,位于高级编程语言(如CUDA)和底层机器码之间。这种技术选择为DeepSeek带来了多方面的好处。 PTX作为一种接近汇编语言 …
Cuda PTX的入门实践-以矩阵乘法为例 - 知乎 - 知乎专栏
本文以矩阵乘法为例,简单介绍如何使用在cuda代码中inline PTX代码,不考虑性能问题。 矩阵乘法的C语言代码的naive实现: C = A*B,A的形状为M*K,B为K*N。 如何使用内联PTX代码 …
PTX指令集深度解析:架构、优化与应用实践 - JackYang - 博客园
2025年3月3日 · PTX到其他架构的翻译层. 开源项目Triton对AMD CDNA架构的PTX模拟. 华为昇腾Ascend芯片的PTX兼容层设计挑战. 性能对比:ResNet50在模拟层与原生指令集的差异. 自主 …
2023年的深度学习入门指南(27) - CUDA的汇编语言PTX与SASS …
PTX(Parallel Thread Execution)是英伟达GPU架构中的中间指令集架构,介于高级编程语言(如CUDA C++)和底层机器码(SASS)之间。 它类似于传统计算机体系中的 汇编语言 , …
PTX是否做到绕过CUDA垄断?我的同事黄海平的结论:正好昨天 …
2025年2月8日 · 所以,DEPPSEEK能够使用PTX(全称为:并行计算任务线程的执行)进行任务执行的优化,也是因为英伟达的“可编辑性”允许的,英伟达经常会吸收这些创新工程方法,到 …
CUDA PTX ISA阅读笔记(一) - CSDN博客
2017年7月17日 · ptx是一种虚拟指令集架构(isa),由nvidia设计,用于描述gpu上的数据并行计算。本手册的v7.1版本发布于2020年9月,它涵盖了最新的ptx特性,帮助开发者更深入地理解 …