那些想要从工作负载中获得额外 10-20% 性能或功率的人,因此任何在云端销售代币并成功广泛部署模型的人,都已将其从 CUDA 级别优化到 PTX 级别。