AW Q - 搜索

约 548,000 个结果

在新选项卡中打开链接

时间不限

zhihu.com
https://zhuanlan.zhihu.com
AWQ：用于 LLM 压缩和加速的激活感知权重量化 - 知乎
在本文中，我们提出了"激活感知权权重化"（Activation-aware Weight Quantization，AWQ），这是一种对硬件友好的低位 LLM 仅权重化方法。我们的方法基于这样一种观点，即权重对 LLM 性能的重要性并不相同。有一小部分（0.1%-1%）突出权重；跳过这些突出权重的量化将显著减少量化损失（表 1）。要找到突出的权重通道，我们应该参考激活分布而不是权重分布，尽管我们只进行了权重量化：与较大激活幅度相对应的权重通道更加突出，因为它们处理了更重要的特征。 …
github.com
https://github.com › mit-han-lab › llm-awq
GitHub - mit-han-lab/llm-awq: [MLSys 2024 Best Paper Award] AWQ …
Efficient and accurate low-bit weight quantization (INT3/4) for LLMs, supporting instruction-tuned models and multi-modal LMs. The current release supports: AWQ search for accurate quantization. Pre-computed AWQ model zoo for LLMs (Llama-1/2/3, OPT, CodeLlama, StarCoder, Vicuna, VILA, LLaVA; load to generate quantized weights).
zhihu.com
https://zhuanlan.zhihu.com
W4A16模型量化大法 AWQ - 知乎 - 知乎专栏
AWQ outperforms existing methods on various language modeling and domain-specific benchmarks, including instruction-tuned LMs and multi-modal LMs. The authors also implement an efficient inference framework for LLMs on the edge, achieving more than 3x speedup compared to the Huggingface FP16 implementation.
arxiv.org
https://arxiv.org › abs
[2306.00978] AWQ: Activation-aware Weight Quantization for LLM ...
2023年6月1日 · We propose Activation-aware Weight Quantization (AWQ), a hardware-friendly approach for LLM low-bit weight-only quantization. AWQ finds that not all weights in an LLM are equally important. Protecting only 1% salient weights can greatly reduce quantization error.
zhihu.com
https://zhuanlan.zhihu.com
大模型量化技术原理-AWQ、AutoAWQ - 知乎 - 知乎专栏
AWQ（AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration）是一种对大模型仅权重量化方法。通过保护更“重要”的权重不进行量化，从而在不进行训练的情况下提高准确率。由于 LLM 的权重并非同等重要，与其他权重相比，有一小部分显著权重对 LLM 的性能更为重要。因此，作者认为跳过这些显著权重不进行量化，可以在不进行任何训练的情况下，弥补量化损失造成的性能下降。为了验证这个想法，作者测量了 INT3 量化模型的性能，同时保 …
csdn.net
https://blog.csdn.net › article › details
AWQ模型量化实践 - CSDN博客
2024年5月28日 · AWQ量化精度比GPTQ高一点，并且AWQ比GPTQ更容易实现，计算性能更高。相比AWQ采用heuristic的方法来寻找最佳的scale和 clip 系数，新的OminiQuant则采用训练的方式来获得相应的系数，论文数据比AWQ获得更高的量化准确度。 AWQ的原理非常简单，就是计算一个scale系数tensor，shape为 [k]，k为矩阵乘的权重reduce的维度大小。对激活除以该tensor，并对矩阵乘的权重乘以该tensor，这降低了权重量化的难度，使得权重可以采用常规 …
csdn.net
https://blog.csdn.net › TFATS › article › details
大模型量化之AWQ原理和应用 - CSDN博客
2025年2月8日 · AWQ（Activation-aware Weight Quantization）量化是一种基于激活值分布 (activation distribution)挑选显著权重 (salient weight)进行量化的方法，其不依赖于任何反向传播或重建，因此可以很好地保持LLM在不同领域和模式上的泛化能力，而不会过拟合到校准集，属训练后量化 (Post-Training Quantization, PTQ)大类。作者指出，模型的权重并不同等重要，仅有0.1%～1%的小部分显著权重对模型输出精度影响较大。因此如果能有办法只对0.1%~1%这 …
armcvai.cn
https://www.armcvai.cn › llm-quant-awq.html
AWQ 量化详解 - Zhang
2024年11月1日 · 本文提出了激活感知权重量化 (AWQ)，这是一种适合硬件的 LLM 低位权重（比如 w4）量化方法。 AWQ 发现，并非所有 LLM 权重都同等重要，仅保护 1% 的显著权重便能大幅减少量化误差。而要识别显著权重通道，应参考的是激活分布而非权重分布。为了避免硬件效率低下的混合精度量化，我们通过数学推导得出，放大显著通道可以减少量化误差。 AWQ 采用等效变换来放大显著权重通道，用于保留权重显著通道值，保留的比例通过离线收集激活统计数据 …
aijishu.com
https://aijishu.com
GPTQ & SmoothQuant & AWQ 代码解析 - 极术社区 - 连接开发者 …
2024年6月12日 · 本文主要是对LLM PTQ量化方向的几个经典算法 (GPTQ、SmoothQuant、AWQ)的代码实现进行介绍，一方面是为了加深对算法的理解，另一方面也是想看看有什么值得借鉴的地方。 GPTQ在LLM量化W4A16方向的地位毋庸置疑，它的出发点很朴素，就是试图最小化权重量化后和量化前的层函数误差，对这个最优化问题进行求解后结果包含二阶的Hessian matrix（海森矩阵），详细数学推理公式见文章HELLO七仔：GPTQ 模型量化，论文 …
csdn.net
https://blog.csdn.net › article › details
大模型AWQ量化Qwen模型和推理实战教程 - CSDN博客
2024年11月9日 · AWQ（Activation-aware Weight Quantization）是一种专门针对大规模语言模型设计的低比特权重量化方法。它不仅考虑了权重本身的分布特性，还考虑了激活值的影响，这使得量化后的模型能够更好地保持原始模型的性能。与传统的FP16浮点数表示相比，采用AWQ技术的AutoAWQ工具包能够实现以下优势：加速推理：将模型的运行速度提升3倍，极大地提高了处理效率。减少内存占用：将模型的内存需求降至原来的三分之一，使得更大规模的模型可以在更 …

分页
- 1
- 2
- 3
- 4
- 下一页

AWQ：用于 LLM 压缩和加速的激活感知权重量化 - 知乎

GitHub - mit-han-lab/llm-awq: [MLSys 2024 Best Paper Award] AWQ …

W4A16模型量化大法 AWQ - 知乎 - 知乎专栏

[2306.00978] AWQ: Activation-aware Weight Quantization for LLM ...

大模型量化技术原理-AWQ、AutoAWQ - 知乎 - 知乎专栏

AWQ模型量化实践 - CSDN博客

大模型量化之AWQ原理和应用 - CSDN博客

AWQ 量化详解 - Zhang

GPTQ & SmoothQuant & AWQ 代码解析 - 极术社区 - 连接开发者 …

大模型AWQ量化Qwen模型和推理实战教程 - CSDN博客