Awqq - 搜索

约 51,100 个结果

在新选项卡中打开链接

时间不限

zhihu.com
https://zhuanlan.zhihu.com
AWQ：用于 LLM 压缩和加速的激活感知权重量化 - 知乎
在本文中，我们提出了 "激活感知权重量化"（Activation-aware Weight Quantization，AWQ），这是一种对硬件友好的 LLM 低位权重量化方法。我们的方法基于权重并非同等重要这一观点：只保护 1%的突出权重可以大大减少量化误差。因此，我们建议通过观察激活（而非权重）来寻找保护突出权重的最佳通道缩放。 AWQ 不依赖于任何反向传播或重构，因此可以很好地保持 LLM 在不同领域和模态上的泛化能力，而不会过拟合校准集。在各种语言模型和特定领域基准测试 …
github.com
https://github.com › mit-han-lab › llm-awq
GitHub - mit-han-lab/llm-awq: [MLSys 2024 Best Paper Award] …
Efficient and accurate low-bit weight quantization (INT3/4) for LLMs, supporting instruction-tuned models and multi-modal LMs. The current release supports: AWQ search for accurate quantization. Pre-computed AWQ model zoo for LLMs (Llama-1/2/3, OPT, CodeLlama, StarCoder, Vicuna, VILA, LLaVA; load to generate quantized weights).
arxiv.org
https://arxiv.org › abs
[2306.00978] AWQ: Activation-aware Weight Quantization for LLM ...
2023年6月1日 · We propose Activation-aware Weight Quantization (AWQ), a hardware-friendly approach for LLM low-bit weight-only quantization. AWQ finds that not all weights in an LLM are equally important. Protecting only 1% salient weights can greatly reduce quantization error.
zhihu.com
https://zhuanlan.zhihu.com
大模型量化技术原理-AWQ、AutoAWQ - 知乎 - 知乎专栏
AWQ（AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration）是一种对大模型仅权重量化方法。通过保护更“重要”的权重不进行量化，从而在不进行训练的情况下提高准确率。由于 LLM 的权重并非同等重要，与其他权重相比，有一小部分显著权重对 LLM 的性能更为重要。因此，作者认为跳过这些显著权重不进行量化，可以在不进行任何训练的情况下，弥补量化损失造成的性能下降。为了验证这个想法，作者测量了 INT3 量化模型的性能，同时保 …
awqq.com
https://www.awqq.com
软件开发记录-湖南壹零讯科供应链管理有限公司
使命：聚焦创新的科技产品，以匠心精神为品牌与消费者完美链接，服务客户，为客户创造最大价值
zhihu.com
https://zhuanlan.zhihu.com
AWQ vs SpQR: 量化又见量化 - 知乎 - 知乎专栏
AWQ is more hardware efficient and simpler to implement than SpQR, but the compression ratio seems to be worse than SpQR. 我的感觉也差不多，总体效果上SpQR要好一些，尤其是在参数量更大的模型上，AWQ在更大规模的模型（33B+)上提升相对GPTQ较小。但是从易用性上看，AWQ目前已经集成进bitsandbytes和 peft 这套体系（注：这个应该是我当时写的时候和Qlora搞混了，其实是没有的，感谢知友们指正。不过实现上来看AWQ确实简单一些)，SpQR我看好 …
mit.edu
https://hanlab.mit.edu › projects › awq
AWQ: Activation-aware Weight Quantization for LLM Compression …
2024年8月1日 · In this paper, we propose Activation-aware Weight Quantization (AWQ), a hardware-friendly approach for LLM low-bit weight-only quantization. Our method is based on the observation that weights are not equally important: protecting only 1% of salient weights can greatly reduce quantization error.
csdn.net
https://blog.csdn.net › article › details
GPTQ 和 AWQ：LLM 量化方法的比较 - CSDN博客
2023年10月14日 · AWQ 是 Facebook AI 提出的一种基于 activation-aware 方法的量化方法。 GPTQ 的工作原理如下：首先，GPTQ 使用 group 量化将权重分组为多个子矩阵。然后，GPTQ 使用 OBQ 方法来量化每个子矩阵。最后，GPTQ 使用动态反量化来恢复权重的原始值。 GPTQ 的改进主要体现在以下几个方面：分组量化：GPTQ 使用分组量化来将权重分组为多个子矩阵，这可以降低量化精度损失。 OBQ 方法：GPTQ 使用 OBQ 方法来量化权重，该方法可以实现高 …
csdn.net
https://blog.csdn.net › article › details
AWQ量化及AutoAWQ代码详解 - CSDN博客
2024年7月12日 · AWQ量化出自mit韩松组内2023年关于LLM量化的一篇文章： AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration. 在介绍量化之前，先简要的介绍一下模型的量化. 1. 为什么要进行模型量化？量化有什么好处呢？
csdn.net
https://blog.csdn.net › article › details
深度解析：大模型量化技术原理——AWQ与AutoAWQ - CSDN博客
2024年8月31日 · AWQ（AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration）是一种对大模型仅权重量化方法。通过保护更“重要”的权重不进行量化，从而在不进行训练的情况下提高准确率。由于 LLM 的权重并非同等重要，与其他权重相比，有一小部分显著权重对 LLM 的性能更为重要。因此，作者认为跳过这些显著权重不进行量化，可以在不进行任何训练的情况下，弥补量化损失造成的性能下降。为了验证这个想法，作者测量了 INT3 量化模 …

分页
- 1
- 2
- 3
- 4
- 下一页