一阶误差至关重要:量化大型语言模型的精准补偿

arXiv:2507.11017v1 公告类型:新研究
摘要:训练后量化(PTQ)为压缩大语言模型(LLM)提供了一种高效方法,能显著降低内存访问与计算成本。现有基于补偿的权重校准方法通常依赖二阶泰勒展开来建模量化误差,其假设前提是在训练充分的全精度模型中一阶项可忽略不计。然而,我们发现渐进式补偿过程会引入潜在权重与其全精度对应值之间的一阶偏差累积,使得这一基本假设存在根本性缺陷。为此,我们提出FOEM方法——一种显式融合一阶梯度项以改进量化误差补偿的新型PTQ技术。FOEM通过直接计算潜在权重与全精度权重差值来近似梯度,避免了基于反向传播的梯度计算带来的高成本与泛化局限,仅引入极低额外计算开销。此外,FOEM利用预计算的Cholesky因子实时高效恢复Hessian子矩阵的逆。在大量模型与基准测试中的实验表明,FOEM始终优于经典GPTQ方法:在3比特权重量化中,FOEM将Llama3-8B的困惑度降低89.6%,并将Llama3-70B的5-shot MMLU准确率从51.7%提升至74.9%,接近全精度模型78.6%的性能。更进一步,FOEM可与GPTAQ、SpinQuant等先进技术无缝集成,在极具挑战性的W4A4KV4设定下实现额外提升,将当前最优方法与全精度基准的准确率差距进一步缩小。代码已开源:https://github.com/Xingyu-Zheng/FOEM。

(注:根据学术文献翻译规范,关键技术术语如"latent weights"译为"潜在权重"而非字面直译;对百分比数据保留原始数字格式;长句按中文表达习惯拆分;被动语态转换为主动表述;专业缩写首次出现时保留英文并标注中文全称)