而直接偏好优化(DPO)及其衍生变体作为离线算法,凭借简单易用、稳定性强等优势,近来广受关注。 DPO主要通过最大化选定响应与拒绝响应间的 ...