PPO X HSA2 - 搜索

约 11,600 个结果

在新选项卡中打开链接

时间不限

zhihu.com
https://www.zhihu.com › question
深度强化学习SAC、PPO、TD3、DDPG比较？ - 知乎
PPO是一种基于策略梯度的强化学习算法，提出的核心思想是限制更新幅度，避免大规模的策略更新导致训练不稳定。 PPO通过使用剪切（Clipping）和价值函数基准的技巧，保证策略更新时的平滑性和稳定性。剪切目标函数：PPO使用一个带有剪切项的目标函数来限制每一步策略更新的幅度，确保新策略不会偏离旧策略太远。
zhihu.com
https://zhuanlan.zhihu.com
图解大模型RLHF系列之：人人都能看懂的PPO原理与源码解读
而如果我们想让一个batch的经验值被重复使用ppo_epochs次，等价于我们想要Actor在这个过程中，模拟和环境交互ppo_epochs次。举个例子：如果1个batch的经验值只使用1次，那么在本次更新完后，Actor就吃新的batch，正常和环境交互，产出新的经验值
cnblogs.com
https://www.cnblogs.com › myleaf
【论文系列】PPO知识点梳理+代码 (尽我可能细致通俗解释！）
2024年12月9日 · 一般ppo里面的优势函数a使用的是gae的算法，也就是下面的a。 ppo算法的流程图伪代码：上面的是ppo算法，下面的是ppo2算法： 1.1 总结. 我们这里简要的总结一下：这是最早的trpo算法的loss：这是ppo的loss：这是ppo2的loss：
csdn.net
https://blog.csdn.net › Vulcan_S › article › details
强化学习术语与超参数整理(PPO) - CSDN博客
2024年7月26日 · PPO算法是一种强化学习中的策略梯度方法，它的全称是Proximal Policy Optimization，即近端策略优化1。 PPO 算法的目标是在与环境交互采样数据后，使用随机梯度上升优化一个“替代”目标函数，从而改进策略。
csdn.net
https://blog.csdn.net › article › details
【强化学习战场谁为王？】近端策略优化算法 PPO、优势演员-评 …
2024年1月3日 · 近端策略优化（Proximal Policy Optimization, PPO）：PPO是目前最流行且高效的强化学习算法之一。它通过限制策略更新的幅度来避免性能的大幅波动，从而防止训练过程中的不稳定性。

csdn.net
https://blog.csdn.net › article › details
强化学习进化之路(PPO-＞DPO-＞KTO-＞ODPO-＞ORPO …
2025年3月13日 · ppo算法是一种近似策略优化算法，旨在通过最大化目标函数的同时，保持对策略更新的限制，以确保策略的稳定性和收敛性。ppo算法通过引入一个剪切项来限制策略更新的幅度，从而避免过大的策略变动。这个剪切项通常使用一种叫做“重要性采样比例”的方法 ...
zhihu.com
https://zhuanlan.zhihu.com
GRPO、PPO、DPO 深入解析与对比 - 知乎 - 知乎专栏
1. PPO（Proximal Policy Optimization） 1.1 PPO 原理. PPO 是 OpenAI 提出的强化学习算法，属于基于策略梯度（Policy Gradient）的强化学习方法，采用 Actor-Critic 结构，结合策略梯度和价值函数估计进行训练。PPO 的核心思想是在策略更新时对变化幅度进行约束，以提高训练稳定 ...
zhihu.com
https://zhuanlan.zhihu.com
强化学习-4-PPO、TRPO、PPO2 - 知乎 - 知乎专栏
2023年12月6日 · PPO（Proximal Policy Optimization）就是在Policy Gradient的基础上，变为off-policy的方法以增加数据利用率，加入重要性采样；加入额外的一个约束条件（constraint）： KL散度（KL Divergence）。在公式中表示的是 \theta 与 \theta^\prime 之间的KL散度，但实际上这个KL散度要求解的距离是参数分别为 \theta 和 \theta^\prime 的策略 \pi 之间的距离，即 KL (\pi_\theta,\pi_ {\theta^\prime}) 。实际上我也觉得可以这么写...
csdn.net
https://blog.csdn.net › BruceXee › article › details
强化学习PPO从理论到代码详解(2)---PPO1和PPO2 - CSDN博客
2023年1月2日 · PPO 算法有两个主要的变种：近端策略优化惩罚（PPO-penalty）和近端策略优化裁剪（PPO-clip）。 PPO1 是近端策略优化惩罚（PPO-penalty），在 PPO 的论文里面还有一个自适应KL散度（adaptive KL divergence）。这里会遇到一个问题就，即β 要设置为多少？
zhihu.com
https://www.zhihu.com › tardis › bd › art
大模型优化利器：RLHF之PPO、DPO - 知乎
2025年1月21日 · OpenAI 在大多数任务中使用的强化学习算法都是近端策略优化算法（Proximal Policy Optimization, PPO）。近端策略优化可以根据奖励模型获得的反馈优化模型，通过不断的迭代，让模型探索和发现更符合人类偏好的回复策略。
某些结果已被删除
分页
- 1
- 2
- 3
- 4
- 5
- 下一页

深度强化学习SAC、PPO、TD3、DDPG比较？ - 知乎

图解大模型RLHF系列之：人人都能看懂的PPO原理与源码解读

【论文系列】PPO知识点梳理+代码 (尽我可能细致通俗解释！）

强化学习术语与超参数整理(PPO) - CSDN博客

【强化学习战场谁为王？】近端策略优化算法 PPO、优势演员-评 …

强化学习进化之路(PPO-＞DPO-＞KTO-＞ODPO-＞ORPO …

GRPO、PPO、DPO 深入解析与对比 - 知乎 - 知乎专栏

强化学习-4-PPO、TRPO、PPO2 - 知乎 - 知乎专栏

强化学习PPO从理论到代码详解(2)---PPO1和PPO2 - CSDN博客

大模型优化利器：RLHF之PPO、DPO - 知乎