PPO X HSA2 - 搜索

约 11,600 个结果

在新选项卡中打开链接

时间不限

zhihu.com
https://www.zhihu.com › question
深度强化学习SAC、PPO、TD3、DDPG比较？ - 知乎
PPO是一种基于策略梯度的强化学习算法，提出的核心思想是限制更新幅度，避免大规模的策略更新导致训练不稳定。 PPO通过使用剪切（Clipping）和价值函数基准的技巧，保证策略更新 …
zhihu.com
https://zhuanlan.zhihu.com
图解大模型RLHF系列之：人人都能看懂的PPO原理与源码解读
而如果我们想让一个batch的经验值被重复使用ppo_epochs次，等价于我们想要Actor在这个过程中，模拟和环境交互ppo_epochs次。举个例子：如果1个batch的经验值只使用1次，那么在本 …
cnblogs.com
https://www.cnblogs.com › myleaf
【论文系列】PPO知识点梳理+代码 (尽我可能细致通俗解释！）
2024年12月9日 · 一般ppo里面的优势函数a使用的是gae的算法，也就是下面的a。 ppo算法的流程图伪代码：上面的是ppo算法，下面的是ppo2算法： 1.1 总结. 我们这里简要的总结一下：这 …
csdn.net
https://blog.csdn.net › Vulcan_S › article › details
强化学习术语与超参数整理(PPO) - CSDN博客
2024年7月26日 · PPO算法是一种强化学习中的策略梯度方法，它的全称是Proximal Policy Optimization，即近端策略优化1。 PPO 算法的目标是在与环境交互采样数据后，使用随机 …
csdn.net
https://blog.csdn.net › article › details
【强化学习战场谁为王？】近端策略优化算法 PPO、优势演员-评 …
2024年1月3日 · 近端策略优化（Proximal Policy Optimization, PPO）：PPO是目前最流行且高效的强化学习算法之一。它通过限制策略更新的幅度来避免性能的大幅波动，从而防止训练过 …
csdn.net
https://blog.csdn.net › article › details
强化学习进化之路(PPO-＞DPO-＞KTO-＞ODPO-＞ORPO …
2025年3月13日 · ppo算法是一种近似策略优化算法，旨在通过最大化目标函数的同时，保持对策略更新的限制，以确保策略的稳定性和收敛性。ppo算法通过引入一个剪切项来限制策略更新的 …
zhihu.com
https://zhuanlan.zhihu.com
GRPO、PPO、DPO 深入解析与对比 - 知乎 - 知乎专栏
1. PPO（Proximal Policy Optimization） 1.1 PPO 原理. PPO 是 OpenAI 提出的强化学习算法，属于基于策略梯度（Policy Gradient）的强化学习方法，采用 Actor-Critic 结构，结合策略梯度 …
zhihu.com
https://zhuanlan.zhihu.com
强化学习-4-PPO、TRPO、PPO2 - 知乎 - 知乎专栏
2023年12月6日 · PPO（Proximal Policy Optimization）就是在Policy Gradient的基础上，变为off-policy的方法以增加数据利用率，加入重要性采样；加入额外的一个约束条件（constraint）： …
csdn.net
https://blog.csdn.net › BruceXee › article › details
强化学习PPO从理论到代码详解(2)---PPO1和PPO2 - CSDN博客
2023年1月2日 · PPO 算法有两个主要的变种：近端策略优化惩罚（PPO-penalty）和近端策略优化裁剪（PPO-clip）。 PPO1 是近端策略优化惩罚（PPO-penalty），在 PPO 的论文里面还有 …
zhihu.com
https://www.zhihu.com › tardis › bd › art
大模型优化利器：RLHF之PPO、DPO - 知乎
2025年1月21日 · OpenAI 在大多数任务中使用的强化学习算法都是近端策略优化算法（Proximal Policy Optimization, PPO）。近端策略优化可以根据奖励模型获得的反馈优化模型，通过不断 …
某些结果已被删除
分页
- 1
- 2
- 3
- 4
- 下一页

深度强化学习SAC、PPO、TD3、DDPG比较？ - 知乎

图解大模型RLHF系列之：人人都能看懂的PPO原理与源码解读

【论文系列】PPO知识点梳理+代码 (尽我可能细致通俗解释！）

强化学习术语与超参数整理(PPO) - CSDN博客

【强化学习战场谁为王？】近端策略优化算法 PPO、优势演员-评 …

强化学习进化之路(PPO-＞DPO-＞KTO-＞ODPO-＞ORPO …

GRPO、PPO、DPO 深入解析与对比 - 知乎 - 知乎专栏

强化学习-4-PPO、TRPO、PPO2 - 知乎 - 知乎专栏

强化学习PPO从理论到代码详解(2)---PPO1和PPO2 - CSDN博客

大模型优化利器：RLHF之PPO、DPO - 知乎