
Unakar/Logic-RL: Reproduce R1 Zero on Logic Puzzle - GitHub
Reproduce R1 Zero on Logic Puzzle. Contribute to Unakar/Logic-RL development by creating an account on GitHub.
[2502.14768] Logic-RL: Unleashing LLM Reasoning with Rule …
2025年2月20日 · Inspired by the success of DeepSeek-R1, we explore the potential of rule-based reinforcement learning (RL) in large reasoning models. To analyze reasoning dynamics, we use synthetic logic puzzles as training data due to their controllable complexity and straightforward answer verification.
摸着Logic-RL,复现7B - R1 zero - 知乎 - 知乎专栏
Logic RL文章中讨论了几个研究问题,其中部分实验效果和研究问题也我的实验中得到了验证。 泛化性 不知在kk这个逻辑题中,在 AIME 2021 ~2024 90个问题中,RL的模型也是优于instruct 模型的。
【LLM】R1复现项目(SimpleRL、OpenR1、LogitRL、TinyZero) …
UC伯克利的研究团队以 Deepseek-R1-Distilled-Qwen-1.5B 为基础,通过强化学习(RL),在 40,000 个高质量数学问题上进行训练,使用了 3800 A100 小时(4500美元),训练出了 DeepScaleR-1.5B-Preview 模型。
Deepseek R1 Zero成功复现, 三阶段RL,Response长度稳定涨幅, …
2025年2月21日 · 测试下来gpt4o的acc在0.3左右,而3epoch的RL训练后,我们成功让qwen-7B达到了0.41。 gpt4o和claude sonnet在这种逻辑题上的准确率出乎意料的低。 我们选了一个合适的人数来控制难度,确保它高于qwen 7B当前的能力,但又不会过难(在8个人的情况下,qwen完全不能 …
【LLM】R1复现项目(SimpleRL、OpenR1、LogitRL、TinyZero) …
2025年2月23日 · 两阶段强化学习(rl)为了通过探索外部检索环境来激励大语言模型的搜索能力,设计了一种基于结果的两阶段强化学习方法,通过定制的奖励设计,使模型能够在推理过程中自由探索如何调用外部检索系统以获取相关知识。具体来说,在第一阶段,我们采用 ...
hkust-nlp/simpleRL-reason - GitHub
2025年1月25日 · Qwen2.5-7B-SimpleRL-Zero is the simple RL training from the base model directly, using only 8K MATH examples. It achieves gains of nearly 20 absolute points on average compared to the base model. Moreover, it outperforms Qwen-2.5-Math-7B-Instruct on average, and is roughly comparable to the recently released Eurus-2-7B-PRIME and rStar-Math-7B ...
删繁就简的LLM-RL - 知乎 - 知乎专栏
近期, deepseek-r1 提出的 zero-rl 掀起了广大llm-er、rl-er的热情复现,即在base上直接rl看base上的rl的上限有多高。 [1] 算社区开源里面第一个相对完整的zero-复现: 细读技术报告,笔者认为,核心是lamda=gamma=1,这个设定让复杂的ppo变成一个朴素的 reinforce++。 从 gae 看起: 当lambda=gamma=1的时候, \text {GAE} (\lambda=1, \gamma=1)=\sum_ {l=0}^ …
1/30训练步骤复刻DeepSeek-R1!阶跃星辰开源推理模型RL训练方 …
2025年2月22日 · 阶跃星辰联合清华大学发布Open Reasoner Zero(ORZ),提出一种颠覆性强化学习(RL)训练方法。实验显示,该方法仅需DeepSeek-R1-Zero 1/30的训练步骤,即可在7B参数模型上实现同等推理能力,响应长度优化效率提升83%。
强化学习reward陷入瓶颈有什么解决方法吗? - 知乎
reward陷入局部最优可能有多种原因,包括但不限于. 建议. 首先,题主用的是DQN,可以从算法的角度考虑是否必须用DQN,多线程允许的话可考虑更高效,性能更好的 A2C, ACKTR 等。 …