
GitHub - agentica-project/deepscaler: Democratizing …
[2025/02/10] We release DeepScaleR-1.5B-Preview, a 1.5B model that surpasses O1-Preview and achieves 43.1% Pass@1 on AIME. We achieve this by iteratively scaling Deepseek's GRPO algorithm from 8K→16K->24K context length for thinking. As part of this release, we open-source: 🍗 An In-Depth Blog Post on our Training Recipe and Insights
LLMs之DeepSeek-R1:DeepScaleR(民主化大型语言模型的强化学习/DeepScaleR-1.5B-Preview…
2025年2月23日 · DeepScaleR-1.5B-Preview 是一个 基于 DeepSeek-R1-Distilled-Qwen-1.5B 微调 的语言模型,它使用了 分布式强化学习 (RL) 技术,并通过 迭代式地增加上下文长度 来提升模型在 长文本推理 任务上的性能。
关于“DeepScaleR:通过扩展强化学习,用1.5B模型超越O1-Preview…
2025年2月22日 · 在这篇博客中,我们将逐步揭示如何利用强化学习将一个小型模型转变为强大的推理模型。我们推出的DeepScaleR-1.5B-Preview模型,通过4万个高质量数学问题进行训练,耗费了3800个A100 GPU小时(约4500美元),在多个竞赛级数学基准测试中超越 …
4500美元重现DeepSeek:性能超o1-preview - 极道 - 解道jdon
我们推出了 DeepScaleR-1.5B-Preview,这是一个从 Deepseek-R1-Distilled-Qwen-1.5B 微调而来的语言模型,使用了简单的强化学习(RL)。 它在 AIME2024 上取得了惊人的 43.1% 的 Pass@1 准确率(比基础模型提升了 14.3%),仅用 1.5B 参数就超越了 OpenAI 的 o1-preview 的表现。
DeepScaleR - ollama.com
2025年2月12日 · DeepScaleR-1.5B-Preview is a language model fine-tuned from DeepSeek-R1-Distilled-Qwen-1.5B using distributed reinforcement learning (RL) to scale up to long context lengths. The model achieves 43.1% Pass@1 accuracy on AIME 2024, representing a 15% improvement over the base model (28.8%) and surpassing OpenAI’s O1 …
4500美元复刻DeepSeek,1.5B战胜o1-preview用RL!训练细节全 …
2025年2月11日 · 近日,来自UC伯克利的研究团队基于Deepseek-R1-Distilled-Qwen-1.5B,通过简单的强化学习(RL)微调,得到了全新的DeepScaleR-1.5B-Preview。 在AIME2024基准中,模型的Pass@1准确率达高达43.1% ——不仅比基础模型提高了14.3%,而且在只有1.5B参数的情况下超越了OpenAI o1-preview!
掀桌子时刻:1.5B模型数学推理性能超过O1-Preview了! - 前沿快 …
2025年2月14日 · DeepScaleR-1.5B-Preview 是一个基于 DeepSeek-R1-Distilled-Qwen-1.5B 微调的语言模型,采用分布式强化学习(RL)技术,能够扩展到更长的上下文长度。 该模型在 AIME 2024 上实现了 43.1% 的 Pass@1 准确率,相较于基础模型的 28.8% 提升了 15%,并且仅凭 1.5B 参数就超越了 OpenAI 的 O1 ...
giterinhub/DeepScaleR-1.5B-Preview - GitHub
DeepScaleR-1.5B-Preview is a language model fine-tuned from DeepSeek-R1-Distilled-Qwen-1.5B using distributed reinforcement learning (RL) to scale up to long context lengths. The model achieves 43.1% Pass@1 accuracy on AIME 2024, representing a 15% improvement over the base model (28.8%) and surpassing OpenAI's O1-Preview performance with just ...
RUCAIBox/Slow_Thinking_with_LLMs - GitHub
🚀 STILL-3-1.5B-Preview: A 1.5B slow-thinking reasoning model continuously evolving through RL. To delve deeper into the potential of reinforcement learning, we applied this training method to the publicly released SFT model by DeepSeek, known as DeepSeek-R1-Distill-Qwen-1.5B , which has enhanced by complex reasoning capacities.
4500美元验证强化学习「魔力」,1.5B模型也能超越o1预览版,模 …
2025年2月13日 · DeepScaleR-1.5B-Preview 的成功,不仅展示了小模型在强化学习中的无限潜力,也证明了高效训练策略的重要性。 团队希望通过开源数据集、代码和训练日志,推动 RL 在 LLM 推理中的广泛应用。
- 某些结果已被删除