Preview 5B - 搜索 News

搜狐1 个月

4500美元复刻DeepSeek神话，1.5B战胜o1-preview只用RL！训练细节全公开

就在刚刚，UC伯克利团队只用简单的RL微调，就训出了DeepScaleR-1.5B-Preview，15亿参数模型直接吊打o1-preview，震撼业内。强化学习迎来重大突破！

一些您可能无法访问的结果已被隐去。

显示无法访问的结果