我们能否在计算资源有限(只有48GB RTX6000显卡和10美元)的情况下,让一个3B模型具备回溯、自我反思、逻辑推理等推理能力? DeepMind的AlphaGo、OpenAI的DOTA ...
【新智元导读】不到10美元,3B模型就能复刻DeepSeek的顿悟时刻了?来自荷兰的开发者采用轻量级的RL算法Reinforce-Lite,把复刻成本降到了史上最低!同时,微软亚研院的一项工作,也受DeepSeek-R1启发,让7B模型涌现出了高级推 ...
近期,来自荷兰阿姆斯特丹的研究人员Raz以仅10美元的成本成功复现了DeepSeek中的顿悟时刻,之前这一成果的复现实例甚至高达30美元。Raz的工作不仅打破了复现成本的最低记录,更为人工智能领域的研究带来了新的启示。这一事件向我们展示了在资源有限的情况下,如何通过创新的算法和设计,实现优秀的学习效果和推理能力。