RL Ai - 搜索 News

14 分钟

在过去这一年间，RL从一度沉沦的位置，重新走回了AI研究的闪光灯中心。2024年下半年，OpenAI率先发布了它在LLM基础上，用RL实现“深度思考”的成果——o1，设定了新的终点线。今年初，DeepSeek将赛道上的迷雾更进一步迅速驱散了，把自己的 ...

6 天

打造出AlphaGo的超级天才、谷歌DeepMind十二年老将Ioannis Antonoglou下场创业了，初创Reflection已融资1.3亿，种子轮由红杉资本等领投。他和Gemini的核心贡献者携手，目标是用强化学习造出真·超级AI。

RL对大模型所起到的作用。研究过程还对比了通用推理模型与领域特定系统的性能，探索提升AI推理能力的有效路径。参与研究的推理模型共3个 ...

Reflection AI的目标十分明确——构建超级智能 ... 对此，Reflection的策略是，通过RL提高LLM的自主能力。他们相信，解决自主编码是一个根节点问题 ...

来自MSN28 天

上海AI Lab提出了基于结果奖励的强化学习 ... 因此，研究团队将RL训练的数据、起点和最终模型一起完整开源，来推动社区的公平比较和进一步研究。

来自MSN1 个月

近日，前特斯拉AI总监在公开场合对DeepSeek表达了高度赞赏。这位在AI领域具有深厚背景和丰富经验的专家，对DeepSeek的技术实力和发展潜力给予了 ...

因此，研究团队将RL训练的数据、起点和最终模型 ... 千问的基座，经过DeepSeek的蒸馏训练，再经过上海AI Lab的强化学习训练，达到了中国原创新高度。

一些您可能无法访问的结果已被隐去。