Reinforcement Learning Ai

8 天

近日，上海AI实验室（上海AI Lab）在数学推理领域取得重大突破，通过强化学习（Reinforcement Learning，简称RL）技术，成功在数学推理能力上超越了DeepSeek，这一成果引发了广泛关注。上海AI ...

15 天

DeepSeek的突破主要体现在其大模型的推理能力上。正如OpenAI的ChatGPT所采用的RLHF（Reinforcement Learning from Human Feedback），DeepSeek通过强化学习框架，让AI不仅能模仿已有的数据，而是能逐步学习更为复杂的推理模式。这显然体现了强化学习在促进AI智能化过程中的核心作用。

腾讯网13 小时

阅读 | DeepSeek-R1：怎么用强化学习把一个普通语言模型调教成推理高手？

这篇论文是DeepSeek-AI团队发表的，标题是《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果

今日热点