例如,即使是性能较弱的Fuyu-8B模型,通过GPT-4o的反馈也能纠正24.1%的错误样本。这表明交互过程可以有效提高大多数LMM解决问题的能力。 以Qwen2-VL-7B和Molmo为例,Qwen2-VL-7B在MathVerse数据集上使用GPT-4o的反馈时,纠错率为66.8%,但在MMMU-Pro数据集上仅为50.4%。
究其成因,LMM-R1不仅创造性地引入了规则化奖励函数机制以降低训练成本,而且利用仅需240元的GPU费用,使得模型的性能收获了显著提升。实验数据显示,经过LMM-R1框架处理的QwenVL-2.5-3B模型在推箱子等复杂规划任务中,表现远超如GPT-4o、Claude 3.5等参数量超过100B的行业翘楚。
近期,新加坡国立大学(NUS)的一组华人研究团队发布了关于大型语言模型(LMM)反馈修正率的研究成果,引起了广泛关注。研究指出,在对LMM的错误进行纠正的过程中,这些模型的反馈修正率竟低于50%。这一发现不仅挑战了人们对当前语言模型的信任,也为未来AI的发展提出了新的问题和思考。这一研究将深刻影响AI领域的进一步推进,尤其是在机器学习和自然语言处理技术的应用方面。
在典型智能体应用场景验证中,研究团队选取推箱子任务作为评估基准。该任务要求模型同步处理视觉空间解析、目标匹配、动态路径规划等多模态推理能力,对智能体在现实场景中的决策能力具有重要指示意义。经LMM-R1框架强化后的模型,仅通过初始画面即可完成完整动作 ...
研究结论表明,较高的 IVF 与中国老年人较低的 LMM 发生率显著相关,尤其是在春季和秋季。这一发现为促进健康老龄化、减轻老年人 LMM ...
湖南二零八三箭齐发!助推高性价比惯性导航与测量组件国产化浪潮,陀螺仪,传感器,惯性,mems ...
编辑推荐:针对土壤碳激发效应(PE)驱动因素的争议性问题,研究人员通过meta分析、增强回归树(BRT)和线性混合模型(LMM)揭示 ...
透过增加 lmm 飞弹的产量,英国寻求在俄罗斯持续空袭的情况下,协助增强乌克兰的防空能力。 泰雷兹公司生产的飞弹以「适应性」、「对付各种 ...
lmm-r1团队 投稿量子位 | 公众号 QbitAI 多模态大模型虽然在视觉理解方面表现出色,但在需要深度数学推理的任务上往往力不从心,尤其是对于参数量较小的模型来说更是如此。 如何让小型多模态大模型也能拥有强大的数学推理能力呢? 如图所示,通过LMM-R1框架训练的模型(下侧)能够正确应用勾股定理计算出圆锥的斜高,而基准模型(上侧)错误地识别了斜高位置,导致计算错误。这种显著的推理能力提升来自 ...