SRC VLM - 搜索

约 26,200 个结果

在新选项卡中打开链接

时间不限

github.com
https://github.com › om-ai-lab
om-ai-lab/VLM-R1 - GitHub
2025年2月15日 · In this project, we propose VLM-R1, a stable and generalizable R1-style Large Vision-Language Model. Specifically, for the task of Referring Expression Comprehension …
zhihu.com
https://zhuanlan.zhihu.com
结合DeepSeek-R1强化学习方法的视觉模型！VLM-R1：输入描述 …
VLM-R1 是浙江大学 Om AI Lab 开发的一款基于强化学习技术的视觉语言模型，旨在通过自然语言指令精确定位图像中的目标物体。例如，用户可以通过描述“图中红色的杯子”来让模型找到对应的图像区域。
zhihu.com
https://zhuanlan.zhihu.com
浅析多模态VLM-R1，传统SFT被打得满地找牙~ - 知乎
2025年2月20日 · 所以笔者去瞧了瞧，简单分享下这个项目是怎么把grpo迁移到vlm上的。项目地址： github.com/om-ai-lab/VL. 关于数据，这个项目是基于一个目标检测数据集的， Refcoco+。以前没做过这块，所以我去搜了下，说是这么个格式的数据集，每张图，有一些框，然后针对这些框有一些描述。整个项目是基于open-r1项目的，那就很简单了，直接瞄准data处理和reward就完事了。他的prompt这块跟文本的没啥太大区别，所以看不出来啥。滑到奖励函数，就清晰了 …
aisharenet.com
https://www.aisharenet.com
VLM-R1：通过自然语言定位图像目标的视觉语言模型-首席AI分享圈
2025年2月23日 · VLM-R1 是一个开源视觉语言模型项目，基于 Qwen2.5-VL 和 R1 强化学习技术，支持图像与文本联合处理，能精准解析指代表达并定位图像目标，提供训练代码与数据集，适合开发者研究和定制多模态 AI 应用。
github.com
https://github.com › Deep-Agent
Deep-Agent/R1-V: Witness the aha moment of VLM with less than …
2025-02-12: R1-V now supports vLLM to accelerate training (pip install vllm==0.7.2 before use) and SFT. 2025-02-11: R1-V now supports Qwen2.5-VL and GEOQA task. 2025-02-06: We …
github.com
https://github.com › om-ai-lab › blob › main › src
VLM-R1/src/open-r1-multimodal/src/open_r1/grpo_jsonl.py at …
Solve Visual Understanding with Reinforced VLMs. Contribute to om-ai-lab/VLM-R1 development by creating an account on GitHub.
csdn.net
https://blog.csdn.net › article › details
【Qwen2.5-VL-3B-Instruct微调，单卡A800-PCIE-80GB复现VLM-R1】VLM …
2025年2月23日 · 在src/open-r1-multimodal/run_grpo_rec.sh添加–gradient_checkpointing true 的参数， qwen2-vl模型推理代码，以及min_pixels和max_pixels设置。修改 min_pixels 和 max_pixels 参数。
aliyun.com
https://developer.aliyun.com › article
结合DeepSeek-R1强化学习方法的视觉模型！VLM-R1：输入描述 …
2025年2月26日 · VLM-R1 是一款基于强化学习技术的视觉语言模型，能够通过自然语言指令精确定位图像目标，并支持多模态推理。指代表达理解：解析自然语言指令，精准定位图像中的特定目标。强化学习优化：采用 GRPO 技术，在复杂场景下表现出色，提升泛化能力。 VLM-R1 是浙江大学 Om AI Lab 开发的一款基于强化学习技术的视觉语言模型，旨在通过自然语言指令精确定位图像中的目标物体。例如，用户可以通过描述“图中红色的杯子”来让模型找到对应的图像区域。 …
csdn.net
https://blog.csdn.net › article › details
结合DeepSeek-R1强化学习方法的视觉模型！VLM-R1：输入描述 …
2025年2月25日 · VLM-R1 是浙江大学 Om AI Lab 开发的一款基于强化学习技术的视觉语言模型，旨在通过自然语言指令精确定位图像中的目标物体。例如，用户可以通过描述“图中红色的杯子”来让模型找到对应的图像区域。该模型基于 Qwen2.5-VL 架构，结合了 DeepSeek R1 的强化学习方法，通过强化学习优化和监督微调（SFT）提升了模型的稳定性和泛化能力。 VLM-R1 不仅在复杂场景中表现出色，还能处理跨域数据，展现出强大的视觉内容理解能力。其高效的训练 …
zhihu.com
https://zhuanlan.zhihu.com
突破多模态AI训练瓶颈！开源项目VLM-R1重新定义视觉语言模型 …
2025年2月20日 · 未来智慧谷国内领先的大模型应用方案服务商。最近有个叫VLM-R1的开源项目在AI圈炸了！它让计算机不仅能"看"图片，还能像人类一样"理解"图片里的故事。这个由国内团队打造的项目，可能会彻底改变我们和AI的互动方式。（项目地址在文末，先看干货）这个项目牛在哪？ 1. 真·理解图片：传统AI像背答案的好学生，而VLM-R1培养的是会举一反三的学霸。经过特殊训练后，面对完全陌生的图片类型，它的表现反而越来越好. 2. 稳如泰山：面对200多种 …
某些结果已被删除
分页
- 1
- 2
- 3
- 4
- 下一页

om-ai-lab/VLM-R1 - GitHub

结合DeepSeek-R1强化学习方法的视觉模型！VLM-R1：输入描述 …

浅析多模态VLM-R1，传统SFT被打得满地找牙~ - 知乎

VLM-R1：通过自然语言定位图像目标的视觉语言模型-首席AI分享圈

Deep-Agent/R1-V: Witness the aha moment of VLM with less than …

VLM-R1/src/open-r1-multimodal/src/open_r1/grpo_jsonl.py at …

【Qwen2.5-VL-3B-Instruct微调，单卡A800-PCIE-80GB复现VLM-R1】VLM …

结合DeepSeek-R1强化学习方法的视觉模型！VLM-R1：输入描述 …

结合DeepSeek-R1强化学习方法的视觉模型！VLM-R1：输入描述 …

突破多模态AI训练瓶颈！开源项目VLM-R1重新定义视觉语言模型 …