VL 0 - 搜索

约 21,500,000 个结果

在新选项卡中打开链接

时间不限

qwenlm.github.io
https://qwenlm.github.io › zh › blog
Qwen2-VL: 更清晰地看世界 | Qwen
2024年8月29日 · Qwen2-VL 基于 Qwen2 打造，相比 Qwen-VL，它具有以下特点：读懂不同分辨率和不同长宽比的图片：Qwen2-VL 在 MathVista、DocVQA、RealWorldQA、MTVQA 等视觉理解基准测试中取得了全球领先的表现。
csdn.net
https://blog.csdn.net › WhiffeYF › article › details
Qwen2-VL 视觉大模型快速 Qwen2-VL-7B-Instruct部署 - CSDN博客
2025年1月16日 · Qwen2-VL是阿里巴巴达摩院开发的一款先进的视觉多模态人工智能模型。 Qwen2-VL能够处理包括图像、视频在内的多种模态数据，这意味着它不仅能够理解静态图像，还能解析动态视频内容，为更广泛的应用场景提供了可能。
csdn.net
https://blog.csdn.net › SoulmateY › article › details
Qwen2-VL多模态大模型微调实战（完整代码） - CSDN博客
2025年3月10日 · Qwen2-VL-7B 是阿里巴巴开发的一款多模态大语言模型，属于Qwen2-VL系列的一部分。该模型能够处理文本、图像、多张图像和视频输入，尤其擅长视觉-语言任务，如文档理解、视频问答和复杂的多语言任务。它在多个视觉理解基准测试中表现出色，包括DocVQA …
qwenlm.github.io
https://qwenlm.github.io › blog
Qwen2.5 VL! Qwen2.5 VL! Qwen2.5 VL! | Qwen - qwenlm.github.io
2025年1月26日 · Qwen2.5-VL utilizes bounding boxes and point-based representations for grounding, enabling hierarchical positioning and standardized JSON output. This enhanced localization capability serves as a foundation for visual reasoning. Detect all motorcyclists in the image and return their locations in the form of coordinates.
zhihu.com
https://zhuanlan.zhihu.com
通义千问Qwen-2.5系列小模型(0.5B,1.5B,3B)测评 - 知乎
2013年1月31日 · 迷你模型Qwen-2.5 0.5B. 真的非常小，体积仅700MB不到，运行非常快。有时候会比较笨，但是毕竟人家才这点参数啊。这玩意回复超快，但是内容的话…… 小模型Qwen-2.5 1.5B. 体积也很小(1.3G)，运行速度不错，效果也不错。比0.5B聪明多了。
csdn.net
https://blog.csdn.net › sherlockMa › article › details
Vllm进行Qwen2-vl部署（包含单卡多卡部署及爬虫请求）-CSDN博客
2024年11月1日 · 阿里云于今年9月宣布开源第二代视觉语言模型 Qwen2-VL，包括 2B、7B、72B三个尺寸及其量化版本模型。 Qwen2-VL具备完整图像、多语言的理解能力，性能强劲。相比上代模型，Qwen2-VL 的基础性能全面提升，可以读懂不同分辨率和不同长宽比的图片，在 DocVQA、RealWorldQA、MTVQA 等基准测试创下全球领先的表现；可以理解 20 分钟以上长视频，支持基于视频的问答、对话和内容创作等应用；具备强大的视觉智能体能力，可自主操作 …
aisharenet.com
https://www.aisharenet.com
Qwen2.5-VL 发布：支持长视频理解、视觉定位、结构化输出，开 …
2025年1月28日 · 代理性：Qwen2.5-VL直接扮演视觉代理的角色，具有推理和动态指挥工具的功能，可用于电脑和手机。理解长视频并捕捉事件：Qwen2.5-VL 可以理解超过 1 小时的视频，这次它还具有通过精确定位相关视频片段来捕捉事件的新功能。
readthedocs.io
https://swift2x.readthedocs.io › zh-cn › latest › Multi-Modal
Qwen2-VL 最佳实践 — swift 2.6.1 文档
我们除支持了 PEFT提供的轻量训练方案外，也提供了一个完整的Adapters库以支持最新的训练技术，如NEFTune、LoRA+、LLaMA-PRO等，这个适配器库可以脱离训练脚本直接使用在自己的自定流程中。为方便不熟悉深度学习的用户使用，我们提供了一个Gradio的web-ui用于控制训练和推理，并提供了配套的深度学习课程和最佳实践供新手入门。此外，我们也在拓展其他模态的能力，目前我们支持了AnimateDiff的全参数训练和LoRA训练。 SWIFT具有丰富的文档体系， …
zhihu.com
https://zhuanlan.zhihu.com
Qwen2-VL多模态大模型微调实战（完整代码） - 知乎专栏
Qwen2-VL是阿里通义实验室最新推出的多模态大模型。本文我们将简要介绍基于 transformers、peft 等框架，使用 Qwen2-VL-2B-Instruct 模型在 COCO2014 图像描述上进行Lora微调训练，同时使用 SwanLab 监控训练过程与评估模型效果。
zhihu.com
https://zhuanlan.zhihu.com
Qwen-VL: 一个通用的视觉语言模型,用于理解、定位、文本阅读等
2023年9月20日 · 该系列包含Qwen-VL和Qwen-VL-Chat,这些模型在图像字幕、问答、视觉定位和灵活交互等任务中展示了显著的性能。评估涵盖了广泛的任务,包括零样本字幕、视觉或文档视觉问答以及定位。
分页
- 1
- 2
- 3
- 4
- 5
- 下一页