
GitHub - niuzaisheng/ScreenAgent: ScreenAgent: A Computer Control Agent ...
We have built the ScreenAgent project, creating an environment for Visual Language Model agents (VLM Agent) to interact with real computer screens. In this environment, the agent can observe screenshots and manipulate the GUI by outputting mouse and keyboard operations.
Agent AI:多模态+智能体,跨模态交互综述 Part 1 - 知乎
2024年1月15日 · 多模态Agent AI(Multimodal Agent AI,MAA)是一类根据对多模态感知输入的理解,在给定环境中生成有效行动的系统家族。 随着大型语言模型(Large Language Models,LLMs)和视觉语言模型(VisionLanguage Models,VLMs)的出现,许多MAA系统已经在基础研究和应用领域提出。
Multi-modal Agent Tuning: Building a VLM-Driven Agent for …
2024年12月20日 · In this paper, we propose a multi-modal agent tuning method that automatically generates multi-modal tool-usage data and tunes a vision-language model (VLM) as the controller for powerful tool-usage reasoning.
ScreenAgent: A Vision Language Model-driven Computer Control Agent
2024年2月9日 · In this paper, we construct an environment for a Vision Language Model (VLM) agent to interact with a real computer screen. Within this environment, the agent can observe screenshots and manipulate the Graphics User Interface (GUI) …
ScreenAgent/README-zh.md at main - GitHub
我们构建了 ScreenAgent 项目,为视觉语言模型智能体(VLM Agent)构建了一个与真实计算机屏幕交互的环境。 在这个环境中,智能体可以观察屏幕截图,并通过输出鼠标和键盘操作来操纵图形用户界面。
基于视觉语言模型(VLM)的CogAgent - CSDN博客
2024年12月28日 · CogAgent 是由 清华大学 与智谱AI联合推出的一个多模态大模型,专注于图形用户界面(GUI)的理解和导航。 它代表了在视觉语言模型(VLM)领域的一项重要进展,特别是在GUI Agent能力方面。 相较于传统的基于文本的Agent,CogAgent的独特之处在于其使用视觉模态而非文本对GUI界面进行感知。 这种方法更符合人类的直觉交互方式,即通过视觉与GUI交互,从而做出规划和决策。 CogAgent能够接受高达1120×1120像素的高分辨率图像输入,并且 …
Embodied Multi-Modal Agent trained by an LLM from a Parallel …
2023年11月28日 · In this paper, we train a VLM agent living in a visual world using an LLM agent excelling in a parallel text world. Specifically, we distill LLM's reflection outcomes (improved actions by analyzing mistakes) in a text world's tasks to finetune the VLM on the same tasks of the visual world, resulting in an Embodied Multi-Modal Agent (EMMA ...
ScreenAgent - 基于视觉语言模型的计算机控制智能体 | AI工具集
视觉语言模型(VLM): VLM是一种结合了视觉和语言处理能力的模型,它可以理解图像内容并生成相应的自然语言描述。 在ScreenAgent中,VLM用于解析屏幕截图,理解用户的任务提示,并规划出一系列动作来完成任务。 强化学习环境:
【LLM-agent】CogAgent:用于GUI agent的视觉语言模型 - 知乎
论文推出CogAgent,这是一个基于VLM的图形用户界面agent,具有增强的预训练数据构建和高效的体系结构,可以处理高分辨率的输入。CogAgent在广泛的VQA和GUI基准测试中都取得了SOTA,并将会开源。
ScreenAgent - 由视觉语言大模型驱动的电脑控制工具 - 懂AI
简而言之,ScreenAgent 项目旨在创建一个能够与真实计算机屏幕交互的环境,帮助视觉语言模型代理 (VLM Agent) 完成复杂的多步任务。 核心功能 ScreenAgent 提供了一个集观察、实操以及反思为一体的自动控制流程。