你可能想问的是微软的UFO智能体框架,它并非一个传统意义上的操作系统,而是一个以UI为中心的多模态智体框架,专为Windows操作系统交互而设计。以下是对其的详细介绍:
基本信息
- 名称由来:UFO全称“UI-Focused Agent”,即面向用户界面的智能体。
- 研发团队:由微软亚洲研究院(MSRA)、微软AI与应用研究团队等共同打造。
工作原理
- 理解用户请求:UFO首先会理解用户用自然语言表达的请求,将其分解为一系列循序渐进的子任务。
- 选择应用程序:应用程序选择智体(AppAgent)会根据用户请求、桌面屏幕截图、应用程序信息、记忆等,选择一个合适的应用程序来满足用户请求,并制定全局规划。
- 执行操作:行动选择智体(ActAgent)负责在所选应用程序上迭代执行动作,通过分析屏幕截图、控制信息等,选择要操作的控件并执行相应的函数,直到任务完成。
功能特点
- 跨应用操作:可以在单个或多个应用程序之间无缝导航和操作,无需用户手动切换应用程序,例如可以利用Word文档、照片中的文本等信息撰写电子邮件并发送。
- 高度自动化:无需人工干预,能够自动执行各种操作,如删除PPT演示文稿上的所有备注等,将复杂的任务简化为简单的自然语言命令。
- 多模态交互:利用GPT-4V的多模态功能,理解应用程序的UI界面,并根据用户请求进行相应的操作。
应用场景
- 办公自动化:帮助用户快速处理各种办公文档,如Word、Excel、PPT等,提高工作效率。
- 信息整合与分析:可以从多个来源获取信息,如文档、图像、网页等,并进行整合和分析,为用户提供有用的信息。
- 日常任务处理:如发送邮件、下载文件、搜索信息等,让用户通过自然语言指令轻松完成各种日常任务。
性能评估
- 测试基准:研究团队开发了名为WindowsBench的测试基准,对UFO在9个常用的Windows应用程序上进行了测试,涵盖了工作、交流、编码、阅读、网页浏览等场景。
- 评估指标:从成功度、步骤、完成率和保障率等角度评估UFO的性能,结果表明UFO在WindowsBench上成功率达到了86%,完成率最高,完成任务的步骤最少,安全度也最高 。