MM - ReAct-


MM - ReAct是一个将ChatGPT与视觉专家库相结合以实现多模态推理和行动的系统范式,主要内容如下:

项目概述

  1. 研究团队:由微软Azure AI的Zhengyuan Yang、Linjie Li、Jianfeng Wang等多人合作完成,部分成员贡献相等,Lijuan Wang为项目负责人。
  2. 项目目标:解决具有挑战性的视觉理解任务,探索现有视觉和视觉 - 语言模型可能难以处理的高级视觉任务。

核心技术与设计

  1. 文本提示设计:引入特殊的文本提示设计,能表示文本描述、文本化空间坐标以及用对齐文件名表示的图像和视频等密集视觉信号,使语言模型可接受、关联和处理多模态信息,促进ChatGPT与视觉专家协同工作。
  2. 系统执行流程
  3. 以图像路径作为ChatGPT的输入占位符,当需要特定属性(如名人名字、框坐标等)时,ChatGPT向特定视觉专家寻求帮助,专家输出文本序列化后与输入结合进一步激活ChatGPT,若无需外部专家则直接返回用户响应。执行过程包括ChatGPT调用和运行视觉专家,其输出包括推理、行动文本及视觉专家的观察结果(对用户不可见),最终生成用户可见的响应。

功能演示与示例

  1. 功能类型
  2. 视觉数学与文本推理:能解答数学方程中变量的值,如计算方程“5 + a = 7”中“a”的值为2。
  3. 视觉条件笑话/模因理解:分析图片中的幽默元素,如解释漫画中因涉及当前相关话题(如怀孕或感染冠状病毒)的提问而产生的幽默,可能源于情境、人物或对话的荒谬性或意外性。
  4. 空间/坐标理解:确定图像中物体的坐标位置及相对位置,如指出飞盘在图像中的坐标(63,119,133,177)且位于人物上方。
  5. 视觉规划与预测:依据图像中的食谱信息,回答在揉面后、分块前应将面团放置在温暖地方1小时等问题;根据提供的费用信息计算旅行总花费、总纳税额及平均燃料成本等,如计算出旅行总花费1343.73美元(机票1299.90美元 + Uber费用43.83美元),平均总燃料成本(排除福特F150常规驾驶室)为76.55美元。
  6. 多图像推理:综合多幅图像信息进行推理计算(文档中未详细展示多图像推理过程示例,仅提及该功能)。
  7. 多跳文档理解:从多个相关文档中提取和整合信息(文档中未详细展示多跳文档理解过程示例,仅提及该功能)。
  8. 开放世界概念理解:识别产品品牌及属性(如饮料品牌为“BETTER THAN MILK”,其中无糖的是“BETTER THAN MILK organic OAT DRINK”)、图像中的名人(如Keira Knightley和Natalie Portman)、判断蘑菇是否可食用(如羊肚菌在适当烹饪时通常可安全食用),并能将视频教程分解为带开始和结束时间的分步指令(文档中未详细展示具体分解过程示例,仅提及该功能)。
  9. 演示方式:提供了不同功能示例的视频演示,点击页面上相应面板可查看。

实验与成果

  1. 零样本实验:通过零样本实验证明了MM - ReAct在解决特定感兴趣能力方面的有效性,及其在不同复杂视觉理解场景中的广泛应用。
  2. 对比研究:讨论并比较了MM - ReAct的系统范式与通过联合微调扩展语言模型用于多模态场景的替代方法。

资源与致谢

  1. 资源提供:给出了项目的arXiv链接、代码链接、BibTeX引用格式,方便进一步查阅和引用相关研究成果。
  2. 致谢:感谢Jianfeng Gao的宝贵建议以及Jianwei Yang提供基于X - Decoder框架的图像编辑工具。

官网

github