当前位置:数码通 > 科技

使用大型语言模型执行多模态任务

来源于 数码通 2023-10-04 12:40

大型语言模型(LLM)具有较强的常识理解能力和较强的逻辑推理能力,但只能处理文本数据。发布的GPT4虽然具备图像理解能力,但尚未开放多模态输入接口,也不会透露该模型的任何技术细节。因此,现阶段如何利用LLM来做一些多模态的任务还是有一定的研究价值的。

本文总结了近两年基于LLM的视觉语言任务的一些工作,分为4类:

以LLM为理解中心调用多模态模型,如VisualChatGPT(2023)[1]、MM-REACT(2023)[2];

将视觉转换为文本作为LLM的输入,如PICA(2022)[3]、PromptCap(2022)[4]、ScienceQA(2022)[5];

使用视觉模态影响LLM解码,例如ZeroCap[6]、MAGIC[7];

Frozen LLM,训练视觉编码器以及其他适应LLM的附加结构,如Frozen[8]、BLIP2[9]、Flamingo[10]、PaLM-E[11];

接下来,每个类别都会选取有代表性的职位进行简单介绍:

1.以LLM为理解中心调用多模态模型

以 Microsoft Visual ChatGPT[1] 为例。其目标是使系统不仅可以与人们进行与视觉内容相关的对话,还可以绘制和修改图片。为此,Visual ChatGPT以ChatGPT作为与用户沟通的理解中心,集成了多个视觉基础模型(Visual Foundation Models),并通过提示工程(即Prompt Manager)告诉ChatGPT每个基础模型的用法和输入输出格式,允许 ChatGPT 决定如何调用这些模型来满足用户需求,如图 1 所示。

图1:Visual ChatGPT系统示意图

稍后微软另一个团队提出的MM-REACT[2]也有同样的想法。主要区别在于提示工程的设计,MM-REACT更注重对视觉的一般性理解和解释,包括很多微软Azure的API,比如名人识别、账单识别、Bing搜索等。

2. 将视觉转换为文本作为LLM的输入

以PICA[3]为例,其目标是充分利用LLM的海量知识来做Knowled基于ge的QA。给定一张图片和一个问题,之前的工作主要从外部来源(例如维基百科)检索相关背景知识,以协助生成答案。然而PICA尝试以文本的形式描述图片,直接和问题放在一起作为LLM的输入,让LLM通过in-context学习直接生成答案,如图如图2所示。

图2:PICA方法示意图

情境学习的效果更多地依赖于实例/演示的质量ti。为此,PICA作者利用CLIP选取了16个在问题和图片方面与当前测试样本最接近的训练样例作为例子。

3. 使用视觉模态影响LLM解码

以MAGIC[3]为例,其目标是让LLM完成图像字幕的任务。其核心思想是在生成每个单词时,增加生成视觉相关单词的概率。公式如图3所示。

图3:MAGIC解码公式示意图

公式主要由三部分组成:1)LLM预测单词的概率; 2)退化惩罚(橙色); 3)视觉相关性(红色)。退化惩罚主要希望生成的词能够带来新的信息量。视觉相关性部分基于CLIP计算所有候选词与图片之间的相关性,将softmax后的概率作为预测概率。

4. 训练视觉编码器等附加结构以适应LLM

这部分工作目前最受关注,因为它有潜力“以远低于多模态通用模型训练的成本将LLM扩展到多模态模型”。 DeepMind 2021 年的《Frozen》、2022 年的 Flamingo、以及 Saleforce 2023 年的 BLIP2 都沿着这条路线,如图 4 所示。

图4:Frozen、Flamingo、BLIP2的示意图。

在 Frozen 训练期间,图像被编码为 2 个视觉标记,作为 LLM 的前缀。目标是生成后续文本,概念字幕用作训练语料库。 Frozen通过few-shot学习/上下文学习的下游VQA和图像分类效果还不是很强,但已经观察到了一些多模态上下文学习能力。

为了解决视觉特征图大小可能不一致的问题(特别是对于多帧视频),Flamingo使用Perceiver Resampler(类似于DETR的解码器)生成固定长度的特征序列( 64 个标记),并且在 LLM 的每一层之前都有一个额外的 cross 注意力层,该层对视觉特征执行注意力计算,以实现更强的视觉相关性生成。 Flamingo的训练参数比Frozen高很多,因此使用了大量的数据:1)MultiModal MassiveWeb(M3W)数据集:从4300万个网页收集的混合图像和文本数据,转换为交叉-排列图像和文本序列(根据图像在网页中的相对位置,确定转换为序列后token在文本token序列中的位置); 2)ALIGN(alt-text & image Pairs):180万个图像和文本对; 3)LTIP(LongText & Image Pairs):3.12亿个图像和文本对; 4)VTP(Video & Text Pairs):2700万个视频和文本对(平均视频时长22秒,帧采样率为1FPS)。与LLM类似,Flamingo的训练目标也是文本生成,但它为不同的数据集分配不同的权重。上述四部分的权重分别为1.0、0.2、0.2、0.03。可见,图像和文本交叉排列的M3W数据集的训练很重要。可靠性是最高的,作者也强调,这类数据是具备多模态情境学习能力的重要因素。 Flamingo 在多项任务上取得了非常好的零样本和少样本性能。

BLIP2采用与Flamingo类似的视觉编码结构,但采用更复杂的训练策略。它由两个阶段的训练组成。第一阶段主要是让视觉编码器学习提取最关键的视觉信息。训练任务包括图文对比学习、基于图像的文本生成和图文匹配;第二阶段主要是提取最关键的视觉信息。视觉编码结构的输出适配LLM,训练任务也是语言建模。 BLIP2的训练数据包括MSCOCO、Visual Genome、CC15M、SBU、来自LAION400M的115M图片以及BLIP在网络图像上生成的描述。 BLIP2已经实现了强大的零镜头字幕和VQA能力,但作者提到其上下文学习能力尚未被观察到,即输入样本无法提高其性能。作者分析是因为训练数据不包含Flamingo使用的交错的图像和文本数据。不过,《冰雪奇缘》并没有使用这类数据,但它也观察到了一定的情境学习能力。因此,多模态上下文学习能力可能与训练数据、训练任务和位置编码方法有关。

总结

“以LLM为理解中心调用多模态模型”可以快速、轻松地部署基于LLM的多模态理解和生成系统。难点主要在于调度不同多模态模型的即时工程设计;

“将视觉转换为文本作为LLM的输入”和“使用视觉模态影响LLM的解码”可以直接使用LLM做一些多模态任务,但上限可能会低一些,其性能取决于外部多模态模型。能力;

“训练视觉编码器等附加结构以适应LLM”具有更高的研究价值,因为它有潜力将任何模态整合到LLM中,实现真正的多模态模型。难点在于如何实现较强的情境学习能力。





审稿编辑:刘庆

-->
登录后参与评论