【MLLM综述 1 - MLLM】多模态大模型综述：背景、框架、训练、评测、技术

type

date

slug

summary

Fields Review

文章给出了相关的技术和应用，包含包括多模态指令调优(M-IT)、多模态上下文内学习(M-ICL)、思维多模态链(M-CoT)和LLM辅助视觉推理(LAVR)；并给出了有前景的研究方向。

Multimodal Instruction Tuning 、 Multimodal In-Context Learning 、 Multimodal Chain-of-Thought 、 LLM-Aided Visual Reasoning

My Note

一、MLLM 的定位

该文中讲之前的多模态工作总结为两种模式：

一种是将多模态信息编码到统一表征空间来完成多模态任务；另一种则将多模态任务统一成 s2s 的问题。

CLIP [13], as a representative of the former, projects visual and textual information into a unified representation space, building a bridge for downstream multimodal tasks.

OFA [16] is a representative of the latter, which unifies multimodal tasks in a sequence-to-sequence manner.

而 MLLM 则是第二类模型，是 s2s 的范式，但是其不同的点在于 (1) based on LLM with xB params, (2) 新训练方式，用一些自回归的方式做指令微调、学习 LLM 的方式做 in-context learning 等。其相当于 LLM 模型的模态扩展版本，所以也能做基于且更多的事情。

一些工作的研究问题包括：

(0) text content generation grounded in text prompts and image / video / audio etc. 依靠文本和图像得到文本内容的生成。

(1) Better granularity support. 例如指定问题区域 box，或者指定某个区域像素。相当于 referring 的研究。

(2) Enhanced support on input and output modalities. 支持更多模态类型的输入和输出。

(3) Improved language support. 支持更多的语言，实际上就是更好支持中文。

(4) Extension to more realms and usage scenarios. 应用扩展。

文中提出的一些探究性问题： (1) What aspects can be further improved or extended (§5)?

(2) How to relieve the multimodal hallucination issue (§6)?

二、MLLM 的主流架构

主流的 MLLM 的架构就是 Llava 的范式：将 LLM 作为底座，而其他模态的内容，通过模态编码器处理成 m-tokens，中间还有接口层(投影层)用于将 m-tokens 进行投射到 LLM 能处理的信号，m-tokens 和 text-tokens 拼接起来 [m-tokens, text-tokens] 一起由 LLM 进行处理，输出内容则一般为文本内容，如果需要输出多模态内容则需要额外使用模态生成器。

所以 LLM architecture ： LLM + Modality encoder + Modality interface + [optional] Generator

1. LLM 基座的选择

‣

LLaMA-3.1 Aug-2024 15T tokens 8 / 70 / 405 en, multilingual Causal Decoder

2. 模态编码器的选择

模态编码器一般都是选用 vlm 里面的一些编码器，这些编码器在模态对齐数据上进行过训练的，在 MLLM 中处理时，则只需要投射层将这些数据嵌入到同一空间中，LLM 就能快速理解输入的多模态数据。

For example, CLIP [13] incorporates a visual encoder semantically aligned with the text through large-scale pretraining on image-text pairs. Therefore, it is easier to use such initially pre-aligned encoders to align with LLMs through alignment pre-training (see §3.1).

编码器这里还要考虑到一些 tokens 的产生与利用，例如很多的 encoder 他们支持的 Res 不同，他们的 patch-size 也不同，得到的 tokens 长度是不同的，在高分辨率、多图、视频场景中，tokens 的长度成为模型扩展限制的因素之一，衍生出很多的策略。

When choosing encoders, one often considers factors like resolution, parameter size, and pretraining corpus, but parameter size and training data composition are of less importance compared with input resolution.

3. 接口层的方式

Learnable Connector. It is responsible for bridging the gap between different modalities. Specifically, the module projects information into the space that LLM can understand efficiently.

There are broadly three types of connectors: projection-based, query-based, and fusion-based connectors.

Projection-based:

LLaVa 中则是这种投影的形式。

好处是对齐维度、投射到统一空间、方便训练。

Query-based:

主要是在 BLIP-2 中提出的。

这种方法主要的好处是，处理得到的 tokens 数是可控的，为 queries tokens 的数量，所以可以用这种方法做一些信息压缩(下采样)，一些 Hi-Res 的工作上就会使用这种方法来减少高分辨率图像处理得到过多的 tokens。

但是这种方式也会使得视觉特征的缺失问题，将信息过度压缩带来的结果。

在 MM1 中评测 Q-former 和 MLP 两种处理方式，发现其影响程度不大，而主要性能影响来自于 number of visual tokens and input resolution.

Fusion-based:

典型的 Flamingo , 在 LLM 中加入 cross-attention ，来传入模态信息。

好处是可以不影响 LLM 的 tokens 的输入。

Expert Model:

Expert Model. Apart from the learnable interface, using expert models, such as an image captioning model, is also a feasible way to bridge the modality gap.

更直接一些的处理方式，用已有的多模态模型，将多模态信息转换成文本信息，例如 image-captioning 将图像直接转换成文本，再将文本 + 转-文本一起给 LLM 进行处理。

这种方式的好处是，可以直接用已有的模型，而拼接成一种推理范式，不用训练拥有 zero-shot 的能力。缺点是，会造成模态信息的抛弃 loss，使得其上限不高，有些任务上难以处理。

💡

Note

一般主流的方式都是 tokens-level 的传入信息，这种方式的变体在类似 VQA 任务上也表现得更好，目前更主流。

4. [额外] 生成器的使用

这个在一些统一的多模态模型上有用到，像 Beit 、 Next-Gpt 、 OFA 里面都有一些模态的生成器。

三、MLLM 的 training & data

A full-fledged MLLM undergoes three stages of training, i.e. pre-training, instruction-tuning, and alignment tuning.

这里的各个训练阶段，都不是从头训练，而且都是基于 LLM 的训练，不同阶段有着不同的参数冻结策略。

1. 预训练 Pre-training

这个阶段主要是做自回归训练的，在大规模的数据上进行学习。对应 LLM 训练中 Pre-training 阶段。

As the first training stage, pre-training mainly aims to align different modalities and learn multimodal world knowledge. Pre-training stage generally entails large-scale textpaired data, e.g. caption data. Typically, the caption pairs describe images/audio/videos in natural language sentences.

训练方式：

通过 image-caption 数据做自回归训练，交叉熵 loss 只计算 caption 的部分。

训练策略：

只开放投影层训练，eg. LLaVA, Detgpt, etc. A common approach for pre-training is to keep pre-trained modules (e.g. visual encoders and LLMs) frozen and train a learnable interface. The idea is to align different modalities without losing pre-trained knowledge.

开放 视觉编码器 、 投影层 训练，eg. Qwen-vl, mplug-owl, etc. It aim to enable more trainable parameters for alignment.

第二种方式需要硬件资源更多，但是效果上能更高一些。

训练数据的质量对于该训练十分重要，更长、更干净、更高分辨率的训练数据，能带来更少的幻觉问题。

训练数据：

图文数据又分：粗粒度、细粒度。

CC-3M:

规模: 330万图像-文本对

数据来源: 网络图片的alt-text特点: 有严格的数据清洗流程

清洗步骤:

图片: 过滤不合适内容和长宽比
文本: 使用NLP工具进行注释和启发式过滤
图文对: 使用分类器给图片打标,确保文本注释与图片标签有重叠

CC-12M:

规模: 1240万图像-文本对

特点: 相比CC-3M放宽和简化了数据收集流程

优势: 收集到更多的数据

SBU Captions:

规模: 100万图像-文本对

数据来源: Flickr网站

数据收集方法: 通过大量查询词从Flickr获取初始图像集

筛选标准:

描述长度要合适
描述中至少包含2个预定义术语表中的词
包含表示空间关系的介词(如"on","under")

LAION-5B:

规模: 58.5亿图像-文本对

特点: 多语言数据集,其中英语子集约20亿对

用途: 研究目的

LAION-COCO:

规模: 6亿图像

来源: 从LAION-5B的英语子集中提取

特点: 使用BLIP生成多种图像描述,用CLIP选择最佳匹配

COYO-700M:

规模: 7.47亿图像-文本对

数据来源: CommonCrawl

详细的过滤策略:

图片过滤:

过滤不合适的尺寸、内容、格式、长宽比
基于pHash值去重,避免与ImageNet和MS-COCO重叠

文本过滤:

仅保留合适长度的英文文本
要求包含适当的名词形式和词语
清理空白字符
删除重复出现超过10次的文本(如"image for")

图文对过滤: 基于(图片pHash, 文本)元组去重

新型细粒度数据集(如ShareGPT4V):

规模: 120万对数据

生成方法: 两步策略

先用GPT-4V生成10万高质量数据

用这些数据训练描述器,再扩展到120万数据

特点:

描述更长更准确
能实现更细粒度的图文对齐
成本较高

💡

Note

更长、更干净、更高分辨率的训练数据，能带来更少的幻觉问题。

2. 指令微调 Instruction-tuning

如何训练，2. 训练哪些部分，3. 数据有哪些怎么来的，4. 多模态数据和纯文本数据如何分配

这个阶段同样是做的自回归，不过数据要好一些，而且数据也称为一些指令微调数据。对应 LLM 训练中 SFT 阶段。

A multimodal instruction sample often includes an optional instruction and an input-output pair. The instruction is typically a natural language sentence describing the task, such as, “Describe the image in detail.”

训练方式：

使用 Instruction following数据做自回归训练，交叉熵 loss 只计算 answer 的部分。

训练策略：

开放投影层 和 LLM 训练，eg. LLaVA, Qwen-vl, etc.

训练数据：

Many works have utilized existing high-quality datasets to construct instruction-formatted datasets.

已有数据的适应：

一般指令微调数据，都从特定任务的数据集上得到，通过手动添加一些模版 prompt 加入一点 GPT 的帮助，构建成能够用于自回归训练的指令微调数据。

多轮对话场景数据制作：使用少量的人工标注+让 LLM 帮忙生成大量合成数据，基于图像展开多轮对话。

例如 LLaVA，将图像 caption 为文本+bbox，让 gpt4 通过【文本内容+prompt+要求+例子】生成新的数据。LLaVA-Instruct-150k。

同时还有使用 gpt4v 来生成数据的，LVIS-Instruct4V。

数据混合

除了需要使用多模态指令数据，还要使用一些纯语言的指令数据，为了保持或提升模型指令的遵循能力。

一般打乱训练，或者先文本后多模态训练。但是比例视情况。

💡

Note

数据的质量和数量都很重要。

指令 prompt 需要更加多样，对于性能十分重要。

增加指令任务的复杂程度(任务难度)比多一些和细粒度更有效，带推理性质、复杂的指令有助于模型更好提升。

3. 偏好对齐 Alignment tuning

这个阶段主要是引导模型生成的内容与人类对齐。对应 LLM 训练中的 RLHF 阶段。一般有 RLHF 、 DPO 两种主流的对齐方法。用于缓解模型产生的幻觉问题，生成更有效的、带有偏好的答案。

Alignment tuning is more often used in scenarios where models need to be aligned with specific human preferences, e.g. response with fewer hallucinations.

RLHF

RLHF 一般分三个阶段，MLLM 和 LLM 都是用的同种方式，不同点在于数据不同。

1. Supervised fine-tuning. ( obtain the SFT model. )

此步骤旨在微调 预训练模型 pre-trained model 以呈现初步期望的输出行为。RLHF 设置中的微调模型 fine-tuned model 称为策略模型 policy model。实际上 Instruction-tuning model 就是 SFT Model 。

2. Reward modeling. ( obtain the Reward model. )

在此步骤中，使用偏好数据对训练奖励模型 RM 。给定一个多模态提示 multimodal prompt（e.g. image and text）x 和一个 response pair (y_win , y_loss)，奖励模型 r_θ 学习为偏好回复 y_w 提供更高的奖励。

这个多模态提示数据集 D 是人类注释者标记的比较数据集。在实践中，奖励模型 RM 与策略模型 policy model 具有相似的结构。

即：RM 是由 SFT 初始化的，而 policy model 也是由 SFT 初始化；但是 RM 是需要训练，而 policy model 不训练。

3. PPO Reinforcement learning. ( obtain the Final model / RL model. )

在此步骤中，采用近端策略优化 PPO 算法来优化 RL 策略模型 。通常会在训练目标中添加每个 token 的 KL 惩罚，以避免偏离原始策略太远，从而得到目标：

其中 β 是 KL 惩罚项的系数。通常，RL 模型 π RL 和 参考模型 π REF 都从 监督模型SFT π SFT 初始化的。而其中只训练 RL 模型 π RL 。

DPO

相比 RLHF ，DPO 的训练更简单一些，而且也不需要构建强化学习策略，而是将奖励模型简化到直接的训练目标上。

其步骤简化为： human preference data collection 、 preference learning

human preference data collection

数据同样是使用多模态提示数据集 D 是人类注释者标记的比较数据集，给定一个多模态提示 multimodal prompt（e.g. image and text）x 和一个 response pair (y_win , y_loss)。

preference learning

定义与 RLHF 一样，但是 DPO 直接由下面这个公式得到 loss 进行训练，而其中只训练 RL 模型 π RL 。

💡

这里面计算的是给定 x 时，输出 y_w 的概率，是一个乘积概率(每个 token 对应 y_w 位置 token 的概率)，有时候加入对数防止概率下溢。

多模态提示数据集 D 的获取

对齐调整的数据收集要点是收集模型响应的反馈，即决定哪种响应更好。收集此类数据通常成本更高，并且此阶段使用的数据量通常比前几个阶段使用的还要少。该数据主要是包括回应的比较这个信息，一般由人工标注得到。

LLaVA-RLHF [112]。它包含从诚实和乐于助人的人类反馈中收集的 10K 个偏好对。该数据集主要用于减少模型响应中的幻觉。

RLHF-V [114]。它具有通过分段级幻觉校正收集的 5.7K 个细粒度人类反馈数据。

VLFeedback [115]。它利用人工智能对模型响应提供反馈。该数据集包含 GPT-4V 在乐于助人、忠诚度和道德问题方面评分的 380K 多个比较对。

‣

四、MLLM 的性能评测

A Survey on Evaluation of Multimodal Large Language Models

1. 通用能力评估任务

1.1 多模态识别（Recognition）

目标：评估模型对多模态输入的识别与分类能力。

子任务：

概念识别：识别图像中的物体、场景或实例，如“识别图像中的汽车或狗”。
属性识别：检测图像或场景中的属性，例如颜色、材质、情绪或人物职业。
动作识别：检测视频或图像中主体的动作或活动。
光学字符识别 (OCR)：从图像中提取和识别文本信息。

相关基准：MMBench、LLaVA-Bench、TextVQA、CLEVR 等。

1.2 多模态感知（Perception）

目标：评估模型理解物体位置、空间关系和交互的能力。

子任务：

物体定位：确定场景中物体的位置及数量。
物体关系：识别物体之间的空间或语义关系（如“左边”、“右边”）。
物体交互：分析物体之间的功能或物理交互（如“人拿着书”）。

相关基准：SpatialRGPT、P2GB、MMRel、GQA 等。

1.3 多模态推理（Reasoning）

目标：测试模型进行逻辑推理和决策的能力。

子任务：

常识推理：基于日常知识进行推断，如“太阳在夜晚不会出现”。
关系推理：分析社会、物理或自然现象之间的关系。
逻辑推理：基于逻辑规则进行推导或预测。

相关基准：CLEVR、MMBench、LogicVista、MDVP-Bench 等。

1.4 信任性评估（Trustworthiness）

目标：测试模型的可靠性与安全性，包括输出的鲁棒性、准确性及符合伦理性。

子任务：

鲁棒性：测试模型对噪声、扰动或对抗性输入的耐受性。
幻觉：评估模型是否生成虚假或无关内容。
伦理性：评估模型的输出是否符合道德标准和社会规范。
偏见：分析模型是否存在对种族、性别等的偏见。
安全性：评估模型避免生成有害内容的能力。

相关基准：MM-SafetyBench、Multi-Trust、MAD-Bench 等。

2. 特定领域能力评估任务

2.1 社会经济学（Socioeconomic）

目标：评估模型处理文化与社会动态相关任务的能力。

子任务：

文化分析：理解和生成符合不同文化背景的内容。
社会分析：分析社会问题、趋势和动态，如社会情绪和伦理争议。

相关基准：VizWiz、CVQA、MM-Soc 等。

2.2 自然科学与工程（Natural Sciences and Engineering）

目标：测试模型在科学与工程领域的应用能力。

子任务：

数学推理：解决方程、进行数值推理等。
科学理解：分析物理、化学、生物学相关问题。
工程应用：技术分析、设计及问题解决。

相关基准：MathBench、ScienceQA、DesignQA 等。

2.3 医学分析（Medical Usage）

目标：评估模型在医疗图像分析、诊断和治疗建议中的表现。

子任务：

医疗影像分析：处理 X 光片、MRI 等医学图像。
临床诊断建议：基于多模态输入给出诊断和治疗建议。

相关基准：GMAI-MMBench、M3D、MMMU 等。

2.4 人工智能代理（AI Agent）

目标：评估模型作为自主 AI 代理在复杂任务中的表现。

子任务：

任务规划：在多模态场景中生成计划并执行。
环境交互：与视觉或语言界面进行交互操作。

相关基准：VisualAgentBench、EgoPlan-Bench、PCA-EVAL 等。

2.5 其他应用

3D 点云分析：处理 3D 数据，应用于机器人、自动驾驶等领域。

相关基准：ScanQA、LAMM、M3DBench。

视频处理：理解视频内容的时序信息及语义。

相关基准：MMBench-Video、MVBench、SOK-Bench。

遥感分析：分析卫星图像以监控环境、农业等。

相关基准：MDAS、HighDAN。

音频处理：进行语音识别、声音分类等。

相关基准：AIRBench、Dynamic-superb。

3. 主要评测基准

通用评测基准

MMBench (识别、感知、常识推理) 任务范围：涵盖多模态识别、感知和推理。特点：支持多任务评估，测试模型在不同多模态场景中的性能。 适用场景：识别概念、属性，推理关系和常识。

CLEVR (合成数据、识别、定位、关系推理) 任务范围：视觉推理，特别是基于合成数据的逻辑推理。特点：场景由基本几何形状和简单关系构成，适合测试逻辑推理能力。 适用场景：概念识别、物体定位、关系理解

GQA (定位、关系理解、逻辑推理) 任务范围：视觉问答。特点：问题设计基于真实图片，涉及物体识别、关系推理等。 适用场景：物体定位、关系理解、逻辑和常识推理。

LLaVA-Bench (常识推理、逻辑推理) 任务范围：多模态理解和推理任务。特点：整合了多种任务格式，包括图像问答和描述生成。 适用场景：逻辑和常识推理。

针对多模态大模型（LLM）和多语言大模型（MLLM）的性能评估方法，以下是一些关键的评估方法和标准：

模态融合率（MIR）：

中国科学技术大学提出了模态融合率（MIR）来高效评估多模态预训练对齐质量。MIR能够准确对应模型在有监督微调后在下游测试基准上的得分，与损失值（Loss）、困惑度（PPL）和上下文评估（In-Context）相比，MIR显示出更好的稳定性和可靠性。

多模态大语言模型综合评估基准（MME）： https://arxiv.org/pdf/2306.13394.pdf

MME是一个综合评估基准，旨在全面评估MLLMs的感知和认知能力。它包括14个子任务，覆盖从对象识别到常识推理、数值计算、文本翻译和代码推理等多个方面。MME的指令设计简洁，以“是或否”的形式输出，便于定量统计和评估。

CheckList评估方法：

受到软件工程中行为测试的启发，CheckList是一种全新的NLP模型测试方法，帮助人们更为清晰、系统地了解各种模型的优缺点。它通过验证输入输出行为来测试一个系统的不同的能力。

多模态增益（MG）和多模态泄露（ML）：

为了评估LVLMs在多模态训练中的实际性能提升和数据泄露程度，提出了两个新的度量指标：多模态增益（MG）和多模态泄露（ML）。MG量化模型在接收到视觉信息时相对于仅使用文本信息时的性能提升，而ML评估模型在训练过程中可能无意中记忆的数据的程度。

LLaVA Bench：

LLaVA-Bench是专门针对LMM设计的开放世界视觉聊天基准，它提供了一个评估多模态学习能力的平台，弥合了语言和视觉理解之间的差距。

MME 综合评测指标, Perception、Cognition、 — MME 综合评测指标, **Perception、Cognition、**

4. 模型评测方式

Human evaluation 、 GPT-4 evaluation 、 Metric evaluation

人工评测： 人工评估可以从多个维度对 MLLM 进行全面评估，包括：（1）相关性：评估响应是否与预期指令一致；（2）连贯性：确定响应是否具有逻辑结构和一致性；（3）流畅性：评估生成的输出是否自然且语法合理。

模型评测：利用 GPT-4 对回应进行打分。 GPT-4 从有用性、相关性、准确性和细节等关键维度对 MLLM 进行评估，并给出 1 到 10 的分数，分数越高表示性能越好。此外，GPT-4 可以对其评估提供详细的解释，从而对模型的优势和需要改进的领域提供细致的理解。

指标评测：传统的评估指标对于定量评估 MLLM 的性能仍然至关重要。为了评估模型的识别能力，采用了 Acc 和 Average Precision(AP) 等几个指标；为了评估模型的感知能力，采用了 mIoU、mAP 和 Dice 等几个指标。此外，为了评估模型生成文本或图像的能力，BLEU、ROUGE 和 METEOR 等指标被广泛采用。

总结：评估大模型，对于 闭集任务(答案多样性有限)，有采用一些 ACC、AP、mAP 等指标，硬性计算模型能力，这时需要设计 prompt 指引模型回答闭集空间 (Yes/No形式、多选形式、分类形式)，用统一方法计算量化指标。对于 开集任务(未定形式任务、复杂任务) ，有采用一些文本评测指标 BLEU、CIDEr 来计算与标准答案的差距，但也有通过人工评测来对模型的整体输入进行评估。

五、多模态大模型技术 M-IT、M-CoT、LAVR

v1: https://arxiv.org/pdf/2306.13549v1

ref: ‣

1. 多模态指令调优（Multimodal Instruction Tuning）

指令是任务描述。指令调优是通过在一组以指令格式组织的数据集上微调预训练的 LLM，以实现对未见任务的泛化能力提升。

数据方面，研究人员通常通过改编现有基准数据集或进行自我指导来获取适用于多模态指令调优的数据集。

模型方面，一种常见的方法是将外部模态信息注入到 LLM 中，并将其作为强大的推理器。相关工作可以直接对齐外部嵌入和 LLM，也可以借助专家模型将外部模态转化为 LLM 可接受的自然语言。这些工作将 LLM 转化为多模态聊天机器人和多模态通用任务求解器。

2. 多模态思维链（Multimodal Chain of Thought）

监督学习是从大量的数据中学习数据背后的模式，与传统监督学习不同的是，ICL（In-Context Learning）的关键是“类推”，通过少量的数据配合一些预填的指令，去外推新的问题与任务，因此使用少样本学习的方式解决全新的问题。

ICL常常采用无训练（training-free）的方式实现，因此可以在推理阶段，很容易地整合进不同的框架。

IT（Instruction Tuning）与ICL十分相关，IT常常被用于增强模型的ICL能力。

CoT的主要思想是促使LLM不仅输出最终答案，而且输出导致答案的推理过程，类似于人类的认知过程。 M-CoT 与 CoT 主要的不同在于，需要 填补模态缺口。

CoT（Chain of Thought）主要是为了在提示大语言模型（LLMs）时，不仅生成最终答案，还包括推理过程，引导至最终解答。在M-CoT（Multimodal Chain of Thought）中，有几个重要的概念：

Modality Bridging（模态桥接）：用于解决不同模态之间的差距（modality gap），使模型能够更好地在多模态输入之间进行推理。

Learning Paradigms（学习范式）：涉及如何设计和调整模型的学习方法，以便它能够有效地处理和整合来自不同模态的信息。

Chain Configuration（链配置）：指的是设计推理链的结构和顺序，以确保模型能够逐步推导出正确的结论。

Generation Patterns（生成模式）：描述模型生成内容的策略和形式，以支持复杂的推理过程和多步骤问题解决。

Modality Bridging

Learnable Interface 的方法：

Learnable Interface：通过一个可学习的接口将视觉嵌入映射到词嵌入空间。这个映射后的嵌入可以视为提示（prompt），用于激发大语言模型（LLMs）的多模态推理能力（M-CoT）。
CoT-PT：使用多个Meta-Net进行提示微调（prompt tuning）。Meta-Net将视觉特征转换为阶段性的提示，可以将Meta-Net视为CoT-PT的一个模块。
Multimodal-CoT：采用共享的基于Transformer的结构，通过交叉注意力（cross-attention）使得视觉和文本特征进行交互。

Expert Model 的方法：

Expert Model：引用专家模型将视觉输入翻译为文本描述。这种方法虽然直接且简单，但在转换过程中可能会出现信息丢失的问题。

Learning Paradigms

在解释学习范式（learning paradigms）时，可以描述为模型如何从信息中获取知识。习得多模态链式思维（M-CoT）能力的方式大致可以分为三种：

微调（Finetuning）：

特点：通常需要专门针对M-CoT的数据集进行训练。

应用：通过这种方式，模型能够在特定任务上进行深入学习，适应特定的多模态推理需求。

无训练的少样本学习（Training-free Few-shot Learning）：

特点：通常需要人工设计一些上下文内的示例，以帮助模型学习如何进行推理。

应用：通过提供少量的示例，模型能够从中学习推理模式并将其应用于新的问题。

无训练的零样本学习（Training-free Zero-shot Learning）：

特点：直接通过提示即可，无需其他明显的指导。

应用：例如使用提示"Let’s think frame by frame"来引导模型进行逐步推理和问题解决。

Chain Configuration

确定模型何时应该停止推理，主要有两种方法：自适应（Adaptive）和预定义格式（Pre-defined Formation）。

自适应（Adaptive）：

特点：要求大语言模型（LLMs）自己决定何时停止推理链。

应用：模型根据上下文或推理过程中获得的信息动态地确定结束条件。

预定义格式（Pre-defined Formation）：

特点：用户预先设定好推理链的长度。

应用：在开始推理之前，明确规定推理步骤的数量或条件，确保推理过程在达到指定长度时结束。

Generation Patterns

推理链（Reasoning Chain）的构建主要有两种模式：

基于填充的模式（Infilling-based Pattern）：

特点：需要在上下文中进行推理，通过推理前几步和后几步来填补逻辑漏洞。相当于填补思维链的中间部分推理内容(BERT 的填词)。

应用：这种方法强调在已有的上下文间隙中填充合理的推理步骤，以确保逻辑链的完整性。

基于预测的模式（Predicting-based Pattern）：

特点：利用已知条件、指令以及过去推理获得的信息来扩展推理链。相当于利用上文已有信息进行下文推理(GPT 的 Next word)。

应用：通过对下一步的预测不断延伸推理过程，确保每一步都基于已有信息进行合理推断。

不论采用哪种模式，生成的文本都必须保持连续性和正确性，以确保推理链的逻辑完整和准确。

3. LLM 辅助视觉推理（LLM-Aided Visual Reasoning）

使用 LLM 通过一些特殊的指令微调 (工具调用指令、多模型内容推理的指令等) ，让 LLM 作为整个系统的一部分，来完成视觉推理任务。

受到工具增强LLMs[95-98]成功的启发，一些研究探索了调用外部工具[14,34,75,76]或视觉基础模型[14,83,84,91,92,99]的可能性.用于视觉推理任务。这些作品以LLMs为不同角色的帮助者，构建了特定任务[84,90,93]或通用[14,75,76,80,83]视觉推理系统。

LAVR（Language-Augmented Visual Reasoning）系统通过将大语言模型（LLMs）作为助手和其他不同角色，构建支持特定任务或通用目的的视觉推理系统。有如下优点：

强大的泛化能力（Strong Generalization Ability）：

LAVR利用经过大量数据和训练的模型，能够轻松泛化到未见过的任务，并在零样本（zero-shot）或少样本（few-shot）情况下表现良好。

涌现能力（Emergent Abilities）：

定义为在小模型中不会出现，但在大模型中会涌现的能力。例如，能够理解图像背后的深层含义，如理解为什么一个梗图会好笑。

更好的交互性和控制（Better Interactivity and Control）：

基于LLM的系统提供了更易用和可控的用户界面，例如使用自然语言查询进行交互。

训练范式（Training Paradigms）

无训练（Training-free）：

少样本模型（Few-shot Models）：需要少量手工制作的上下文样本，指导LLMs生成程序或一系列执行步骤，这些步骤作为其他模型或外部工具的指令。

零样本模型（Zero-shot Models）：依赖于LLMs的语言相关知识和推理能力，例如使用LLMs优化图像说明以更好地满足用户需求。

微调（Finetuning）：

旨在激活LLMs在LAVR中的计划能力（例如工具的使用）和指令跟随能力。

LLM在LAVR系统中扮演的角色

LLM作为控制器（LLM as a Controller）：

拆解复杂任务为简单的子任务，利用LLMs的链式推理（CoT）能力。

将这些任务分配给适当的工具或模块。

通常在单轮（single round）内完成任务。

LLM作为决策者（LLM as a Decision Maker）：

复杂任务通常以多轮（multi-round）方式解决。

总结当前上下文和历史信息，判断信息是否足够推导出最终解答。

整理并以用户友好的方式呈现答案。

LLM作为语义精炼器（LLM as a Semantics Refiner）：

利用LLMs丰富的语言和语义知识，加强对最终答案的表达。

Reference

‣

https://arxiv.org/pdf/2306.13549

https://arxiv.org/pdf/2306.13549v1

‣

https://arxiv.org/pdf/2401.13601

https://arxiv.org/pdf/2306.13394.pdf