【MLLM综述 4 - Hallucination】多模态大模型幻觉问题的综述 Hallucination of Multimodal Large Language Models: A Survey

type

date

slug

summary

Fields Review

TLDR: 本文综述了多模态大型语言模型（MLLM）中的幻觉现象，分析其原因、评估基准、指标和缓解方法，探讨当前挑战和未解决问题，为未来研究提供方向，并旨在增强 MLLM 的稳健性与可靠性。

本综述全面分析了多模态大型语言模型 (MLLM)（也称为大型视觉语言模型 (LVLM)）中的幻觉现象，这些模型在多模态任务中表现出了重大进步和非凡能力。尽管取得了这些令人鼓舞的进展，但 MLLM 通常会产生与视觉内容不一致的输出，这一挑战被称为幻觉，这对其实际部署构成了重大障碍，并引发了人们对其在实际应用中的可靠性的担忧。这个问题引起了越来越多的关注，促使人们努力检测和减轻这种不准确性。我们回顾了识别、评估和减轻这些幻觉的最新进展，详细概述了根本原因、评估基准、指标和为解决这一问题而制定的策略。此外，我们还分析了当前的挑战和局限性，提出了一些未解决的问题，为未来的研究指明了潜在的途径。通过绘制幻觉原因、评估基准和缓解方法的详细分类和概况，本调查旨在加深对 MLLM 中幻觉的理解，并激发该领域的进一步发展。通过我们全面而深入的审查，我们为增强 MLLM 的稳健性和可靠性的持续对话做出了贡献，为研究人员和从业者提供了宝贵的见解和资源。

其他论文的 MLLM 幻觉示例，https://arxiv.org/pdf/2402.00253

My Note

主要对 MLLM 幻觉问题的一个总结和分析，这里总结两篇论文的内容：

Hallucination of Multimodal Large Language Models: A Survey

A Survey on Hallucination in Large Vision-Language Models

Introduction

在 LLM 中存在幻觉问题，而在 MLLM 中也存在类似的幻觉问题，但是前者主要是文本相应的有效性和真实性方面的问题，而后者则更多体现在跨模态不一致性问题。

多模态模型，这些模型表现出产生幻觉的倾向，从而产生看似合理但事实上是虚假的内容。

幻觉问题源于 LLM 本身。在 NLP 社区中，LLM 的幻觉问题在经验上分为两类：

1) 事实性幻觉 factuality hallucination：强调生成的内容与可验证的现实世界事实之间的差异，通常表现为事实不一致或捏造；

2) 忠实性幻觉 faithfulness hallucination：是指生成的内容与用户指令或输入提供的上下文的差异，以及生成内容内的自洽性。

而 MLLM 中幻觉的研究工作主要集中在生成的文本响应与提供的视觉内容之间的差异上，即跨模态不一致。这种差异表明 LLM 中的研究似乎无法转移到 MLLM。

在MLLM中，物体幻觉被经验性地分为三类：

1）类别 category，识别给定图像中不存在或不正确的物体类别；

2）属性 attribute，强调对物体属性的描述，如颜色、形状、材质等；

3）关系 relation，评估物体之间的关系，如人与物体的相互作用或相对位置。

由于存在大量关于 LLM 中幻觉的根本原因的研究，因此尖端 MLLM 带来的独特挑战值得深入研究。我们的分析专门针对 MLLM 中幻觉的独特起源，涵盖了从数据、模型、训练到推理阶段的一系列促成因素。此外，我们还全面概述了专门用于评估 MLLM 中幻觉的基准和指标。然后，我们从已确定的原因的角度回顾和讨论了最近为缓解幻觉问题而量身定制的研究。

综述组织如下：我们首先提供足够的背景信息并定义与 LLM、MLLM、幻觉等相关的概念定义。接下来，我们深入分析导致 MLLM 幻觉的因素。随后，我们提出了一套用于评估 MLLM 幻觉的指标和基准。然后，我们详细阐述了一系列旨在缓解 MLLM 幻觉的方法。最后，我们深入探讨了构成该领域当前局限性和未来前景的挑战和未决问题，为未来的研究提供了见解并描绘了潜在的途径。

一、MLLM 中幻觉概念定义

多模态大语言模型（MLLM）的幻觉通常指生成的文本响应与相应的视觉内容不一致的现象。在该领域的最先进研究中，主要关注对象幻觉，因为对象在计算机视觉和多模态环境的研究中处于核心地位。关于不一致性，存在两种典型的失败模式：1）遗漏对象，2）描述图像中不存在的对象或使用不正确的描述。实证上，第二种错误模式（即描述图像中不存在的对象或提供不正确的描述）对人类来说是更不受欢迎的(不可接受的)。例如，LSMDC挑战赛[91]显示，对人类评委来说，正确性比特异性更重要。相对而言，对象的覆盖率对人类来说不那么容易察觉。因此，对象覆盖不是对象幻觉研究的主要重点。实证上，对象幻觉可以分为三种类型：对象类别、对象属性和对象关系。

类别。多模态大语言模型（MLLMs）在给定图像中识别出不存在的对象类别或错误的类别。例如，在图3中，文本响应中描述的“长椅和栅栏”、“一些云”在给定图像中并不存在。

属性。MLLMs识别的对象类别是准确的，但对这些对象属性（如颜色、形状、材料、内容、计数、动作等）的描述是错误的。在图3中，“粉色花朵”是MLLMs产生的幻觉，因为颜色描述不准确。

关系。所有对象及其属性都被正确描述，但它们之间的关系（如人-物交互或相对位置）与实际图像内容不一致。在图3中，“...站在她周围，观看...”是关系幻觉的典型例子，因为对象在图像中存在，但关系描述不准确。

二、造成幻觉的因素

HALLUCINATION CAUSES

幻觉的起源是多方面的，贯穿于多模态大语言模型（MLLMs）能力获取过程的整个范围。在本节中，我们深入探讨MLLMs中幻觉的根本原因，主要分为四个方面：数据、模型、训练和推理。

1. 从数据学习层面导致的幻觉

数据数量 (Quantity)

MLLMs 需要大量数据进行训练，但目前图像-文本对数据集和视觉QA数据的规模远小于纯文本数据。数据量不足可能导致跨模态对齐效果不佳，从而产生幻觉。

数据质量 (Quality)

噪声数据 (Noisy Data)

预训练阶段使用的网络爬取的图文对可能包含不准确、错位或损坏的样本

指令微调阶段使用GPT-4等模型生成指令可能引入噪声，因为语言模型本身无法理解视觉内容

语言模型自身的幻觉问题会进一步增加风险

多样性不足 (Lack of Diversity)

指令微调数据通常规模较小，缺乏多样性

大多数指令数据都是关于图像内容的正面对话，缺乏否定指令数据

这导致模型倾向于对任何指令回答"是"，即使正确答案应该是"否"

详细描述问题 (Detailed Descriptions) 这是一个开放性问题，主要有两种观点：

一种观点认为训练数据中缺乏关于物体位置、属性和非显著物体的详细描述

另一种观点认为指令微调数据中的文本描述过于详细，超出了MLLMs的感知极限

统计偏差 (Statistic Bias)

频繁出现的物体

训练数据中某些物体（如"人"）出现频率过高

即使图像中没有这些物体，模型也倾向于预测它们的存在

物体共现

模型会记住某些物体经常一起出现的模式

例如，看到厨房里有冰箱，模型可能会推测有微波炉，因为这两个物体在厨房场景中经常共现

数据整合方式

Aligning Large Multimodal Models with Factually Augmented RLHF 中的分析 https://arxiv.org/pdf/2309.14525

生成文本数据时，通过 LLM 生成，本身带来的幻觉数据

图像指令数据在给到模型时，由于模型的视觉处理方式(处理分辨率低)，导致高质量图像特征天然无法认识

2. 从模型层面导致的幻觉

目前，流行的 MLLM 的架构由几个组件组成，通常包括预训练的视觉模型、预训练的 LLM 和对齐模块，正如我们上面讨论的那样。由于这些模型是连接在一起的，而不是从头开始进行端到端训练，因此每个模块的错误可以累积起来。每个模块的劣质和有问题的输出可能会导致幻觉。

弱的视觉模型 (Weak Vision Model)

幻觉的一个主要潜在原因是视觉模型弱，这可能导致对视觉概念的错误分类或误解。即使是最强大的视觉模型在编码过程中仍可能经历信息丢失。视觉模型弱意味着感知能力弱，这从根本上破坏了多模态理解。

主要存在两个问题：

信息损失 (Information Loss)

视觉编码器（如CLIP）在提取特征时会丢失细节信息

特征提取过程中的下采样和压缩会导致空间信息损失

视觉特征通常被压缩到固定维度，可能无法完整保留复杂场景的所有信息

这种信息损失会导致模型在描述细节时产生幻觉

特征偏差 (Feature Bias)

视觉模型可能对某些特征更敏感，而忽视其他特征

预训练视觉模型可能存在数据分布偏差

模型可能过度关注显著特征，忽视不显著但重要的视觉细节

语言模型先验 (Language Model prior)

现代 MLLM 的架构是不平衡的。通常，语言模型比视觉模型大得多，也强得多，导致倾向于优先考虑基于语言的信息 [31, 63, 64, 73, 90]。一个典型的现象是，语言模型中包含的知识（也称为参数知识）可以覆盖视觉内容。

例如，给定一张显示红色香蕉的图像，这在现实世界中是违反直觉的，MLLM 可能仍会用“黄色香蕉”来回应，因为“香蕉是黄色的”是 LLM 中根深蒂固的知识。这种语言/知识先验使得模型忽略了视觉内容并做出幻觉反应。

主要涉及语言先验(数据偏差)问题：

语言模型在预训练过程中获得的知识可能与视觉内容冲突

当视觉信息不完整或模糊时，语言模型倾向于使用其预训练知识"填补空白"

语言模型的先验知识可能导致过度推理或不准确的描述

这种情况在处理罕见或未见过的视觉场景时特别明显

跨模态接口太弱 (Weak alignment interface)

对齐接口在 MLLM 中起着至关重要的作用，因为它是两种模态之间的桥梁。弱对齐界面很容易引起幻觉。正如前面章节所讨论的，弱对齐界面的一个潜在原因是数据。除此之外，接口架构本身和训练损失设计也很重要 [52, 77, 123]。最近的研究 [52] 认为，类似 LLaVA 的线性投影界面保留了大部分信息，但缺乏对投影特征的监督。[52] 中的可视化显示，投影层之后的特征与语言嵌入仍然不同。分布差距导致跨模态交互出现问题，从而导致幻觉。另一方面，类似 Q-former 的 [66] 架构对提取的视觉特征具有不同的监督，将其与语言嵌入空间对齐。然而，使用可学习查询不可避免地会导致细粒度视觉信息的丢失。

主要存在对齐不足（Inferior Alignment）的问题：

视觉特征到语言空间的映射可能不够精确

简单的线性投影或attention机制可能无法捕捉复杂的跨模态关系

预训练和微调阶段的模态对齐目标可能不一致

接口模块的设计和训练方式会影响跨模态信息的传递质量

不同模态之间的语义对齐程度不足会导致错误的关联和理解

模型问题总结

这些模型层面的因素往往是相互关联的：

视觉模型的信息损失会影响跨模态接口的对齐效果

语言模型的先验知识可能会干扰视觉信息的准确解释

跨模态接口的不足可能会加剧视觉信息的损失和语言模型的偏差

要解决这些问题，需要：

改进视觉编码器的特征提取能力

优化语言模型与视觉内容的协调性

设计更有效的跨模态对齐机制

在模型架构层面考虑如何更好地保持和传递视觉信息

3. 训练角度幻觉的产生

MLLM 的训练目标与 LLM 基本相同，即自回归下一个 token 预测损失。这种损失简单但有效，并且易于扩展，在语言建模中表现出色。然而，MLLM 领域的一些研究表明，由于其复杂的空间结构，下一个 token 预测损失可能不适合学习视觉内容 [5, 16]。此外，损失在 token 级别进行优化，而在序列级别缺乏监督 [5]。另一个观点是，与训练 LLM 不同，RLHF 阶段在 MLLM 的训练过程中不存在 [96, 119]，成为幻觉的潜在原因。

训练目标设计 (Training Objective Design)

预训练阶段

常用的对比学习目标可能过于简单，无法捕捉细粒度的视觉-语言对应关系

对比学习主要关注全局相似性，忽视了局部细节的对齐

掩码语言建模等目标可能导致模型过度依赖语言先验

指令微调阶段

常用的交叉熵损失可能不足以防止幻觉

缺乏专门针对幻觉问题的训练目标

现有目标可能无法有效区分正确和错误的视觉-语言对应关系

训练策略 (Training Strategy)

预训练和微调阶段的目标不一致可能导致灾难性遗忘

不同训练阶段使用的数据分布差异较大

训练过程中的梯度更新可能破坏已学习的对齐关系

Sonnet 提出了几个可能的方向：

改进训练目标

设计更细粒度的对比学习目标

引入专门针对幻觉的损失函数

开发多任务学习框架

优化训练策略

采用渐进式训练方法

使用对抗训练技术

设计更好的课程学习策略

完善评估体系

开发更准确的幻觉评估指标

构建多样化的测试数据集

建立统一的评估标准

4. 推理角度幻觉的产生

至于推理，一些研究也指出了自回归生成中的潜在问题。在生成过程中，随着序列长度的增加，自注意力将更多地集中在先前生成的文本标记上，即对视觉内容的注意力被稀释[45，102-104]。通过可视化生成过程中的注意力图[45，104]，可以观察到生成的内容更多地关注先前的特殊标记，例如标点符号，而不是视觉内容标记。“失去注意力”的问题还会导致模型的输出响应与视觉内容无关。

注意力机制的注意力权重分配问题：

模型在生成过程中可能会错误地关注图像中不相关的区域

这种错误的注意力分配会导致生成的描述与图像内容不符

三、幻觉指标和基准

这些基准的主要重点是评估 MLLM 生成内容的对象幻觉。

1. 幻觉评测指标

评测指标包括： CHAIR ↓、AMBER Score ↑、 Hallusion Bench All-ACC ↑ 、 FaithScore ↑、

Hal-Eval ACC↑

1. CHAIR (Caption Hallucination Assessment through Image Relevance)

这是最早期评估图像描述中对象幻觉的指标之一，提出用于评估传统图像字幕任务中的对象幻觉。这是通过根据真实句子和对象分割计算生成的词中实际存在于图像中的比例来实现的。

CHAIR有两个具体指标变体:

实现细节:

评估范围限制在MSCOCO的80个对象类别内

使用句子分词(tokenization)和同义词映射来判断生成的句子是否包含幻觉对象

同时使用ground-truth caption和对象分割作为判断依据

较低的CHAIR分数表示较少的幻觉

2. POPE (Pooling-based Object Probing Evaluation)

POPE通过将评估转化为二分类任务来评估幻觉:

输入: 简单的是/否问题形式(例如:"图片中有汽车吗?")

评估指标: 准确率(Accuracy)、精确率(Precision)、召回率(Recall)和F1分数

相比CHAIR更稳定,不受指令设计和生成文本长度的影响

计算方式:

Precision = TP/(TP+FP)

Recall = TP/(TP+FN)

F1 = 2 × (Precision × Recall)/(Precision + Recall)

（TP: 正确识别存在的对象，FP: 错误识别不存在的对象，FN: 漏识别存在的对象）

3. HallusionBench

HallusionBench 从不同的角度评估了幻觉。它由 455 个视觉问题控制对组成，有 346 个不同的图形，总共 1129 个问题，涵盖不同的主题和格式。问题分为两类：视觉依赖和视觉补充。

视觉依赖问题被定义为没有视觉背景就没有肯定答案的问题。此设置旨在评估视觉常识知识和视觉推理技能。视觉补充问题可以在没有视觉输入的情况下回答；视觉部分仅提供补充信息或更正。此设置旨在评估视觉推理能力以及参数记忆（语言先验）与图像背景之间的平衡。这种划分为理解和诊断 MLLM 提供了一个新的视角。

其主要测试的也是对于问题回答的准确性 ACC。

4. FaithScore

FaithScore 旨在评估对开放式问题的自由形式回答。与基于 LLM 的整体评估不同，FaithScore 设计了一个自动管道来分解响应、评估和详细分析元素。评估流程包含三个步骤:

描述性子句识别(Descriptive Sub-sentence Identification)

原子事实生成(Atomic Fact Generation)

事实验证(Fact Verification)

评估维度: 实体(Entity)、计数(Count)、颜色(Color)、关系(Relation)、其他属性(Other Attributes)

最终的FaithScore计算:

5. AMBER Score

AMBER(An LLM-free Multi-dimensional Benchmark)提供了一个无需依赖额外LLM的评估框架:

支持生成任务和判别任务的评估

评估维度:

对象存在性幻觉
属性幻觉
关系幻觉

它进一步结合了生成性任务中的 CHAIR [90] 指标和判别性任务中的 F1，形成 AMBER 分数如下：

其中:

生成任务使用CHAIR指标

判别任务使用F1分数

最终取两者的平均值

6. Hal-Eval评分

确定另一种类型的对象幻觉：事件幻觉。这种类型的幻觉会虚构一个虚构的目标，并围绕它构建整个叙述，包括其属性、关系和动作。这项工作进一步完善了幻觉类型的定义。此外，这项工作提出了一个评估基准，它涵盖了判别性和生成性评估方法。这是通过收集两个评估子集来实现的，每个子集分别针对判别性和生成性评估方法进行量身定制。

测试的也是结果的准确性 ACC 。

7. HaELM评分

大多数基于 LLM 的评估基准都采用先进的 ChatGPT 或 GPT-4 模型来评估 MLLM 响应的质量。相比之下，基于大型语言模型 (HaELM) 的幻觉评估工作提出训练专门的 LLM 进行幻觉检测。它收集了一组由各种 MLLM 生成的幻觉数据，使用 ChatGPT 模拟数据，并基于 LLaMA [99] 训练 LLM。之后，HaELM 模型变得精通幻觉评估，利用图像的参考描述作为评估的基础。

不同于使用ChatGPT或GPT-4的评估方式,HaELM训练了专门的LLM用于幻觉检测:

收集多个MLLMs生成的幻觉数据

使用ChatGPT模拟数据

基于LLaMA训练专门的评估模型

使用图像的参考描述作为评估基础

7.总结

这些评价指标各有特点:

CHAIR和POPE主要关注对象级别的幻觉

FaithScore提供了更细粒度的评估

AMBER Score试图提供一个不依赖外部LLM的通用评估框架

HaELM则提供了专门的评估模型

每个指标都有其适用场景和局限性,研究人员通常需要根据具体需求选择合适的评估指标。

2.幻觉测试基准

这些基准主要分为两大类：判别式任务(Discriminative Task)和生成式任务(Generative Task)。

（判别式基准）

1. POPE (Pooling-based Object Probing Evaluation)

数据规模：500张来自MSCOCO的图像

问题类型：基于是/否回答的对象探测问题

数据划分：根据负样本采样策略分为三个子集：

Popular Set：从最常见的对象中采样

Random Set：从所有类别中随机采样

Adversarial Set：从与图像内容相似的类别中采样

每个子集包含3类问题：

正样本：基于图像中实际存在的对象
负样本：基于不存在的对象
对抗样本：具有误导性的问题

2. RAH-Bench (Relation-Associated Hallucination Benchmark)

数据规模：3000个是/否问题及对应图像

负面问题分为三个子集(每个500个)：

类别幻觉(Category)：错误的对象类别

属性幻觉(Attribute)：错误的对象属性

关系幻觉(Relation)：错误的对象关系

特点：

扩展了POPE的评估范围
增加了属性和关系层面的评估
包含更具挑战性的误导性问题

3. FGHE (Fine-Grained Hallucination Evaluation)

专注于细粒度的幻觉评估

评估维度：

对象识别
属性描述
空间关系
数量计数

包含具有挑战性的对抗样本

（生成式基准）

1. GAVIE (GPT4-Assisted Visual Instruction Evaluation)

数据规模：1000个样本

评估维度：

相关性(Relevance)：评估指令跟随能力

准确性(Accuracy)：评估视觉幻觉程度

特点：

开放式评估
不需要人工标注的标准答案
使用GPT-4辅助评估

2. HallusionBench

数据规模：

455个视觉-问题控制对
346个不同图像
1129个问题

问题分类：

视觉依赖型(Vision-Dependent)：

必须依赖视觉信息才能回答

评估模型对视觉信息的理解能力

视觉补充型(Vision-Supplementary)：

可以仅通过常识回答

视觉信息作为补充或修正

评估维度：

对象识别准确性
属性描述准确性
空间关系理解
数量统计准确性

3. MME (Multimodal Evaluation Benchmark)

包含14个子任务

感知评估包含4个对象相关任务：

对象存在性判断

对象数量统计

对象位置识别

对象颜色判断

采用标准化的评估流程

4. CIEM (Comprehensive Image Evaluation with Multiple-choice)

特点：使用自动化流程生成评估数据

生成流程：

输入图像描述

使用高级LLMs生成问答对

自动验证生成质量

错误率控制：实验表明生成数据的错误率约为5%

5.总结

这些基准数据集的主要特点：

覆盖范围广泛，从简单的对象识别到复杂的关系理解

评估方式多样，包括判别式和生成式任务

难度梯度合理，从基础任务到具有挑战性的对抗样本

自动化程度高，减少人工标注成本

评估维度全面，包括对象、属性、关系等多个层面

四、如何缓解幻觉的产生

根据这些方法的属性和观点，我们系统地将它们分为四类。具体来说，我们从数据、模型、训练和推理的角度研究解决幻觉的方法。

1.数据角度缓解幻觉

总结： 引入负样本数据、引入反事实数据、重写现有数据集、数据过滤 等手段。

a.引入负样本数据

LRV-Instruction提出包含正负两种类型的指令样本

负样本指令包括三类：

不存在对象操作：引入不存在的对象、活动、属性和交互
存在对象操作：使用不一致的属性操作已存在的对象
知识操作：在指令中操作知识

b.引入反事实数据

HalluciDoctor通过两个方面校准指令调优数据集：

开发基于多个MLLM一致性交叉检查的幻觉检测流程
提出反事实视觉指令生成策略来扩展数据集
目的是平衡数据集并减少幻觉

c.重写现有数据集

ReCaption提出重写图像-文本对中文本描述的框架：

关键词提取：提取描述中的动词、名词和形容词
描述生成：使用LLM基于提取的关键词生成句子
实验表明在某些基准测试(如POPE)上准确率提高

d.数据过滤

EOS Decision观察到训练数据可能超出MLLM的感知限制

提出数据过滤策略来消除可能损害模型序列结束能力的有害训练数据

目的是确保模型能在达到感知限制时及时终止生成

2.模型层面缓解视觉

模型层面的缓解方法主要分为三个方向： 提升分辨率 (Scale-up Resolution) 、多样化的视觉编码器 (Versatile Vision Encoders)、专用模块 (Dedicated Module)

a.提升分辨率 (Scale-up Resolution)

增加视觉编码器的分辨率显著提升性能，例如：

LLaVA-1.5将CLIP ViT-L从224提升到336
Qwen-VL将图像分辨率从224×224逐步提升到448×448
InternVL扩展视觉编码器到60亿参数

HallE-Switch的研究表明，更高的分辨率通常会导致更低程度的幻觉

b.多样化的视觉编码器 (Versatile Vision Encoders)

由于CLIP可能会丢失一些视觉细节，研究提出几种补充方案：

混合CLIP ViT和DINO ViT的特征
使用多任务编码器和结构化知识增强模块
VCoder利用额外的感知格式(如分割掩码和深度图)
集成额外的目标检测和光学字符识别模型

c.专用模块 (Dedicated Module)

HallE-Switch提出训练专门的"开关"模块来控制详细描述中的参数知识程度

实现方式：

添加控制参数λ作为"切换值"
使用来自上下文(视觉内容相关)和参数数据集的对比训练数据进行训练
在推理时可以通过调整控制参数λ来处理幻觉

3.在训练上减少幻觉

从训练角度减少幻觉主要分为两大类方法： 辅助监督 (Auxiliary Supervision) 、强化学习 (Reinforcement Learning)

辅助监督 (Auxiliary Supervision) 主要包含三种方式：

a) 视觉监督

在训练过程中引入额外的视觉监督信号

例如Chen等人提出在训练时使用目标检测模型生成的边界框和标签作为额外监督

b) 对比损失

HACL提出分层对比学习策略

在三个层次上应用对比损失：

全局图像-文本对比
局部区域-短语对比
对象级别的对比

c) 其他方法

EOS决策通过监督来增强模型的序列结束能力

引入额外的二元分类任务来预测是否应该结束生成

强化学习 (Reinforcement Learning) 分为三种主要方法：

a) 基于自动指标的方法

MOCHa使用自动评估指标作为奖励信号

通过强化学习优化模型以减少幻觉

b) 基于RLAIF的方法

HA-DPO和POVID等工作使用AI反馈进行强化学习

利用其他AI模型提供的反馈作为训练信号

c) 基于RLHF的方法

LLaVA-RLHF和RLHF-V等工作使用人类反馈进行强化学习

通过人类偏好反馈来指导模型生成更准确的描述

例如RLHF-V专门针对视觉相关的人类偏好进行优化

4.从推理角度缓解幻觉

从推理(Inference)角度减少幻觉主要包含以下几个方向：提示工程 (Prompt Engineering)、多步推理 (Multi-step Reasoning)、投票机制 (Voting)、检索增强 (Retrieval Augmentation)

提示工程 (Prompt Engineering)

系统提示优化：

在系统提示中加入特定指令，如"只描述你能看到的内容"
明确告知模型在不确定时应该说"看不到"或"不确定"

任务提示优化：

将复杂任务分解为多个子任务
使用结构化提示来引导模型逐步思考

多步推理 (Multi-step Reasoning)

将单步推理拆分为多个步骤：

首先识别图像中的关键对象和属性
然后基于这些观察结果进行推理
最后生成最终回答

例如LLaVA-Plus提出"看-思考-说"的三步推理框架

投票机制 (Voting)

自投票：

让同一模型使用不同提示或参数生成多个答案
通过多数投票选择最终答案

交叉投票：

使用多个不同的模型生成答案
综合多个模型的输出来减少单个模型的幻觉

检索增强 (Retrieval Augmentation)

在推理过程中引入外部知识库

通过检索相关信息来验证或补充模型的输出

帮助模型生成更准确的回答

五、关于挑战和未来方向

评估挑战 (Evaluation Challenges)

主观性问题：

幻觉评估高度依赖人工标注
不同评估者可能有不同判断标准
缺乏统一的评估标准

评估成本：

人工评估耗时且昂价
自动评估方法还不够成熟
需要更高效的评估方法

技术挑战 (Technical Challenges)

a) 视觉理解的局限性：

现有模型对复杂场景理解能力有限

难以准确理解空间关系和细节特征

对抽象概念的理解仍然不足

b) 跨模态对齐问题：

视觉和语言特征的对齐仍不完善

存在模态间的语义鸿沟

需要更好的跨模态表示学习方法

未来方向 (Future Directions)

a) 改进评估方法：

开发更客观的评估指标

设计自动化评估工具

建立统一的评估标准

b) 增强视觉理解：

提升模型的场景理解能力

改进细节特征提取

加强空间关系推理

c) 优化跨模态对齐：

探索更有效的对齐策略

减少模态间的语义差距

提升多模态融合效果

d) 知识整合：

引入结构化知识

加强常识推理能力

提升事实准确性

e) 可解释性研究：

理解幻觉产生的机制

提升模型决策的透明度

开发可解释的评估方法

伦理考虑 (Ethical Considerations)

幻觉可能导致误导性信息传播

需要建立负责任的开发准则

考虑社会影响和安全问题

六、一些启发式总结

多模态感知增强：

设计更强大的视觉编码器，不仅能捕获表面特征，还能理解深层语义和空间关系

引入多粒度的视觉特征提取，从像素级到场景级的层次化表示

集成多种视觉感知模块（如目标检测、场景分割、深度估计等）来提供更丰富的视觉信息

探索注意力机制在跨模态对齐中的作用，特别是在处理细粒度视觉细节时

多模态推理优化：

设计结构化的推理框架，将复杂的视觉理解任务分解为多个可解释的子步骤

引入外部知识库和常识推理能力，增强模型对场景内容的理解深度

开发新的训练策略，如对比学习或自监督学习，来提升模型的推理能力

研究如何将不同模态的信息有效融合，实现更准确的跨模态推理

具体来说，您可以考虑以下研究点：

设计一个多层次的视觉感知框架，整合低层视觉特征和高层语义理解

提出新的跨模态对齐方法，特别关注细粒度的视觉-语言对应关系

开发可解释的推理机制，使模型能够展示其理解和推理过程

研究如何有效利用外部知识来增强模型的推理能力，减少幻觉现象

这些方向不仅能够帮助减少模型幻觉，还能提升多模态模型的整体性能和可靠性。