消灭“幻觉”：Google全新ASPIRE方法让LLM给自己打分效果碾压10x体量模型

Google和威斯康星麦迪逊大学的研究人员推出了一个让LLM给自己输出打分的选择性预测系统，通过软提示微调和自评估学习，取得了比10倍规模大的模型还要好的成绩，为开发下一代可靠的LLM提供了一个非常好的方向。

大模型的“幻觉”问题马上要有解了？

威斯康星麦迪逊大学和Google的研究人员最近开发了一个名为ASPIRE的系统，可以让大模型对自己的输出给出评分。

如果用户看到模型的生成的结果评分不高，就能意识到这个回复可能是幻觉。

如果系统可以进一步筛选评分的结果进行输出，比如如果评分过低，大模型就可能生成“我没法回答这个问”，从而有望最大限度的改善幻觉问题。

ASPIRE能让LLM输出答案以及答案的置信度得分。

研究人员的实验结果表明，ASPIRE在各种QA数据集（例如 CoQA 基准）上显著优于传统的选择性预测方法。

让LLM不仅要回答问题，还要评估这些答案。

在选择性预测的基准测试上，研究人员通过ASPIRE系统取得了超过10倍规模的模型的成绩。

就像让学生在课本后面验证他们自己的答案，虽然听起来有点不靠谱，但是细细一想，每个人在做出一道题目之后，确实会对答案的满意程度会有一个评分。

这就是ASPIRE的本质，它涉及三个阶段：

(1) 针对特定任务的调优，

(2) 答案采样，

(3) 自我评估学习。

在研究人员看来，ASPIRE不仅仅是另一个框架，它代表着一个全面提升LLM可靠性，降低幻觉的美好未来。

如果LLM可以成为决策过程中值得信赖的合作伙伴。

只要通过不断优化选择性预测的能力，人类距离充分发挥大模型的潜力就又近了一步。

研究人员希望能凭借ASPIRE，开启下一代LLM的进化，从而能创建更可靠和更具有自我意识的人工智能。

ASPIRE 的机制

针对特定任务的微调

答案采样

自评估学习

结果

当深入研究固定模型预测的选择分数计算时，ASPIRE获得了比所有数据集的基线方法更高的AUROC分数（随机选择的正确输出序列比随机选择的不正确输出序列具有更高选择分数的概率）。

例如，在CoQA基准上，与基线相比，ASPIRE将AUROC从51.3%提高到80.3%。

TriviaQA数据集评估中出现了一个有趣的模式。

虽然预训练的OPT-30B模型表现出更高的基线精度，但当应用传统的自我评估方法（Self-eval和P(True)）时，其选择性预测的性能并没有显著提高。

相比之下，小得多的OPT-2.7B模型在使用ASPIRE进行增强后，在这方面表现优于其他模型。

这种差异体现了一个重要的问题：利用传统自我评估技术的较大LLM在选择性预测方面可能不如较小的ASPIRE增强模型有效。

研究人员与ASPIRE的实验之旅强调了LLM格局的关键转变：语言模型的容量并不是其性能的全部和最终目的。

相反，可以通过策略调整来大幅提高模型的有效性，即使在较小的模型中也可以进行更精确、更自信的预测。

因此，ASPIRE证明了LLM的潜力，它可以明智地确定自己答案的确定性，并在选择性预测任务中显著地超越地超越其他10倍体量的模型。