提示词格式：大语言模型性能的潜藏影响力

11/26/2024

这篇文章主题来自以下论文：《Does Prompt Formatting Have Any Impact on LLM Performance?》。

（内容主要由 AI 总结生成，笔者仅做了格式优化、内容润色。）

在人工智能的广袤天地里，大语言模型（LLM）无疑是备受瞩目的焦点。它们在自然语言处理领域的卓越表现，让人们对其背后的运行机制愈发好奇。而提示工程，便是我们与这些智能模型互动的桥梁，其中，提示格式这个看似细微的元素，实则对大语言模型的性能施加了深远且微妙的影响。

#1 研究背景：易被轻忽的关键变量

随着 LLM 的迅猛发展，诸如 OpenAI 的 GPT 系列等模型在众多自然语言任务中展现出惊人的能力。我们在与这些模型交互之际，往往将目光聚焦于提示的具体内容，提示格式却如同隐匿于幕后的角色，鲜少得到应有的关注。

然而，已有研究确凿地表明，LLM 对提示格式具备相当程度的敏感性。即便提示所含信息相同，格式的差异却可能致使模型输出性能产生显著波动。遗憾的是，当前多数评估标准都未将这一因素充分纳入考量范围，恰似在评估一座建筑时，只着眼于内部装修，却忽略了建筑结构对整体稳固性的关键作用。

#2 研究目的：多维度深度剖析

为弥补这一研究缺口，论文中的研究锚定了几个核心探究方向。

首先，精准测定 GPT 模型对不同提示格式的敏感程度，换言之，当我们变更提示格式时，模型性能究竟会经历多大幅度的起伏。

其次，模型在不同格式下的表现一致性亦是研究重点，即同一模型在应对多种格式时，能否稳定输出相近结果，维持相对稳定的性能水准。

再者，模型间提示格式的可迁移性极具探索价值，一种格式在某个模型上成效显著，是否能顺利迁移至其他模型并收获相似效果。

此外，研究还致力于剖析提示格式效果与任务能力之间是否存在内在关联，以及模型规模在这一复杂过程中对性能产生何种影响。

#3 实验设置：全方位严谨布局

在实验规划层面，研究广泛涵盖了多种任务数据集类型。囊括自然语言到自然语言（NL2NL）、自然语言到代码（NL2Code）、代码到代码（Code2Code）这三大类别任务，具体涉及 MMLU、NER Finance、HumanEval、FIND、CODEXGLUE、HumanEval-X 等颇具影响力的数据集。

在提示设计环节，采用了纯文本、Markdown、YAML、JSON 等多样化输入格式，并且确保在不同格式下提示的核心要义毫无二致，仅在结构与语法层面有所区别。

实验选用的模型则聚焦于 OpenAI 的 GPT-3.5和 GPT-4 系列，通过对比不同上下文窗口大小以及不同版本的模型，全方位评估提示格式所产生的影响效力。

#4 实验结果：意外发现与深度洞察

实验所获结果令人不禁陷入沉思。

敏感度：模型性能对提示格式的变化极为敏锐。在不同格式切换时，性能差异常常颇为显著，例如在 FIND 数据集中，GPT-3.5模型从 Markdown 格式转换至纯文本格式时，性能提升幅度高达200%；在 HumanEval 基准测试里，GPT-4 模型从 JSON 格式切换为纯文本格式时，性能提升更是超过300%。这清晰地表明，提示格式的细微变动都可能诱发模型输出效果的巨大变革。

一致性：GPT-4 相较于 GPT-3.5 在不同提示模板下展现出更高的一致性得分，不过即便如此，GPT-4 的一致性表现仍有较大的精进空间，这意味着模型在应对不同格式时，距离稳定可靠的输出尚有一段路程要走。

可迁移性：不同的GPT模型对提示格式呈现出各异的偏好倾向，GPT-3.5-turbo 更钟情于 JSON 格式，而 GPT-4 则对 Markdown 格式有所偏爱。同时不同模型系列之间对提示模板的兼容性处于较低水平，这无疑警示我们在实际应用场景中，切不可贸然将一种模型上的成功提示格式直接套用于其他模型之上。

#5 研究结论：重新认知与未来展望

综上所述，提示格式无疑是影响 GPT 模型性能的一股潜藏力量。当下的评估方法亟需将提示结构纳入考量体系之中，未来在对模型开展测试时，也理应采用多元化的提示格式，以此实现对模型真实能力更为全面且精准的评估。

同时，模型规模在这一进程中亦扮演着不可忽视的角色，GPT-4 相较于 GPT-3.5 受提示变化的影响相对较小，似乎更大规模的模型在处理提示时能够达成更高的一致性。这一发现为LLM的可解释性研究开辟了崭新的思考路径与探索方向。

诚然，研究亦存在局限性，比如仅聚焦于 GPT 模型，未来有必要针对其他模型展开类似探究；在模板探索的广度上尚有不足，诸如 HTML、XML 等格式尚未纳入研究范畴；并且可以进一步深入研究当其他提示工程技术发生变动时，模型对提示格式的敏感度会呈现怎样的动态变化态势。

总之，提示格式这片研究领域仍蕴含诸多未知奥秘，亟待我们深入挖掘，它必将成为未来提升大语言模型性能的关键研究向度之一。