大模型：能少说两句吗，你到底要干啥？

上过AI课，甚至可能还买过网上提示词合集的你，是不是还在这样写提示词？像什么在提示词里一步步拆解思维链，才能让模型学会分步思考；要给几个例题，帮助模型理解你的问题；还要引导模型cosplay，让模型给出更专业的答案等等的小技巧，不少差友应该也早就活学活用了。

没错，说的就是火锅

但，这些曾经让你事半功倍的神级提示词，可能已经过时了。

这么说吧，在不知不觉的中，大模型其实已经分成了两派：传统通用大模型和推理大模型。

比如GPT-o1，它可不是GPT-4o的直属版本升级。4o属于通用大模型，o1已经是推理模型了。

类似的，DeepSeek默认使用的V3版本是通用大模型，点击左下角深度思考按钮使用的才是R1推理模型。

而在推理模型时代，越详细的提示词，反而可能会让AI变更蠢。

比如OpenAI的官方文档里，推理模型的专栏下，就明确表示，用过于精确的提示词，或者是引导思考这类提示词写法，反而会让回答效果下降。

他们甚至还直接建议，让大家少用思维链提问……问题直接问就行。实在效果太拉垮了，再发具体例题，让AI学习。

我们还翻了一下DeepSeek-R1的官方技术报告，他们在论文里也这么说：“DeepSeek-R1 对提示词很敏感，举例提示反而会降低模型表现。"

因此，为让效果更好，他们建议用户直接描述问题，别举例子。

除了GPT和DeepSeek，Claude 3.7 Sonnet也在官方文档中表示，比起那些看似很有逻辑，每一步都详细列出具体做啥的提示词，他们更希望你直接使唤它。

总结一下，和大伙们印象中提示词越详细，AI 效果就越牛的刻板印象不一样，目前各大官方对自家推理大模型提示词的共同建议，就是直接，简洁，描述准确。

我们也尝试着做了一个实验，而最终的实验结果同样证明，过去非推理模型的古法提示词，用到推理模型那里真的会让性能下降。

我们从leetcode里面挑选了几十道各种类型的困难题目，在ChatGPT上进行测试。咱们先按老法子写了一段提示词，比如暗示它做一名程序员、要进行思维链思考、还给出了大量示例等等等……

结果对于大部分题目，不论提示词是长是短，推理模型o1都能给出正确的代码，甚至能击败70%以上的人，可以说表现已经相当优秀了。

但是在1147、471、458、1735、1799这些题目中，o1在老提示词下失败了。其中，有一题更是直接卡死，不想玩啦。

但当我们不让它cosplay，也不给例题，去掉思维链引导时，o1这回居然在同样的问题上又答对了。

所以，到底是啥让昔日的提示词小甜甜，在推理模型时代变成了牛夫人？

其实背后最主要的原因，是传统非推理模型和推理模型的思考问题方式变了，而它们思考方式的变化源于训练方式的不同。

传统的大模型一般采用无监督学习和监督微调，也就是给个数据集，让它自己去找规律。它的终极目标是根据提示词，一个一个猜对回答里的所有字。

说人话就是，通用大模型能力很强，但没啥子主见，这就比较吃用户的操作了。你给的提示词越详细，越能让大模型按照你的心意去做事。

但推理大模型不一样，在原来的基础上，它又加上了强化学习等基于推理的训练方法。

这样的训练过程，会引导大模型尽量给出完整且正确的思维链，让它能够判断这么想是不是对的。

这下模型本身就有很强的 “主见”，或者说是推理能力。你要是再一步步详细地去教它做事，反而可能和它本身的推理能力冲突了。

比如我们在实验中发现，用老提示词让o1解决一些数学相关的编程题目时，翻车概率尤其的高。

这有可能是因为提示词只让它做了一名“资深程序员”，而不是“数学很好的程序员”。

我们也翻了不少模型的官方文档，它们给出的建议也基本都是别整花花肠子，提示词简单直接，并且准确最好。除此之外，可以强制延长推理时间，提示它“多想想”，或者 “反思你的结果”。

一部分老办法也还是好用的，比如适当用些符号，把问题的结构分分清楚，或者明确你的最终目标和结果格式。

这些办法，都能让推理模型的效果更秀更6。

所以，适当放下助AI情节，讲清楚你的需求，双手插兜尊重AI操作，反而可能是最有效率的。

而我觉得随着大模型能力的不断进化，写提示词这件事的门槛，也肯定会越来越低。

但，要是问提示词工程这手艺，会不会完全消失？我们也请教了一下曾写出“汉语新解”等神级提示词的大神李继刚老师。

他是这么回答的：只要我们不同的输入，还会带来不同的输出，那提示词工程就一直都在。

最后，差评前沿部觉得，对我们这些用户来说，随着模型能力的加强，咱也应该更新一下提示词的弹药库了，别在抱着那古早的过时提示词，当个宝了。