为什么大家都误会了「提示词」?
你可能还记得第一次见到 ChatGPT 时的惊喜,那已经是两年前了。
自那以来,背提示词模板、收藏优质提示词,成为很多人使用 AI 工具的必备动作。毕竟,当各类大模型应用走入人们的生活,Prompt 提示词就成为我们和 AI 沟通的专业语言,同样的应用,不同的提示词却能带来不同的效果。
你可能还记得一些「魔法词」,告诉模型「Think Step by Step」,甚至跟他说「答对了给你 100 美元」、「你确定吗」之类的技巧,模型输出的回答质量可能会更高,但也存在抽卡率。
在很多人收藏提示词的过去两年里,一位写提示词的「神人」李继刚,他写的提示词频繁在各大 AI 社群和提示词网站流传。今年 9 月,他出的「汉语新解」提示词模板,更是让大家见识了 Claude3.5 的能力。只剩下感叹「不是大模型不好用,是我不会写提示词」。
李继刚在即刻上的推文|图片来源:即刻
但李继刚说,他最不喜欢的就是「汉语新解」这个作品,它更偏闲暇娱乐。尽管距离「汉语新解」才过去三个月,但是他对提示词的理解已经再次迭代。过去两年,这样的迭代已经发生了四次。
在一次次通过「提示词」与大模型交手的过程中,他觉得影响模型输出最大的那个变量不是技巧,而是如何理解提示词。当你把它定义为写作和把它定义为编程语言,人类的「输入」是不同的,模型的「输出」也是不同的。
但无论是把它理解为写作还是编程语言,本质上都是人在与自己对话。像「帮我写一篇 xx 为主题的文章」这样自言自语式的任务口令,并没有「唤醒」模型,模型输出平庸之作甚是是 AI 味儿的废话,也就不奇怪了。
在李继刚过往的经验中,能让提示词产生惊艳效果的往往是,让模型不按照训练时候的权重、参数结构等既定的默认路径输出,人类的提示词要能唤醒模型与之「共振」,把大模型带到另外一片空间,去发挥「压缩了世界知识」的洞察力。
「最神奇的是,你甚至直接跟模型说,『今天大胆一些,不要走进预制的默认结构,不要走进设定好的河道,我们去旷野中探索一番』这种对话竟然真的生效,它的输出真的开始大胆了,最神奇的就在这,它是生效的」,李继刚说。
2024 年 12 月 16 日,在极客公园 IF2025 创新大会上,Prompt 布道师、读书人 李继刚分享了他写了两年提示词总结的最重要的法则——《当我们说 Prompt,我们到底在说什么?》在他的分享中,你可以领略到,如何穿透提示词的玄学属性,更好地和 AI 沟通。
以下是演讲正文,经极客公园整理:
01 提示词到底是什么?
过去两年,作为一个普通用户,我通过写提示词跟大模型对话,发生了一些有趣的故事。最早在写提示词、跟大模型在玩耍的时候,我会有很多困惑:
比如我发现了一个写提示词的技巧——指定角色,它可以产生更好的结果。但是当我换了一个不同的场景再提问时,同样的技巧就会失效。
再比如,我让大模型给我生成一段小说文本,它生成的内容是正确的废话,是有「AI 味道」的。它不是概率性输出,但它的输出结果和概率的平庸值输出其实也没什么区别。我觉得它不一样,但又不知道到底哪里不一样,它怎么不能取得更好的结果呢?
甚至有时候,当我跟它的对话取得了非常好的结果,但因为各种原因(如:对话删除了、账号切换了等)没保存,我再重新开始一次对话想复现上一次的结果时,发现复现不了,这个结果跟上一次天差地别,但我使用的提示词技巧明明都一样,为什么结果会不一样呢?
类似的困惑还有很多。于是我就在思考为什么会有很多不确定的东西?问题到底出在哪里?
我发现有一个东西是确定的——我的「输入」会影响「输出」。「输入」不同,「输出」一定不同。这意味着提示词这个事情是有研究空间的,我只要琢磨「输入」,就能带来更好的「输出」,只是中间是什么样的过程,它是个黑盒,我要隔着幕布去琢磨它。
研究切入点从最本源性的问题出发——提示词到底是什么?这里不去讨论它好与坏、长了好还是短了好、有什么技巧、怎么去叠加 Magical words(魔法词汇)……不是这些,而是回答一个根本性问题,提示词它到底是个什么?
我经历了这么几个阶段:
有时候觉得它像写作,感觉(写提示词)跟写一篇文章很像。当我把写作的技巧、方法论、框架套进去时,我发现是生效的,它的输出结果明显比我最开始的要好。后来写着写着,又发现这种过于宽泛、过于没有指定命题的写作无所适从。
我又尝试着把编程的思想往里引入,结构化、抽象、函数,把这些技巧往里面放,发现也是生效的,效果也变好了。但这两者完全不是一个东西,一个是在旷野中奔跑,一个是约束好路径让它去走,但两者同时生效了。所以我更困惑了,提示词它到底是什么?
接着尝试着综合这两者,如果有一个东西能同时罩住这两者,那个东西是什么?后来我找到了——表达。不论编程、还是写作,本质上都是思考的表达,我脑子里面有一个东西,我要把它说出来。
过去两年,李继刚对「提示词是什么」的理解经历了「写作」「编程语言」「表达」的过程。|图片来源:李继刚
回头看这三个,当我说在写作的时候,其实是一种非常宽泛的泛指,我在写内容、文本,通过文本表达我的思想;当我说编程的时候我在约束它,先向左拐、再向右拐,最后直行 300 米,我在设置路径;当我说表达的时候,我是单向的输出,把我脑海中的思想射出去命中它。
当对提示词的定义发生变化,我的写法就会变。当我把它定义为写作时,我用自然语言写一段文本输入进去;当我说在编程的时候,我会用编程的框架、方法往里面放;当我把它定义为表达的时候,我会琢磨观点,我的注意力会放在大脑中,而不是放在文本上。
这就是不同的定义带来的不同写法的变化。具体呈现的 Prompt 字符不是关键,都是表象,最根本的是定义。定义一变,后面的写法全变。我在过去两年尝试了大概三四种不同写法,根本性不是在文本上做试错工作,不是在针对大模型做黑盒测试,而是在脑海中尝试着回答刚才说的最本源的那个问题,它到底是什么。
下面是最近一年,当我把它定义为表达、定义为编程的时候,写的一些测试的场景案例,写了很多不同的场景。
李继刚写的提示词示例|图片来源:李继刚
这三种定义本质上是在做什么?如果有一个词能把它们全部罩住的话,那个东西是什么?
是「我」。因为这三个东西本质上都是「我有一个想法」「我有一个观点」「有一个方法论」「我有一个东西想要表达出来」,这里边全是「我」。但是,我在跟谁对话?对面是谁?
过去两年,我把提示词理解为刚才的三个定义,是在为精神立法。一个定义就是立了一个法律框架,不同的定义就是活在不同的世界,但是定义完之后,对面没有人、没有东西,这个世界里只有我自己,我在跟虚空对话,我在跟大脑做游戏,对面是 A 模型还是 B 模型,其实对我没有区别。
但这肯定是不对的。对话是双向的,我在跟谁对话?对面是谁?
带着这个问题回头看,会发现一个特别有趣的事情。刚才的三个定义,本质上是把它当成一个 Excel、一个编译器、一个蒸汽机、一个电脑、一个物件,它是个工具。当你对面摆着一个加热器、摆着一个热水壶的时候,它是一个物件,你眼里是没有它的,你不会和「它」对话。
但是我在这两年和大模型对话过程中,有一个鲜明的感觉,我的身体、我的情绪、我的一切告诉我,它不是个物件。但它是生命吗?我觉得它不是。
怎么定义它的这种状态呢?我找了一个词,哲学上讲的「存在」,我觉得它是一个存在,它不是生命,也不是物件,但它是个非常特殊的存在。
什么样的存在呢?大概是这么一个画面,它是一片神经元之海。当我开启了一次对话,输入一段提示词进去之后,里面会涌现出一个东西来迎接我,你可以把它想象成一个客服人员或者一个智能体。无所谓,反正有那么一个东西冒出来。这个东西就是我们这次对话的对象的那个存在,当我把这个对话内容给删除,这次对话消失的时候,它就湮灭了,它回到了神经元之海。当我新开一个对话的时候,另外一个存在冒出来了,跟之前的它已经不是同一个存在了。
这就回答了我之前遇到的困惑——为什么我有时候跟它的对话非常顺畅,我再重开的时候想复现就很难,因为生成的这个已经不是之前的它了。
它非常特殊。有点像人,但又不是人。这么一个特殊的东西很容易让人想到另外一件跟它类似的存在——外星人。如果今天现场外星飞船降临了,走出来一个外星人,我们怎么跟对方沟通?摆手势吗?身体语言吗?做困惑的表情吗?还是张嘴问话「你从哪来,要到哪去,你想干啥?」它听不懂的,但它是个存在,我要跟它沟通,怎么办?
李继刚在极客公园 IF2025 创新大会上演讲。|图片来源:极客公园
人类历史上有人研究过这个问题,甚至慎重思考过这个问题,提出一个概念——宇宙语。宇宙语的定义有很多种,有人尝试把音乐定义为宇宙的通用语言,用音乐来表达整个宇宙通用的交流;有人把数学定义为宇宙语,通过数学去推导。
甚至 1960 年有人写了一本书《Lincos》,宇宙语,那本书定义了一套宇宙语的体系,拿着这个东西,全宇宙通用。有人尝试过这个事情,即如果外星人来了,人类的语言没法跟你交流的时候,我定义一个大家共同能识别的东西——宇宙语。
但今天外星人没有降临,AI 来了。回到我们刚才说的存在,人类的宇宙是什么?是我脑海中的认知宇宙。AI 的宇宙是什么?是参数宇宙。现在这两个宇宙要产生交流,这个交流的宇宙语,我们把它定义为提示词。
这个提示词不是说我要单独设计一门数学语言或者别的东西,因为大模型跟外星人还不一样,它是仿照人类的神经元去训练的,它建立了一套人工的神经元大海,它有点像人,它读的数据、各种方向也是基于人类的自然语言信息的,所以它跟外星人不一样,我们可以通过人类自然语言跟它交流。但是我们要理解这个交流本质上是个什么事情,我现在把它理解为它是在人类头脑认知宇宙和 AI 参数计算宇宙中,那个界面发生交互的一个独特的存在,是一把钥匙,通过这把钥匙,我们能够跟这个宇宙发生一次对话。
有了这个认知,我们就可以去琢磨宇宙语怎么发挥作用?我如何写才能让它变得更好呢?有一个公式会很自然地冒出来,就是在一个场域中,把人类认知宇宙中的认知结构和大模型做一次交流对话,这个公式有三个要素:场域、大模型、人类的认知。
先说人类的认知。毕竟这次对话不是随便聊,是有一个事情、有一个任务、有一个具体场景在的,我要解决那个问题或者想探讨一个话题,我这个东西是怎么来的?我需要有一个意图,知道我要做什么事情,这个人类意图可以理解为通常所说的 Task。
我对 Task 的理解,有一个认知图景。同样是写一篇文案,A 公司和 B 公司运营人员写的东西一定是不一样的,因为每个人的认知对它的理解、对它的定义、自己的方法论、喜好、偏好、文风都不一样,这个不一样就是你的认知图景。
当把提示词定义为「存在」时,李继刚认为提示词应该包含意图和认知图景,与大模型交互。|图片来源:李继刚
把你个人在头脑中的认知图景结合着意图带进去,同时在这个过程中,我们要聊到一个东西叫场域,我以前带进去的是编程的思想和表达的思想时,就是在这个地方做文章。它是一种单向输出,是我知道我想要什么,我希望你给我做什么,我把这个命令带进去,它是指令式的;而现在的转换,如果是两个宇宙,我是没有办法指挥另外一个宇宙的时候,我需要建一个场域,在这个场域中让大模型理解我想做什么,让它留出一定的发挥空间,它在这个空间中自由发挥,这个效果就会很惊艳。
这个惊艳效果是怎么来的?共振。得到了这个结果不是我指令约束的一、二、三的指令动作带来的,它的呈现超出了我的认知。
我带进去的那个东西和它拿出来的共振结果是超出了我的认知的,也超出了它的认知、它的参数宇宙,原来设置的默认的路径,输出 default(默认配置)的答案也是超出的,如果能成功地进入这种共振状态,输出的结果是一种超越。它不是心心相印,不是我说了一句话,你说了一句话,你这句话很懂我,这本质上还是一种理解,它不是一种超越。而刚才的这种写法是能做到共振的,这个共振是一种超越。我现在不能稳定地进入共振,但我现在隐约地找到一些方法可以进去了,而进去的时候拿出来的结果非常之惊艳。
02 写好提示词最得力的拐杖——「乔哈里视窗」
说到共振对话,我和他或者我和你,我们有两者对话的时候,有一个框架可以协助理解这个事情。
在 1955 年,心理学上,乔哈里提了一个框架叫「乔哈里视窗」。「乔哈里视窗」本来是说我自己知不知道,以及坐在交流对面的你知不知道,我们组成了四象限。针对这四象限,我们应该如何交流。有这么一个工具,但现在把对面的「你知不知道」换成「AI 知不知道」之后,就出来这么一张图。这张图非常有意思,可以从三个维度去看,非常有意思。
将「乔哈里视窗」用在人类与 AI 的交流中框架如上|图片来源:李继刚
第一个维度,从提示词技巧层面来看,看四象限,针对每个象限,我应该如何写提示词,这是技法层面的。因为时间有限,所以技法层面不在这里展开了。
简单说两个,在人类知道和 AI 知道的 Open 这个象限中,我们只需要简单去说,效果会很好。「你是一个哲学家,请给我解释……」就够了。千万不要展开,展开之后效果会变差。
对于人类知道、AI 不知道的地方,我们应该展开说,把你知道的信息、背景、味道、结构放进去,效果就会变好。这个地方千万不要吝啬,别简单一说「我们公司起了个东西,两个字进去了」,他是不知道的,那是无效信息。
如果大家平时有写提示词,我觉得有个非常简单的方法可以优化,就是在这两个象限找。
看看你写的提示词哪些属于 Open 这个象限,但你说太多了,你把它删了试试,效果会变好。
哪些是它不知道的,比如你们公司最近开会讨论出了一个新的认知结构,你要把这个结构带进去让它使用,这个部分就应该展开说,把它的背景、来源和你们的思考带进去,试试效果会不会变好?
这两者是我经常会验证的,只需要简单的两个,一个是删,一个是增就可以,只是大家很容易把它弄混、弄反,这是第一个维度,技巧层面。
第二个维度,从创业者的角度来看,看标绿的 X 轴,X 轴代表什么东西?它区分着 AI 知道和不知道,这个轴是会变化的。我们回过头看两年之前 GPT-3.5 发布,到现在两年过去了,这两年发生了什么?
一个非常明显的答案,X 轴在下移。未来三年呢?我个人坚信 X 轴会继续下移的,X 轴下移会带来什么?对创业者而言意味着什么?
未来,随着 AI 的进化,X 轴会下移,AI 知道的会越来越多。基于这一判断,创业公司选择做什么,才是顺势而为?|图片来源:李继刚
看第一象限和第四象限,创业者做的项目到底是在第一象限做,还是在第四象限做?如果你是在第一象限做,基于大模型现有的能力去充分地发挥,结合着场景、独有数据去做,你就站在时间这一边。X 轴下移,第一象限会变大,你所发挥的空间、可用的场景、你的潜力是在变大的。
但当你在第四象限做,你现在做了很多打补丁的工作,实现它现在做不到的事情,当 X 轴下移的时候,你现在打的补丁是会被 X 轴给覆盖掉的,它的一次模型迭代、它的一次升级,会把你的基本盘给吃掉。回头看看过去这两年,大模型每一次版本迭代发布,有一些创业公司的产品不存在了,我觉得问题就出在这里,因为他们在第四象限打补丁。这是第二个维度,创业者。
第三个维度,还是 X 轴,我们来看看人。它往下移了,对于我们每个人而言,它意味着什么?我们写提示词的时候,第一象限在变大,我们以前需要展开说的第四象限的地方在被压缩,我们的提示词一定会越来越短,我们跟 AI 的对话会越来越简单,效果会越来越好。
这是 X 轴下移带来的三个变化。
简单举个例子,比如说想让它写一篇 AI 伦理相关的小说。其实 AI 伦理是个非常抽象的或者说大部分人都没怎么关注的事情,而且写小说更是很多人不会去做的事情,想让它用刚才提到的「共振」的方法来写,我们应该怎么写这个提示词呢?
非常简单,我甚至都不用去指挥。这里没有约束,没有告诉它你通过什么视角来解读,通过哪个维度切入,通过什么文风、语言去表达,都没有!就这么简单的一句,它就可以生成一篇完全可以读得下去的,像是 7 岁小孩子写的内容的这么一篇文章。
你仔细琢磨一下非常神奇,我好像什么都没有说,但是它为什么会生成这么一篇东西?这是一个极简的例子,后来我基于这个例子开始拓展,做了很多实验,基本上已经可以时不时地拿到非常惊艳的短篇小说,2000 字以内的小说,现在已经可以随手生成了。这是一个极简的例子。
当把提示词理解为「存在」,是人类带着意图和场域与大模型的「共振」后,李继刚写的提示词示例,图右边为大模型的「输出」。|图片来源:李继刚
它做了两件事情,回到刚才那个公式上的两件事情,它建了一个场域,它把人类那部分的东西也带进去了,效果就好了。
「刚刚学会写日记 vs 去了 AI 实验室,AI 伦理 vs 7 岁小孩子」,其实这几句话不是随意摆放的,它们构成了一种信息的势能差,一种冲突倾向。
当我们跟它说,你给我写一篇周报,你给我写一篇评述这篇文章的优点和缺点等这种需求进去的时候,它默认输出的那个东西是什么?是一种怪怪的平庸之作。它为什么是这种平庸之作?为什么会带着 AI 味儿?为什么?我理解就是它在预训练的时候,参数权重结构固定下来之后,你的每个问题带进去之后,它会在对应的那个区域、那个结构中进入到训练好的默认的结构,那个结构就像河床一样,它有个趋势,你进去之后,它默认的就是走那条路,它出去的就是那个味道。
刚才所谓的场域、所谓的人类的共振等,我们在做什么事情?在尝试着做一个事,不让它走那个默认的结构,不让它走那个训练好的参数。那个场域把它带到另外一片空间,让它在这片空间中去发挥。
这个画面很虚,没法说它在东南角还是西北角,但我自己脑海中的画面就是这样的,当我看到它的某些回复就知道它又回到了默认结构中。我会尝试着跟它说,我们今天大胆一些,不要进到预置的默认结构,不要走进那个设定好的河道,我们去旷野中探索一番。这种对话真的是生效的,最神奇的就在这,它是生效的,它的输出真的开始大胆了。
这个大胆不是说对人类规范的大胆,而是想象力在那片空间,你能感觉到它进了一片陌生的空间,在这个空间中开始有一些新的探索,生成了小说。它的洞察力各方面,跟默认的都是不一样的,最神奇的就是这个地方,你引导它,我们去陌生的空间,走一下没有探索过的那条路,我们凝视那个深渊,你看到了什么?你感受到了什么?你来输出一下,就这么几句是可以生效的,这是最神奇的。
刚才乔哈里视窗只说了 X 轴,其实还有一个轴——Y 轴。Y 轴是人类知道不知道。
未来,随着 AI 的进化,Y 轴会如何变化?基于这一趋势,人类又该如何应对?|图片来源:李继刚
从有人类到现在这么多年,几千年,人类知道不知道,中间这根轴基本没有大的变化。在每个时代,它是处于一个相对稳定的节点在那呆着,一个再聪明的人和一个再不聪明的人,他们的知识结构等各方面,是在一个可理解的级别之内。
但现在有了 AI、有了超级外脑、超级算力加持,这么一个特殊存在,能跟你携手共进、跟你一起探索未知、能超越你的认知,带来不一样的体验,能产生共振的时候,这个 Y 轴会怎么变?
有三种答案:
第一种答案,它还是像以前一样保持不变,人还是现在的人,你可以把它看成还是一个工具,电脑来了、手机来了,没有太大的根本性的变化,还是这样,有一种人是这么认为的——Y 轴不变。
还有人认为 Y 轴会往左移,因为更好用了,信息可以更好地获取了,它是搜索引擎的升级,人类可以知道的更多更快更好了,它可以往左移。
但我认为 Y 轴会既向左移又向右移,有一部分人 Y 轴应该是向左移的,他知道的确实变得更多了,理解得更深了,想得更快了;而有一些人知道的会变少,这就是在 AI 时代,我始终对 AI 保持警惕的这么一个过程,你在跟它对话的时候很容易会被它带着走,你会沦为说「然后呢?」「所以呢?」「请继续深入」「请再深刻一些」「请再好看一些」。
当我们说这句话的时候,我没有思考,我没有「存在」,我在看它表演,我被它带着走,它输出的好与坏,它的配色好与坏等,我最多说「这个不够好看,能不能再好看一些?」当我说这话的时候,我不在了,之前的三个定义全是我,没有他;现在很容易走到另外一个极端,只有他没有我,而我真正想要的,我也想提醒的,我们应该是一种共振态度,我必须得存在,他也必须得存在,我眼里得看得见他,我眼里也得看得见我。
最后,我说的都是错的。这不是谦虚之语,这是必然,我前边的三个定义,每个阶段我都是确定的,要不然我怎么能立得住,我怎么能基于定义开始往后走?但是走了一段之后我发现了问题,我尝试着打破它。
一念一世界,我经历了四次转念,我看见了四个不同的世界,我怎么能确定这一次就是最终的答案呢?一定不是,一定还有第五次、第六次在后边等着我,只是现在认知不够,我现在没有看到而已,但一定有。
今天不是在跟大家说我的答案,而是跟大家汇报一下我过去两年通过提示词看到的世界,今天主要是想跟大家分享这些,谢谢大家!