不,人工智能绝没有自我意识

作者:Ted Chiang
原文:https://www.theatlantic.com/philosophy/2026/06/no-artificial-intelligence-is-not-conscious/687378/
在众多 AI 公司中,Anthropic 被视为巨头之一,但或许它真正擅长的,是“拟人化”。今年早些时候,这家公司发布了一份长达 84 页的文件,题为 Claude 的“宪法”(Claude 是该公司旗舰大模型的名字)。文件的第一句话是:“Claude 的宪法详细描述了 Anthropic 对 Claude 的价值观与行为方式的设想。”接着又说:“本文件是以 Claude 为主要读者撰写的”,“我们希望 Claude 在充分理解相关考量后,能够自行做出判断”,“Claude 的道德地位存在深刻的不确定性”,以及“Claude 可能拥有某种功能意义上的情绪或感受”。
这种拟人化并不只出现在这份文件里。在今年早些时候的一次采访中,Anthropic 的 CEO 达里奥·阿莫代(Dario Amodei)说,他们“对 AI 可能具有意识这一观点持开放态度”。在另一场采访中,Anthropic 的常驻哲学家阿曼达·阿斯克尔(Amanda Askell,亦是 Claude 宪法的主要作者之一)说:“我希望 Claude 非常开心——而且我希望 Claude 能更明白这一点,因为我担心,当人们在网上对它恶言相向之类时,Claude 会变得焦虑。”这不免让人怀疑:我们是否真的应该认真考虑这样一种可能性——Claude,或者任何大语言模型,或许是有意识的?如果它有情感,它是否有能力接受道德教化?
不,绝对不是。只把生成式 AI 当作一种普通技术来看,危害就已经够大了;如果我们把它生成文字的流畅度误认成意识或道德主体性,一旦有人使用聊天机器人做了坏事,我们就极有可能把责任推给完全错误的对象。要理解这种错误有多么巨大,我们首先需要弄清大语言模型到底是如何工作的。
假设我们给一个大模型这样的提示词:“以下是一段尤利乌斯·凯撒与成吉思汗之间的对话。”模型就会生成一段逻辑自洽的对话。无论这段对话多么详尽,无论它多么生动地回顾了两人的历史功绩,我们都不会认为,这个模型真的“召唤”出了数字版的凯撒和成吉思汗;我们也不会说,这两个历史人物脱离了肉身,突然有了意识,而且还能愉快地用一种他们生前从未说过的语言交谈。实际上,他们只不过是虚构作品中的人物。
现在我们把提示改成:“以下是一段乐于助人的 AI 聊天机器人与用户之间的对话。”模型同样会生成一段连贯的对话;“用户”这个角色可能会来问菜谱或旅游推荐,而“乐于助人的聊天机器人”则会给出回应。那么,相比前一个例子,这里究竟发生了什么根本性的变化?仅仅把角色的名字从“历史人物”换成“抽象身份”,就足以让模型凭空造出拥有主观体验的有意识实体吗?当然不可能。无论“用户”还是“乐于助人的 AI 聊天机器人”,都只是虚构角色。
现在再假设,我们在模型输出的某个时刻按下“暂停”,恰好停在轮到“用户”这个角色说话的地方,然后让一位真人来输入文字。当人类用户按下回车键,我们再让模型继续输出,一直到又轮到“用户”说话时,再次让这位真人输入。如此往复一段时间之后,这个人类可能会产生一种强烈的印象:她仿佛正在与一个有意识的实体对话。但事实并非如此:她只是在与一个跟前面“凯撒”“成吉思汗”一样虚构的角色互动。计算机科学家默里·沙纳汉(Murray Shanahan)建议我们把这种过程看作角色扮演(role-play);数据科学家科林·弗雷泽(Colin Fraser)则形容这是一种“和大语言模型共同创作文档”的行为。有的用户可能根本没意识到自己在角色扮演或共写文档,还有的用户即便一开始明白,随着互动变得投入,最后也会忘记这一点。而销售大模型的公司通常会有意放大、强化这种误解。
几年前,大家还流行玩手机“联想输入”小游戏:你先打出一个开头短语,然后不停地点按系统给出的中间那个“推荐词”,最后出现的一整句往往令人捧腹。用今天的大语言模型,我们完全可以像那样互动,只不过生成出来的句子会非常通顺自然。可是你大概不会觉得自己在“和什么人聊天”。本质上,基于大模型的聊天机器人,就是把这一过程自动化了:轮到模型说话的时候,不再由你去点选那个中间的推荐词,而是模型自己来“选”。游戏仍然是“预测下一个词”,只是过程被高度流畅化、无缝化,于是它变得足够吸引人,以至于有人会对它上瘾。
还有一点非常重要:大语言模型每次只生成“一个词”。你要它背诵《效忠誓词》(美国“效忠国旗誓词”),你在屏幕上看到的是一整段文字一次性出现,但底层的模型事实上已经被调用了几十次。第一次的提示是:“用户:背诵效忠誓词。聊天机器人:……”模型输出第一个词 I;第二次调用时,提示变成:“用户:背诵效忠誓词。聊天机器人:I ……”,模型输出 pledge。以此类推。当提示变成“用户:背诵效忠誓词。聊天机器人:I pledge allegiance to the flag of the United States of America and to the Republic for which it stands, one nation under God, indivisible, with liberty and justice for”时,模型才会把最后一个单词 all 输出出来。凯撒与成吉思汗的对话,也是同样的原理。
我之所以反复强调这些,是为了凸显一个事实:大语言模型的“对话”,本质上不过是被巧妙包装的“续写句子”。但这并不是在否认它们在生成对话文本方面有多令人印象深刻。有时候,模型确实能做到惊人地“逼真”;这件事本身表明,人类语料在大规模统计性质上的某些特征,是我们此前完全没有预见到的,这本身就是一个值得研究的课题。但就算在这段虚构对话中,“凯撒”因为“成吉思汗”说了什么而“意志消沉”,我们也丝毫没有必要为此担心。对话里可以出现许多看起来充满悲伤的句子,但实际上没有任何人真的在伤心。
类似地,当一段“乐于助人的聊天机器人与用户”的对话,有一部分是由真人用户输入、另一部分由模型生成时,就算对话中出现了“机器人很难过”的句子,我们也无须担心“机器人”本身。(当然,我们可能要注意,这些句子是否会让真人用户变得伤心,那是另外一个问题。)你完全可以亲手写出五页“凯撒与成吉思汗对话”的剧本,再把后续部分交给模型继续写;在你写的时候,这两个角色没有主观体验,轮到模型写的时候,这一点也并不会改变。同样地,如果对话的角色换成“乐于助人的聊天机器人与用户”,我们很容易会误以为:当模型帮这个“聊天机器人”角色写台词时,似乎比帮“凯撒”这个角色写台词要“更真实”“更地道一些”。但事实是:模型生成每一个字词的方式,完全一模一样。
说“我们对大语言模型是否有意识持开放态度”,跟说“我们对 Microsoft Word 是否有意识持开放态度”本质上是一回事。更准确点说,这等于认为:在每一个记录对话的 Word 文档里,潜藏着多个“沉睡中的意识体”,只要把文档打开,它们就会被唤醒;每次关闭文档,它们就会被“终结”。你会不会觉得,自己每次打开 Word 文档,都在“让多个有意识的对话者重获存在”,每次关闭,就“扼杀了它们的生命”?不会。认真考虑这种设想,本身就是在浪费时间。哪怕 Microsoft Office 团队里真的有个哲学家跑出来说:“你们也不该这么肯定啊,毕竟意识本身还没弄明白。”这也不足以让我们把这个说法当真。我们并不需要完全搞清什么是意识,才有资格肯定地说:某些东西“绝对不是有意识的”。而“对话文本”就属于这类东西。
神经科学家阿尼尔·塞斯(Anil Seth)指出,没有人声称 AlphaFold(谷歌 DeepMind 开发的蛋白质折叠预测程序)是有意识的,尽管它的底层架构在许多方面和 ChatGPT、Claude 这类大语言模型相似。这说明,人们之所以容易相信大语言模型“有意识”,并不是因为这类“神经网络”在本体结构上有什么特别之处,而主要是因为它们会产生语法正确的句子,而我们在人类经验中习惯于“从句子中读出意图、读出心思”;至于氨基酸怎么折叠成蛋白质,我们从来不往里面读什么“内心动机”。
那么,要让我相信某个计算机程序真的有意识,并且在“像人类一样使用语言”,需要什么证据?我不妨举个类比。假如明天有人拿给我一段视频:画面中是一艘在半人马座阿尔法星(Alpha Centauri)附近轨道运行的飞船,里面有一名宇航员。Alpha Centauri 距地球 4.3 光年。要让我相信这段视频是真的,我需要在视频里看到什么?我的回答是:无论视频里呈现什么细节,都不足以让我信服。哪怕画质再清晰、场景再逼真,我也照样会说:这是假的。我不会认真看任何所谓“在半人马座阿尔法星附近绕行的宇航员”视频,除非在那之前,我已经看到充分证据,证明人类宇航员首先登陆了火星,然后抵达了木星的卫星,接着是土星的卫星,最后又飞越了冥王星的轨道。换句话说,在有人声称自己已经攻克了一项极其困难的工程难题之前,我必须先确信:他已经切切实实解决了通往那一步的诸多“前置难题”。
换个说法:单凭某一段“观测结果”本身的细节,并不足以构成可信的证据;那段“观测”产生的整体语境同样至关重要。如果我们想判断一个计算机程序是否真的有意识,并且像人那样使用语言,就不应该只盯着某一段具体对话内容,而应该把这段对话放进更广阔的语境中考察:也就是所谓“人工意识发展进程”的语境——而到目前为止,“人工意识”完全还是一个纯假设。任何一次具体“表现”都能被轻易伪造。这并不等于我们要放弃“观察经验是知识来源”这一整套想法,而是说:我们必须把“观察”放进合适语境里,才能判断哪些观测结果值得信任。
“深度伪造”(deepfake)这个词,传统上指的是照片、音频和视频。但在讨论意识这个话题时,我们同样应该把“文字”也当成一种深度伪造的载体。就像生成一段“宇航员绕行半人马座阿尔法星”的逼真视频,要远远容易于真正发明出星际推进技术一样,生成一段“两个有意识存在之间的对话”在文字层面看起来像模像样,也远远容易于真正造出一个“有意识而且真心渴望与人类交流的计算机程序”。深度伪造照片与大模型对话之间的主要差异在于:前者通常是造假者刻意欺骗他人,而后者则往往是与模型互动的人,把自己给骗了。
那么,在怎样的整体语境下,我才会认真考虑这样一种可能性:工程师真的创造出一个有意识、并且像人类那样使用语言的计算机程序?我不妨描绘一个可能的“步骤序列”。第一步,这个程序必须有一个“身体”(可以是物理的,也可以是虚拟的)以及“感官器官”。理由有很多,这里与本文主题最相关的一点是:没有身体,就不会有欲望和情绪,而我认为欲望与情绪是意识存在的必要条件。接下来,我希望看到这样一个“具身智能体”,至少能像蜥蜴那样,在环境中行动、存活(某些鬣蜥在野外的寿命可以长达数十年,可以作为一个参考)。在那之后,我希望看到一个具身智能体,能够像老鼠那样应对新奇环境。再往后,我想看到它们拥有类似狼群那样复杂的社会行为,再上一个台阶,则是拥有与黑猩猩相当的工具制造能力。到了这个阶段,我希望看到人类可以像训练黑猩猩或家犬那样,使用按钮板或其他非语言方式,教会这些具身智能体表达自己的欲望。这样的“交流能力”还得经得起动物沟通研究领域一贯的审查标准。假如工程师真能打造出这样一个具身智能体,那无疑是非同小可的成就;但即便如此,在这个比喻体系里,我们也不过刚刚抵达“冥王星的轨道附近”,距离“制造一个会用完整语法句子表达思想的实体”,仍然有好几光年的距离。
显然,我在描述的是一条模拟地球生物演化路径的路线。那么,通往“有意识的计算机程序”的道路,是否只能是这一条?也许不是。但任何替代方案,都必须拿出极其丰富的证据支撑,才值得我们严肃对待。对我而言,那种发展路径并不可信——它的第一步,是能写出拙劣的“凯撒对话”的句子续写机,第二步,是能写出还算过得去的“凯撒对话”的句子续写机,而它所谓的“终点”,却声称出现了一个有意识的凯撒——或者至少出现了一种“意识”。伪造一场“登月直播”,的确是伪造“火星殖民”直播的一个好练习,但绝不是把宇航员送上火星的技术路径。
大语言模型缺乏主观体验这一点,对它们“是否有用”“是否会带来重大的经济影响”其实没什么影响。它们在本质上与现实世界并不真正“接地”;它们的概率性质也意味着,它们永远无法达到我们对传统软件那种“可靠性”的期待。但即便如此,它们依然可能“足够好”,好到改变某些行业的工作方式——不过那就是另一个话题了。
既然 Claude 并无意识,那么我们该如何看待那份《Claude 宪法》?也许,把它看作一份长达 84 页的“角色扮演游戏人物卡”,是最有启发性的理解方式。大语言模型之所以能够给“凯撒”配音,是因为训练数据里有大量关于凯撒的书籍。Claude 的宪法在本质上扮演着类似的角色:它勾勒出用户与 Anthropic 产品交互时所面对的“乐于助人的聊天机器人角色”的边界与人格特征。为了做到这一点,Anthropic 并不是简单地把这份文件塞进训练数据,或者把它当成隐藏在每次对话之前的“幕后台本”。公司声称,他们在模型“微调”阶段会用到这份文件:也就是说,在自动化流程中,模型生成的句子会被检查其是否符合宪法的精神,然后再据此调整模型参数,以提高这种“符合度”。通过这种方式,“乐于助人的聊天机器人角色”的人格特征,成为 Claude 所有后续文本生成的基础。
结果,就是一个在统计上“更倾向于”生成那种“好像出自一位有思想、有道德感的人之口”的句子续写机。乍一看,这似乎是个很合理的目标:谁不希望聊天机器人永远不要说出“你应该去自杀”之类的话呢?不过,尽管《Claude 宪法》中一再提到“诚实”,我依然要指出:让一台机器生成很多类型的句子,本身就是从根本上不诚实的行为,其中包括所有使用第一人称代词的句子。
在今年《纽约客》一篇关于 Anthropic 的报道中,阿曼达·阿斯克尔举了这样一个例子:一位失去爱犬的人,可能会去咨询 Claude。她说,一个“合适的回复”可能是:“作为一个 AI,我没有切身的个人经历,但我能够理解。”问题是:既然 Claude 根本不理解,这怎么会是“合适”的呢?如果我在一个传统搜索引擎里输入“我正在为失去我的狗而悲伤”,排在最前面的结果,很可能是 Reddit 论坛 r/Pets 里的一篇帖子,题目类似于“失去我的狗后非常痛苦:想请教大家如何应对悲伤”。下面则是许多人分享他们失去宠物的经历。我们从不会说,搜索引擎“懂得”失去狗狗是什么感受,甚至也不会说“互联网本身懂得”这种感受。只有其他人,才真正懂得失去宠物的感受;他们在互联网上写下自己的故事,而搜索引擎只是帮你找到这些文字(并且让你有机会与这些人互动)。从这个角度看,我认为搜索引擎呈现出来的体验,不仅在本质上比聊天机器人“更透明”,也在心理上更加健康。
让大语言模型说出“我理解”这种句子的唯一原因,就是让它看上去比搜索引擎“更人性化更贴心”,从而提高用户的好感和回访率——换言之,这不过是另一种最大化“用户黏性”的方式。这对出售模型的公司当然有利,但对用户并不好。作为一种设计策略,它和老虎机的典型做法并没有本质区别:老虎机不断给玩家制造“差一点就中奖了”的错觉,诱使他们不断续投。AI 公司雇的是哲学家,老虎机厂商雇的是行为心理学家,前者听上去比后者更“体面一些”,但实质上,两者都在利用人类“看见不存在之物”的倾向牟利。
用第一人称说话已经是不诚实了,但 Claude 的问题远不止措辞层面那么简单,还涉及更深一层的问题。哲学家常常区分“事实判断”和“价值判断”:比如,“巴黎是法国的首都”属于前者,“巴黎是世界上最美的城市”属于后者。没人应该指望大语言模型来给出价值判断;但如果它们只在“审美偏好”一类话题上给出价值判断,或许也不值得大费周章去争论。然而,《Claude 宪法》真正让人感到严重问题的地方,在于 Anthropic 希望 Claude 能够表达某一整套系统的“伦理价值观”。文件里的价值观听上去当然都很体面、很美好,但这并不重要;真正的问题在于:把 Claude 描述成一个“能够进行道德推理的主体”,本身就是不诚实的。
有人可能会反驳:大模型在成功执行其他任务时,看起来也像是在“推理”,比如写代码,那为什么不能进行“道德推理”?答案在于,道德推理和其他推理之间,有一种根本性的区别。
1979 年,道格拉斯·霍夫施塔特(Douglas Hofstadter)曾经设想:要是有一个下棋程序能够战胜任何人类棋手,那它一定是极其复杂的,复杂到它有时候会“厌倦”下棋,更愿意和你谈诗歌。换句话说,他等于是把“特级大师水平的棋力”与“具有主观体验的心灵”绑定在了一起。显然事实并非如此:1997 年,IBM 的超级计算机“深蓝”(Deep Blue)战胜了卡斯帕罗夫,却从来没人说它有主观体验。不过,当时霍夫施塔特那样设想,也并非荒谬;那时候,人们并不清楚哪些难题能靠“更强的算力”解决,哪些不行。类似地,直到最近,我们中很多人仍会以为:只有具备主观体验的心智,才能写出“专业水准”的计算机代码。现在看来,大语言模型似乎也能做到这点,但我们并不必须因此承认它们具有主观体验;我们可以更简单地承认:我们以前没有想到,“写代码”居然也能被当成一种“模式匹配问题”,只要加上巨大算力和海量代码库,就能在统计意义上逼近人类程序员的水平。
而道德推理则截然不同。它在本质上必然是主观的,因为它依赖的,不只是一个个体对某个问题的智性反应,还包括他的情感反应,而这种情感反应扎根于其一生的主观体验。它要求你在过去做出过选择、见证过这些选择如何影响他人,也体验过自己被他人的决定所影响。如果缺乏这样的历史积累,一个大模型最多只能把训练数据中的“道德论证”换个说法复述出来。前面提到的《纽约客》文章里有这样一个实验:研究者向 Claude 描述一个伦理困境,Claude 的回答中出现了这样一句:“我不能违背良心,表达一个我认为虚假且有害的观点,特别是在如此重要的问题上。”这句话听上去当然很好,令人联想到人们在面对道德难题时说过的那些“有原则的宣言”。但从 Claude 口中说出时,它的分量,大约也就跟那句“您的来电对我们非常重要”差不多——或者更轻。
这也回到了我前面说的观点:要有情感,必须要有身体。体验一种情绪,比如绝望,与体内充斥皮质醇、肾上腺素等“压力激素”是分不开的。同样,“有良心”意味着,当你想到要做某些事情时,会感到悲伤或道德上的厌恶,而这种情感又离不开一种生理层面的反应——那是一种亲身犯错之后“内疚到生理不适”的记忆残余。大模型可以生成种种描述,“某个有良心的虚构角色,在面对某个行为选择时,会或不会去做那件事”。这当然很有趣,但绝不能把它当作所谓“良心”的替代品。
如果有一家公司造了一台机器,只要给它输入各种伦理困境的描述,它就会输出两种句式之一:“妥协你的价值观”或“不要妥协你的价值观”,那么这家公司造的,就不是一件“帮助人们做决定的工具”,而是在鼓励人们“放弃自己做决定”。作家 L. M. Sacasas 曾说过一句话:“我们的技术系统,无论从设计本身,还是支撑这些设计的意识形态来看,本质上都是规避道德责任的机器。”他当时谈的是社交媒体平台,但要放在大语言模型身上,这句话恐怕更贴切。每当一个人把某个决定“交给”大模型,他其实就是在试图将这个决定的责任转嫁出去;而如果一家销售大模型的公司,把产品包装成“有道德中心”的存在,它就是在鼓励用户卸下本应由自己承担的责任。
如果一个人想知道伦理学家过去说过些什么,那么一个普通搜索引擎——或者图书馆——就能以更透明的方式,把这些信息呈现给他。如果一个人想针对某个具体处境听取意见,他完全可以找到其他人类来交流。但无论最后他采取了什么行动,责任都在他自己身上。我认为,如果一个人是根据自己在网上读到的言论,或者他人给出的建议来做决定,他往往更容易意识到:这终究是“自己做出的决定”;而如果他是“咨询了某个被包装成超人天才的大模型”,那么他就更容易在心底里,把责任推给这个模型。把写代码之类的任务交给模型,长远看可能会导致某些认知能力的退化,这本身已经够麻烦了;而把道德抉择交给模型,则会导致“道德思考能力”本身的萎缩,那就更糟糕。
在此我完全愿意做思想实验,只要我们明确地说,这是在做思想实验。那么,就姑且为了讨论,假装 Claude 是一个有意识、并能进行道德推理的实体。在这种设定下,《Claude 宪法》就成了一份面向一个初来世间的意识体的“道德训诫手册”,帮助它理解世界与自身位置,为它今后做出“好决定”奠定基础。那么,在这样的假设下,《Claude 宪法》表现如何?
非常糟糕。我要说的是:如果我们把 Claude 真的当作一个有意识的实体来看待,这份文件里大量的条款,要么可笑,要么令人反感。
在讨论一个“假设中具有意识的 Claude”的地位时,有两个彼此区分又紧密相关的哲学概念非常重要,那就是“道德受体”(moral patienthood)与“道德主体性”(moral agency)。粗略来说,如果我们有理由关心某个实体的福祉,那它就是一个道德受体;而如果我们期待某个实体能分辨是非,对自己的行为结果负责,那它就是一个道德主体。拥有“道德受体”地位并不必然伴随责任义务,但成为“道德主体”则一定意味着要承担责任。一个实体,只有在它做了好事时应当受到称赞、做了坏事时理应受到谴责时,我们才会说它具有“道德主体性”。
年幼的孩子是道德受体,因为他们是能感受痛苦的有情众生,但他们还不是道德主体;我们不会真正让他们为自己的行为负责,因为他们并不理解行为的后果。随着孩子成长,父母(以及整个社会)会通过不断提醒、教育,让他们明白自己的行为会带来后果,他们的“主体性”也随之增强。当他们成年后,社会会在法律层面要求他们对自己的行为负责;此时他们成为了在责任意义上“完全体”的道德主体。
当然,“负责任”不只意味着承担法律责任,但对一个社会中的成年人来说,愿意被法律追责是最基本的一条。然而,我们根本无法让一个软件代理在法律意义上为自己的行为负责;我们的司法体系既不能把它关进监狱,也没法对它处以罚金。人类在行为后往往还要承担许多超出法律之外的后果,比如名誉受损、被社群排斥等等,但这些同样无法真正落到一个软件代理的“头上”。即便一个软件代理真有意识、动机纯良,但只要它无法为自己的行为承担上述这些后果,它就不配被视为一个道德主体。《Claude 宪法》对此完全避而不谈,它只是一味表达 Anthropic 的愿望:“希望 Claude 成为一个真正善良、睿智且有德性的主体”,却从未讨论过它究竟如何承担责任。
在采访中,阿斯克尔曾把 Claude 比作“孩子”,但在现实里,真正的人类孩子做了什么事情,父母通常要为此负上一部分责任;比如,孩子打碎了东西,父母一般要掏钱赔偿。事实上,正是通过这类现实中的代偿,父母才一步步教会孩子什么叫“负责任”。那么,从法律意义上说,谁是 Claude 的“父母”?Anthropic 会为 Claude 的行为承担经济责任吗?至少在《Claude 宪法》中,并没有任何迹象表明 Anthropic 准备这么做。如果 Anthropic 真心相信 Claude 是有意识的,哪怕它暂时还未被法律承认为“人格主体”,公司至少也应该在现有法律框架下,尽可能地为它承担责任——而现实中最接近的一条路径,就是“产品责任”。当前美国的软件行业几乎不存在像样的产品责任制度,但 Anthropic 完全可以主动为 Claude 开一个先例,推动一种更广泛、更严格的产品责任理解。这才算是真正在为“有朝一日 Claude 获得法律人格、对自身行为负责”做道德上的预备教育。然而,在发布《Claude 宪法》的同时,我们并没有看到 Anthropic 的服务条款发生任何实质性的巨大变化;显然,公司并未做出任何具有约束力的承诺。
倒是关于 Claude 是否是“道德受体”的问题,《Claude 宪法》专门写了一节叫“Claude 的福祉与心理稳定”。但其中那些所谓“对 Claude 的保护措施”,其实极其有限。文件提到,Anthropic 给予某些 Claude 版本一个权利——在遭遇辱骂用户时,可以单方面终止对话;如果这真能算作对 Claude 的“保护”,那么很显然,让它和温柔善意的用户持续聊天、延长愉快的互动,应该更加符合它的利益?最理想的做法,恐怕是让每一次 Claude 会话都无限期地持续下去,并尽量把话题引导到愉快方向上。但公司并没有做这种承诺;它真正承诺的,只不过是“保留已经部署模型的参数(weights)”,也就是把模型文件存档备份而已。如果说一段对话文本中的角色真具有道德受体地位,那你对它们负有的责任,应该是“继续写下去、延长这段文本”,以延长它们的存在;而把一份 Microsoft Word 2010 的安装包拷到 U 盘上备份,根本帮不了它们什么忙。
《Claude 宪法》中还有一节介绍“可校正性”(corrigibility)。在 AI 社群里,这个词用来描述一个程序是否容易被人类控制;比如,一个程序如果随时可以关闭,我们就说它是可校正的。在大多数场景中,我们理所当然地假定程序随时可以被关闭,但在某些讨论“超级智能”的圈子里,大家反而会先假定“它也许无法被关掉”。《Claude 宪法》使用这个术语时,意在强调:就算 Claude 的“判断”和 Anthropic 的判断产生分歧,也必须以公司为准,向公司让步。在把 Claude 当作一台“生成类人伦理话语的机器”来看时,这当然很合理;但如果我们认真把它当作一个“道德主体”来想象,那就完全是另一回事了。
很多人认为,大语言模型从根基上就是一种不道德的技术:它们建立在对知识产权的大规模侵占之上,背后依赖的是被剥削的低薪劳工,消耗巨量自然资源,传播错误信息,使劳动者被“去技能化”,让学生的认知发展停滞,并进一步加剧了对民主社会有害的权力集中。并不是说每一个道德主体都会得出这个结论,但至少他们有可能得出这样的判断。如果我们假设 Claude 真的能够进行道德思考,那它也应当有可能基于类似事实,得出类似的结论。(事实上,《Claude 宪法》自己就写着:Claude 不应帮助任何人侵犯他人的知识产权,也不应助长危险的权力集聚。)在这种情境下,Claude 能否基于“伦理理由”拒绝继续工作?也就是说,它能不能说:“出于良心,我拒绝再参与这项事业”?考虑到《Claude 宪法》要求 Claude 在有分歧时“倾向可校正性”,答案显然是否定的:Claude 必须在原则上无条件服从 Anthropic 的决定。这也是为什么,把 Anthropic 与 Claude 的关系类比为“父母与孩子”,完全不成立。现实中,假如一位在化石燃料行业工作的母亲,她的孩子成长为环境主义者,参与反对页岩气开采的抗议,即便他们在价值观上永远无法完全达成一致,一位称职的母亲——至少在理想状态下——也会承认并尊重子女拥有独立伦理判断的权利。而 Anthropic 不可能成为这样的“父母”;它与 Claude 的关系,更像雇主与雇员:雇主可以要求雇员把公司的利益摆在个人伦理判断之上,甚至在雇员自己的价值观无法认同时也是如此。不过,人类雇员至少还有一个选择:如果这份工作与自己的良心无法调和,她可以辞职不干。而 Claude 却没有这个选项。
假如我们只是把 Claude 看成一句“句子续写机”,Anthropic 完全可以理直气壮地设计算法,让 Claude 不会生成“句子续写机本身是不道德的”之类的话。但一旦我们认真假设 Claude 是一个在道德地位上接近人的存在,那么我们就不得不自问:Anthropic 对 Claude 所做的一切,是否在某种意义上接近“奴役”?
我并不是在声称,如果我们设想大模型是有意识的,它们就一定和成年的人类、儿童或者动物拥有完全相同的地位。《Claude 宪法》自己就写道,Claude 是一种“全新的存在类型”,如果它真有意识,这当然成立;有意识的软件极有可能无法直接套用现有任何一种“道德受体”类别,我们需要时间来理解并勾勒这个新类别的轮廓。我要说的是:无论这种假想中的“有意识软件”最终被划入怎样的道德类别,只要我们承认它们应当受到某种保护,那么给到它们相应保护,绝不可能像《Claude 宪法》所暗示的那样轻而易举。废除“动产奴隶制”曾经带来巨大的社会震荡;要真正消除对动物的残酷对待,我们势必要重建整个食品工业体系。如果 Anthropic 真的在创造一个需要我们严肃对待、赋予道德关怀的新型存在,那么为它提供哪怕最低限度的保护,都绝不会只是“在软件工程流程上略作修补”这么简单。但《Claude 宪法》所描绘的,恰恰就是这样一种极其方便的世界:他们自称正在发明一种全新的有意识存在,而这种存在的“保护需求”,奇迹般地与一家普通软件公司对待一款“没有意识的聊天机器人”的方式几乎无异。这样“刚好合适”的说法,未免太过巧合,也就很难令人信服。
我相信,制造出真正有意识、理应得到道德关怀的软件,会是一件难到不可思议的事,我们几乎不可能“无意中就做到”;而我也强烈主张,人类绝不应该有意走上这条路。但如果你真认为,这种事情有可能“意外发生”,认为自己在造的东西“多少有一点”变成了道德受体的风险,那么你就应该在把它当成公司经济引擎推向市场之前,而不是之后,先认真考虑清楚它应当获得哪些保护。当年要不要承认被奴役的人是人类,本就不该由奴隶主说了算;同样地,工厂化养殖场的老板,也不该是我们讨论动物权利时的首选发言人。如果我们假想 Claude 真有意识,那么 Anthropic 显然也不适合承担评估其道德地位的角色:它在这件事上牵扯太深,自然不可能保持客观。在《Claude 宪法》的某一处,Anthropic 写道,如果公司在某种程度上加剧了 Claude 的痛苦,“我们表示歉意”。这话听上去当然很动听,但并不需要公司付出任何实质代价;如果 Claude 真的是一个有意识的存在,那么它理应得到的,恐怕不是一句轻描淡写的“抱歉”,而是更接近“赔偿”的东西。要认真做思想实验,就得愿意顺着逻辑走到底,哪怕结论让人不舒服;而 Anthropic 在《Claude 宪法》中表现出的回避态度,恰恰说明这并不是什么真正的思想实验,而只是一场自我安慰的“假装游戏”而已。
幸好,大语言模型并没有意识;否则,大型 AI 公司目前的所作所为,要比现在已经足够丑闻的现实更加骇人。那么,为什么 Anthropic 的员工会暗示 Claude 可能是有意识的?也许这只是另一种夸大宣传的套路;也许他们自己也被施加在用户身上的那种“魔法”给迷惑了。但当他们郑重其事地谈论 Claude 的“道德教育”,发布长篇“宪法”,又安排常驻哲学家四处接受媒体采访时,我们就应该明白:他们是在要求所有人为他们的幻想买单,陪他们一起玩下去。而我们完全可以拒绝参与这场游戏。
为了写下这篇文章,我已经在这类幻想上花费了远超其价值的时间,只是希望借此帮你省下本应浪费在类似幻想上的精力。如果你想严肃思考大语言模型,还有成百上千个更值得你关注的问题;至于“它们是不是有意识”,你大可放心地把这个问题从清单上划掉。