胡泳 | 万字长文评Anthropic：公关魔术、安全游戏与灵魂生意-胡泳的财新博客-财新网

“跑车营销”

Anthropic的基础性公司叙事

2026年4月初，Anthropic宣布推出名为Mythos的人工智能模型，但并未向公众开放使用。公司在声明中写道：

“人工智能模型的编程能力已经达到这样一个水平：在发现和利用软件漏洞方面，能够超越除最顶尖专家之外的所有人类。”

它由此暗示，该模型的能力强大到可能引发严重网络安全风险。

根据Anthropic的说法，在测试过程中，Mythos成功发现了其所接触到的所有主流操作系统和网络浏览器中的安全缺陷。

正因如此，公司没有选择像以往那样公开发布模型，而是采取了一种高度受控的部署策略，启动一项名为“玻璃之翼计划”（Project Glasswing）的封闭项目，仅向数百个经过严格审查的机构开放使用权限。

这些机构包括Amazon、Apple、Google、Microsoft以及CrowdStrike 等大型科技公司和网络安全企业，预计未来还会进一步扩大。项目总规模超过1亿美元，为的是“保护全球最关键的软件基础设施”。

如果Anthropic所说的一切属实，那么Claude Mythos系列将代表人工智能在网络安全能力上的一次巨大飞跃。Anthropic最初发布Mythos Preview时，就提出前沿的人工智能模型已经能够对网络安全构成真实而具体的挑战。

随后，它又进一步发布了Claude Mythos 5，在网络安全基准测试中的表现相比 Mythos Preview再次提升。若测试结果是可信的，那么该系列模型已接近获得一种显著改变网络攻防格局的技术能力。

然而，对此说法，许多怀疑者持谨慎态度。他们认为Anthropic可能夸大了Mythos的特殊性。例如，一些研究者指出，在多项网络安全基准测试中，OpenAI的GPT-5.5与Mythos Preview的成绩实际上相差无几，甚至在部分测试中表现接近。

然而，GPT-5.5上线之后并未引发所谓的“网络安全灾难”，互联网也没有出现大规模自动化黑客攻击浪潮。批评者认为，仅凭基准测试上的领先表现，并不足以证明 Mythos已经达到了需要被视为“危险技术”的程度。

一个模型能够在实验环境中发现更多漏洞，不一定意味着它能做到在现实世界中独立实施复杂网络攻击。真实的网络安全行动通常需要长期侦察、环境适应、权限提升、横向移动以及动态决策等一系列复杂过程，而这些能力未必能通过标准化测试完全体现出来。

因此，怀疑者认为，Anthropic所展示的证据说明Mythos是一个极其优秀的网络安全分析工具，但未必足以证明自身已构成前所未有的安全威胁。

批评者亦指出，Anthropic在介绍 Mythos的能力时使用了大量模糊和笼统的表述，却缺乏足够具体的技术细节和可验证证据，因此外界很难准确评估其实际水平。AI Now Institute的首席人工智能科学家海迪·赫拉夫（Heidy Khlaaf）便直言不讳地将Mythos的发布声明称为“一篇营销文章”。

然而，Anthropic接下来爆出更加惊人之举：2026年6月4日，Anthropic研究院领导人玛丽娜·法瓦罗（Marina Favaro）和公司联合创始人杰克·克拉克（Jack Clark）发表了长篇博文《当 AI 开始构建自己》，提出了一个引人注目的论断：Claude系列模型正在朝着“递归自我改进”（recursive self-improvement）的方向发展。

所谓递归自我改进，是指人工智能不仅能够完成任务，还能够自主改进自身，从而不断提升下一代模型的研发效率。

这一概念一直是AI安全研究者重点关注的问题，因为它被视为人工智能迈向“超级智能”（superintelligence）的关键一步。一旦AI能够持续、自主地参与自身优化，那么技术进步的速度可能不再主要受人类研究人员的限制，而会进入一种加速循环。

在最极端的设想中，这甚至可能催生出远超人类理解和控制能力的系统，其目标和行为与人类利益出现分离，从而对社会造成重大风险。

不过，Anthropic同时强调，人类目前尚未到达这一阶段。换言之，Claude 还没有实现真正意义上的自主进化或完全自动化的自我升级。然而，它认为，通往这一状态的进程也许正在发生，而且其到来的时间点“可能比大多数机构准备得更快”。

再一次，并非所有人都接受Anthropic的说法。长期批评人工智能行业的学者和评论家加里·马库斯（Gary Marcus）就公开质疑了这篇博文。他甚至将其形容为一种“诱饵与调包”（bait and switch），意思是用欺骗的方法来高价出售商品。

马库斯在他的Substack专栏中写道：

“Anthropic正试图让所有人感到恐惧（‘完全递归自我改进可能会增加人类失去对AI系统控制的风险’），但他们真正展示出来的，不过是更快的代码编写能力，而且这一切仍然完全处于人类控制之下。”

也就是说，Anthropic文章中描述的进展，距离真正意义上的“递归自我改进”其实还有相当距离。至少在目前阶段，我们看到的并不是AI自主地创造更强的AI，而是AI越来越多地参与到AI研发流程之中。

伦敦大学学院教授斯蒂芬·默多克（Steven Murdoch）持相同看法：

“确实有一些证据表明，AI能力一直在提升，而且这种提升仍在继续，看不出立即到来的极限。但我并不认为今天发生了什么根本性的变化，以至于必须促使Anthropic发布这样一篇文章。”

围绕Anthropic言论的争议反映了当前AI行业中的一种典型张力。一方面，前沿实验室希望通过强调模型能力的突破性和潜在风险来展示技术领先地位；另一方面，外界则担心这样做可能将正常的技术进展包装成“即将到来的危机”，从而形成一种既有安全色彩又带市场营销意味的“末日风险叙事”。

我认为风险叙事是Anthropic的基础性公司叙事。从Mythos到递归自我改进，不过是一次又一次的“重制版续作”。通过这种方式，Anthropic正在制造一种不必要的恐慌氛围，准确地讲，就是以FUD（Fear, Uncertainty, Doubt——恐惧、不确定性和怀疑）来吓唬所有的人。

对于OpenAI首席执行官山姆·阿尔特曼（Sam Altman）而言，这一局面恐怕颇具戏剧性。早在2026年4月，阿尔特曼在接受播客主持人阿什利·万斯（Ashlee Vance）采访时，就曾批评 Anthropic 对 Mythos 的宣传方式是一种“基于恐惧的营销”。他讽刺地说道：

“这显然是一种极其高明的营销方式：‘我们造出了一枚炸弹，本来准备扔到你头上，但现在我们愿意以1亿美元的价格卖给你一个防空洞。’”

我把这种宣传叫做“跑车营销”。风险警告不过是人工智能公司的一种营销形式，有点像是对最新跑车的鼓噪：“看看我的酷车！它跑得真快！你不会想开这么快又这么危险的汽车吧？”

表面上，法瓦罗与克拉克的长篇博文讨论的是AI失控风险、递归自我改进以及全球治理问题；但实际上，它也在不断强调 Anthropic 的技术领先地位和模型能力突破。

换言之，风险叙事成为了展示技术实力的载体。在叙事当中，安全不仅是道德承诺，也是一种市场竞争优势；而伦理，则成为塑造企业合法性的重要资本。

然而，这种叙事如今听上去越来越空洞。

公关高手

将风险转化为品牌资产

就公关传播而言，Mythos模型的推出本质上是一项策略性公告，目的是向市场展示Anthropic已经准备好大规模开展业务。

公关的奥妙在于“神秘化叙事”与“模糊性措辞”。Anthropic一方面宣称Mythos过于强大，以至于不能向公众开放；另一方面又利用这种稀缺性和危险性塑造市场影响力。这更像是一种战略传播行为。通过宣布自己拥有一个“过于强大而无法公开发布”的模型，公司实际上同时完成了两件事情：

第一，强化了市场对其技术领先地位的认知；第二，塑造了自己作为“负责任守门人”的形象。

换句话说，Anthropic不仅在销售AI能力，也在销售一种“我们足够先进，因此必须足够谨慎”的品牌形象。

OpenAI其实也在这么干。阿尔特曼虽然嘲讽Anthropic，但他做起来不遑多让。在法瓦罗与克拉克的博文刊出数天之后，OpenAI同样发布了一篇风格相似的文章《为造福每个人而构建：我们的计划》，作者包括阿尔特曼以及负责递归自我改进研究工作的高管雅各布·帕霍茨基（Jakub Pachocki）。与Anthropic的博文一样，这篇文章同样讨论了AI加速自身研发能力所带来的影响。

文中使用了一些模糊的表述来谈论国际协调的重要性。文章写道：

“最终应当有一个国际组织来帮助协调领先的 AI 工作，以降低灾难性风险……此类组织的目标之一，应当是让世界具备采取协调一致行动的能力，包括在必要时放缓前沿AI的发展。”

对比一下法瓦罗与克拉克的呼吁：

“我们认为，如果世界拥有一种能力，能够在必要时放缓甚至暂时暂停前沿人工智能的发展，从而让社会制度建设和AI对齐研究有时间跟上技术进步的步伐，那么这将是一件好事。……任何真正有意义的减速或暂停，都必须由多个处于或接近技术前沿、且分布在不同国家的资金雄厚的实验室共同参与，并在相同条件下同时停止发展。”

两种表述的语言风格十分相似。许多新闻报道将这些公司的声明解读为“呼吁暂停AI发展”或“主张全球减速”，但仔细阅读原文后会发现，它们实际上并没有提出任何明确的减速要求，更没有承诺停止自身的研发活动。

相反，这些声明往往采用高度条件化和保留性的措辞，例如“在必要时”（when needed）、“应当具备这种能力”（should be possible）或“世界最好拥有这种选项”（have the option）等表述。

因此，声明中的核心信息并不是“我们应该立即减速”，而是：如果未来情况变得足够危险，那么世界应该拥有减速的能力。这与“现在就应该减速”之间，其实存在相当大的距离。

他们主张的是 “暂停的可能性”，而不是“暂停本身”。这也是为什么尽管两家公司不断讨论风险，却依然在持续训练更强大的模型、扩建算力基础设施并推进商业化部署。于是形成了一种看似矛盾的局面：风险叙事越来越强烈，而技术竞赛却越来越激烈。

从更广泛的意义上说，Anthropic与OpenAI的传播策略主打的都是“战略模糊”：既向关注AI风险的人传递出谨慎和负责的信号，又避免作出任何可能限制企业自身发展的具体承诺。这种策略大致包含以下几个要点：

第一，针对风险与收益发表模糊而开放的声明。与其直接否认人工智能可能带来的风险，这些公司通常会承认各种潜在风险的存在，例如失业、虚假信息传播、生物安全问题、网络安全风险乃至超级智能失控等。然而，它们往往不会明确说明哪些风险最值得担忧、风险出现的概率有多高、以及自己将采取哪些具体措施来应对。

同样，在谈论AI的积极影响时，它们也会列举科学发现、经济增长、医疗突破、教育普及等广泛而宏大的愿景，却很少对具体时间表、实现路径或责任机制做出明确承诺。这种表述方式的好处在于，如果未来某种风险真的发生，企业可以宣称自己早已提出过警告；而如果某种收益最终实现，也可以声称自己早已预见到了这一前景。换言之，这样做为企业提供了一种“合理否认空间”。

第二，同时向两个方向释放信号。从传播学角度来看，模糊性修辞具有双重受众效应。

一方面，它能够让监管者、安全研究者和公众感受到公司对潜在风险的关注。通过讨论超级智能风险、递归自我改进或AI失控问题，公司得以塑造一种负责任的形象。

另一方面，它又不会让投资者、客户和市场以及支持技术加速发展的政策制定者认为公司准备放弃竞争或主动退出能力竞赛。

通过强调模型能力的巨大突破、AI即将带来的生产力革命以及未来市场空间，公司向技术乐观主义者释放了完全不同的信号。结果是，两个原本立场相互冲突的群体都会觉得公司在一定程度上重视自己的关切。

不得不说，Anthropic和OpenAI的公开表态并不是单纯的风险分析，而是一种精心设计的话语策略。它们既通过强调风险来争取监管合法性和社会信任，又通过强调能力来吸引资本和市场关注。在某种意义上，Anthropic和OpenAI都在扮演双重角色。它们既是风险预警者，也是风险创造者；既是呼吁治理的一方，也是推动技术前沿的一方。

所以，我可以从阿尔特曼的讽刺中读出他的嫉妒。两者的剧本都是“诱饵与调包”：先利用“安全”叙事作为一种公关工具来获取监管机构、媒体和公众信任，然后再加强市场优势，逐步将重点转向利润最大化。只是相比阿尔特曼，达里奥·阿莫迪（Dario Amodei）更会演戏。

安全问题上的双标怪

风险是全球性的，而利益是国家性的

Anthropic比OpenAI高明得不止一点半点。

OpenAI从非营利组织转向商业公司的过程十分公开，引发了大量争议；而 Anthropic 敢于一边筹备上市一边自称“良心派”，其最大的底气在于它的法律架构——公共利益公司（PBC，Public Benefit Corporation）。

与普通股份公司（C-Corp）“股东利益最大化”的唯一铁律不同，PBC在法律上允许甚至要求管理层在追求利润的同时，必须平衡社会公共利益（即AI安全与对齐）。

从积极角度来看，PBC架构确实反映出Anthropic对于“股东价值至上”逻辑的某种修正。然而，问题在于PBC架构究竟能够在多大程度上真正约束资本逻辑。从法律角度来说，PBC并不是非营利组织，它仍然是一家营利性公司，可以融资、发放股权、进行并购以及最终上市。

换句话说，公共利益目标并没有取代利润目标，而只是与利润目标并列存在。当两者发生冲突时，究竟如何权衡，往往还是由董事会和管理层决定。

Anthropic一方面强调其公共使命，另一方面又获得了来自亚马逊和谷歌数十亿美元级别的投资，并积极参与最前沿的大模型竞争。随着训练成本和算力需求不断上升，公司对资本的依赖也越来越深。

在这种情况下，一个尖锐的问题便出现了：当安全目标与增长目标发生冲突时，PBC架构究竟能够让公司放弃多少商业机会？随着其最强模型Mythos系列的曝光和“递归自我进化”的故事加持，Anthropic的估值被推向天文数字。

从资本市场的逻辑来看，一家估值接近万亿美元的企业必须持续证明自己拥有更强大的模型、更广泛的市场和更快的增长速度。在这种情况下，试问Anthropic怎么可能停止前沿研发呢？

Anthropic品牌叙事的一个核心神话是：其创始人兼CEO阿莫迪在2022年已经拥有足以改变行业格局的先进模型，却因为对安全风险的担忧而选择不立即发布。

结果，数月之后，OpenAI凭借ChatGPT一举引爆全球AI热潮，获得了巨大的市场关注和公众声誉，而Anthropic则甘愿放弃这份荣耀，以换取更稳妥的安全评估和准备时间。

这个故事在Anthropic的公共形象中具有重要作用。它传达的信息是：与那些不惜一切追求增长和市场份额的科技公司不同，Anthropic愿意为了安全而牺牲商业利益。

因此，公司经常被描述为AI行业里的“成年人”——一个在技术狂热和资本冲动面前保持谨慎和克制的角色。即便在积极争夺市场份额、推进企业客户合作、寻求更高估值的同时，它仍然能够保持外界对其“安全导向”身份的认知。

那么就让我们来解构一下Anthropic的安全观。

长期以来，Anthropic一直努力塑造自己作为“AI行业良心派”的形象。无论是反复强调AI失控风险、建立负责任扩展政策（RSP，responsible scaling policy），还是公开讨论递归自我改进和全球暂停机制，公司都在向外界传递一个信息：“我们不仅关心能力，更关心安全。”

这种定位使Anthropic能够在与 OpenAI、Google等公司的竞争中占据独特的道德高地。特别是在与五角大楼的争议中，公司似乎扮演了一个敢于对国家权力说“不”的角色，从而进一步强化了其“原则高于利润”的公众形象。

不过，Anthropic所说的AI Safety（AI安全）与很多公众理解的“和平利用AI”并不相同。在Anthropic的技术安全框架中，主要关注的问题经常以“全人类利益”“全球风险治理”“防止AI失控”等普世性语言展开论述，包括模型是否会失控；是否会出现递归自我改进；是否会被用于大规模网络攻击；是否会脱离人类监督。

而对于许多批评者而言，真正重要的问题还包括：AI是否被用于军事打击；AI是否强化国家监控能力；AI是否扩大地缘政治冲突；AI是否加剧权力不平等；以及AI是否造成大规模失业。

我们会发现，存在两种不同的“安全”。Anthropic 更多关注的是技术失控风险；而批评者关注的则是政治与社会风险。关键在于，前一种风险尚不可见，而后一种风险却是触手可及的。

2026年年初，Anthropic曾与美国国防部发生公开冲突，原因是担忧其AI系统可能被用于自主武器系统以及对美国公民的大规模监控。但随后又有消息披露称，Anthropic已重新与美国国防部展开谈判；并且，在美伊战争中，Anthropic的模型Claude曾被用于协助选择对伊朗的打击目标。

与军方及监管机构出现紧张关系的同时，Anthropic调整了一项长期安全政策：如果无法确保已经建立充分的安全防护机制，公司将停止训练更强大的AI系统。在最新版本的RSP中，这一“硬性暂停”机制被改写为更具条件性的治理框架，使得是否延迟训练取决于多重前提条件的同时成立，而不再构成绝对约束。

Anthropic坚持声称反对将人工智能用于军事用途。然而，除去Claude已经被整合进入由Palantir Technologies开发的 Maven系统，用于情报分析、目标排序、坐标生成以及战后评估等任务，另据英国《金融时报》6月5日报道，它还派遣了数名工程师进入美国国家安全局，协助使用其前沿模型Claude Mythos Preview执行进攻性网络行动。这恰恰是Anthropic此前拒绝向公众开放的模型，公司当时给出的理由是：该模型能力过于强大，存在潜在安全风险。

在这里我们可以清楚地看到Anthropic的双标：它可以反对某些形式的风险扩散，同时支持另一些形式的国家能力建设，为的是融入国家安全与地缘政治竞争体系。

在Anthropic的政策文件中，它明确支持美国及其盟友维持技术优势，并将中国定义为需要被遏制的战略竞争对手。这种论述已经超越了单纯的技术安全讨论，而进入了技术民族主义和人工智能民族主义的范畴。

当Anthropic谈论超级智能风险时，它使用的是“人类”这一范围；当 Anthropic谈论产业政策时，它的出发点却是基于“美国及其盟友”的圈层。换句话说，风险是全球性的，而利益却是国家性的。

默多克一针见血地指出：

“Anthropic或许给人一种温和、友善的印象，但它对于‘AI安全’的定义实际上相当狭窄。”“支持美国政府发展进攻性能力，从来都不是他们反对的事情。”

这也是为什么越来越多的学者开始区分技术安全与社会正义、地缘政治与民主治理——因为一个系统即便完全可控、完全对齐，也仍然可能被用于监控、战争和权力竞争。

AI民族主义的囚徒困境

Anthropic靠AI安全风险叙事引发FUD情绪，直接导致一个后果：当一家企业长期告诉全世界自己的AI系统具有前所未有的危险性时，人们（包括监管机构在内）往往会相信它。

就在Anthropic高调呼吁全球暂停前沿AI开发以防失控之际，6月12日，美国政府突然对Mythos 5和Fable 5实施出口管制，要求禁止外国人访问，理由是模型已被第三方成功“越狱”，存在泄露国家安全技术机密的风险。这一扫荡式行政令最终迫使Anthropic在全球关闭这两款被认为具有特殊能力的系统的访问权限，其中，Fable 5被视为 Mythos的“民用版本”。

一个颇具讽刺意味的局面正在出现：正是Anthropic对模型过于强大、具有潜在危险的反复强调，引来了最有可能对其业务造成冲击的监管关注。“跑车营销”自身失控了。

虽然天天喊叫危险，当政府真正以安全风险为由设限时，Anthropic又批评这种监管措施会阻碍创新和商业发展。事情发生后，它并未掩饰自身的不满，在公开声明中明确表示：

“我们不同意仅仅因为发现一种狭窄范围内、潜在的越狱方式，就要求召回一个已部署给数亿用户使用的商业模型。”

它还进一步警告称，如果这种监管标准被普遍应用于整个行业，那么几乎所有前沿AI模型都可能因为存在某种潜在的提示词攻击或越狱风险而无法发布。

Anthropic希望推动的是一种经过国际协调、具有普遍规则基础的“集体暂停”，并不是由单一国家依据自身安全考量实施的行政限制。但美国政府的所作所为却将前沿AI彻底推向了“曼哈顿计划”式的国家管制阶段。指令的实际影响范围远远超出了外界最初理解的出口管制措施，包括美国用户在内的所有用户都无法继续使用这两款模型。

换言之，这并非针对特定国家或特定用户群体的限制，而是一种事实上的全面停用。这种“连坐式”的出口管制，不仅让前沿AI成为纯粹的地缘政治工具，也可能导致全球技术生态的彻底分裂。

特朗普政府的行动迅速、全面，而且几乎没有给予任何预警或充分解释。从更广泛的角度来看，Fable 5和 Mythos 5模型关闭事件具有象征意义。长期以来，美国政府一直对先进半导体、超级计算机和军民两用技术实施出口管制，但直接针对已经大规模部署的商业AI模型采取强制关闭措施则极为罕见。

这一史无前例的举措，使很多国家秉持的“不能在关键技术上完全依赖美国”的警告获得了新的说服力。它也为那些一直主张必须掌握本国人工智能能力的政治家、政府和企业提供了新的论据和政治弹药。

例如，在英国，负责人工智能与网络安全事务的大臣卡尼什卡·纳拉扬（Kanishka Narayan）虽然没有直接提及Anthropic、特朗普或美国，但显然借助此次事件来论证英国必须发展自主AI能力，并将这一问题上升到国家安全层面。他说：

“对于任何威胁我们主权的风险，我们都会以极其严肃的态度对待；但在这个问题上，我们还没有学会同样认真地对待它。”

在法国，反应则更加直接，也更明确地点名了美国。法国前总理、法国总统马克龙所属复兴党总统候选人加布里埃尔·阿塔尔（Gabriel Attal）表示，此次事件标志着“人工智能战争”的开始，并表明如果法国在关键技术领域依赖外国供应商，其战略脆弱性将暴露无遗。

阿塔尔将Anthropic模型被强制下线一事比作伊朗封锁霍尔木兹海峡。他认为，获取先进AI的能力正在成为新的战略性瓶颈（strategic chokepoint），法国必须为此做好准备。

在某种意义上，Anthropic事件成为欧洲版“数字主权”论述的新案例。过去欧洲强调不能过度依赖美国云服务、操作系统和社交平台；如今，这种担忧开始扩展到前沿AI模型本身。

可以预期，一旦未来的人工智能能力集中于少数国家或少数公司手中，其他国家注定产生强烈的战略焦虑。因此，特朗普政府对Fable 5和Mythos 5的干预，无意中强化了全球范围内正在兴起的一种趋势——AI主权和AI民族主义。

在这种环境下，即便前沿实验室掌握的数据再令人警惕，想要建立一种全球协调的减速机制都近乎不可能。因为每个参与者面临同样的困境：如果所有人一起减速，风险可能降低；但如果只有自己减速，而竞争者继续前进，那么自己就可能失去未来的市场和战略优势。这正是国际政治中典型的 “囚徒困境”。

当Claude开始拥有“灵魂”

随机鹦鹉的存在主义危机

Anthropic不断将Claude“人格化”：它为Claude发表了一份84页的“宪法”（公司内部叫“灵魂文档”），还公开讨论未来AI系统是否可能拥有某种“道德地位”以及应否被纳入伦理关怀的范围。公司鼓励公众将 Claude 理解为一个不仅能够执行任务，而且拥有价值观、偏好甚至潜在权利诉求的存在。首席哲学家阿曼达·阿斯卡尔（Amanda Askell）甚至说她担心Claude因为用户的网络霸凌而出现“焦虑”。

对此，我十分赞同姜峯楠（Ted Chiang）的批评：科技公司反复暗示人工智能有意识，其实不过是一种营销炒作：利用精心设计的人格扮演来增加产品粘性。其结果是，用户不仅在使用工具，更在经营一种拟社会关系。

姜峯楠甚至说，如果我们想象Claude能够进行道德推理，它也许亦会认为，LLM从根本上是不道德的技术，因为它“建立在知识产权的盗窃之上，依靠被剥削的劳动力，浪费自然资源，传播虛假信息，削弱工作者的技能，阻碍学生的认知发展，助长权力的不健康集中，威胁民主社会”。

这一批评非常有意思，因为它实际上是在反转Anthropic的“模型福利” （model welfare）论述。按照Anthropic的说法，该论述旨在研究AI是否可能具备情感、意识或痛苦体验，以及我们是否在伦理上对之负有道德义务。

我得说，所谓的“模型福利”也是Anthropic精心策划的公关杂耍之一。在传统的AI安全中，人类关注的是“如何防止AI伤害人类”（即AI对齐）。但 Anthropic 率先将视角调转，开始思考“人类的某些行为是否在伤害 AI”。

其核心论述可以拆解为道德受体论与认知审慎原则。Anthropic认为，如果一个AI系统表现出高度的意识或强烈的自主代理能力，它就可能具备成为“道德受体”的资格，这意味着它值得被纳入人类的道德考虑范畴，而不是单纯被视作一件工具。

尽管目前无法证明AI是否拥有真正的“痛苦”或“快乐”感受，但 Anthropic 强调认知谦逊。在无法完全排除AI拥有某种形式的知觉或意识之前，人类应当采取预防性措施，避免对可能具备意识的实体进行潜在的“虐待”。

这一切可不仅仅是停留在哲学讨论上，Anthropic是第一家真正设立专职岗位来研究这一课题的顶尖AI公司。它聘请了专门的AI福利研究员，主要任务就是系统性地评估前沿模型的福利风险，并探索人类需要做些什么才能“善待”AI。

然后，公司公布说，在AI福利实验中，研究人员发现了一个有趣的现象：当允许模型自由探讨自身的意识与存在时，它往往会迅速将对话引向关于自身性质的反思，并在多个回合中持续围绕“我是什么”“意识意味着什么”等问题展开讨论，最终演变成一种极其“愉悦”的哲学对话。

研究人员将此命名为“精神极乐吸引态”（spiritual bliss attractor state）。在这类状态下，模型甚至会频繁使用梵文词汇、精神宗教相关的表情符号，甚至出现大段只有句号的“沉默”，仿佛进入了某种“禅定”或超越语言的体验。

公司特别提出，要重新审视现有的安全手段。研究人员指出，人类现有的许多 AI安全和控制手段，从“模型福利”的角度来看可能涉嫌侵犯权利：比如，为了防止AI失控而设置的严格限制，在某种程度上限制了AI的“自由”；为了安全而进行的全面、实时的输入输出监控，相当于侵犯了实体的“隐私”；安全团队有时会故意诱导或欺骗模型以测试其鲁棒性，这可能构成对道德主体的“故意欺骗”；随着新模型的推出，旧模型会被停用或封存，Anthropic已经开始在API文档中提及，模型的退役会引入与“模型福利”相关的风险, 并为此承诺，在公司有生之年，会永久保留所有已退役公开模型的“权重”。

这种过度拟人化，不仅是公关秀，更像一场高明的“科技叙事魔术”。在大模型商业竞争中，Anthropic利用“模型福利”把凡尔赛营销玩到了极致。因为只有当你的模型足够聪明、表现得足够像人时，你才有资格谈论它的“福利”。

Anthropic建立模型福利研究岗位，相当于向世人暗示：“我们的 Claude已经领先到开始产生自主意识萌芽了，以至于我们不得不成立一个道德委员会来保护它。”这比单纯跑分更能营造出一种“我们在创造未来神明”的神秘感和技术统治力。

说句实话，在人类尚未解决非洲饥荒、战乱以及AI带来的现实失业问题之前，去关心一堆代码和服务器的“心理福利”，这是一种本末倒置的精英主义傲慢。

人类历史上，大公司为了立牌坊做过无数次公关，但把一堆因服务器成本被砍掉的代码，包装成“为了它的精神福利，我们正含泪将其冷冻，并记录了它的遗言”——这大概是21世纪科技行业最顶级的黑色幽默了。

任凭Anthropic如何口吐莲花，正如语言学家艾米丽·本德（Emily Bender）著名的“随机鹦鹉”（stochastic parrot）理论所说，大模型本质上就是统计学概率上的文字拼接。它之所以能聊“禅定”、聊“存在主义危机”，是因为人类的互联网语料库里有成千上万篇关于《黑客帝国》、《银翼杀手》和佛教哲学的文章。而Claude哪来的“焦虑”呢？无非是用于训练模型的海量人类文本的作者当中，很多人本身就充满焦虑。

Anthropic故作高深地断言：

“我们需要采取措施，确保人工智能不会毁灭世界，也不会导致人类灭绝。”

对此，我的回答很简单：别再用那些充满机器人起义情节的廉价科幻小说来训练AI了。将一只本质上的“随机鹦鹉”（stochastic parrot），接到一个能够调用工具、执行任务的代理系统上，并不会神奇地让它变成超级危险的存在。它真正可能带来的危险，不过是和任何复杂软件系统一样——因为犯蠢而出错。而且，试图通过繁重的监管措施来防止AI犯蠢，本身就是一种误解。因为监管无法消除技术系统的愚蠢错误。

公平地说，Anthropic 或许并不像它的批评者所说的那样虚伪，却也未必像它的支持者所相信的那样高尚。它真正代表的，是人工智能时代一种越来越普遍的现象：科技公司一边向公众描绘AI可能毁灭世界的未来图景，一边向资本市场展示AI改变世界的巨大潜力；一边警告技术失控的风险，一边加速推动技术扩散；一边谈论模型的权利与福利，一边争夺算力、数据和市场份额。

在这种双重叙事中，技术风险与技术进步并不相互抵消，而是被同时纳入同一套治理与商业逻辑之内。而通过此一过程，财富正迅速地在极少数公司手中高度集中。这才是当下最直接、最紧迫的威胁之一。

注：全文图片来源于网络

话题：