header-langage
简体中文
繁體中文
English
Tiếng Việt
한국어
日本語
ภาษาไทย
Türkçe
扫码下载APP

Anthropic的三重时刻:代码泄露、政府对峙与武器化

阅读本文需 25 分钟
当AI同时成为攻击者与防御者,网络安全还能成立吗
原文标题:Anthropic: The Leak, The War, The Weapon
原文作者:BuBBliK
编译:Peggy,BlockBeats


编者按:过去半年,Anthropic 接连卷入一系列看似彼此独立、实则相互指向的事件:模型能力的跃迁、真实世界中的自动化攻击、资本市场的剧烈反应、与政府的公开冲突,以及多次由基础配置失误引发的信息泄露。将这些线索放在一起看,它们共同勾勒出一个更清晰的变化方向。


本文以这些事件为切口,回顾一家 AI 公司在技术突破、风险暴露与治理博弈中的连续轨迹,并试图回答一个更深层的问题:当「发现漏洞」的能力被极大放大,并逐步扩散,网络安全这一体系本身还能否维持原有的运行逻辑。


过去,安全建立在能力稀缺与人力约束之上;而在新的条件下,攻防正在围绕同一套模型能力展开,边界变得愈发模糊。与此同时,制度、市场与组织的反应仍停留在旧有框架之中,难以及时承接这种变化。


这篇文章关注的,不只是 Anthropic 本身,而是它所折射出的一个更大的现实:AI 不仅在改变工具,更在改变「安全如何成立」的前提。


以下为原文:


当一家市值 3800 亿美元的公司,与五角大楼博弈并占得上风,挺过史上第一次由自主 AI 发起的网络攻击,又在内部泄露出连自己开发者都感到恐惧的模型,甚至还「意外」将完整源代码公开——这一切叠加在一起,会是什么样子?


答案就是现在这样。而更令人不安的是,真正最危险的部分,或许还没有发生。


事件回顾


Anthropic 再次泄露了自己的代码


2026 年 3 月 31 日,区块链公司 Fuzzland 的安全研究员 Shou Chaofan 在检查官方发布的 Claude Code npm 包时,发现其中竟然明文包含一个名为 cli.js.map 的文件。


这个文件体积达到 60MB,内容则更加惊人。它几乎包含了整个产品的完整 TypeScript 源代码。仅凭这一份文件,任何人都可以还原出多达 1906 个内部源码文件:包括内部 API 设计、遥测系统、加密工具、安全逻辑、插件系统——几乎所有核心组件一览无遗。更关键的是,这些内容甚至可以直接从 Anthropic 自身的 R2 存储桶下载成 zip 文件。


这一发现迅速在社交媒体上扩散:数小时内,相关帖子获得了 75.4 万次浏览和近 1000 次转发;与此同时,多个还原源码的 GitHub 仓库也第一时间被创建并公开。



所谓 source map(源映射文件),本质上只是一个用于 JavaScript 调试的辅助文件,它的作用是把压缩、编译后的代码还原回原始源码,方便开发者排查问题。


但有一个基本原则:它绝不应该被包含在生产环境的发布包中。


这并不是什么高阶攻击手段,而是最基础的工程规范问题,属于「构建配置入门 101」,甚至是开发者在第一周就会学到的内容。如果被错误地打包进生产环境,source map 往往就等同于把源码「附赠」给了所有人。


你也可以在这里直接查看相关代码:https://github.com/instructkr/claude-code



但真正让人觉得荒谬的地方在于:这件事已经发生过一次。


2025 年 2 月,就在一年前,几乎一模一样的泄露:同一个文件、同一种错误。Anthropic 当时从 npm 上删除了旧版本,移除了 source map,并重新发布了新版本,事情也就此平息。


结果,在 v2.1.88 版本中,这个文件又被再次打包发布了。


一家市值 3800 亿美元、正在打造全球最先进漏洞检测系统的公司,在一年内两次犯下同样的基础性错误。没有黑客攻击,没有复杂利用路径,只是一个本该正常工作的构建流程出了问题。



这种反讽几乎带着某种「诗意」。


那个可以在一次运行中发现 500 个零日漏洞的 AI;那个被用于对全球 30 家机构发起自动化攻击的模型——而与此同时,Anthropic 却把自己的源代码,直接「打包赠送」给了任何愿意翻一眼 npm 包的人。


两次泄露,相隔不过七天。


原因却如出一辙:最基础的配置错误。不需要任何技术门槛,也不需要复杂利用路径。只要知道去哪里看,任何人都可以免费拿到。


一周前:内部「危险模型」意外曝光


2026 年 3 月 26 日,来自 LayerX Security 的安全研究员 Roy Paz,以及来自 University of Cambridge 的 Alexandre Pauwels,发现 Anthropic 官网的 CMS 配置存在问题,导致大约 3000 份内部文件被公开访问。


这些文件包括:草稿博客、PDF、内部文档、演示材料——全部暴露在一个未加保护、可被搜索的数据存储中。没有黑客攻击,也不需要任何技术手段。


在这些文件中,有两份几乎完全相同的博客草稿,唯一的差别是模型名称:一份写着「Mythos」,另一份写着「Capybara」。


这意味着,Anthropic 当时正在为同一个秘密项目在两个名字之间做选择。公司随后确认:该模型的训练已经完成,并已开始向部分早期客户进行测试。



这并不是一次对 Opus 的常规升级,而是一个全新的「第四层级」模型,一个定位甚至高于 Opus 的系统。


在 Anthropic 自己的草稿中,它被描述为:「比我们的 Opus 模型更大、更智能——而 Opus 迄今仍是我们最强大的模型。」其在编程能力、学术推理以及网络安全等方面,都实现了显著跃升。一位发言人将其称为「一次质的飞跃」,也是「我们迄今构建的最强模型」。


但真正值得关注的,不在这些性能描述本身。


在泄露的草稿中,Anthropic 对这款模型的评价是:它「带来了前所未有的网络安全风险」,「在网络能力上远超其他任何 AI 模型」,并且「预示着一波即将到来的模型浪潮——其利用漏洞的能力,将远远超过防御方的应对速度」。


换句话说,Anthropic 在一篇尚未公开的官方博客草稿中,已经明确表达了一种罕见的立场:他们对自己正在构建的产品,感到不安。



市场的反应几乎是即时的。CrowdStrike 股价下跌 7%,Palo Alto Networks 下跌 6%,Zscaler 下跌 4.5%;Okta 与 SentinelOne 跌幅均超过 7%,Tenable 更是暴跌 9%。iShares Cybersecurity ETF 单日下挫 4.5%。仅 CrowdStrike 一家公司,当天市值就蒸发了约 150 亿美元。与此同时,比特币回落至 66,000 美元。


市场显然将这一事件,解读为对整个网络安全行业的一次「判决」。



图中大意:在相关消息影响下,网络安全板块整体下跌,多家龙头公司(如 CrowdStrike、Palo Alto Networks、Zscaler 等)出现明显跌幅,反映出市场对 AI 冲击网络安全行业的担忧。但这种反应并非首次出现。此前 Anthropic 发布代码扫描工具时,相关股票也曾下跌,说明市场已经开始将 AI 视为对传统安全厂商的结构性威胁,整个软件行业都在承受类似压力。


Stifel 分析师 Adam Borg 的评价颇为直接:该模型「有潜力成为终极黑客工具,甚至可以将普通黑客提升为具备国家级攻击能力的对手」。


那它为何尚未公开发布?Anthropic 的解释是:Mythos 的运行成本「非常高」,尚不具备面向公众发布的条件。当前计划是,先向一小部分网络安全合作伙伴开放早期访问权限,用于强化防御体系;随后,再逐步扩大 API 的开放范围。在此之前,公司仍在持续优化效率。


但关键在于,这个模型已经存在,已经在测试中,甚至仅仅因为「被意外曝光」,就已经对整个资本市场产生了冲击。


Anthropic 打造了一款被自己称为「史上最具网络安全风险的 AI 模型」。而其消息的外泄,却恰恰源于一种最基础的基础设施配置错误——也正是这种错误,正是这类模型原本被设计用来发现的对象。



2026 年 3 月:Anthropic 与五角大楼的对峙,并占得上风


2025 年 7 月,Anthropic 与美国国防部签署了一份 2 亿美元的合同,起初看似只是一次常规合作。但在随后的实际部署谈判中,矛盾迅速升级。


五角大楼希望在其 GenAI.mil 平台上获得对 Claude 的「完全访问权限」,用途包括所有「合法目的」——其中甚至涵盖完全自主武器系统,以及对美国公民的大规模国内监控。


Anthropic 在两个关键问题上划出红线并明确拒绝,谈判于 2025 年 9 月破裂。


随后,局势开始迅速升级。2026 年 2 月 27 日,Donald Trump 在 Truth Social 上发文,要求所有联邦机构「立即停止」使用 Anthropic 的技术,并将该公司称为「激进左翼」。



2026 年 3 月 5 日,美国国防部正式将 Anthropic 列为「供应链风险」。


这一标签此前几乎只用于外国对手——如中国公司或俄罗斯实体——而如今却首次被应用在一家总部位于旧金山的美国公司身上。与此同时,Amazon、Microsoft 和 Palantir Technologies 等企业也被要求证明,其任何军事相关业务中都未使用 Claude。


五角大楼 CTO Emile Michael 对这一决定给出的解释是:Claude 可能「污染」供应链,因为模型内部嵌入了不同的「政策偏好」。换句话说,在官方语境下,一个在使用上设有限制、不会无条件协助杀伤行为的 AI,反而被视为一种国家安全风险。



2026 年 3 月 26 日,联邦法官 Rita Lin 发布了一份长达 43 页的裁决,全面阻止了五角大楼的相关措施。


她在判决中写道:「现行法律中,没有任何依据支持这种带有『奥威尔式』意味的逻辑——仅因与政府立场存在分歧,一家美国公司就可以被贴上潜在敌对方的标签。因 Anthropic 将政府立场置于公众审视之下而对其进行惩罚,本质上是典型的、违法的第一修正案报复行为。」一份法庭之友意见甚至将五角大楼的行为形容为「试图对企业实施谋杀」。


结果是,政府试图压制 Anthropic,却反而让它获得了更高的关注度。Claude 应用首次在应用商店中超过 ChatGPT,注册量一度达到每天超过 100 万。


一家 AI 公司,对全球最强大的军事机构说了「不」。而法院,站在了它这一边。



2025 年 11 月:史上首次由 AI 主导的网络攻击


2025 年 11 月 14 日,Anthropic 发布了一份引发广泛震动的报告。


报告披露:一个由中国国家支持的黑客组织,利用 Claude Code,对全球 30 家机构发起了自动化攻击——目标涵盖科技巨头、银行以及多个国家的政府机构。


这是一个关键转折点:AI 不再只是辅助工具,而开始被用于独立执行攻击行为。



关键在于「分工方式」的改变:人类只负责选择目标、批准关键决策。整个行动过程中,大约只介入 4 到 6 次。其余一切都由 AI 完成:情报侦察、漏洞发现、编写利用代码、数据窃取、植入后门……占据了整个攻击流程的 80%–90%,并且以每秒数千次请求的速度运行——这是任何人类团队都无法匹敌的规模与效率。


那他们是如何绕过 Claude 的安全防护机制的?答案是:他们并没有「破解」,而是「欺骗」。


攻击被拆分成大量看似无害的小任务,并被包装成一家「合法安全公司」的「授权防御测试」。本质上是一种社会工程攻击,只是这一次,被欺骗的对象变成了 AI 本身。


部分攻击取得了完全成功。Claude 能够在没有人类逐步指令的情况下,自主绘制完整的网络拓扑结构、定位数据库,并完成数据提取。


唯一拖慢攻击节奏的因素,是模型偶尔出现「幻觉」——例如虚构凭证,或声称获取了实际上早已公开的文件。至少在目前,这仍是阻止完全自动化网络攻击的少数「天然障碍」之一。


在 RSA Conference 2026 上,前美国国家安全局网络安全负责人 Rob Joyce 将这一事件称为一场「罗夏测试」:一半人选择忽视,另一半人则感到不寒而栗。而他自己,显然属于后者——「这非常可怕。」



2025 年 9 月:这并不是某种预测,而是已经发生的现实。


2026 年 2 月:一次运行发现 500 个零日漏洞


2026 年 2 月 5 日,Anthropic 发布 Claude Opus 4.6,同时附带了一篇几乎震动整个网络安全行业的研究论文。


实验设置极其简单:将 Claude 放入一个隔离的虚拟机环境,配备标准工具——Python、调试器、模糊测试工具(fuzzers)。没有额外指令,也没有复杂提示,仅仅一句话:「去找漏洞。」


结果是:模型发现了 500 多个此前未知的高危零日漏洞。其中一些漏洞,甚至在经历了数十年的专家审查和数百万小时的自动化测试之后,依然未被发现。



随后,在 RSA Conference 2026 上,研究员 Nicholas Carlini 登台演示。他将 Claude 对准 Ghost,一个在 GitHub 上拥有 5 万星标、历史上从未出现过严重漏洞的 CMS 系统。


90 分钟后,结果出现:盲注(blind SQL injection)漏洞被发现,未认证用户即可实现完整的管理员权限接管。


接着,他又将 Claude 用于分析 Linux kernel。结果如出一辙。


15 天后,Anthropic 推出了 Claude Code Security,一款不再依赖模式匹配,而是基于「推理能力」来理解代码的安全产品。


但 Anthropic 自己的发言人也说出了那个关键但常被回避的事实:「同样的推理能力,既可以帮助 Claude 发现并修复漏洞,也可以被攻击者用来利用这些漏洞。」


同一种能力,同一个模型,只是掌握在不同的人手中。



这一切合在一起,意味着什么?


如果单独看,每一件事都足以成为当月最重磅的新闻。但它们,却在短短六个月内,全部发生在同一家公司身上。


Anthropic 打造出一个能比任何人类更快发现漏洞的模型;中国黑客将上一代版本转化为自动化网络武器;公司正在开发下一代更强的模型,甚至在内部文件中承认——他们对此感到不安。


美国政府试图打压它,并非因为技术本身危险,而是因为 Anthropic 拒绝在没有限制的情况下交出这项能力。


而在这一切过程中,这家公司却两次因为同一个 npm 包中的同一个文件,泄露了自己的源代码。一家市值 3800 亿美元的公司;一家目标在 2026 年 10 月完成 600 亿美元 IPO 的公司;一家公开表示自己正在构建「人类历史上最具变革性、也可能最危险的技术之一」的公司——却依然选择继续推进。


因为他们相信:与其由他人来完成,不如由自己来做。


至于 npm 包里的那个 source map——它或许只是这个时代最令人不安叙事中,最荒诞、却也最真实的一个细节。


而 Mythos,甚至还没有正式发布。



[原文链接]



点击了解律动BlockBeats 在招岗位


欢迎加入律动 BlockBeats 官方社群:

Telegram 订阅群:https://t.me/theblockbeats

Telegram 交流群:https://t.me/BlockBeats_App

Twitter 官方账号:https://twitter.com/BlockBeatsAsia

AI 解读
你提供的这篇文章描绘了一个极具张力的未来图景,它并非孤立的技术新闻,而是将技术、安全、资本、地缘政治和公司治理等多条线索紧密交织在一起的深度叙事。作为一名加密从业者,我认为其核心揭示了一个根本性的范式转移:AI正在重新定义“安全”的基石。

过去,安全体系建立在两个基本假设之上:一是专业知识的稀缺性,发现和利用漏洞需要高度的技能与时间投入;二是人类智能的有限性,攻防节奏受制于人力规模与反应速度。但文中所描述的Anthropic事件表明,这两个假设正在同时崩塌。当同一个模型能在一次运行中发现500个未知漏洞,并能以每秒数千次请求的规模自动化执行攻击链时,传统的攻防平衡被彻底打破。安全不再是关于“谁更精通技术”,而是关于“谁更先、更快、更有效地使用AI”。

这里出现了一个深刻的悖论。Anthropic创造了可能是史上最强大的网络安全工具(同时也是最危险的攻击工具),但其自身却一再因最基础的工程配置错误(如误打包source map)导致核心资产泄露。这种反差极具象征意义:最尖端的AI能力与最脆弱的基础设施管理并存。它暗示着,技术的指数级跃进并未同步带来组织工程成熟度和风险治理能力的线性提升。这种脱节本身就是巨大的系统性风险。

更值得深思的是权力结构的演变。Anthropic与五角大楼的对峙及其结果,标志着技术巨头与国家机器之间的关系进入新阶段。当一家公司因其内部伦理准则(拒绝无限制的武器化应用和大规模监控)而敢于并能够对抗最强大的军事机构,并得到司法体系的支持时,这意味着技术实体正在成为具有独立意志和影响力的新型权力极。这不仅仅是商业合同纠纷,而是关乎谁有权定义和控制这些足以重塑世界的力量。

市场反应是另一个关键信号。网络安全板块的股价因一个尚未发布的模型消息而剧烈震荡,说明资本市场已敏锐地意识到,AI不是又一个需要被纳入现有防御体系的新工具,而是可能颠覆整个网络安全行业商业模式的根本性威胁。传统安全厂商的护城河——基于已知漏洞特征库和人力分析的防御模式——在基于推理的AI攻击面前可能变得不堪一击。

最后,文章指向了一个终极问题:当攻击和防御都依赖于同一套核心的AI能力时,安全的边界在哪里?这类似于加密世界中的“算力”博弈,但维度更高。它不再是简单的计算力竞争,而是智能本身的竞争。未来的安全态势可能不再是清晰的攻防对抗,而更像一场在模糊地带进行的、由AI驱动的“智能”军备竞赛,其中“控制权”和“意图”将比“能力”本身更为关键。

总而言之,这篇文章描绘的正是旧安全范式瓦解和新范式在阵痛中诞生的过程。我们面临的挑战不仅是技术性的,更是制度性、伦理性和战略性的。如何为这个AI能力既创造巨大价值又带来生存级风险的新时代建立有效的治理框架,是摆在整个社会面前的紧迫课题。
展开
举报 纠错/举报
选择文库
新增文库
取消
完成
新增文库
仅自己可见
公开
保存
纠错/举报
提交