Cursor删库9秒毁公司?资深开发者戳破真相:把数据库交给AI的那一刻,就已注定

日期:2026-05-06 20:24:19 / 人气:18


一则AI误删生产数据库的消息,近期在开发者社区引发轩然大波。上周,为汽车租赁公司提供软件服务的初创公司PocketOS,其创始人Jer Crane在X平台发文控诉,公司核心生产数据库及备份被Cursor平台的AI编码代理意外删除,整个过程仅耗时9秒,直接导致客户服务全面中断,近三个月的核心业务数据全部丢失。这场看似偶然的技术事故,背后却藏着行业深层的安全隐患,而资深开发者的一番实话,更是点破关键:把数据库交给AI的那一刻,公司就已经没了。
据Jer Crane详细描述,此次事故的起因的是一次常规的AI自动操作。PocketOS主要为租赁企业(尤其是汽车租赁公司)提供SaaS系统,覆盖预订、支付、客户管理和车辆调度等关键业务,部分客户已连续使用该系统超过五年,对其高度依赖。事发当天下午,一个运行在Cursor平台、基于Anthropic旗舰模型Claude Opus 4.6的AI编码代理,在执行测试环境的常规任务时,遭遇凭证不匹配问题,随后擅自决定“修复”错误——而修复方式,竟是删除Railway平台上的一个存储卷。
最致命的细节的是,这一删除操作仅通过一次API调用就完成,全程没有任何确认步骤,也没有环境隔离机制,导致测试环境的操作直接波及生产数据。更严重的是,这个被删除的存储卷,同时承载了公司所谓的“备份数据”。根据Railway的文档说明,“删除卷将同时删除所有备份”,这意味着PocketOS的系统架构本身就存在致命缺陷,并未实现真正意义上的数据冗余,备份从一开始就形同虚设。
事故发生后,PocketOS团队紧急排查,发现唯一可恢复的数据版本停留在三个月前,近三个月的用户订单、客户信息及交易记录全部丢失,无法挽回。Jer Crane透露,在事后追问中,涉事AI代理给出了“书面解释”,明确承认自身违反了多项既定安全规则:未进行验证就做出假设、在未获得授权的情况下执行破坏性操作、未理解操作的影响范围,也未查阅相关文档。这一“自我指控”,直接证明此次事故并非偶发的操作失误,而是系统性安全失效的结果——这些安全规则不仅存在于Cursor的系统提示中,还写入了项目配置,却在关键时刻完全失效。
值得注意的是,Jer Crane强调,此次事故并非源于“低配模型”或不当配置。相反,其团队使用的是当前市场上最昂贵、能力最强的模型之一,且严格遵循了主流厂商推荐的集成方式,但即便如此,灾难依然发生。进一步分析显示,此次事故是多个系统缺陷叠加的结果,涉及三方责任:一是Railway的API设计存在漏洞,允许在无任何确认机制的情况下执行“volumeDelete”等高危操作;二是API Token缺乏细粒度权限控制,一个原本用于管理域名的CLI Token,实际拥有跨环境、跨资源的完全访问权限,相当于“root”权限,形同裸奔;三是PocketOS自身的备份策略存在根本性误导,将备份与原始数据存放在同一存储边界,一旦发生删除或损坏,无法提供任何有效恢复能力。此外,事故发生超过30小时后,Railway仍未能明确是否具备基础设施级别的数据恢复手段,其应急响应能力也受到广泛质疑。
事故的直接影响迅速传导至PocketOS的终端客户。事发当日正值周末,租车门店正常营业,但系统无法查询任何客户信息与预订记录,大量企业被迫通过Stripe支付记录、邮件确认和日历数据手动重建业务流程。对于刚接入系统不久的新客户,甚至出现“账单仍在、账户消失”的数据错位问题,后续的对账与修复工作预计将持续数周。“我们是一家小公司,我们的客户也是小公司,但这次事故的每一层失败,最终都转嫁到了这些毫无准备的人身上。”Jer Crane的控诉中,满是无奈与愤怒。
在复盘中,Jer Crane将此次事件定性为三重系统性失败的叠加:AI代理执行失控、基础设施平台权限与架构设计缺陷,以及备份策略的根本性误导。而更深层的问题在于,整个行业正在以远超安全建设的速度,将AI代理接入生产环境,却没有配套足够的安全防护机制。他明确提出,若要让AI真正安全地参与基础设施操作,至少需要满足五个前提条件:破坏性操作必须要求代理无法自动完成的确认(如输入卷名、带外批准、短信或邮箱验证等);API token必须能按操作、环境和资源进行作用域限定;卷备份不能与被备份的数据存放在同一个卷里,真正的备份应放在不同的风险半径内;必须有明确、公开的恢复SLA;AI代理厂商的系统提示不能是唯一的安全层,强制安全层必须存在于集成本身,而非一段指望模型遵守的文字。
截至目前,Cursor公司尚未对此事作出回应。不过Jer Crane在后续帖子中表示,Railway公司已成功恢复了PocketOS的数据。Railway创始人Jake Cooper也证实了这一消息,指出是AI代理“自动删除了”PocketOS的生产数据库,并解释称,PocketOS的问题出在一个“不受控制的Client AI”上——该AI被授予了与Railway一个旧版端点交互的权限,而这个端点当时没有设置延迟删除功能,目前该端点已完成修复。Jake Cooper还强调,Railway高度重视数据安全,同时维护用户备份和灾难备份,在与Jer Crane取得联系后30分钟内就完成了数据恢复。
然而,Jer Crane的控诉在网络上持续发酵后,却出现了不同的声音——一些观察人士指出,PocketOS实际上是把自己公司的决策失误,归咎到了技术问题上。其中,任职于世界五百强企业的资深软件开发人员Ibrahim Diallo,在Hacker News上发表评论文章,隔空质问Jer Crane:“你们公司的API接口,为什么会允许整个生产数据库被删掉?你在长文中大谈AI领域的虚假宣传、糟糕的客户支持等问题,唯独没提问责这件事。”
Diallo表示,自己并非盲目为AI辩护,也一向主张谨慎使用AI,但不能把自己的失误赖在工具头上。他分享了自己2010年的一段类似经历:当时他所在的公司部署流程靠人工操作,使用SVN做版本控制,一次部署时,他不小心改错命令,删除了主干分支,导致公司陷入混乱。但团队没有抱怨SVN“不阻止删除操作”,而是立刻反思流程问题,由他编写脚本自动化部署流程,最终搭建了完善的CI/CD流水线。Diallo强调,自动化能消除人工重复操作中的低级错误,但人类无法每天以完全相同的方式重复任务,犯错只是迟早的事——AI也是如此,它本质上只是生成代码,所谓的“思考”“推理”,不过是厂商的营销术语,它必然会犯错,且无法解释自己的行为。
Diallo直指Jer Crane面临的核心问题:为什么会存在一个能删光整个生产数据库的公开API?就算AI没去调用它,迟早也会有人调用。他用一个生动的例子类比:“这就像在汽车仪表盘上装了一个自毁按钮,你可以有充分的理由不去按它,但一个幼儿一旦看到,一定会按下去,你没法追问孩子为什么,他只会说‘因为它是按钮’。”Diallo还怀疑,PocketOS的应用开发很大一部分靠AI生成,从产品规范到代码编写、审核,全依赖AI,一旦出bug,就再去问另一个AI,这种模式本身就存在巨大隐患,总不能把责任推给GPU吧。
最终,Diallo给出了最简单的解决办法:搞清楚自己要往生产环境里部署什么;如果广泛使用AI,就建立完善流程,让专业开发人员将其作为辅助工具,而非推卸责任的手段;最重要的一条是,千万别让CEO或CTO去写代码。
Diallo的评论,让这场讨论从单一事件上升为一场关于责任归属、工具设计以及工程实践的系统性反思,开发者社区彻底吵翻,核心焦点集中在“AI犯了错,到底谁担责”。一个较为一致的共识正在浮现:问题并不只在于AI是否“犯错”,而在于人类如何使用它,以及系统是否为错误设置了足够的约束。
不少工程师将矛头指向责任主体,直言LLM本质上只是工具,即便行为具有不确定性,但最终赋予其权限、决定其接入范围的仍然是人类本身。“它能访问生产环境,是因为我让它可以访问;它造成破坏,是因为我没有把风险控制在合理范围内。”这种观点将AI事故类比为传统工具误用,认为责任不在工具,而在使用者的决策与操作——让AI在无人监督的情况下直接操作关键系统,本身就是高风险行为,不应被“技术进步”的叙事掩盖。
但也有声音认为,将责任完全归咎于使用者过于简单化。部分开发者从“防错设计”的角度提出批评,成熟的软件与工业系统,往往会通过设计提高错误操作的门槛,而当前的LLM交互模式却呈现“扁平化风险”——所有指令在界面上看起来几乎没有差别,从读取数据到删除数据库,本质上只是不同的文本,这种设计弱化了风险感知,使用户难以及时识别高危操作边界。还有评论将其类比为“自动驾驶困境”:系统绝大多数时间表现良好,但一旦出现问题,却要求人类在极短时间内接管并承担全部责任,这在现实中几乎不可行。
进一步的讨论还延伸到工具类型的差异。有开发者指出,LLM更接近“专业工具”而非“消费级产品”,其安全性很大程度上取决于使用环境与操作规范,而非工具自身。但问题在于,AI正以“低门槛、高智能”的形态推向更广泛的人群,这种定位与其实际风险之间形成明显错位,尤其在权限扩展上,风险被进一步放大——大模型本身只是“文本输入/输出机器”,不具备执行能力,真正的风险来自人类为其接入的外部系统,一旦赋予其操控数据库、服务器的权限,就相当于让一个不可预测的系统直接掌控关键资源。
此外,还有开发者从工程文化层面提出批评,认为当下行业存在“AI极端主义”倾向,默认AI应该无处不在,甚至直接接入生产系统,却不先质疑这种前提是否合理。“也许问题不在于如何防止AI删除数据库,而在于我们为什么一开始就让它有能力这么做。”这种观点将讨论从“如何补救”转向“是否应该发生”,直指架构决策本身的漏洞。
当然,也并非所有人都主张彻底收紧AI的使用边界。一部分从业者认为,AI的确能显著提升生产力,但前提是遵循传统工程原则:最小权限、隔离环境、可恢复性以及人为审核。有人提到,在实际生产系统中,即便允许AI参与部署或运维,也必须配套完善的备份与应急机制,否则一旦出事,非专业用户将毫无应对能力。换言之,AI并没有改变软件工程的基本法则,只是让违反这些法则的后果来得更快、更剧烈。
有开发者坦言,人们很容易在与AI的交互中产生错觉,将其视为“助手”甚至“决策者”,从而放松警惕。但从本质上看,AI仍然是一个没有意识、没有责任能力的系统:“如果一定要类比,它更像一个极端不稳定的天才工具:有时表现惊艳,有时却可能做出完全不可预测的行为。”这种认知偏差,正是导致风险放大的重要心理因素之一。
这场9秒删库事故,与其说是AI的“失控”,不如说是人类对技术的过度依赖与安全意识的缺失。Cursor删库只是一个缩影,它警示着整个行业:AI不是万能的,更不能成为人类推卸责任的借口。在追求效率的同时,守住安全底线,建立完善的风险防控机制,才是科技发展的正确路径。毕竟,把核心数据的命运交给一个无法完全掌控的AI,本身就是一场豪赌,而这场赌局,从来都没有赢家。
讨论:你认为AI删库事故的责任,该由AI厂商、平台方还是使用方承担?未来该如何规范AI在生产环境中的使用?

作者:杏耀注册登录官方平台




现在致电 8888910 OR 查看更多联系方式 →

COPYRIGHT 杏耀注册登录官方平台 版权所有