AI编程提速，没有看起来的那么美！

作者：

CBINEWS

责任编辑：

邹大斌

来源：

电脑商情在线

时间：

2026-01-05 11:13

关键字：

AI LLM 氛围编程软件开发

安德烈·卡帕西（Andrej Karpathy）是业内极少数无需过滤、值得直接倾听的人物之一。作为 OpenAI 的创始成员和特斯拉前人工智能总监，他站在 AI 及其可能性的巅峰。他在最近的一篇帖子中提出了一个既鼓舞人心又令人不安的观点：“如果我能恰当地整合过去一年左右涌现的工具，我的能力本可以提升十倍，”卡帕西写道，“而未能抓住这种提升，显然是一种技能问题。”

他的潜台词很明确：如果你今天的开发效率没有比 2023 年高出十倍，问题不在工具，而在你自己。这听起来似乎有道理……但又明显不对。毕竟，当前这一代大语言模型（LLM）工具所蕴含的杠杆潜力确实惊人。然而，他的整个论点都依赖于一个承担了巨大分量的副词：“恰当地”（properly）。

在企业环境中，代码往往要运行数十年而非数天，“恰当地”这三个字说起来容易，做起来却极其困难。越来越多的数据表明，对大多数开发者而言，“技能问题”并非不会写提示词（prompt），而是缺乏严格的验证能力。AI 带来的速度看似免费，但信任却代价高昂。

基于“感觉”的生产力陷阱

事实上，AI 的速度只是“看似”免费。今年早些时候，模型评估与威胁研究团队（METR）开展了一项随机对照试验：他们让经验丰富的开源开发者完成特定任务，其中一半使用 AI 工具，另一半则不用。使用 AI 的开发者坚信 LLM 让他们的开发速度提升了 20%。但现实却很残酷：使用 AI 的那组平均反而慢了 19%。

感知与现实之间竟有将近 40 个百分点的差距——这可真够疼的。

为什么会这样？因为我们越来越依赖“基于感觉的评估”（vibes-based evaluation，这一说法由 Simon Willison 首创）。生成的代码看起来没问题，而且瞬间就出现了。但当你进入“最后一公里”时，问题就暴露了：代码用了已弃用的库、凭空捏造了一个参数，或引入了微妙的竞态条件。

卡帕西这类言论很容易引发严重的“错失恐惧症”（FOMO）：“就连过去 30 天都没跟上的人，对这个话题的认知已经过时了。”也许如此。但尽管 AI 日新月异，有些东西却顽固地保持不变——比如质量控制。AI 编程助手本质上不是生产力工具，而是你必须用验证成本来买单的“责任制造机”。你可以提前支付这笔“信任税”（通过严格的代码审查、测试和威胁建模），也可以推迟支付（以事故、数据泄露和重构为代价）。但迟早，你都得付。

目前，太多团队以为自己能逃过这笔税，其实根本逃不掉。Veracode 发布的《生成式 AI 代码安全报告》指出，45% 的 AI 生成代码样本引入了 OWASP Top 10 列出的安全问题。仔细想想这意味着什么：

几乎每两次你未经严格审计就接受 AI 建议，就有一次可能将严重漏洞（如 SQL 注入、跨站脚本 XSS、访问控制失效）注入你的代码库。报告一针见血地讽刺道：“恭喜你提速成功，祝你享受数据泄露。”正如微软开发者倡导者 Marlene Mhangami 所言：“瓶颈仍然是交付那些你能维护、且有信心的代码。”

换句话说，我们正在以人工安全审查完全无法跟上的速度，积累着充满漏洞的代码。这印证了 SonarSource 一直在警示的“生产力悖论”：除非大力投资于质量门禁，否则更快的代码生成必然导致更快地积累 bug、复杂性和技术债。正如 SonarSource 报告所指出的，我们正在构建“只写型”（write-only）代码库——这些系统由非确定性代理生成，体量庞大、结构复杂，以至于没有任何人类能完全理解它们。

我们正越来越多地用长期可维护性，换取短期产出。这就像软件界的“糖分高潮”。

重新定义“技能”

那么，卡帕西错了吗？没有。当他声称自己能强大十倍时，他是对的——或许未必正好十倍，但精通 AI 的开发者确实能获得真实（或潜在）的性能提升。然而，他拥有的技能并不仅仅是“串联工具”的能力。

卡帕西内心深处对“好软件”有着深刻的理解，这使他能有效过滤噪声。他知道 AI 在什么时候很可能正确，什么时候又可能在胡说八道。但他是个极端例外，这也让我们再次回到那个棘手的词：“恰当地”。

因此，2026 年真正的技能问题不是提示工程（prompt engineering），而是验证工程（verification engineering）。如果你想获得卡帕西所说的那种提升，就必须把重心从“写代码”转向“批判代码”：

验证即新编程：你的价值不再由写出多少行代码定义，而取决于你验证机器输出的有效程度。
“黄金路径”必不可少：如我此前所述，不能放任 AI 自由发挥。你需要“黄金路径”——标准化、安全加固的模板。不要让 LLM 从头写数据库连接器，而是让它实现你安全平台库中已定义好的接口。
亲自设计安全架构：你不能简单告诉 LLM “把它弄安全”。你在威胁建模中嵌入的高层级思考，恰恰是 AI 目前仍无法可靠完成的部分。

所谓“恰当地串联可用工具”，绝不只是把 IDE 连上聊天机器人那么简单。它意味着要系统性地（而非盲目乐观地）思考 AI。这意味着要用一套完整的工具链来约束 LLM：包括代码规范检查（linting）、静态应用安全测试（SAST）、动态应用安全测试（DAST）以及自动化回归测试。

明年真正能强大十倍的开发者，绝不是那些盲目信任 AI 的人，而是那些把 AI 当作“聪明但极其初级的实习生”的人——他们知道 AI 能迸发天才火花，但也需要持续监督，以防它一不小心删了生产数据库。

技能问题确实存在，但关键技能不是速度，而是控制力。