陶哲轩谈AI：白领怎样用AI，才不把能力外包？-苏鑫的财新博客-财新网

当 AI 替你写完完美报告，谁在替你长本事？

6月12日，菲尔兹奖得主陶哲轩在欧洲数学会谈“学生应如何管理自己的AI饮食”。这场演讲最近在不少人的微信朋友圈里被反复转发。它讲学生，却问中了办公室：答案越来越快，人还会不会认真地想？

她是我认识的一位年轻白领。晚上九点四十，她还在赶用户分析，把访谈纪要、销售数据和竞品截图放进AI。十分钟后，完整报告出现在屏幕上：结构利落，措辞专业，图表建议也齐了。

她读到“用户流失可能与价格有关，尚待验证”时，还是删掉了“可能”和“尚待验证”。

第二天开会，主管问：“你为什么判断，用户真正的问题是价格，而不是信任？”

她答不上来。会后，她把报告转给我，只问：“我到底错在哪儿？”

深夜，报告仍开在电脑上，光标停在“用户流失主要源于价格”后面。我戴上VR眼镜，把白天匆匆掠过的一件事，留在眼前久一点。

虚拟桌面上还是那份报告。陶哲轩低头看那行被改过的字；Andrej Karpathy靠在椅背上，指间转着一支笔；Ethan Mollick合着笔记本，看着屏幕。

1. 陶哲轩：有些困难，不能替你省掉

陶哲轩先注意到的，不是图表，而是被删掉的两个词。他的手指停在那行字上方，像是在提醒：一句话变得有力，有时只是因为它把不确定性擦掉了。

陶哲轩谈“AI饮食”，不是劝人少用AI。他担心工具越方便，人越会跳过那些塑造能力的过程。

整理录音、统一格式、初筛资料、改写不同版本，都是人工摩擦：耗时，却未必让人更懂问题。理解客户为何迟疑，发现数据异常，在两个方案之间取舍，解释判断代价，则是自然摩擦。它们不舒服，却是职业判断长出来的地方。

他像是提醒：让AI整理一百页材料，通常是好事；让AI替你决定这一百页材料意味着什么，就得慢一点。

一个90后朋友曾说，过去生活好了，人得去健身；以后答案太多，人还得健脑。健脑不是故意把工作做慢，而是把低价值消耗交出去，把决定你能否被信任的难题留在手上。

让别人替你举铁，重量虽然举起来了，肌肉不会长在你身上。那位项目策划跳过的，不只是写报告的时间，而是弄明白“价格到底是不是根因”的过程。

Karpathy把笔放在“价格”下面，轻轻画了一条线。

2. Karpathy：它为什么能说得这么笃定？

“它把这句话写得很像一个结论。”Karpathy像是在问，“但它凭什么这样说？”

Karpathy是OpenAI早期创始团队成员、前特斯拉AI负责人，也常被技术圈称作“AI大神”。

大语言模型不是一座按书架找资料的图书馆。它的基本动作，是根据上下文预测下一个token：一个字、词的一部分，或一段表达。

听上去像接龙，却并不低级。为了猜准“下一步该说什么”，模型从大量文本、代码和对话中学到语言、常识和论证模式。因此，它能写报告、改程序、整理信息。

但它没有天然的事实责任。它更像一位练过无数乐曲、很会即兴接续的乐手：给它一个主题，它能迅速弹出完整、顺耳的旋律；但它不知道这段旋律对应的史实是否存在，数据是否可靠，结论能不能经得起追问。

今天的AI还会搜索网页、调用计算器、写代码、读文件，能把任务推进得很远；但在材料稀缺、前提含混或需要价值取舍时，仍可能自信地走偏。

危险恰恰在这里。自动驾驶只有三成可用时，驾驶者会一直握着方向盘；当它九成可用时，人反而开始走神。真正危险的，是剩下那一成：场景突然变化、前提悄悄错位，而且来不及补救。

AI没有统一的“智商分数”，更像起伏很大的能力地图：可能把商业分析写得漂亮，却在数据口径或关键前提上失手。

Karpathy像是把问题又推回桌面：别只问它聪不聪明。要问它会怎样错；你能不能看出来；错了要付出多大代价。

他在报告空白处写下三行：

候选答案，可以参考；
已核实的证据，要回到原始资料、数据或计算；
可执行的行动，要有人签字、有人负责。

Mollick看了一遍，手掌压在最后一行“有人负责”上。

3. Mollick：你能判断它的好坏吗？

“问题不在于谁写得更快。”Mollick像是在说，“而在于，谁能判断它写得对不对。”

Mollick是沃顿商学院教授，研究AI与工作协作。他提醒人们：AI最适合帮你完成已能判断好坏的工作；在学习一个领域、形成判断时，过早让AI代做，可能跳过最重要的练习。

工作可以分成两种模式。

交付模式里，纪要、初筛、摘要、格式整理、润色和基础表格处理，都可大胆交给AI。它们多是人工摩擦。

练功模式里，定义问题、理解客户、核对数据、比较风险、解释方案、做最后取舍，都可以请AI协助，却不能完全让它代劳。先想、先写、先和同事讨论，再让AI加入，通常比一上来就索要答案更有效。

Mollick把电脑转过来，打开一页空白文档。他像是先让她写下自己以为的问题是什么。

想、问、验、判、留

想：先写自己的初步判断。

问：让AI给出彼此竞争的解释。

验：回到事实、数据和原始材料。

判：明确自己保留什么、删掉什么、为什么。

留：保存初稿、核验过程与修改理由。

这不是提示词公式，而是一种不把思考外包的工作顺序。

她先写：“用户流失未必只是价格问题。访谈中多次出现‘不确定是否值得续费’，也许意味着他们不相信价格与价值匹配。”再让AI从价格、产品信任、服务体验三方面给出解释和证据；随后回到访谈、续费率、投诉记录，检查价格到底是根因还是表象。

最后，她把结论改成自己的话：“价格不是唯一问题；更关键的是，用户不相信自己获得的价值配得上这个价格。”

这些初稿、修改和核验痕迹，会慢慢变成能力账户。独立分析、核验事实、清楚解释和复盘错误，才是日后真正能带走的东西。

客户资料、合同、财务数据、个人信息和未发布策略，不能随手粘进未经批准的AI工具。

桌上摊着报告、访谈纪要和那页空白文档。三个人暂时都没有说话。一个人的使用习惯，最后会成为一个团队的工作方式。

4. 三个人都同意的一件事：高手多做的是流程

一个人能否验收AI，决定报告质量；一个团队怎样安排AI，决定错误会不会被放大。

高阶使用者和普通用户的差别，通常不在提示词更长，而在于他们会设计流程：生成、验证、判断和复盘，是四件不同的事。

他们会留下十到二十个真实案例：哪些任务做得好，哪些错误不能接受，哪些情形必须人工复核。换模型、换提示、换工作流，都用同一批案例测试。提示词像临场问路；真实案例更像出发前的路测。

他们也会让AI做红队，而不是做老板。AI可以找反例、挑漏洞、模拟客户质疑；但它不能替代真实讨论，更不能替代责任。

多模型一致也不等于真理投票：它们可能看过相似材料，继承相似盲点。验证仍要回到原始资料、数据、代码测试、专业判断，必要时还要回到现场。

成熟流程应当是：AI先生成；不同视角挑错；原始资料和数据核验；人负责目标、风险与最后决定。

真正稀缺的，不是能叫来多少AI，而是能否让错误被发现、被隔离、被修正。

当所有人都能很快交出“像样”的文本，职场价值会转向另一端：谁能定义问题、识别风险、判断成果是否可用。这样的人未必立刻成为管理者，却更可能从单纯执行走向负责项目、组织协作和承担结果。

5. 摘下VR眼镜以后

我摘下眼镜，电脑还停在那份报告上。光标仍落在“用户流失主要源于价格”后面。

我没有替她改掉那句话，只在批注里留下一问：“价格为什么是根因，而不是表象？”

半小时后，她把修改稿发回来。那句话被改成：“用户流失可能与价格有关，仍需结合续费率、投诉记录和访谈进一步验证。”

“可能”被放了回去。

这一次，它不再显得软弱，反而像一条重新牵回现实的证据线索。

AI时代最朴素的能力，也许不是拒绝答案，而是在答案来得太容易时，仍保留形成判断的机会。

话题：