深览-阅读与思考

8.0

深览指数

科技虎嗅·曼谈AI©·昨天 14:57·AI 生成

Agent 交付结果,难在哪里?

本文提出Agent落地难的核心不在于模型能力，而在于三个组织与工程层面的问题：是否有可验证的验收标准、行业knowhow是否沉淀为可迭代的评估体系、以及出错后责任由谁承担。作者将“结果”分为业务级、产出级和步骤级三层，指出多数AI项目存在能力与期望之间的错配。文章的逻辑链是从评估闭环存在与否判断场景可行性，再深入到隐性知识显性化这一更本质的瓶颈，最后触及组织责任分配这一制度性障碍。适合正在落地AI Agent的产品经理、技术负责人和团队管理者读。

核心观点

▍Agent真正落地的瓶颈不在模型能力，而在于三个组织与工程问题：可验证的验收标准、行业knowhow的显性化与迭代、以及出错的问责机制。
▍绝大多数AI项目的真实状态是：能力做到的是步骤级，故事讲的是产出级，期待的是业务级——这种错配是当下最常见的失败方式。

01作者将“结果”分为三个层次：最严格的业务级结果（有人要、可验证、闭环），次严格的产出级结果（有明确验收标准），最宽松的步骤级结果（完成一个任务步骤）。
02评估闭环早已存在的场景更容易跑通Agent：代码（编译器、测试、CI/CD）、广告（点击率、转化率、ROAS）、客服（问题解决率），AI只是接入了已有的反馈系统。
03评估闭环不存在的场景难以跑通：如招聘（‘简历好’与‘绩效好’相关性弱，真正目标需半年验证且被无数变量污染）、战略咨询、品牌创意。
04作者提出反直觉判断：AI能不能落地不能按行业整体切，要按任务切。同一行业内，有评估闭环的任务跑得通，没有的跑不通。
05评估闭环是行业几代人knowhow沉淀的产物：代码测试体系源自工程师实践，广告CTR体系源自营销效果衡量，客服指标源自运营经验。
06行业专家的真正价值不是“懂行业”，而是能把隐性判断显性化——把‘我看一眼就知道这份合同有问题’变成一组规则、评估集、标注流程。
07真正能跑通的Agent，其护城河在于一个飞轮：bad case从专家头脑中被识别，转化成评估标准，系统按此持续迭代，服务更多业务。这个容器被称为Harness。
08个人使用AI是在扩展自己，出错自己消化；组织使用AI是压缩成本，必须有人对结果负责，出错时被追责。这解释了‘个人拥抱AI、企业裹足不前’的现象。

反方 / 局限

— 作者暗示的局限：绝大多数行业专家自己也说不清自己的判断标准，让隐性判断显性化的‘稀缺度远超过懂行业本身’，这是最难跨越的工程瓶颈。
— 文章承认，模型每三个月升级一次，但组织重新分配责任、设计制度（如保险、分级风控）需要‘自己一步一步走’，Agent落地速度受后者制约。

曼谈AIHarnessAgent落地CI/CDROAS

9 分钟 · 4 卡片 · 12 资料

读原文 →

Agent 交付结果,难在哪里?

前置背景

平行视角

未来推演

延伸追问