8.0
深览指数
科技虎嗅·曼谈AI©··AI 生成

Agent 交付结果,难在哪里?

本文提出Agent落地难的核心不在于模型能力,而在于三个组织与工程层面的问题:是否有可验证的验收标准、行业knowhow是否沉淀为可迭代的评估体系、以及出错后责任由谁承担。作者将“结果”分为业务级、产出级和步骤级三层,指出多数AI项目存在能力与期望之间的错配。文章的逻辑链是从评估闭环存在与否判断场景可行性,再深入到隐性知识显性化这一更本质的瓶颈,最后触及组织责任分配这一制度性障碍。适合正在落地AI Agent的产品经理、技术负责人和团队管理者读。

核心观点
  • Agent真正落地的瓶颈不在模型能力,而在于三个组织与工程问题:可验证的验收标准、行业knowhow的显性化与迭代、以及出错的问责机制。
  • 绝大多数AI项目的真实状态是:能力做到的是步骤级,故事讲的是产出级,期待的是业务级——这种错配是当下最常见的失败方式。
  1. 01作者将“结果”分为三个层次:最严格的业务级结果(有人要、可验证、闭环),次严格的产出级结果(有明确验收标准),最宽松的步骤级结果(完成一个任务步骤)。
  2. 02评估闭环早已存在的场景更容易跑通Agent:代码(编译器、测试、CI/CD)、广告(点击率、转化率、ROAS)、客服(问题解决率),AI只是接入了已有的反馈系统。
  3. 03评估闭环不存在的场景难以跑通:如招聘(‘简历好’与‘绩效好’相关性弱,真正目标需半年验证且被无数变量污染)、战略咨询、品牌创意。
  4. 04作者提出反直觉判断:AI能不能落地不能按行业整体切,要按任务切。同一行业内,有评估闭环的任务跑得通,没有的跑不通。
  5. 05评估闭环是行业几代人knowhow沉淀的产物:代码测试体系源自工程师实践,广告CTR体系源自营销效果衡量,客服指标源自运营经验。
  6. 06行业专家的真正价值不是“懂行业”,而是能把隐性判断显性化——把‘我看一眼就知道这份合同有问题’变成一组规则、评估集、标注流程。
  7. 07真正能跑通的Agent,其护城河在于一个飞轮:bad case从专家头脑中被识别,转化成评估标准,系统按此持续迭代,服务更多业务。这个容器被称为Harness。
  8. 08个人使用AI是在扩展自己,出错自己消化;组织使用AI是压缩成本,必须有人对结果负责,出错时被追责。这解释了‘个人拥抱AI、企业裹足不前’的现象。
反方 / 局限
  • 作者暗示的局限:绝大多数行业专家自己也说不清自己的判断标准,让隐性判断显性化的‘稀缺度远超过懂行业本身’,这是最难跨越的工程瓶颈。
  • 文章承认,模型每三个月升级一次,但组织重新分配责任、设计制度(如保险、分级风控)需要‘自己一步一步走’,Agent落地速度受后者制约。
曼谈AIHarnessAgent落地CI/CDROAS
9 分钟 · 4 卡片 · 12 资料
读原文 →

前置背景

平行视角

未来推演

延伸追问