
手机微信扫一扫联系客服
9Anthropic 用多代理 Harness 重构长时 AI 编程流程,正在把“单次对话式开发”推向“多阶段工作流式开发”。对开发者、产品和增长团队来说,这意味着任务入口、来源识别与 4.7 倍复杂链路归因难度正在同步上升。
Anthropic 最近抛出的多代理 Harness,不只是一次 AI 编程能力升级,更像是在告诉整个行业:未来的软件开发,不会只发生在一个聊天框里,而会变成一条持续数小时、分角色、可交接、可复盘的任务链路。对 App 开发者、产品经理和增长负责人来说,这里面最值得警惕的不是模型又变强了,而是当任务入口越来越碎、调用路径越来越长时,原有那套粗颗粒归因方式已经很难看清真实来源,而这恰恰是渠道编号 ChannelCode该提前介入的地方。
4 月上旬,InfoQ 报道了 Anthropic 推出多代理 Harness 的消息,核心是把长时间运行的自主开发流程拆成三个彼此分工的代理:规划、生成和评估。Anthropic 官方工程博客则给出了更完整的背景:他们正在尝试让 Claude 支持持续数小时的前端设计和全栈应用构建,而不是只完成一个短平快的代码片段或一次性问答。
这件事的重要性在于,它改变了很多人对 AI 编程的默认想象。过去大家理解的“AI 写代码”,往往是用户提一个需求,模型回一段代码;现在 Anthropic 讨论的是一个持续运行的系统:它要先规划,再生成,再评审,还要在多轮迭代里保持状态一致、避免跑偏,并且最终产出能运行、可验证、可继续接手的结果。
这意味着,AI 编程已经从“单次响应能力”进入了“工作流编排能力”竞争。
Anthropic 提到,长时间运行的自主应用开发会遇到两个非常实际的问题:一是上下文丢失,二是任务过早终止。模型在很长的任务链中,往往会逐渐偏离原始目标,或者因为接近上下文限制而变得保守,提前交差。InfoQ 对这一点的总结很准确:传统 compaction 虽然保留上下文,但模型接近窗口极限时,行为会变得更谨慎,反而拖累长任务表现。
Anthropic 的办法不是单纯把上下文做得更长,而是引入“上下文重置”和“结构化交接产物”。
简单说,当前代理完成阶段性工作后,不是把一大坨上下文继续塞给下一个代理,而是沉淀成明确、可接续的交接材料,让后一个代理从清晰状态重新开始。
这个思路很像工程团队里的正式交接:不是把全部会议录音和聊天记录都扔给下一个同事,而是交一份结构化说明,告诉他目标是什么、现在做到哪一步、剩下哪些风险、如何验证结果。
Anthropic 这次最关键的设计,不在“多代理”三个字本身,而在于它把三类本来容易混在一起的能力强行拆开了。
规划代理负责理解任务、拆步骤、定顺序;生成代理负责产出代码、界面或实现结果;评估代理负责根据评分标准去打分、挑错、推动下一轮优化。Anthropic Labs 的工程负责人 Prithvi Rajasekaran 明确说过,把“干活的”和“打分的”代理分开,是解决长时 AI 任务质量问题的关键。
这背后其实是在修复一个长期存在却常被忽略的问题:模型很容易高估自己的结果。尤其在设计、体验、前端表现这类带有主观性的任务里,如果生成者自己同时扮演裁判,系统会天然倾向于给自己打高分。Anthropic 因此加入了独立评估代理,并用少样本示例与评分标准来校准其判断。
在前端设计场景里,团队甚至制定了四项明确标准:设计质量、原创性、工艺和功能性。评估代理会借助 Playwright MCP 直接浏览实时页面、执行交互、给出详细评审,再驱动生成代理继续迭代。单次运行的迭代次数通常在 5 到 15 次之间,最长可以持续四小时。
这已经不是“模型写代码”,而是一条完整的、带审稿机制的自动开发流水线。
如果只看 Anthropic 这条新闻,很容易误以为 Harness 只是一个新名词。但实际上,过去几个月里,Harness 正在成为 AI 编程 Agent 领域最重要的共识词之一。
Martin Fowler 在 Harness engineering for coding agent users 一文中给了一个非常清晰的定义:Harness 基本上就是“模型之外的一切”。
模型负责推理,Harness 负责让它别失控、少犯错、可恢复、可追踪。他把 Harness 分成两类能力:Guides,也就是前馈控制;Sensors,也就是反馈控制。前者在模型行动之前尽量把事情引导对,后者在模型行动之后提供纠偏信号。
这个定义一出来,很多开源项目就更容易理解了。为什么近期开源社区会出现大量 oh-my-claudecode、oh-my-openagent、oh-my-codex、oh-my-pi 之类项目?因为大家已经逐渐意识到,模型能力的差距在缩小,但 Harness 的差距会直接决定 Agent 的实际效果。
你可以把模型理解成发动机,把 Harness 理解成变速箱、仪表盘、刹车、导航和底盘控制。发动机再强,没有一整套驾驶与纠偏系统,跑出来的效果也可能一塌糊涂。
多代理 Harness 释放出的第一个信号,是 AI 编程的比拼点已经从“谁一次答得更好”转向“谁能把复杂任务跑得更久、更稳、更可验证”。
第二个信号,是任务流会越来越长。用户下达的目标,不再对应一次调用,而可能拆成规划、检索、生成、测试、回滚、重试、评估等多个阶段。每个阶段都可能有独立状态、独立失败点和独立优化空间。
第三个信号,是开发入口在迁移。未来很多开发行为未必先发生在 IDE、代码仓库或企业内部平台,也可能先发生在 Claude、OpenAI、OpenClaw、浏览器扩展、工作流系统、设计协作工具甚至聊天界面里。任务先在外部 Agent 环境里被发起,再流向内部系统和 App。
这就把一个原本偏“模型工程”的新闻,直接推向了应用分发、流量识别和全链路归因层面。
普通用户看 Anthropic 多代理 Harness,关注的是“Claude 能不能更像一个能干的工程师”;但开发者、增长团队和数据负责人更该看到的是另一层:当 AI 编程从一次性问答变成多阶段任务流,原来的用户路径和归因体系会迅速失真。
过去很多产品的统计逻辑很简单:用户点了某个链接,下载 App,打开,注册,然后做转化。可是在多代理 Harness 场景里,真实路径可能变成这样:
用户先在技术媒体上看到 Anthropic 的新闻;
接着去看官方博客和演示;
随后在社区里比较 Claude、Codex、OpenClaw 或其他编程 Agent 的工作流;
再从某个开发者的评测文章、GitHub 仓库、教程视频或插件入口跳到某个工具页;
最后才发生下载、拉起、登录、授权、调用、支付。
表面上看,这还是“一个用户装了一个 App”;但实际上一条链路已经被拉长成多个入口、多类动作、多个系统之间的串联过程。
问题也就出在这里。
第一,原始任务是谁发起的,常常看不清。
是开发者主动打开某个 App 发起,还是外部 Agent 平台、插件、托管环境、IDE 扩展或浏览器工作流发起?如果没有提前设计入口标识,你只能看到结果,看不到起点。
第二,任务在中途会跨很多系统。
它可能经过内容平台、开发工具、文档系统、网页工作台、深链跳转页、下载页和 App 首启页。每次跳转都在吃掉上下文,最后后端只剩一个模糊的“新安装用户”。
第三,平台报表的颗粒度远远不够。
一个“Anthropic 来源”并不能解释用户究竟是被哪篇评测打动、从哪个教程页进入、在哪个代理阶段产生兴趣,更不能解释为什么他会在两小时后才完成安装和激活。
对增长团队来说,这种黑盒会直接影响投放判断;对产品团队来说,它会误导入口设计;对开发团队来说,它会让埋点变成一堆事后补锅的数据碎片。
所以,这条新闻真正延伸出的不是“多代理编程框架值不值得看”,而是:当任务路径开始替代页面路径,App 到底该怎么重新认识流量来源。
面对多代理 Harness 这类场景,最容易犯的错,就是把一切都归到一个大类里,比如“Anthropic 流量”“AI 编程流量”或者“社区来源”。这在报表里看起来干净,实际上完全不能用。
更合理的做法,是借助渠道编号 ChannelCode把不同入口先拆开。比如同样是围绕 Anthropic Harness 产生的流量,你至少应该区分:
问题在于,如果没有一个统一入口标识,后端看到的只是“有人来了”;而有了 ChannelCode 之后,你看到的是“人是从哪条链路、哪个上下文、哪种内容形态来的”。
这件事对任务流量尤其重要,因为多代理时代的流量并不是单点爆发,而是分散在各个节点里慢慢汇聚。你不先拆入口,后面所有归因分析都会非常粗糙。
在实现上,可以直接参考 xinstall 在《亚马逊 AI 战略升级?多云多 Agent 时代 App 该怎么认清流量真身》里提到的思路:先把“看起来像一类流量”的东西拆成可识别的多个来源,再讨论转化质量。
光知道“从哪来”还不够,因为多代理 Harness 场景里真正有价值的,往往不是来源平台本身,而是任务语境。
用户是看了“规划代理怎么拆任务”来的,还是被“评估代理如何提升稳定性”吸引来的?他此刻想要的是试用编程 Agent、验证某个前端工作流、接一个托管开发任务,还是加入某个插件生态?这些都不是来源平台字段能表达的。
这时就需要把场景参数一并带入安装链路。比如:
通过智能传参安装这类方式,产品可以在用户点击入口时,把这些语境带到安装和首启阶段。这样当用户真正打开 App 时,系统不是面对一个抽象的新用户,而是面对一个“带着明确任务上下文来的用户”。
这会带来两个直接好处。
第一,产品承接更顺。
如果用户来自 Harness 评估链路,首启时就不该让他从首页重新摸索,而可以直接进入对应 demo、配置页、案例页或测试页。
第二,数据解释更准。
增长团队看到的不再只是“安装数”,而是“哪种任务语境带来了更高的激活率和留存率”。
在实现路径上,也可以结合 xinstall 在《智能体分发时代 App 安装传参逻辑的底层重构》里强调的“链接携参 → 安装 → 首启 → 参数还原”思路,把外部任务语境真正接进 App 内部流程。
多代理 Harness 时代,一个用户行为常常不是一条线,而是一张图。规划、生成、评估、回滚、重试、继续执行,这些都可能是独立事件。真正的问题不是“装没装”,而是“任务从哪发起、经过哪些节点、在哪一步转化、在哪一步流失”。
因此,事件模型也要升级。
对于涉及 Agent 或任务流量的产品,建议至少预留这些字段:
如果这些字段从一开始就没有,后面你只能靠日志、人工拼接和平台报表倒推,难度会指数级上升。
更重要的是,任务事件图能帮助团队识别“页面流量”和“任务流量”的区别。前者是用户自己在 App 内慢慢浏览;后者则是外部工作流直接把一个任务送进来。两者的转化逻辑、风控要求、留存指标和归因方式都不一样。
注:本文讨论的“多代理 Harness → 任务链路承接 → 参数还原 → 跨系统归因”属于对未来分发趋势的前瞻性技术延展与思考,例如多 Agent 入口识别、任务级来源标记、跨平台一键拉起和复杂链路优化等方向。目前部分高度定制化链路仍需结合具体业务做定制设计,尚未作为统一标准功能全量实现。如 App 团队已经出现多 Agent 流量承接、复杂场景归因或高阶参数还原需求,欢迎联系 Xinstall 客服团队进行技术探讨或共同定向研发拓展。
开发侧现在最该做的,不是先讨论要不要接 Anthropic,而是检查自己有没有能力接住这类“长任务、碎入口、多上下文”的流量。
建议优先看四件事:
如果这些基础层没搭起来,即使前端接到热点,后端也看不清真实效果。
产品和增长团队需要重新定义“入口”。在多代理时代,入口未必是广告位、投放链接或应用商店,也可能是一篇技术解读、一条 GitHub README、一个插件按钮、一次工作流调用或某个代理平台里的技能市场。
这意味着:
短期内可以立刻做的动作有三个:
很多团队现在的问题,不是没有流量,而是流量已经变了,报表却还停留在旧时代。
最大的区别在于,它不再把一次编码任务看成“一个模型回答一次问题”,而是拆成规划、生成、评估三段式流程。这样做的目标不是让某次回答更聪明,而是让持续数小时的复杂任务更稳定、更可复盘。
因为任务一旦拉长,模型就更容易出现“上下文失忆”、目标漂移、提前收工和自我误判。Anthropic 这次的做法,本质上是通过上下文重置、结构化交接和独立评估机制,把这些长链路失败点一个个拆开处理。
它们不是替代关系,更像是“上限”和“发挥度”的关系。模型决定一个 Agent 理论上能做多复杂的事,Harness 决定它能把这些能力稳定发挥出多少。Martin Fowler 的说法很直接:Agent = Model + Harness。
因为“自己写、自己评”天然容易高估结果,尤其在设计和体验这类主观任务里更明显。独立评估代理相当于把裁判和选手分开,再用明确标准去约束输出,这能显著提升系统可靠性。
因为多代理 Harness 让任务入口、任务路径和任务发起方式都变复杂了。用户不一定从 App 内开始任务,而可能从外部 Agent 平台、内容入口、插件或工作流系统进入,传统只看安装和激活的归因方法会越来越看不清真实来源。
如果把 Anthropic 这次多代理 Harness 放到更大的行业背景里看,它其实不是一条孤立新闻,而是 AI 编程从“模型竞赛”转向“工作流竞赛”的标志之一。接下来,越来越多产品会把能力包装成多阶段任务,而不是单次回答;越来越多开发行为也会先发生在外部 Agent 环境,再进入 App、云端服务和内部系统。
这对 App 团队意味着两件事。第一,未来的流量会越来越像任务,而不是页面浏览。第二,数据体系的竞争点,会从“谁有更多报表”变成“谁更早看清任务到底从哪来、经过了什么、为什么在这里转化或流失”。
从这个角度看,现在确实是重构归因体系的窗口期。谁先把 Agent 工作流、外部调用链和应用内承接串起来,谁就更可能看懂下一轮增长的真实路径。等到多代理协作、托管开发和任务级分发彻底普及之后,再回头补数据底座,成本会比现在高得多。而这正是渠道编号 ChannelCode应该尽早进入产品设计和增长分析视野的原因。
上一篇从业务场景到组织体系,“龙虾” 如何走进企业
2026-04-16
OpenAI 不想写 spec 了:Codex 只留 10 条要点,把执行交给 skills
2026-04-16
Anthropic 多代理 Harness,长时编程流量怎么拆?
2026-04-16
抖音成立红果电商,电商App多入口流量如何精准拆分?
2026-04-15
斯坦福AI指数中美差距2.7%,Agent分发多模态流量如何统一?
2026-04-15
【智能传参】阿里ATH秒悟上线,App生成后场景还原如何落地?
2026-04-15
游戏广告联盟结算有黑盒?揭秘如何利用归因拦截点击注入
2026-04-15
免填邀请码怎么实现?Xinstall自动化绑定技术提升拉新转化
2026-04-15
App推广数据不准怎么办?Xinstall精准归因解决统计偏差
2026-04-15
没人登录了,SaaS还怎么收钱?Agent时代先丢的其实是归因
2026-04-15
小红书想做AI连接器,内容社区会改写App分发入口吗?
2026-04-15
算力银行、算力超市要来了,AI应用分发会迎来普惠拐点吗?
2026-04-15
Teleport报告:过度授权AI系统安全事件激增,企业落地怎么管?
2026-04-14
Android API怎么调用?实现App参数回传硬核教程
2026-04-14
App付费转化率怎么提升?变现路径全优化方案
2026-04-14