手机微信扫一扫联系客服

联系电话:18046269997

AI写80%代码问错更麻烦,Agent任务如何精准归因?

Xinstall 分类:行业洞察 时间:2026-04-02 09:45:45 5

OpenAI Codex总监Michael Bolin访谈,AI编码占比80-90%,但问题定义是新瓶颈。研发团队如何追踪Agent任务链路与协作归因?

当AI能写80%-90%的代码,工程师的核心从“写”转向“问对问题”,但Agent执行链路的追踪,却成了效率新杀手。

InfoQ翻译The Developing Dev播客,OpenAI Codex技术负责人Michael Bolin回顾20年工程实践,指出AI编程时代,提出正确问题比写代码更重要;Codex CLI/Web版迭代中,用户规模破百万,但本地 vs 云端部署引发新思考。AI 已能写 80% 代码,但 Agent 也有致命短板!OpenAI Codex 技术总监:问错了,比不会写更麻烦 SlopCodeBench研究证实,AI迭代代码易“结构侵蚀”与“冗余度”退化,人类维护代码质量更稳。

对App开发者,这意味着任务从人为转向Agent调度:谁发起、路径如何、效果归谁?

新闻与环境拆解

Codex负责人访谈+SlopCodeBench基准,揭示AI编程从“写”到“问”的范式转移。

Codex演进:从CLI到云端Agent

Codex CLI开源获万星,Web版支持容器化开发;VS Code扩展迭代,GPT-5后增长陡峭。周活超百万,80-90%代码由模型生成,调试/重构/PR拆分全自动化。

Bolin强调云端部署主流:GitHub issue触发Agent处理,消费级规模远超企业内网。

AI短板实锤:迭代越改越烂

SlopCodeBench测11模型,Claude Opus 4.6通过率仅17.2%;main()从84行胀1099行,圈复杂度285,9遍重复逻辑。开源仓库对比,AI“结构侵蚀”0.78,人类0.41。

“反slop”提示初始改善33%,但退化曲线平行,成本涨50%通过率反降。

历史镜像:工具自研驱动效率

Bolin从Google Calendar、Buck、Nucleide到Eden,强调“不满现状+快速原型”迭代;开源Buck获Uber/Airbnb采用,推动行业。

从新闻到用户路径的归因问题

AI写代码快,但“问错”放大错误;Agent接issue、拆PR、跑CI,链路碎片:本地CLI触发云端Harness?VS Code扩展调用哪工具?迭代中参数丢了谁负责?

传统日志混杂,无法拆“人类手动 vs Agent任务”;多模型(GPT/Claude)协作,来源不明;云本地切换,事件断裂。

工程实践:重构安装归因与全链路归因

渠道编号 ChannelCode:Agent入口唯一ID

问题:CLI/Web/扩展多入口,任务源头不明。

做法:Harness层嵌入ChannelCode,标记Codex CLI/VS Code等。《亚马逊 AI 战略升级?多云多 Agent 时代 App 该怎么认清流量真身》

好处:看板拆“Codex任务流量”占比,优化云部署ROI。

智能传参唤起:上下文无损迭代

问题:issue/PR参数复杂,跨工具丢“设计纪律”。

做法:DeepLink封装task_contextmodel_id智能传参安装还原。《智能体分发时代 App 安装传参逻辑的底层重构》

好处:目标IDE启动续接,避免“越改越烂”。

参数还原与事件模型:迭代链路图谱

问题:93检查点多轮,结构侵蚀无迹可循。

做法:Session ID追踪从“问”到“审”全链。

好处:可视“需求定义->Agent执行->PR审查”损耗点。

注:本文探讨的Agent研发链路归因属于前瞻延展。目前高度定制链路尚未标准实现,如有需求,欢迎联系 Xinstall 客服探讨研发。

这件事和开发 / 增长团队的关系

面向开发 / 架构团队:
预留agent_platformtrace_id字段,支持云本地传参。测试Codex Harness兼容。

面向产品 / 增长团队:
Agent为新渠道,建立ChannelCode统计。定义“正确问题”入口,提升任务转化。

常见问题(FAQ)

AI编码占比80-90%,哪些仍需人工?

底层沙箱、系统细节手动;需求定义/PR审查/架构把控人类主导。

SlopCodeBench为什么AI通过率仅17%?

迭代“结构侵蚀”+“冗余度”退化;无长期设计纪律,短期最优导致烂尾。

Codex偏好云端原因?

本地限笔记本算力;云端接issue/PR/CD,规模百万用户。

Bolin职业关键经验?

“不满现状+原型验证”;选公司重视问题;开源招聘/贡献。

行业动态观察

Codex/SlopCodeBench双视角,AI编程上半场“写快”,下半场“问对+链稳”。

App团队需任务归因穿越Agent黑箱,抢研发生态份额。

文章标签:
TurboQuant 6倍无损压缩,AI模型分发如何渠道归因?
上一篇
苹果严打AI“氛围编程”,App分发脱轨后如何重构流量归因?
下一篇
编组 11备份{/* */}{/* */}编组 12备份编组 13备份形状结合
新人福利
新用户立省600元
首月最高300元