首页/新闻中心/

行业洞察

AI写80%代码问错更麻烦，Agent任务如何精准归因？

Xinstall 分类：行业洞察时间：2026-04-02 09:45:45

304

OpenAI Codex总监Michael Bolin访谈，AI编码占比80-90%，但问题定义是新瓶颈。研发团队如何追踪Agent任务链路与协作归因？

当AI能写80%-90%的代码，工程师的核心从“写”转向“问对问题”，但Agent执行链路的追踪，却成了效率新杀手。

InfoQ翻译The Developing Dev播客，OpenAI Codex技术负责人Michael Bolin回顾20年工程实践，指出AI编程时代，提出正确问题比写代码更重要；Codex CLI/Web版迭代中，用户规模破百万，但本地 vs 云端部署引发新思考。AI 已能写 80% 代码，但 Agent 也有致命短板！OpenAI Codex 技术总监：问错了，比不会写更麻烦 SlopCodeBench研究证实，AI迭代代码易“结构侵蚀”与“冗余度”退化，人类维护代码质量更稳。

对App开发者，这意味着任务从人为转向Agent调度：谁发起、路径如何、效果归谁？

新闻与环境拆解

Codex负责人访谈+SlopCodeBench基准，揭示AI编程从“写”到“问”的范式转移。

Codex演进：从CLI到云端Agent

Codex CLI开源获万星，Web版支持容器化开发；VS Code扩展迭代，GPT-5后增长陡峭。周活超百万，80-90%代码由模型生成，调试/重构/PR拆分全自动化。

Bolin强调云端部署主流：GitHub issue触发Agent处理，消费级规模远超企业内网。

AI短板实锤：迭代越改越烂

SlopCodeBench测11模型，Claude Opus 4.6通过率仅17.2%；main()从84行胀1099行，圈复杂度285，9遍重复逻辑。开源仓库对比，AI“结构侵蚀”0.78，人类0.41。

“反slop”提示初始改善33%，但退化曲线平行，成本涨50%通过率反降。

历史镜像：工具自研驱动效率

Bolin从Google Calendar、Buck、Nucleide到Eden，强调“不满现状+快速原型”迭代；开源Buck获Uber/Airbnb采用，推动行业。

从新闻到用户路径的归因问题

AI写代码快，但“问错”放大错误；Agent接issue、拆PR、跑CI，链路碎片：本地CLI触发云端Harness？VS Code扩展调用哪工具？迭代中参数丢了谁负责？

传统日志混杂，无法拆“人类手动 vs Agent任务”；多模型（GPT/Claude）协作，来源不明；云本地切换，事件断裂。

工程实践：重构安装归因与全链路归因

渠道编号 ChannelCode：Agent入口唯一ID

问题：CLI/Web/扩展多入口，任务源头不明。

做法：Harness层嵌入ChannelCode，标记Codex CLI/VS Code等。《亚马逊 AI 战略升级？多云多 Agent 时代 App 该怎么认清流量真身》

好处：看板拆“Codex任务流量”占比，优化云部署ROI。

智能传参唤起：上下文无损迭代

问题：issue/PR参数复杂，跨工具丢“设计纪律”。

做法：DeepLink封装task_context、model_id，智能传参安装还原。《智能体分发时代 App 安装传参逻辑的底层重构》

好处：目标IDE启动续接，避免“越改越烂”。

参数还原与事件模型：迭代链路图谱

问题：93检查点多轮，结构侵蚀无迹可循。

做法：Session ID追踪从“问”到“审”全链。

好处：可视“需求定义->Agent执行->PR审查”损耗点。

注：本文探讨的Agent研发链路归因属于前瞻延展。目前高度定制链路尚未标准实现，如有需求，欢迎联系 Xinstall 客服探讨研发。

这件事和开发 / 增长团队的关系

面向开发 / 架构团队：
预留agent_platform、trace_id字段，支持云本地传参。测试Codex Harness兼容。

面向产品 / 增长团队：
Agent为新渠道，建立ChannelCode统计。定义“正确问题”入口，提升任务转化。

常见问题（FAQ）

AI编码占比80-90%，哪些仍需人工？

底层沙箱、系统细节手动；需求定义/PR审查/架构把控人类主导。

SlopCodeBench为什么AI通过率仅17%？

迭代“结构侵蚀”+“冗余度”退化；无长期设计纪律，短期最优导致烂尾。

Codex偏好云端原因？

本地限笔记本算力；云端接issue/PR/CD，规模百万用户。

Bolin职业关键经验？

“不满现状+原型验证”；选公司重视问题；开源招聘/贡献。

行业动态观察

Codex/SlopCodeBench双视角，AI编程上半场“写快”，下半场“问对+链稳”。

App团队需任务归因穿越Agent黑箱，抢研发生态份额。

文章标签：

TurboQuant 6倍无损压缩，AI模型分发如何渠道归因？

上一篇

苹果严打AI“氛围编程”，App分发脱轨后如何重构流量归因？

下一篇

热门文章

iOS Universal link验证失败，该如何配置-三步完成-Xinstall

2020-10-30

APP日活跃排行榜：揭示2025年最受欢迎的应用背后的秘密

2025-01-02

Xinstall可以做什么？

2020-11-13

sdk版本过低怎么解决 sdk版本过低怎么解决华为

2025-02-18

广告效果测定,广告效果评估的方法

2022-01-05

最新文章

Universal Links怎么配置？iOS通用链接唤醒原理解析

2026-06-30

黑石300亿美元AI数据中心？算力基建竞赛如何做

2026-06-30

美团LongCat-2.0大模型首发上线？万亿参数重塑算力格局

2026-06-30

URL Scheme怎么打开App？应用内跳转协议原理解析

2026-06-29

一键拉起App怎么做？跨端无缝跳转与场景还原原理解析

2026-06-29

谷歌算力告急限制Meta使用？大模型算力瓶颈拖垮巨头研发

2026-06-29

马斯克宣布今年每月发一个全新大模型？Grok 4.5拉响警报

2026-06-29

应用商店拦截后怎么归因？下载来源追踪原理解析

2026-06-26

广告监测链接怎么做？App安装来源追踪原理解析

2026-06-26

App传参安装怎么做？全渠道参数还原原理解析

2026-06-26

谷歌重组AI编程小组？追赶Anthropic的节奏被迫加速

2026-06-26

科大讯飞AI招采平台2.0如何重构流程？招投标开始进入全链路智能化

2026-06-26

携带参数安装怎么实现？安装传参与归因技术解析

2026-06-25

Agent Ready怎么落地？企业智能体进入统一管理时代

2026-06-25

360与惠普签署战略合作？AI安全与终端融合进入落地期

2026-06-25

免填邀请码安装

洞察广告推广效果

App地推助手

一键安装

安装后自动跳转绑定

社交分享效果统计

CPS/A推广结算统计

一键拉起

Android多渠道打包

友情链接

售前电话
180 4626 9997

新用户立省600元
首月最高300元