一、为什么又做横评?
去年我还在知乎吹「vibe coding 是下一代 IDE」,今年就被现实狠狠教育了——
当代码量超过 6k 行、业务逻辑横跨正则路由 + 多模型 + 数据库 + XML 解析时,AI 工具第一次露出了「不理解上下文」的獠牙。
于是有了这次「接近真实使用场景」的测试:
选一个我本人维护的微信机器人屎山(30 个文件 / 6k 行),让各家 AI 在同一任务上裸奔——
在正则路由后面加一个 AI 路由节点。
要求只给一次 prompt、不人工补刀、能跑就行。
二、先放结论,再说过程
工具 | 一句话总结 | 得分 | 安全感 |
---|---|---|---|
Cursor | 万王之王,把「可控」写进 DNA | ✅ | 拉满 |
Claude Code | 最强重构力,但 0 容错,像核弹 | ✅ | 0 |
Augment | 爬屎山专用 GUI,可惜只能一把梭 | ✅ | 中 |
TRAE Chat | 功能最全,但跑一半就失联 | ⚠️ | 低 |
TRAE Builder / Solo | 步子太大扯到蛋 | ❌ | 极低 |
Kiro | 把写代码的责任甩给用户 | ❌ | 低 |
1️⃣ 预算充足:直接上Claude Code(200刀/月),写代码像开挂,但翻车就是全剧终
2️⃣ 普通人:Cursor(20刀/月)= 可控性+生产力的完美平衡
3️⃣ 国内用户:Trae海外版(3刀/月)挂Claude-4,性价比之王
一句话:没有银弹,只有取舍。
三、任务细节公开
3.1 屎山结构
- 业务:微信机器人 Bubbles
- 复杂度:正则路由 → 21 个功能函数(天气、提醒、AI 闲聊…)
- 技术债:多层模块、异步消息、XML 解析、多模型胶水代码
3.2 重构需求
在现有正则路由 miss 之后,加一层 AI 路由:
让 LLM 判断用户是要「纯聊天」还是「调函数」,并返回 JSON:
{"action_type": "chat|function", "function_name": "xxx"}
看起来简单,但魔鬼在「如何不破坏原有流程」。
四、各家翻车现场
4.1 Cursor:把「安全感」做成护城河
- 策略:
- 先 diff 告诉你「我要改哪几行」
- 允许逐行 Accept / Reject
- 一键回滚,甚至帮你跑单测
- 结果:
只改了主文件 robot.py 的 4 处,逻辑完全正确,10 秒跑通。 - 感受:
第一次体会到「AI 写的代码我也敢上生产」。
4.2 Claude Code:核弹级输出,但没人敢按按钮
- 策略:
直接 CLI 一把梭,prompt 进去 30 秒出结果。 - 结果:
代码极简、零废话、一次跑通。 - 翻车点:
没有 GUI、没有 diff、没有回退。
一旦出错只能git reset --hard
,心脏受不了。
4.3 Augment:把 Claude 包成 GUI,但锁死一次性
- 亮点:
索引做得极好,10 秒扫完整仓库,改的地方标得清清楚楚。 - 槽点:
只能「一键应用」,后面想微调?抱歉没入口。
相当于「给核弹加了个按钮」。
4.4 TRAE 全家桶:功能越多,死得越惨
模式 | 死因 |
---|---|
Chat | 找不到主文件,改到一半失联,只能手动喊「继续」 |
Builder | 一口气重写 5 个文件,耦合到亲妈不认 |
Solo | 实时预览很爽,但直接重写 robot.py,直接跑挂 |
一句话:能力溢出 ≠ 体验好。
功能多到用户不知道怎么死,就是灾难。
4.5 Kiro:把写代码的责任甩给用户
- 流程:
先让你看 3 份设计文档 → 确认 → 再执行。 - 槽点:
既然我都要在脑子里跑一遍流程,那我要 AI 干嘛?
典型的「把复杂度外包给用户」。
五、为什么 Cursor 能赢?
- 粒度控制:
任何改动都能逐行确认,像极了老司机副驾的「随时拉手刹」。 - 多 Agent 协作:
路由 Agent + 代码 Agent + 测试 Agent,互相纠错,而不是一个疯子一把梭。 - 版本兜底:
一键回到任意历史记录,安全感直接拉满。
六、给不同人群的建议
人群 | 推荐工具 | 理由 |
---|---|---|
个人开发者 | Cursor | 可控 + 便宜,单人维护也能睡安稳觉 |
技术负责人 | Claude Code + 强制 Code Review | 重构力最强,但一定加人肉 gate |
已有 JetBrains 全家桶 | Augment | 插件形态,索引快,适合大仓 |
TRAE 粉丝 | 再等等 2.0 正式版 | 目前还是 beta 味太重 |
七、写在最后
这次测试最大的感受:
AI 工具的核心竞争力,已经从「写对代码」变成「让用户敢用」。
在屎山面前,能力 90 分但不可控,不如 70 分但能逐行确认。
Cursor 不是技术最强,却最懂「人性」——
知道我们会手抖、会降智、会半夜三点上线,于是把所有刹车都放在了手指边。
这大概就是 2024 年 AI 编程工具的终极答案:
技术之上,是安全感。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...