你有没有遇到过这种情况:用户甩过来一张截图,说“按钮错位了”,但光看文字描述根本不知道问题出在哪?
对程序员来说,这种“图示型Bug”太常见了——界面错乱、图表异常、样式跑偏……文字说不清,全靠一张图。
可问题是,现在的AI修Bug,基本都靠“读文字+看代码”,根本“看不懂”这张图。
这就尴尬了。
直到最近,慕尼黑工业大学(TUM)的团队搞出个狠活:GUIRepair。
这玩意儿不光能“看”图,还能根据图去修代码,修完再自己“看”一眼效果,确认是不是真修好了。
结果一测,直接干到了 SWE-bench Multimodal(SWE-bench M)排行榜第一,成了目前最强的多模态Bug修复系统。

程序员导航
优网导航旗下整合全网优质开发资源,一站式IT编程学习与工具大全网站
更狠的是,这篇论文已经被软件工程顶会 ASE 2025 接收,含金量拉满。
论文名字也很直白:《Seeing is Fixing》——看见,才能修好。
为啥之前的AI修不了“看图Bug”?
我们先说说背景。
自动修Bug,也就是“自动程序修复”(APR),这几年靠大模型搞得风生水起。像GPT-4、Claude这些模型,在SWE-bench这类文本型任务上表现不错。
但问题来了:它们只看文字,不看图。

AI 工具导航
优网导航旗下AI工具导航,精选全球千款优质 AI 工具集
而现实开发中,尤其是前端、GUI应用,80%的问题报告都带截图。
比如:
- “这个弹窗怎么跑屏幕外面去了?”
- “图表颜色不对,客户很急!”
- “按钮点不了,但代码看起来没问题啊”
这些Bug,光看文字描述,AI根本无从下手。
可你要是不给它看图,它就只能瞎猜。
这就导致——AI修得了“逻辑Bug”,修不了“视觉Bug”。
更讽刺的是,测试领域倒是有不少研究怎么“用AI找视觉Bug”,但没人关心“怎么自动修”。
于是,一边是AI在拼命找Bug,一边是AI不会修——断层了。
GUIRepair怎么破局?两个字:看见
GUIRepair的核心思路就一句话:

免费在线工具导航
优网导航旗下整合全网优质免费、免注册的在线工具导航大全
Seeing is Fixing —— 只有真正“看见”问题,才能修好它。
它不像传统APR那样只盯着代码和文字,而是打通了“图像”和“代码”之间的双向通道,靠两个关键模块实现跨模态推理:
1. Image2Code:从图到代码,理解问题
你给它一张Bug截图,它能反推出“这图背后可能是哪段代码出的问题”。
比如,看到按钮错位,它能联想到是CSS样式或布局逻辑的问题,并生成对应的可执行代码片段,把视觉问题翻译成代码上下文。
这就像老手开发者一看截图就知道“八成是flex写错了”。
2. Code2Image:从代码回图,验证修复
改完代码后,它不光跑测试,还会自己把改后的代码渲染成界面,再“看一眼”效果。
是不是按钮归位了?颜色对了吗?
如果不对,继续改,直到视觉效果符合预期。
这相当于AI自己完成了“开发+预览”的闭环,不再只依赖“测试通过”这种抽象反馈。
实测成绩:直接登顶SOTA!
团队在 SWE-bench M 上做了测试,这是目前最硬核的多模态修复基准,包含517个真实开源项目(比如bpmn-js、carbon、openlayers)中的图文混合Bug。
结果炸了:
- 用 GPT-4o 当基座模型,GUIRepair 解决了 157个任务,比最好的开源方案多出26个;
- 换成更强的 o4-mini,直接干到 175个,反超顶级商业系统22个!
这意味着什么?
它不仅是当前最强的多模态修复工具,还证明了“看图修Bug”这条路,真的走通了。
这不只是个工具,更是个新方向
GUIRepair的意义,远不止刷个榜。
它第一次把 APR(自动修复) 和 GUI Testing(界面测试) 真正结合起来,让AI具备了:
- 视觉理解能力
- 跨模态推理能力
- 自我验证能力
过去,AI修Bug是“盲修”,靠猜;
现在,GUIRepair是“睁眼修”,看得见、修得准、验得着。
正如论文里那句点睛之笔:
这是多模态软件工程的一小步,却是自动化程序修复的一大步。
谁做的?全是顶会狠人
这个项目来自 慕尼黑工业大学(TUM)的 Software Engineering & AI 团队,带头人是正教授 Chunyang Chen(陈春阳)。
一作 Kai Huang 是TUM博士生,已发表6篇顶会论文,拿过ACM杰出论文奖。
其他作者还包括南洋理工、新加坡管理大学的AI4SE领域大牛,阵容相当硬核。
总结:AI终于能“看图说话”修Bug了
以前我们说AI编程,总觉得它是个“代码生成器”。
但现在,GUIRepair让AI变成了一个能“看界面、懂需求、自己验证”的全栈开发者。
它不一定能完全替代人,但至少,
以后你再也不用对着一张截图发呆了——
现在,AI也能看懂你拍的那张“错位按钮”了。
而这,可能就是下一代智能编程助手的雏形。