多模态Bug修复新突破!慕尼黑工大GUIRepair登顶SWE-bench M榜首,AI终于能“看图修Bug”了

AI 文章1周前发布 小编
2 0 0

你有没有遇到过这种情况:用户甩过来一张截图,说“按钮错位了”,但光看文字描述根本不知道问题出在哪?
程序员来说,这种“图示型Bug”太常见了——界面错乱、图表异常、样式跑偏……文字说不清,全靠一张图。
可问题是,现在的AI修Bug,基本都靠“读文字+看代码”,根本“看不懂”这张图。

这就尴尬了。

直到最近,慕尼黑工业大学(TUM)的团队搞出个狠活:GUIRepair
这玩意儿不光能“看”图,还能根据图去修代码,修完再自己“看”一眼效果,确认是不是真修好了。
结果一测,直接干到了 SWE-bench Multimodal(SWE-bench M)排行榜第一,成了目前最强的多模态Bug修复系统。

ad

程序员导航

优网导航旗下整合全网优质开发资源,一站式IT编程学习与工具大全网站

更狠的是,这篇论文已经被软件工程顶会 ASE 2025 接收,含金量拉满。
论文名字也很直白:《Seeing is Fixing》——看见,才能修好

论文地址:https://arxiv.org/abs/2506.16136


为啥之前的AI修不了“看图Bug”?

我们先说说背景。
自动修Bug,也就是“自动程序修复”(APR),这几年靠大模型搞得风生水起。像GPT-4、Claude这些模型,在SWE-bench这类文本型任务上表现不错。

但问题来了:它们只看文字,不看图

ad

AI 工具导航

优网导航旗下AI工具导航,精选全球千款优质 AI 工具集

而现实开发中,尤其是前端、GUI应用,80%的问题报告都带截图
比如:

  • “这个弹窗怎么跑屏幕外面去了?”
  • “图表颜色不对,客户很急!”
  • “按钮点不了,但代码看起来没问题啊”

这些Bug,光看文字描述,AI根本无从下手。
可你要是不给它看图,它就只能瞎猜。

这就导致——AI修得了“逻辑Bug”,修不了“视觉Bug”

更讽刺的是,测试领域倒是有不少研究怎么“用AI找视觉Bug”,但没人关心“怎么自动修”。

于是,一边是AI在拼命找Bug,一边是AI不会修——断层了。


GUIRepair怎么破局?两个字:看见

GUIRepair的核心思路就一句话:

ad

免费在线工具导航

优网导航旗下整合全网优质免费、免注册的在线工具导航大全

Seeing is Fixing —— 只有真正“看见”问题,才能修好它。

它不像传统APR那样只盯着代码和文字,而是打通了“图像”和“代码”之间的双向通道,靠两个关键模块实现跨模态推理:

1. Image2Code:从图到代码,理解问题

你给它一张Bug截图,它能反推出“这图背后可能是哪段代码出的问题”。

比如,看到按钮错位,它能联想到是CSS样式或布局逻辑的问题,并生成对应的可执行代码片段,把视觉问题翻译成代码上下文

这就像老手开发者一看截图就知道“八成是flex写错了”。

2. Code2Image:从代码回图,验证修复

改完代码后,它不光跑测试,还会自己把改后的代码渲染成界面,再“看一眼”效果

是不是按钮归位了?颜色对了吗?
如果不对,继续改,直到视觉效果符合预期。

这相当于AI自己完成了“开发+预览”的闭环,不再只依赖“测试通过”这种抽象反馈


实测成绩:直接登顶SOTA!

团队在 SWE-bench M 上做了测试,这是目前最硬核的多模态修复基准,包含517个真实开源项目(比如bpmn-js、carbon、openlayers)中的图文混合Bug。

结果炸了:

  • GPT-4o 当基座模型,GUIRepair 解决了 157个任务,比最好的开源方案多出26个;
  • 换成更强的 o4-mini,直接干到 175个反超顶级商业系统22个

这意味着什么?
它不仅是当前最强的多模态修复工具,还证明了“看图修Bug”这条路,真的走通了。


这不只是个工具,更是个新方向

GUIRepair的意义,远不止刷个榜。

它第一次把 APR(自动修复)GUI Testing(界面测试) 真正结合起来,让AI具备了:

  • 视觉理解能力
  • 跨模态推理能力
  • 自我验证能力

过去,AI修Bug是“盲修”,靠猜;
现在,GUIRepair是“睁眼修”,看得见、修得准、验得着。

正如论文里那句点睛之笔:

这是多模态软件工程的一小步,却是自动化程序修复的一大步。


谁做的?全是顶会狠人

这个项目来自 慕尼黑工业大学(TUM)的 Software Engineering & AI 团队,带头人是正教授 Chunyang Chen(陈春阳)。

一作 Kai Huang 是TUM博士生,已发表6篇顶会论文,拿过ACM杰出论文奖。
其他作者还包括南洋理工、新加坡管理大学的AI4SE领域大牛,阵容相当硬核。


总结:AI终于能“看图说话”修Bug了

以前我们说AI编程,总觉得它是个“代码生成器”。
但现在,GUIRepair让AI变成了一个能“看界面、懂需求、自己验证”的全栈开发者

它不一定能完全替代人,但至少,
以后你再也不用对着一张截图发呆了——
现在,AI也能看懂你拍的那张“错位按钮”了。

而这,可能就是下一代智能编程助手的雏形。

© 版权声明

相关文章

暂无评论

暂无评论...