多模态Bug修复新突破！慕尼黑工大GUIRepair登顶SWE-bench M榜首，AI终于能“看图修Bug”了

AI 文章2个月前发布小编

你有没有遇到过这种情况：用户甩过来一张截图，说“按钮错位了”，但光看文字描述根本不知道问题出在哪？
对程序员来说，这种“图示型Bug”太常见了——界面错乱、图表异常、样式跑偏……文字说不清，全靠一张图。
可问题是，现在的AI修Bug，基本都靠“读文字+看代码”，根本“看不懂”这张图。

这就尴尬了。

直到最近，慕尼黑工业大学（TUM）的团队搞出个狠活：GUIRepair。
这玩意儿不光能“看”图，还能根据图去修代码，修完再自己“看”一眼效果，确认是不是真修好了。
结果一测，直接干到了 SWE-bench Multimodal（SWE-bench M）排行榜第一，成了目前最强的多模态Bug修复系统。

程序员导航

优网导航旗下整合全网优质开发资源，一站式IT编程学习与工具大全网站

更狠的是，这篇论文已经被软件工程顶会 ASE 2025 接收，含金量拉满。
论文名字也很直白：《Seeing is Fixing》——看见，才能修好。

论文地址：https://arxiv.org/abs/2506.16136

为啥之前的AI修不了“看图Bug”？

我们先说说背景。
自动修Bug，也就是“自动程序修复”（APR），这几年靠大模型搞得风生水起。像GPT-4、Claude这些模型，在SWE-bench这类文本型任务上表现不错。

但问题来了：它们只看文字，不看图。

AI 工具导航

优网导航旗下AI工具导航，精选全球千款优质 AI 工具集

而现实开发中，尤其是前端、GUI应用，80%的问题报告都带截图。
比如：

“这个弹窗怎么跑屏幕外面去了？”
“图表颜色不对，客户很急！”
“按钮点不了，但代码看起来没问题啊”

这些Bug，光看文字描述，AI根本无从下手。
可你要是不给它看图，它就只能瞎猜。

这就导致——AI修得了“逻辑Bug”，修不了“视觉Bug”。

更讽刺的是，测试领域倒是有不少研究怎么“用AI找视觉Bug”，但没人关心“怎么自动修”。

于是，一边是AI在拼命找Bug，一边是AI不会修——断层了。

GUIRepair怎么破局？两个字：看见

GUIRepair的核心思路就一句话：

免费在线工具导航

优网导航旗下整合全网优质免费、免注册的在线工具导航大全

Seeing is Fixing —— 只有真正“看见”问题，才能修好它。

它不像传统APR那样只盯着代码和文字，而是打通了“图像”和“代码”之间的双向通道，靠两个关键模块实现跨模态推理：

1. Image2Code：从图到代码，理解问题

你给它一张Bug截图，它能反推出“这图背后可能是哪段代码出的问题”。

比如，看到按钮错位，它能联想到是CSS样式或布局逻辑的问题，并生成对应的可执行代码片段，把视觉问题翻译成代码上下文。

这就像老手开发者一看截图就知道“八成是flex写错了”。

2. Code2Image：从代码回图，验证修复

改完代码后，它不光跑测试，还会自己把改后的代码渲染成界面，再“看一眼”效果。

是不是按钮归位了？颜色对了吗？
如果不对，继续改，直到视觉效果符合预期。

这相当于AI自己完成了“开发+预览”的闭环，不再只依赖“测试通过”这种抽象反馈。

实测成绩：直接登顶SOTA！

团队在 SWE-bench M 上做了测试，这是目前最硬核的多模态修复基准，包含517个真实开源项目（比如bpmn-js、carbon、openlayers）中的图文混合Bug。

结果炸了：

用 GPT-4o 当基座模型，GUIRepair 解决了 157个任务，比最好的开源方案多出26个；
换成更强的 o4-mini，直接干到 175个，反超顶级商业系统22个！

这意味着什么？
它不仅是当前最强的多模态修复工具，还证明了“看图修Bug”这条路，真的走通了。

这不只是个工具，更是个新方向

GUIRepair的意义，远不止刷个榜。

它第一次把 APR（自动修复） 和 GUI Testing（界面测试） 真正结合起来，让AI具备了：

视觉理解能力
跨模态推理能力
自我验证能力

过去，AI修Bug是“盲修”，靠猜；
现在，GUIRepair是“睁眼修”，看得见、修得准、验得着。

正如论文里那句点睛之笔：

这是多模态软件工程的一小步，却是自动化程序修复的一大步。

谁做的？全是顶会狠人

这个项目来自 慕尼黑工业大学（TUM）的 Software Engineering & AI 团队，带头人是正教授 Chunyang Chen（陈春阳）。

一作 Kai Huang 是TUM博士生，已发表6篇顶会论文，拿过ACM杰出论文奖。
其他作者还包括南洋理工、新加坡管理大学的AI4SE领域大牛，阵容相当硬核。

总结：AI终于能“看图说话”修Bug了

以前我们说AI编程，总觉得它是个“代码生成器”。
但现在，GUIRepair让AI变成了一个能“看界面、懂需求、自己验证”的全栈开发者。

它不一定能完全替代人，但至少，
以后你再也不用对着一张截图发呆了——
现在，AI也能看懂你拍的那张“错位按钮”了。

而这，可能就是下一代智能编程助手的雏形。

# AI 文章 # 程序员

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

宇树科技2025年最新薪资体系与招聘标准详解

6

软件设计师2009-2022历年真题与答案解析 pdf全套免费下载

134

为啥现在前端没人热衷扒源码了？聊聊这两年的行业变化

2

如何使用ClickHouse+Kafka+FileBeat组合替代ELK？用过的都说香！

2

国内博客平台怎么选？自建、托管还是用现成的？

0

个人博客是自己开发还是用模板？从WordPress到Hexo，再到全栈手搓，看看过来人都怎么选

2

暂无评论

暂无评论...