阿里开源WebShaper,GAIA评测超过Claude4-Sonnet

AI 文章1周前更新 小编
3 0 0

阿里最近开源了个挺猛的WebAgent项目,里面有两个核心组件WebShaper和WebSailor,测下来表现是真不错——GAIA评测里直接超过了Claude4-Sonnet,这成绩在业内算是很能打的了。

先说说WebShaper,这东西有点意思,搞了个”形式化驱动”的路子来处理数据。说白了就是用集合论那套逻辑,把复杂的搜索任务拆解成实体集合操作,有点像咱们写代码时做逻辑闭环设计。比如查”90年代出生的球员在2004-05赛季效力东德球队”这种绕弯子的问题,它能自己生成训练数据,保证每一步推理都不跑偏。阿里开源WebShaper,GAIA评测超过Claude4-Sonnet

数据集覆盖也挺全,体育、学术、娱乐这些领域都有,光体育类问题就占了21%。亲测用它训练的模型,同样数据量下比WebWalkerQA那些老数据集效果好不少,迭代效率能提一块。

再看WebSailor,这算是整个项目的”大脑”。最新的72B版本通过阿里云FunctionAI能一键部署,10分钟就能搞定配置,对咱们开发者来说太友好了,不用再肝环境配置到半夜。

它强就强在处理模糊查询和跨平台信息整合,比如要对比特斯拉和小鹏的配置表,它10分钟就能爬完数据还做好分析,比人工一个个页面扒快多了。训练用的SailorFog-QA数据集也很讲究,模拟了真实网络里那种乱糟糟的知识图谱,有点像咱们调试代码时遇到的各种奇葩BUG,练出来的模型实战能力自然强。

整个WebAgent生态里,WebDancer和WebWalker也得提一嘴。前者是训练框架,四阶段训练下来,模型的多步搜索能力很稳;后者是评测工具,给优化算法提供了明确的方向,避免瞎折腾。

现在这项目已经开源了,GitHub上星标过4000,直接冲上榜首。对咱们做开发的来说,不管是爬数据做分析,还是搭自己的智能体,这套工具都能省不少事。学生党要是做相关课题,用它来处理PubMed里的临床试验数据,生成报告效率能翻倍,亲测有效。

GitHub:https://github.com/Alibaba-NLP/WebAgent

huggingface:https://huggingface.co/datasets/Alibaba-NLP/WebShaper

model scope:https://modelscope.cn/datasets/iic/WebShaper

值得一提的是它的”思维预算机制”,简单查询快速响应,复杂任务就深度推理,资源分配得很合理,有点像小组作业时合理分工的感觉,不会在小事上浪费精力。

© 版权声明

相关文章

暂无评论

暂无评论...