ART框架发布 Python一键训练AI Agent,支持邮件搜索和游戏操控

AI 文章1周前更新 小编
1 0 0

最近,一款名为ART(Agent Reinforcement Trainer)的开源强化学习框架正式发布,这款框架整合了GRPO技术,给Python开发者提供了便捷的工具,能用来训练AI Agent完成像邮件搜索、游戏操控这类多步骤任务。ART框架发布 Python一键训练AI Agent,支持邮件搜索和游戏操控

ART框架介绍

ART框架的核心目标是借助强化学习(RL)来增强AI Agent的性能,让它们能从经验中学习,进而优化任务的执行效果。开发者可以把强化学习轻松融入到Python应用中,比如邮件检索、游戏AI开发。

框架特别推荐使用像Qwen2.5-7B这样的小型模型,这些模型效率高、灵活性强,很适合处理一些零散的任务。而且,ART还支持Qwen2.5、Qwen3、Llama和Kimi等多种语言模型,开发者的选择空间相当大。

  • Agent Reinforcement Trainer:利用GRPO技术,为现实世界中的多步骤任务训练Agent。
  • 欢迎提交PR,每月下载量3.6k。
  • 相关链接:Open in Colab、Join Discord、Documentation

项目地址:https://github.com/OpenPipe/ART

RULER 零样本Agent奖励机制

RULER(Relative Universal LLM-Elicited Rewards,相对通用的LLM诱导奖励)就不用再手动设计奖励函数了,它会用一个LLM作为评判者,自动给Agent的行动轨迹打分。开发者只需要在系统提示里定义好任务,剩下的交给RULER就行,不需要标记数据、专家反馈或者进行奖励机制设计。

它的主要优势有这么几点:

  • 开发速度能快2-3倍,因为完全不用做奖励函数设计了。
  • 通用性强,不用修改就能适用于任何任务。
  • 性能不错,在四分之三的基准测试中,和手动设计的奖励函数差不多,甚至还要好。
  • 容易集成,能直接替代手动奖励函数。

借助ART,开发者能搭建出可以处理多轮交互、递归调用子Agent,或者压缩历史记录的长期运行Agent。

轻松集成,对开发者很友好

ART框架在设计时,把易用性和模块化当成了核心。它采用了客户端与服务器分离的架构,这大大降低了使用的门槛。

ART客户端能和现有的代码库无缝对接,开发者只要通过简单的Python命令,就能把强化学习功能集成进去。安装ART也很简单,执行下面的命令就行:

pip install art
# 上面这条命令就是安装ART框架的指令,执行后就能在本地环境中使用ART相关功能了

ART服务器负责处理复杂的训练和推理过程,它支持在本地GPU或者云端的ephemeral GPU环境中运行,开发者不用深入去管理底层的训练服务。

另外,ART还和W&B、Langfuse以及OpenPipe等平台集成在了一起,提供了强大的可观测性和调试功能,方便开发者监控Agent的训练进度。官方给出的示例笔记本和详细文档,涵盖了从邮件检索到游戏任务的多种场景。

多场景适用,潜力大

ART框架在不少领域都显示出了强大的应用价值,尤其是在这些场景中表现很突出:

邮件搜索与自动化

用ART训练出来的Agent,能高效完成多步骤的邮件检索任务,快速找到目标邮件。

游戏开发

开发者可以通过ART训练AI Agent,让它们在复杂的游戏环境中自主学习,比如在Atari游戏或者自定义场景里做出智能决策。

多Agent协作

ART支持递归调用子Agent和多轮交互,适合开发复杂的多Agent系统。

ART基于GRPO算法,通过并行执行多次rollout来收集数据,结合最新的检查点进行迭代训练,保证模型在长期任务中能稳定、高效地运行。它还兼容大多数vLLM和HuggingFace Transformers支持的因果语言模型,给开发者提供了很高的灵活性。

开启Agent开发新方式

AIbase觉得,ART框架的发布给AI Agent开发带来了新的可能。它的模块化设计和对小型模型的优化,让中小型团队和个人开发者也能快速构建高性能的Agent,打破了传统强化学习框架的技术障碍。而且ART是开源的,这进一步促进了社区协作,未来有望在更多领域催生出创新应用。

目前,ART框架还在积极开发中,官方鼓励开发者通过GitHub贡献代码或者提出建议,一起完善这个生态系统。开发者可以访问ART的GitHub仓库(https://github.com/openpipe/art)获取最新的文档和示例,赶紧去探索一下它的潜力吧。

未来规划

ART开发团队表示,接下来会扩展框架的功能,支持多模态数据处理和超长上下文推理,以满足更复杂的任务需求。ART灵活的架构允许开发者自定义训练参数和推理引擎配置,为多样化的应用场景提供了可能。

© 版权声明

相关文章

暂无评论

暂无评论...