蚂蚁集团携手清华大学开源AReaL系统,训练AI推理最高提速2.77倍
3 月 4 日,蚂蚁集团携手清华大学联合推出开源强化学习训练框架 AReaL v1.0 稳定版,这是一种大规模异步强化学习系统,主要通过解耦生成与训练流程,来提升大语言模型(特别是推理模型)的训练效率。
IT之家援引博文介绍,随着大语言模型向“大推理模型”(LRM,Large Reasoning Model)演进,强化学习(RL)已成为提升模型逻辑推理能力的关键技术。
然而,现有的 RL 训练系统主流采用同步机制,即生成阶段必须等待批次中所有输出(通常是最长的那个)完成后才能开始训练。
这种“木桶效应”导致大量 GPU 算力(核心股)处于闲置状态,制约了训练效率,在处理需要生成数万个思考 Token 的复杂推理任务时表现尤为明显。
研究团队为解决这一瓶颈,开发了 AReaL 系统,这是一个完全异步的 RL 训练架构。AReaL 彻底解耦了模型的生成与训练过程:生成工作器可以连续不断地产生新数据,而训练工作器则在收集到足够数据后立即更新模型。
这种流水线式的并行设计消除了同步等待时间,显著提升了硬件资源的利用率,让整个训练过程更加流畅高效。
在算法层面,AReaL 面临异步带来的数据“陈旧度”挑战,即训练数据可能来自旧版本的模型。为此,团队设计了陈旧度感知训练机制,通过控制工作负载来平衡数据的新鲜度。
同时,研究团队提出了解耦 PPO 目标函数,并支持“可中断生成”技术,允许模型在生成过程中无缝更新权重。

实验结果验证了 AReaL 的卓越性能。在数学和代码推理基准测试中,使用相同数量的 GPU,AReaL 相比最先进的同步系统,训练速度最高提升 2.77 倍。更令人惊喜的是,这种加速并未以牺牲准确率为代价,模型的解题能力在部分任务上甚至有所提升。



- 银行股迎来“黄金买点”?摩根大通预计下半年潜在涨幅高达15%,股息率4.3%成“香饽饽”
- 华润电力光伏组件开标均价提升,产业链涨价传导顺利景气度望修复
- 我国卫星互联网组网速度加快,发射间隔从早期1-2个月显著缩短至近期的3-5天
- 光伏胶膜部分企业上调报价,成本增加叠加供需改善涨价空间望打开
- 广东研究通过政府投资基金支持商业航天发展,助力商业航天快速发展
- 折叠屏手机正逐步从高端市场向主流消费群体渗透
- 创历史季度新高!二季度全球DRAM市场规模环比增长20%
- 重磅!上海加速推进AI+机器人应用,全国人形机器人运动会盛大开幕,机器人板块持续爆发!
- 重磅利好!个人养老金新增三大领取条件,开启多元化养老新时代,银行理财产品收益喜人!
- 重磅突破!我国卫星互联网组网速度创新高,广东打造太空旅游等多领域应用场景,商业航天迎来黄金发展期!
