- 首个统一系统:将物理机器人提升为与 GPU 同等的计算资源,打破硬件隔阂。
- ⚡️极致效率:全异步架构将真实世界训练吞吐量提升5.7 倍
- 异构协同:让不同品牌、不同构型的机器人(如 Franka + ARX)在同一模型下协同进化。
- 大模型支持:原生支持 VLA(如 PI0)的云边端在线微调。

- Code: https://github.com/RLinf/RLinf
- 论文链接:https://arxiv.org/abs/2602.07837
01. 背景:当 AI 撞上物理世界的墙
在具身智能的浪潮中,我们已经见证了仿真训练的巨大成功。然而,当我们试图将智能带入真实世界时,却撞上了一堵看不见的墙:
- 时间无法加速:物理世界没有 100 倍速的快进键,数据采集极其昂贵。
- 系统支离破碎:训练在云端,控制在边缘,中间隔着不稳定的网络;机器人被视为难以管理的 “外设”,而非计算资源。
- 数据稍纵即逝:一旦发生故障或网络中断,昂贵的长序列数据往往付诸东流。
真实世界的策略学习(Real-World Policy Learning),不仅是算法的挑战,更是系统的挑战。
今天,我们正式介绍RLinf-USER—— 一个专为真实世界在线策略学习打造的统一且可扩展的系统。它不只是一个训练框架,更是连接数字大脑与物理躯体的 “神经系统”,是实现千台机器人物理世界策略进化的关键一环。