首页 > 资源分享 > 资源分享 > 刚刚,最佳VLA模型GigaBrain-0开源:世界模型驱动10倍数据,真机碾压SOTA

刚刚,最佳VLA模型GigaBrain-0开源:世界模型驱动10倍数据,真机碾压SOTA

发布时间:2025-10-29 14:54:33
国内首个利用世界模型生成数据实现真机泛化的端到端VLA具身基础模型GigaBrain-0重磅发布。
近日,在湖北武汉东湖高新区,极佳视界与湖北人形机器人创新中心完成战略合作签约,并联合发布端到端VLA「具身基础模型」GigaBrain-0。

这是国内首个利用「世界模型」生成数据实现真机泛化的视觉-语言-动作(VLA)基础模型,旨在通过世界模型为中心,无论在数据侧还是模型侧,彻底改变通用机器人大脑的开发方式。

GigaBrain-0拥有当前最先进的VLA模型架构,同时支持图像、点云、文本、本体状态的输入,输出结构化的任务规划和运动规划,并在大规模的数据上完成预训练,可以实现更精准的移动导航和长序列的复杂操作。

搭配极佳视界自研「世界模型平台GigaWorld」,构建最完整的具身数据体系,可以快速实现多种本体上复杂的机器人移动操作任务。后续GigaBrain-0将全面开源。

图片

项目链接: https://gigabrain0.github.io/

论文链接: https://arxiv.org/pdf/2510.19430

 

01 核心算法架构升级

针对当前机器人操作中的精准度不足和推理能力不足的问题,GigaBrain-0重点提升了3D空间感知能力和结构化的推理能力,通过引入这两项关键能力,GigaBrain-0可以完成更精准的移动导航和更长序列的复杂操作,具备更强泛化性,全球首次通过一脑多形、一段式端到端全身控制模型、一镜到底完成衣物整理类复杂、柔性、长程移动操作任务!

1. 3D空间感知能力:加入Depth输入,更精准的移动导航

GigaBrain-0通过加入深度信息的输入,提升了物体3D位置和空间3D布局的感知能力,这两点对于精确的双臂操作和精确的移动导航至关重要。

2. 结构化推理能力:更稳定的长程、复杂任务表现

GigaBrain-0通过引入子目标拆解和机械臂末端轨迹输出,改进了自身在开放场景中的任务规划和运动规划能力,极大提升了复杂、长程任务的成功率:

  • 子目标拆解:模型在推理过程中,可以同时输出子任务的自然语言描述,让GigaBrain-0对于长程任务的分解更合理。

  • 末端轨迹输出:模型在推理过程中,增加了机械臂末端执行器运动路径在图像平面上2D投影的输出,增强GigaBrain-0整体的全局动作规划能力。

 

02 全球首个「世界模型」驱动的
最全数据体系

世界模型无论在数据侧还是模型侧,对于具身智能都有极其关键的价值。极佳视界通过「世界模型」为中心,打造了全球首个最全具身智能数据体系,具体包括:

  • Sim2Real Transfer Data: 利用Isaac Sim等仿真环境合成多样化的机器人操作数据,通过GigaWorld的Sim2Real变换,实现逼真的外观渲染,同时保留原始场景几何和动作语义。

  • Real2Real Transfer Data: 将真实世界机器人采集的视频重新渲染成外观几何上不同但物理上合理的变体,通过文本提示来控制前景及背景的材质、表面纹理、光照条件,同时保持机器人动作和交互的一致性。这有效地将真实数据的多样性提高了约10倍。

  • View Transfer Data: 利用GigaWorld的3D空间场景重建能力,将单个真实采集的数据片段生成新视角的数据片段。

  • Video Generation Data: GigaWorld可以根据单个输入图像和不同的文本提示生成多样化的具身机器人操作视频,并通过逆动力学模型推断出相应的机器人动作序列,合成训练数据。

  • Human Transfer Data: 通过视频变换和运动学重定向,将大规模第一人称视频中的人手替换为机械臂,生成稳定且可由机器人执行的动作序列。

我们在多个任务上验证了世界模型生成数据对于具身机器人真机操作任务的价值,结果表明通过增加世界模型生成的数据进行预训练和后训练,GigaBrain-0的真机操作成功率可以持续提升,并且全球首次实现了连续柔性复杂长程操作的开放世界泛化

同时,通过混合世界模型生产的数据和真机采集数据,GigaBrain-0可以快速完成特定本体上的任务适配和泛化。

通过「世界模型」驱动的具身最全数据体系,极佳视界将持续迭代具身大模型,加速走向物理世界通用智能。

资源分享更多>>

魅族天猫旗舰店所有手机都下架了:一个时代终结 机圈再无小而美 利好苹果,不利好国产,智能手机领域寒风刮起 小米17U徕卡版海外定名“LEITZPHONE powered by Xiaomi” 媒体称魅族第三方硬件合作方为酷比魔方:共享Flyme系统 存储芯片持续涨价,千元机市场静悄悄:中低端需求正被动萎缩 台积电先进封装科普:CoWoS、CoPoS、CoWoP 到底是个啥?谁才是下一代最该关注的技术? 1秒3亿、单日突破10亿!老铺黄金创下天猫大促最快销售纪录 百度无代码开发平台“秒哒”已生成超100万个AI应用 DeepSeek发布下一代技术!北大实习生立功 又一车企大规模召回,440万辆! 猿辅导沉浸式素养教育展落地冰城 T3出行大数据:火车站等交通枢纽峰值日打车需求同比增长将超48% 阅文计提新丽18亿商誉减值 出清商誉风险 有道“AI原生”战略成效显著,CEO周枫:将扩大AI应用与智能体的布局 字节跳动Seedance 2.0暂停真人素材参考能力 2026高性价比换机新年送礼首选!nova 15系列国补来袭:3000元档颜值实力双在线 里程碑时刻!100B扩散语言模型892 Tokens /秒,AI另一条路走通了 小众架构赢麻了:让100B扩散模型飙出892 tokens/秒的速度! 22亿!黄仁勋苏姿丰联手,投了一家“世界模型”公司 两天痛失两位华裔大佬!马斯克万亿估值为何留不住人心? RLinf-USER发布!别再用仿真,真实世界训练也能极致效率与系统化 Moltbook之外,上交大联合上海AI Lab模拟了AI原⽣社交的真实暗⾯ 盛色推出“OF27UT Pro”27英寸显示器,1299元 曝苹果首款OLED MacBook将于Q4发布 由三星供应屏幕 一季度PC内存要翻倍涨!涨幅达历史新高 折叠版iPad!iPhone Fold外观细节出炉:音量键在顶部 折叠屏iPhone不止一款!苹果或再推覆盖式可折叠iPhone,主打便携与易收纳 苹果出手,隔空投送白嫖FCP失灵了 千问APP投入30亿,阿里加入春节AI红包大战 腾讯内部信回应元宝“春节红包”分享质疑:无门槛领取与平台旨在打击的恶意营销存在本质不同