首页 > 资源分享 > 资源分享 > 一个模型统一4D世界生成与重建,港科大One4D框架来了

一个模型统一4D世界生成与重建,港科大One4D框架来了

发布时间:2026-01-13 14:02:06

年来,视频扩散模型在 “真实感、动态性、可控性” 上进展飞快,但它们大多仍停留在纯 RGB 空间。模型能生成好看的视频,却缺少对三维几何的显式建模。这让许多世界模型(world model)导向的应用(空间推理、具身智能、机器人、自动驾驶仿真等)难以落地,因为这些任务不仅需要像素,还需要完整地模拟 4D 世界。

来自香港科技大学(HKUST)的研究团队提出 One4D,一个统一的 4D 生成与 4D 重建框架。One4D 构造了一个同步输出多模态的视频扩散模型,能够用一个模型同步输出 RGB 视频与 Pointmap(XYZ)几何视频,并支持从单张图像到 4D 生成、从稀疏帧到 4D 生成 + 重建、以及从完整视频到 4D 重建等多种任务形态。



 

  • 论文标题:One4D: Unified 4D Generation and Reconstruction via Decoupled LoRA Control
  • 论文地址:https://arxiv.org/abs/2511.18922
  • Github:https://github.com/MiZhenxing/One4D
  • 项目主页:https://mizhenxing.github.io/One4D

 

二、One4D 算法设计

One4D 的核心目标是用强大的视频生成模型(比如Wan Video)统一 4D 生成与 4D 重建,输出对齐的 RGB 和几何多模态结果。论文亮点有:

1. 多模态输出:RGB + Pointmap;

2. DLC:解耦 LoRA 控制,稳住 RGB 同时学几何对齐;

3. UMC:统一掩码条件,一套模型覆盖生成和重建任务。

具体来说,One4D 将动态 4D 场景表示为两种同步的输出模态。(1) RGB frames(外观);(2) Pointmaps(XYZ),即与 RGB 视频对齐的 3 通道几何视频,每个像素存 XYZ 值,可进一步导出 Depth 并结合后处理估计相机轨迹,最终可视化为 4D 点云和相机。

并且,One4D 在一个框架内支持三种输入:单张图到 4D 生成,稀疏视频帧到 4D 生成 + 重建,完整视频到 4D 重建。

1. DLC:解耦 LoRA 控制

在基于视频扩散模型的 “RGB + 几何” 多模态联合建模里,一个常见做法是把模态在通道维拼接。但在低资源微调时,这会导致严重的跨模态干扰,几何学不好,基础模型的 RGB 质量也容易被拖垮。而将两个模态在长宽维度拼接,共享参数,也会导致跨模态干扰,几何精度不高,而且与 RGB 无法保持对齐。

One4D 提出 Decoupled LoRA Control(DLC) 来专门解决这个问题,设计目标包括:

(1) 低资源微调也尽量保住底座视频模型的强先验;(2) 解耦 RGB 与几何生成,减少互相干扰;(3) 仍要保留必要的跨模态通信,确保像素级对齐一致。

具体做法是:

1. 为 RGB 与 Pointmap 分别挂载模态专属 LoRA,并且形成两条解耦计算分支,共享冻结的 base 参数,但 forward 分开跑。确保两个模态能够相对独立。

2. 再用少量 zero-init 的 control links 连接对应层,让两个模态从 0 开始逐步学会互相控制,从而实现精确的像素级对齐。

资源分享更多>>

魅族天猫旗舰店所有手机都下架了:一个时代终结 机圈再无小而美 利好苹果,不利好国产,智能手机领域寒风刮起 小米17U徕卡版海外定名“LEITZPHONE powered by Xiaomi” 媒体称魅族第三方硬件合作方为酷比魔方:共享Flyme系统 存储芯片持续涨价,千元机市场静悄悄:中低端需求正被动萎缩 台积电先进封装科普:CoWoS、CoPoS、CoWoP 到底是个啥?谁才是下一代最该关注的技术? 1秒3亿、单日突破10亿!老铺黄金创下天猫大促最快销售纪录 百度无代码开发平台“秒哒”已生成超100万个AI应用 DeepSeek发布下一代技术!北大实习生立功 又一车企大规模召回,440万辆! 猿辅导沉浸式素养教育展落地冰城 T3出行大数据:火车站等交通枢纽峰值日打车需求同比增长将超48% 阅文计提新丽18亿商誉减值 出清商誉风险 有道“AI原生”战略成效显著,CEO周枫:将扩大AI应用与智能体的布局 字节跳动Seedance 2.0暂停真人素材参考能力 2026高性价比换机新年送礼首选!nova 15系列国补来袭:3000元档颜值实力双在线 里程碑时刻!100B扩散语言模型892 Tokens /秒,AI另一条路走通了 小众架构赢麻了:让100B扩散模型飙出892 tokens/秒的速度! 22亿!黄仁勋苏姿丰联手,投了一家“世界模型”公司 两天痛失两位华裔大佬!马斯克万亿估值为何留不住人心? RLinf-USER发布!别再用仿真,真实世界训练也能极致效率与系统化 Moltbook之外,上交大联合上海AI Lab模拟了AI原⽣社交的真实暗⾯ 盛色推出“OF27UT Pro”27英寸显示器,1299元 曝苹果首款OLED MacBook将于Q4发布 由三星供应屏幕 一季度PC内存要翻倍涨!涨幅达历史新高 折叠版iPad!iPhone Fold外观细节出炉:音量键在顶部 折叠屏iPhone不止一款!苹果或再推覆盖式可折叠iPhone,主打便携与易收纳 苹果出手,隔空投送白嫖FCP失灵了 千问APP投入30亿,阿里加入春节AI红包大战 腾讯内部信回应元宝“春节红包”分享质疑:无门槛领取与平台旨在打击的恶意营销存在本质不同