WonderPlay 是什么
WonderPlay 是斯坦福大学联合犹他大学推出的新型框架,支持从单张图片和用户定义的动作生成动态3D场景。基于结合物理模拟和视频生成技术,用物理求解器模拟粗略的3D动态,再驱动视频生成器合成更逼真的视频,用视频更新动态3D场景,实现模拟与生成的闭环。WonderPlay 支持多种物理材质(如刚体、布料、液体、气体等)和多种动作(如重力、风力、点力等),用户基于简单操作与场景互动,生成丰富多样的动态效果。

WonderPlay 的主要功能
- 单图动态场景生成:用一张图片和用户定义的动作输入,生成动态3D场景,展现动作的物理后果。
- 多材质支持:涵盖刚体、布料、液体、气体、弹性体、颗粒等多种物理材质,满足多样化场景需求。
- 动作响应:支持重力、风力、点力等动作输入,用户能直观操作与场景互动,生成不同动态效果。
- 视觉与物理逼真度:结合物理模拟的精确性和视频生成的丰富性,生成符合物理规律和视觉逼真的动态场景。
- 交互式体验:配备交互式查看器,用户能自由探索生成的动态3D场景,提升沉浸感。
WonderPlay 的技术原理
- 混合生成式模拟器:融合物理求解器和视频生成器,用物理求解器模拟粗略3D动态,驱动视频生成器合成逼真视频,用视频更新动态3D场景,实现模拟与生成的闭环。
- 空间变化双模态控制:在视频生成阶段,用运动(流场)和外观(RGB)双模态信号控制视频生成器,根据场景区域动态调整生成器的责任,确保生成视频在动态和外观上更贴近物理模拟结果。
- 3D场景重建:从输入图片中分别重建背景和物体,背景用快速分层高斯曲面(FLAGS)表示,物体构建为具有拓扑连接性的“拓扑高斯曲面”,估计物体的材质属性,为后续模拟和生成提供基础。
WonderPlay 的项目地址
- 项目官网:https://kyleleey.github.io/WonderPlay/
- arXiv技术论文:https://arxiv.org/pdf/2505.18151
WonderPlay 的应用场景
- AR/VR场景构建:用在创建沉浸式虚拟环境,支持用户与场景的动态交互。
- 影视特效制作:快速生成动态场景原型,辅助特效制作,提升视觉效果。
- 教育与职业培训:模拟物理现象和工作环境,增强教学和培训的实践性。
- 游戏开发:生成动态场景和交互效果,提升游戏的真实感和趣味性。
- 广告与营销:制作动态广告内容,提供互动体验,增强观众参与度。