ImViD发布:首个沉浸式体积视频数据集,打破元宇宙“纸片人”魔咒

·

当 Vision Pro 宣称带来次世代 VR 体验,头盔摘下,你仍旧在与“电子橱窗”对视;当元宇宙主题乐园耗资数千万,游客看到的依旧是被“玻璃罩”封存的 3DoF 人像。高保真体积视频缺席,“真实感”就永远缺位。

此刻,清华大学 × 咪咕团队为“真实世界入盒”交出方案——ImViD

这份被 CVPR 2025 Highlight 收编的研究成果,用 360° 光场+6-DoF 自由漫游,把 VR 体验从“隔着玻璃看展”升级到“穿越时空的在场感”。


问题根源:现有沉浸式媒体为何止步于“一次性惊艳”?

关键词:沉浸式视频、体积视频、元宇宙真实感

痛点代表技术致命短板
只能看正脸Google 2019 光场固定机位,交互半径不足半米
只能转头Apple 2022 沉浸式视频3DoF,缺失深度导致眩晕
只能拍“罐头场景”2024 空间捕获封闭穹顶天价设备,背景缺失自然光

一句话:缺内容、缺自由、缺生态


ImViD 破局:四个关键词重新定义体积视频

1️⃣ 全视角 360° 场景

动态人物与复杂背景一次性捕获,超强光线一致感,告别蓝幕抠像的生硬边缘。

2️⃣ 大空间 6-DoF 交互

移动拍摄车把可视半径从“半米”扩展到整个大厅,边走边拍的“太空漫游”模式首次落地。

3️⃣ 多模态高保真

5K@60FPS 视频 叠加上 毫秒级同步音频,让耳膜与视网膜同时“入戏”。

4️⃣ 长时稳定体验

1-5 分钟连续场景一次成型,把网友吐槽的“5 秒真男人”Demo 延长到完整短片。

👉 想要亲自体验一把“裸眼元宇宙”的真实感有多强?


数据即资产:全球首个面向大场景的 ImViD 数据集

数据集核心价值:不仅送方法,还送生产资料。


技术Pipeline拆解:从采集到渲染的 5 个黑匣子

① 采集端:移动式“光声探路车”

② 预处理:一键修复走光 + 色彩统一

自动剔除非同步帧,仿射色彩变换管齐 46 路画面色差。

③ 光场重建:STG++,伤停补时一样稳

基于 时空高斯 改进出 STG++,漂移、色差、闪烁一次性打包修复:

PSNR 31.24
渲染 110 FPS
单卡 3090 即跑

④ 声场建模:几何驱动无训练

零数据依赖,三步合成可移动空间音频:

  1. 麦克风阵列定位声源→双耳
  2. 距离 & 材质双重衰减
  3. HRTF+RIR 渲染,高音甜、中音准、低音沉用户打分 61.9 % 优秀

⑤ 实时交互渲染:六自由度丝滑自由

试听同步,头动即场景动;60 FPS 稳帧率,Meta Quest 2 也能跑。


行业痛点击穿:ImViD 的商业化地图


常见疑问 FAQ

Q1:数据集真的 100 % 开源吗?是否需要机构邮箱注册?
A:是的,官网直链下载,无需审批;数据协议 Apache-2.0,可直接商用。

Q2:家用单反能不能复现 ImViD 场景?
A:至少需要 16 路同步相机,GoPro HERO 11 起跳。阵列同步线淘宝 300 元即可搞定。

Q3:非编程背景爱好者能否轻松吃瓜?
A:官方放出的可视化播放器即开即用,拖拽文件就能开玩 6-DoF。

Q4:实时渲染是不是必须用 4090?
A:论文在 3090 上就能 60 FPS。视距减半 + 动态降采样:3070 亦可跑。

Q5:移动端何时适配?
A:现正与国产 VR 一体机厂商联调,预计 2025 Q4 OTA。


写在最后

ImViD 不是又一个“PPT 破局”,它在楼上拍歌剧,楼下拍花滑;它让实验室论文转换为用户手中可游走、可倾听、可分享的沉浸式回忆。下一次,当“元宇宙”再度被质疑,别忘了有人已把真实放进盒子,并把钥匙递到你手里。

📍 项目主页 & 下载地址:
https://yzxqh.github.io/ImViD/