20 小时前

EgoTwin：第一人称视角下的身体与视图梦境

Jingqiao Xiu, Fangzhou Hong, Yicong Li, Mengze Li, Wentao Wang, Sirui Han, Liang Pan, Ziwei Liu

摘要

尽管外部视角视频合成已取得显著进展，第一人称视角视频生成仍处于相对未充分探索的阶段，其核心挑战在于需同时建模第一人称视觉内容以及由佩戴者身体运动所引发的相机运动轨迹。为填补这一研究空白，我们提出了一项新的联合第一人称视频与人体运动生成任务，并明确其两个关键挑战：1）视角对齐（Viewpoint Alignment）：生成视频中的相机轨迹必须与从人体运动中推导出的头部运动轨迹精确对齐；2）因果交互（Causal Interplay）：合成的人体运动必须在时序上因果地匹配相邻视频帧之间的视觉动态变化。为应对上述挑战，我们提出EgoTwin——一种基于扩散变换器（diffusion transformer）架构的联合视频-运动生成框架。具体而言，EgoTwin引入了一种以头部为中心的人体运动表示方法，将人体运动锚定在头部关节上，并设计了一种受控制论启发的交互机制，通过注意力机制显式建模视频与运动之间的因果交互关系。为实现全面评估，我们构建了一个大规模真实世界数据集，包含同步的文本-视频-运动三元组，并设计了新的度量指标以评估视频与运动的一致性。大量实验结果表明，EgoTwin框架在生成高质量第一人称视频与同步人体运动方面具有显著有效性。