
摘要
虚拟试穿旨在生成一个人穿着目标服装的逼真图像,但准确建模服装与人体之间的对应关系仍是持续存在的挑战,尤其是在姿态和外观变化的情况下。本文提出了一种名为 Voost 的统一且可扩展的框架,该框架通过单一的扩散变换器(diffusion transformer)联合学习虚拟试穿与试脱任务。通过联合建模这两个任务,Voost 使得每一对服装-人体组合能够相互监督两个方向,并支持在生成方向和服装类别上的灵活条件控制,从而在无需特定任务网络、辅助损失函数或额外标注的情况下,增强服装与人体之间的关系推理能力。此外,我们引入了两种推理阶段的技术:注意力温度缩放(attention temperature scaling),以提升对分辨率或掩码变化的鲁棒性;以及自校正采样(self-corrective sampling),利用两个任务之间的双向一致性进行优化。大量实验表明,Voost 在试穿与试脱的多个基准测试中均达到当前最优性能,在对齐精度、视觉保真度和泛化能力方面,始终优于现有的强基线方法。