（2024，DiffEdit，掩码，潜在噪声校正）GenVideo：使用 T2I 扩散模型进行单样本目标图像和形状感知视频编辑

GenVideo: One-shot target-image and shape aware video editing using T2I diffusion models

公和众和号：EDPJ（进 Q 交流群：922230617 或加 VX：CV_EDPJ 进 V 交流群）

0. 摘要

3. 方法

3.1. 对源视频进行微调

3.2. InvEdit 掩码生成

3.3. 通过自一致性进行潜在噪声校正

4. 实验

5. 结论

0. 摘要

基于扩散模型的视频编辑方法，如果仅依赖文本提示进行编辑，则受到文本提示表现力有限的阻碍。因此，将参考目标图像作为视觉指南，以实现对编辑的精确控制是可取的。此外，大多数现有方法在目标图像中的对象形状和大小与源对象不同时，往往难以准确编辑视频。为了解决这些挑战，我们提出了 GenVideo，利用目标图像感知的 T2I 模型来编辑视频。我们的方法处理具有不同形状和大小目标对象的编辑，同时利用我们的新颖目标和形状感知 InvEdit 掩码（mask）保持编辑的时间一致性。此外，我们提出了一种新颖的目标图像感知潜在噪声校正策略，在推理过程中改善了编辑的时间一致性。实验分析表明，GenVideo 可以有效处理具有不同形状对象的编辑，而现有方法则无法做到。

3. 方法

GenVideo 旨在基于目标文本提示和包含任意形状对象的目标图像来编辑给定的源视频，同时保持时间上的一致性。更正式地说，给定一个输入源视频 V^src = [I^src_1 , · · · , I^src_N]，由包含源对象的 N 帧组成，一个描述源视频的源文本提示 P^src，一个包含目标对象的目标图像 I^trg，以及描述对源视频所需编辑的目标文本提示 P^trg，GenVideo 生成一个目标视频 V^trg = [I^trg_1 , · · · , I^trg_N]，它保留了输入源视频的运动，但将源对象替换为目标图像中的新目标对象。

整个训练和推理流程总结如图 2 所示。

首先，我们使用标准 LDM 的重构损失在源视频上对一个膨胀的（inflated）稳定扩散 unCLIP（SD-unCLIP）模型 [33, 46] 进行微调（Sec. 3.1）。
然后，我们采用了我们的新颖目标图像和形状感知掩码生成方法，称为 InvEdit，其中我们使用微调后的模型推断出需要局部编辑的感兴趣区域（Sec. 3.2）。
最后，我们引入了一种新颖的潜在校正方法来提高帧间时间一致性（Sec. 3.3）。

3.1. 在源视频上微调

膨胀的预训练 T2I 扩散模型的微调过程与 TAV 方法 [43] 保持一致（见图 2）。与 [43] 不同的是，我们使用 SD-unCLIP 模型 [33]，它在生成过程中同时考虑目标图像和文本提示 [46]。该模型使用 CLIP-vision 分支来获取输入参考图像的图像嵌入 J*，并使用 CLIP-text 分支来获取文本嵌入 C*。作为膨胀过程的一部分，空间自注意力被膨胀为时空注意力（ST-attn），并且在 ST-attn 和交叉注意力块之后引入了额外的时间注意力（T-attn）。详细信息请参见补充说明。

3.2. InvEdit 掩码生成

在本节中，我们描述了 InvEdit——我们的新颖的零样本、目标图像和形状感知掩码生成策略，使用了来自第 3.1 节微调的扩散模型。现有方法 [31, 46] 仅使用源视频计算掩码，因此对于目标对象的相对形状和大小（例如，将汽车改为公共汽车）没有形状感知。InvEdit 改编了用于视频的 DiffEdit [6]，包括目标图像和形状感知。

InvEdit 步骤：首先，我们执行 DDIM 反演 [38]，将源视频转换为相应的随机潜在噪声

然后，我们使用第 3.1 节微调的膨胀的 SD-unCLIP 模型，利用确定性的 DDIM 采样对 Z^src_T 进行去噪，其中在图 3 中展示了对源分支和目标分支进行 DDIM 采样的条件输入。对于源分支，我们使用源文本提示 P^src 和从 V^src 中随机选择的帧 I^src_n 作为条件输入来对 Z^src_T 进行去噪。类似地，同时进行 DDIM 采样，使用目标文本提示 P^trg 和目标图像 I^trg 中的前景对象作为条件输入。我们使用 GroundedSAM [17, 20] 从目标图像中分割出前景对象。

我们计算在源分支和目标分支中每个去噪时间步骤中由去噪 UNet 模型预测的噪声的差异（用 εθ 表示）。更正式地，对于 V^src 中的每个 I^src_n，我们计算 Δε_(t,n) = abs(ε^src_(t,n) − ε^trg_(t,n))，其中 u ∈ {src, trg}

在每个 DDIM 去噪步骤中，我们获得

其中 t ∈ {T − 1, · · · , 1} 表示时间步。

这些差异 Δε_(t,n) 在图 3 中表示为热力图，经过多个去噪时间步骤的平均化并进行二值化，以获得每个视频帧的目标感知 InvEdit 掩码。在图 3 中，InvEdit 掩码能够确定要将编辑放置在类似卡车而不是汽车的区域，因为卡车比汽车大得多。我们用 M^inv = [M_1,M_2, · · · ,M_N] 表示 N 帧的掩码，其中 M_n =

InvEdit 掩码用于识别区域，其中目标图像嵌入和时间步嵌入 [33] 注入到 UNet 的 ResNet 块特征中。

InvEdit 直觉：我们的直觉遵循 DiffEdit [6] ——用于基于文本驱动的图像编辑。我们将其扩展为我们的目标图像感知视频编辑用例。在 DDIM 去噪过程中，SD-unCLIP 模型将在不同的文本和图像条件下产生不同的噪声估计。在最终解码不同形状、颜色和纹理的区域，噪声估计将会有所不同，具体取决于条件。另一方面，对于背景，噪声估计几乎没有变化。因此，噪声估计之间的差异可以用来推断识别每个视频帧需要编辑的部分的掩码。

3.3. 通过自一致性进行潜在噪声校正

虽然 InvEdit 掩码能够准确识别要编辑的区域，但它并没有解决区域内对象在生成的帧间的时间一致性问题。举个例子，考虑将 “银色汽车” 编辑为 “红色凯迪拉克” 的编辑，如图 4 所示。虽然 InvEdit 掩码在第 6 帧中生成的汽车形状（见图 4B）与第 5 帧（见图 4A）相似，但在前部和侧部的风格外观不同。

解决该问题的一个简单方法是计算视频中源对象的光流，然后将该流施加在潜在噪声特征 Z 上。然而，即使在目标对象形状不同的典型情况下，这种解决方案也会遇到很大的困难。因此，考虑到模型之前没有见过目标图像，帧间时间不一致性的问题变得具有挑战性。我们通过在推理过程中引入潜在校正策略来解决这个问题。该校正是在潜在 Z 空间中的混合策略，以提高编辑视频的帧间时间一致性。这是一个三步过程（请参阅补充资料）：

1）帧间潜在场计算：在推理的每个去噪时间步骤 t 中，我们利用 UNet 的 Up-Block-2 的特征，表示为 [f^t_1, · · · , f^t_N]，用于使用这些特征的最近邻，来估计相邻帧之间的潜在对应关系图/场。首先，我们计算最近邻场 N_(i±(·))，定义为

该场是在第 i 帧特征中的空间位置 p 到其在第 i±1 帧特征中的最近邻（按余弦相似度 d 计算的）点 q 的映射。

2）使用帧间潜在场进行混合：从源视频 Z^src_T 的 DDIM 反演开始，在推理过程中的每个去噪时间步 t，我们在 SD-unCLIP 的 VAE 的解码器 D 的潜在空间中的 InvEdit 掩码区域内，混合相邻帧的潜在 Z_t = [z_(t,1), z_(t,2), · · · , z_(t,N)]。在时间步 t 处混合的潜在

给出为：

其中 w_(−1)、w_0、w_(+1) 是非负权重超参数，它们加起来为 1，而 ˆN^t_(i±[p]) 是上采样到匹配 z_t 维度的最近邻场。对于 t ≥ T − 5，这种混合发生在每个推理时间步长 t。

3）背景保护：我们还使用逆 InvEdit 掩码（即 (1 − Mi)）校正与背景区域对应的潜在噪声，并仅对掩码区域 [39] 进行去噪。这通过保留与源视频帧中掩码区域外的无噪潜在相对应来实现，如下所示：

其中 E 是 VAE 的编码器。当目标视频的背景预期与源不同时，我们跳过此步骤。

为什么选择 Up-block-2？我们使用 Up-block-2 的特征，因为其显示出比 DDIM 步骤后的潜在噪声更低的对应误差（correspondence error，CE）。继续图 4 中汽车的例子，我们首先使用 RAFT 光流 [40] 在源视频帧上计算连续帧之间的特征对应关系。这在该示例中充当了基础真实对应关系，因为编辑后的对象与源对象具有相同的形状。然后，我们计算连续帧中 Up-block-2 特征的对应关系，并发现这些特征的 CE 率较低，如图 4D 中的热图所示。另一方面，DDIM 步骤后计算的潜在噪声的 CE 率较高（图 4E）。通过我们的潜在校正策略，CE 降低了，因为所提出的混合策略改善了连续帧之间潜在噪声特征的一致性，如图 4C 和图 4F 所示。我们在实验中展示了这一过程如何提高编辑目标视频的时间一致性。

4. 实验

5. 结论

我们介绍了 GenVideo，这是一个利用图像扩散模型进行目标图像和形状感知视频编辑的流程。提出的流程允许使用 InvEdit 掩码对目标对象进行局部编辑，并使用潜在校正策略在帧之间强制实现时间一致性。结果表明，GenVideo 在视频编辑任务上在质量和数量上都优于现有方法。

局限性和未来工作：底层的 SD-unCLIP 模型可能存在生成内容的质量和多样性方面的限制，从而影响编辑质量。用于帧间时间一致性的潜在校正方法可能无法完全消除细粒度的不一致性，尤其是对于像图 9 中显示的具有多个车轮的卡车等复杂对象。此外，类似于以前的其他方法 [31, 43]，我们的方法也无法生成完全新的动作，比如将驾驶动作变成飞行动作。作为进一步的工作的一部分，我们的目标是测试我们的方法与图像条件视频扩散模型一起使用，例如 [10]。