【论文笔记】Generative Omnimatte:Learning to Decompose Video into Layers

Authors:Yao-Chih Lee, Erika Lu, Sarah Rumbley, Michal Geyer, Jia-Bin Huang, Tali Dekel, Forrester Cole

Source: arxiv

相关术语:

  • omnimatte: 个人感觉是指在视频层面分层(算出alpha通道,也就是透明度)+抠图(算出前景图), Video Matting with Associated Effects, omnimatte 也对应了一个类似的模型。
  • effect:物体在环境中产生的相关效应或事物(比如阴影,水花,尾迹等等)
  • w/o: without的缩写

1.Introduction(讲一下要进行的任务)

在动态变化的背景中, 对视频中的对象(包括猜出在产生的效应effect)分层,并且要猜出被遮挡。

  • 介绍了图像的matting task, 以及对应的 effect removal.
  • 以往物体移除模型前提: 静止的背景、准确的姿态评估(accurate camera and depth estimation?)
  • 扩散模型在文生成视频和视频修复的进步,但无法很好解决effect的问题。
  • Vedio Shadow Removal的工作不关注 Object Removal, Object-Shadow Association 和 Background Completion(背景补齐)。
  • 图像的 Object and Effect Removal 模型因为缺少时间一致性, 无法很好地运用于视频。

3. Method

2 Step Method

总体分两步走:

  1. 使用trimask和微调Vedio Inpainting Model(DM)获得单个物体的视频
    • 输入:一个视频, 和一组物体掩码
    • 使用 Trimask微调Vedio Inpainting Model(DM), Trimask只保留一个物体,背景的则不保留任何物体。
  2. 使用Unet生成对应Omnimatte
    • 输入:Solo Video 以及差别视频 Error = $|I_i-I_{bg}|$
  • 数据集的构建

    1. Omnimatte:现有相关模型的成功案例
    2. Tripod: 室外背景, 环境移动, 更多的effect, Ken Burns Effect(镜头移动)加入
    3. Kubric: 使用Kubric合成数据集, 多物件、
    4. Object-Paste:拼接合成, 背景视频+随机Obj
  • 损失函数(第二步)

    $L_{recon}$: Solo Vedio 与 前景背景混合结果的像素平方差和

    $L_{Sparsity}$:alpha通道的L0、L1正则项的和

    $L_{mask}$:alpha通道和mask的像素平方差和(训练一开始使用,后面不用)

  • 一些细节:

    文末有supplement material, 有具体细节, Omnimatte处理有两个版本, 损失略微不同。

4. Results(定性、定量比较以及消融实验,略)

5. Discussion and Limitations

局限性:

  1. 作为数据驱动的模型,缺乏对应的effect的数据集, 能脑补消除的effect有限(文章中提到的是物体变形, 就是physical deformations)
  2. 需要额外的知识(比如实例分割), 众多相似对象的时候表现不佳。
  3. Object 关联的无关的 Effect, 可能会修改无关的背景信息

讨论:

  1. 用户输入的必要性(强制某区域信息不变)