【论文笔记】Generative Omnimatte:Learning to Decompose Video into Layers
Authors:Yao-Chih Lee, Erika Lu, Sarah Rumbley, Michal Geyer, Jia-Bin Huang, Tali Dekel, Forrester Cole
Source: arxiv
相关术语:
- omnimatte: 个人感觉是指在视频层面分层(算出alpha通道,也就是透明度)+抠图(算出前景图), Video Matting with Associated Effects, omnimatte 也对应了一个类似的模型。
- effect:物体在环境中产生的相关效应或事物(比如阴影,水花,尾迹等等)
- w/o: without的缩写
1.Introduction(讲一下要进行的任务)
在动态变化的背景中, 对视频中的对象(包括猜出在产生的效应effect)分层,并且要猜出被遮挡。
2. Related Work(背景介绍以及阐述创新性)
- 介绍了图像的matting task, 以及对应的 effect removal.
- 以往物体移除模型前提: 静止的背景、准确的姿态评估(accurate camera and depth estimation?)
- 扩散模型在文生成视频和视频修复的进步,但无法很好解决effect的问题。
- Vedio Shadow Removal的工作不关注 Object Removal, Object-Shadow Association 和 Background Completion(背景补齐)。
- 图像的 Object and Effect Removal 模型因为缺少时间一致性, 无法很好地运用于视频。
3. Method
总体分两步走:
- 使用trimask和微调Vedio Inpainting Model(DM)获得单个物体的视频
- 输入:一个视频, 和一组物体掩码
- 使用 Trimask微调Vedio Inpainting Model(DM), Trimask只保留一个物体,背景的则不保留任何物体。
- 使用Unet生成对应Omnimatte
- 输入:Solo Video 以及差别视频 Error = $|I_i-I_{bg}|$
数据集的构建
- Omnimatte:现有相关模型的成功案例
- Tripod: 室外背景, 环境移动, 更多的effect, Ken Burns Effect(镜头移动)加入
- Kubric: 使用Kubric合成数据集, 多物件、
- Object-Paste:拼接合成, 背景视频+随机Obj
损失函数(第二步)
$L_{recon}$: Solo Vedio 与 前景背景混合结果的像素平方差和
$L_{Sparsity}$:alpha通道的L0、L1正则项的和
$L_{mask}$:alpha通道和mask的像素平方差和(训练一开始使用,后面不用)
一些细节:
文末有supplement material, 有具体细节, Omnimatte处理有两个版本, 损失略微不同。
4. Results(定性、定量比较以及消融实验,略)
5. Discussion and Limitations
局限性:
- 作为数据驱动的模型,缺乏对应的effect的数据集, 能脑补消除的effect有限(文章中提到的是物体变形, 就是physical deformations)
- 需要额外的知识(比如实例分割), 众多相似对象的时候表现不佳。
- Object 关联的无关的 Effect, 可能会修改无关的背景信息
讨论:
- 用户输入的必要性(强制某区域信息不变)