【论文笔记】Generative Omnimatte:Learning to Decompose Video into Layers

发表于 2024-12-06 本文字数： 1.4k 阅读时长 ≈ 1 分钟

Authors：Yao-Chih Lee, Erika Lu, Sarah Rumbley, Michal Geyer, Jia-Bin Huang, Tali Dekel, Forrester Cole

Source: arxiv

相关术语:

omnimatte: 个人感觉是指在视频层面分层(算出alpha通道，也就是透明度)+抠图(算出前景图), Video Matting with Associated Effects, omnimatte 也对应了一个类似的模型。
effect:物体在环境中产生的相关效应或事物(比如阴影,水花，尾迹等等)
w/o: without的缩写

1.Introduction(讲一下要进行的任务)

在动态变化的背景中, 对视频中的对象(包括猜出在产生的效应effect)分层,并且要猜出被遮挡。

介绍了图像的matting task, 以及对应的 effect removal.
以往物体移除模型前提: 静止的背景、准确的姿态评估(accurate camera and depth estimation?)
扩散模型在文生成视频和视频修复的进步,但无法很好解决effect的问题。
Vedio Shadow Removal的工作不关注 Object Removal, Object-Shadow Association 和 Background Completion(背景补齐)。
图像的 Object and Effect Removal 模型因为缺少时间一致性, 无法很好地运用于视频。

3. Method

2 Step Method

总体分两步走:

使用trimask和微调Vedio Inpainting Model(DM)获得单个物体的视频
- 输入:一个视频, 和一组物体掩码
- 使用 Trimask微调Vedio Inpainting Model(DM), Trimask只保留一个物体,背景的则不保留任何物体。
使用Unet生成对应Omnimatte
- 输入:Solo Video 以及差别视频 Error = $|I_i-I_{bg}|$

数据集的构建
1. Omnimatte:现有相关模型的成功案例
2. Tripod: 室外背景, 环境移动, 更多的effect, Ken Burns Effect(镜头移动)加入
3. Kubric: 使用Kubric合成数据集, 多物件、
4. Object-Paste:拼接合成, 背景视频+随机Obj
损失函数(第二步)

$L_{recon}$: Solo Vedio 与前景背景混合结果的像素平方差和

$L_{Sparsity}$：alpha通道的L0、L1正则项的和

$L_{mask}$：alpha通道和mask的像素平方差和(训练一开始使用,后面不用)
一些细节:

文末有supplement material, 有具体细节, Omnimatte处理有两个版本, 损失略微不同。

4. Results(定性、定量比较以及消融实验，略)

5. Discussion and Limitations

局限性:

作为数据驱动的模型,缺乏对应的effect的数据集, 能脑补消除的effect有限(文章中提到的是物体变形, 就是physical deformations)
需要额外的知识(比如实例分割), 众多相似对象的时候表现不佳。
Object 关联的无关的 Effect, 可能会修改无关的背景信息

讨论:

用户输入的必要性(强制某区域信息不变)

0%