Adobe近日发布了全新的视频模型ActAnywhere。这一模型可以根据前景主体的运动和外观,为电影和视觉特效社区生成视频背景。
ActAnywhere模型通过引入跨帧注意力进行时间推理,将用户的创意想法快速地融入到动态的虚拟场景中。模型的训练数据集包含240万个包含人类与场景交互的视频,并通过自监督的方式进行训练。
体验地址:https://actanywhere.github.io/
ActAnywhere模型的关键之处在于其3D U-Net采用一系列前景主体分割以及蒙版作为输入,并以描述背景的帧作为条件。在训练过程中,通过从训练视频中随机采样的帧作为条件来进行去噪过程。
在测试时,条件可以是主体与新背景的混合帧,也可以是仅背景的图像。通过Adobe Firefly生成的组合帧展示了视频背景生成的效果,这些组合帧是通过ChatGPT4生成的文本提示或手动书写的。
评估结果表明,ActAnywhere能够生成具有高度真实感的前景与背景互动、相机运动、光影效果的视频,并能够推广到分布于训练数据之外的样本,包括非人类主体。
这一新模型提供了一个简单且高效的方式,将任意主体放置于多样的场景中,为电影制作和视觉特效等领域提供了有价值的工具。