2月16日凌晨,OpenAI发布了其最新成果——文生视频模型Sora。这一模型可以根据用户的指令,生成长达60秒的高清视频,同时也能够从静态图像中生成视频,并对现有视频进行扩展和填补缺失内容。据介绍,Sora不仅可以生成复杂场景,包括多角色和多角度镜头,还能精确呈现物体和背景的细节,以及角色的情感表达。
OpenAI官网上已经发布了48个视频demo,展示了Sora的强大功能。这些demo中,Sora展现了出色的细节呈现能力,并且能够深刻理解物体在现实世界中的存在状态,生成具有丰富情感的角色。例如,通过一个Prompt描述,在东京街头,一位时髦的女士穿梭在充满温暖霓虹灯光和动感城市标志的街道上,Sora生成的视频中,女士身着黑色皮衣、红色裙子,在霓虹街头行走,不仅主体连贯稳定,还包含了多个镜头,展现了丰富的细节和情感表达。
除了能够生成复杂场景外,Sora还可以根据提示、静止图像甚至填补现有视频中的缺失帧来生成视频。通过使用Transformer架构,Sora具有极强的扩展性,并且利用了类似于GPT中的标记(Token)的“补丁”数据单位集合,使得模型能够在更广泛的视觉数据上进行训练和扩散变化。
OpenAI表示,他们的目标是教会AI理解和模拟运动中的物理世界,以解决现实世界中需要交互的问题。Sora是在对DALL·E和GPT的研究基础上构建的,利用了DALL·E 3的重述提示词技术,为视觉模型提供高描述性的标注,从而使得模型能够更好地遵循文本指令。