OpenAI首个AI文生视频模型“Sora”正式发布
【慧聪广电网】近日,美国人工智能研究公司OpenAI推出了一款文生视频模型“Sora”。通过简短或详细的提示词描述,或一张静态图片,“Sora”就能生成类似电影的逼真场景,涵盖多个角色、不同类型动作和背景细节等,最高能生成1分钟左右的1080P高清视频。
OpenAI的官网介绍称,如果给定一段简短或详细的描述或一张静态图片,“Sora”就能生成类似电影的1080P场景,包含多个角色、不同类型的动作和背景细节。使用这款模型可以用文本生成长达一分钟的视频。开发这一模型旨在教会人工智能理解和模拟运动中的物理世界,并训练其帮助人们解决需要现实世界互动的问题。“Sora是能够理解和模拟现实世界的模型的基础,我们相信这一功能将成为实现通用人工智能(AGI)的重要里程碑。”
OpenAI表示,当前的模型存在弱点,可能难以准确地模拟复杂场景的物理表现,可能混淆提示的空间细节,可能难以精确描述随着时间推移发生的事件,如遵循特定的相机轨迹等。也可能无法理解因果关系的具体实例,并举例称,视频很可能会出现“一个人咬了一口饼干,但饼干上没有咬痕。”
“Sora”不仅能模拟真实世界,而且能学习摄影师和导演的表达手法,并在AI视频中展现出来。“我们探索视频数据生成模型的大规模训练。具体来说,我们在可变持续时间、分辨率和宽高比的视频和图像上联合训练文本条件扩散模型。我们利用对视频和图像潜在代码的时空补丁进行操作的Transformer架构。我们最大的模型Sora能够生成一分钟的高保真视频。我们的结果表明,扩展视频生成模型是构建物理世界通用模拟器的一条有前途的途径。”OpenAI表示。整体来看,“Sora”生成的视频噪音比较少,原始的训练数据比较“干净”,而且基于ChatGPT、DALL·E文生图技术能力,“Sora”视频生成技术更加高超。
“Sora”已经成为了目前最强的AI视频生成类模型。