SORA是啥概念?它将如何AI生成视频

Sora是由OpenAI,一家美国的人工智能研究机构,开发的一种文本到视频的模型。它能够根据描述性的提示来生成视频,或者在未来的时间段内灵活地扩展现有的视频,仅仅是从图像生成视频。到2024年2月为止,这个模型还没有对公众开放。

相较于其他的视频生成AI,Sora的优势在于它能够从文本中创建出长达一分钟的视频,这些视频具有高分辨率和高保真度,支持舞蹈视频格式,多模态输入,优秀的真实世界交互能力,同时保持角色和场景的3D一致性和长期一致性。

简单来说,Sora使用了视频压缩网络,将输入的图像或视频压缩成低维的表达,这就像是将不同尺寸和分辨率的照片进行标准化,但又不会失去它们的独特性。Sora将压缩后的数据分层成时空块(Spacetime Patches),每个小块都包含了部分的时间和空间信息,这使得它们更易于处理和存储。Sora使用DiT扩散模型(Diffusion Transformer),通过提示生成视频。这个过程从一段类似随机噪声的视频开始,Sora人工智能根据提示,利用大量的视频和图像数据库逐渐引发噪声,对视频进行不断的扩散文本修改,最终将视频改造成接近文本描述的内容。