OpenAI刚发布了新的文生视频大模型Sora
Sora 模型可以生成最长 60 秒的高清视频,生成的画面可以很好的展现场景中的光影关系、各个物体间的物理遮挡、碰撞关系,并且镜头丝滑可变。
为何Sora模型的效果看起来远超市面上我们见过的其他文生视频模型,他们都做了什么?
文生视频是什么?
文生视频的要求是根据文本描述生成一系列时间和空间上都一致的图像。虽然看上去这项任务与文生图极其相似,但它的难度要大得多。
一、文生图
GAN 架构:
两年前,第一个支持open-vocabulary的高质量文生图模型出现了。第一波文生图模型,包括 VQGAN-CLIP、XMC-GAN 和 GauGAN2,都采用了 GAN 架构。
transformer架构:
OpenAI 在 2021 年初发布的广受欢迎的基于 transformer 的 DALL-E、2022 年 4 月的 DALL-E 2。
扩散模型(Diffusion models ):
多采用U-Net 架构,也有基于transform。
Stable Diffusion 的巨大成功催生了许多产品化的扩散模型,例如 DreamStudio 和 RunwayML GEN-1; 同时也催生了一批集成了扩散模型的产品,例如Mj绘画。
因为扩散模型是有非常卓越的优越性的,相较于GAN,扩散模型的生成多样性和训练稳定性都要更好。
GAN 模型从原理上来看本质上是机器对人的模仿,而扩散模型则更像是机器学会了“ 成为一个人 ”。
举个例子:
GAN 模型像是一个勤奋的画家,但不太受控制,因为画家( 生成器 )一边不停对着先作( 训练源 )画画,然后另一边老师( 判别器 )也不停打分。画家和老师一直升级进步,最后直到画家画出逼真的画,但整个过程不太好控制,经常走火入魔,输出一些谁也看不懂的玩意儿。同时,他的提升过程本质上是对先作的不断模仿,所以他还缺乏创造力,导致天花板也潜在会比较低。
扩散模型,则是一个勤奋且聪明的画家,他并不是机械的仿作,而是在学习大量先作的时候,他学会了图像内涵与图像之间的关系,他大概知道了图像上的 “ 美 ” 应该是什么样,图像的某种 “ 风格 ” 应该是什么样,他更像是在思考,他是比 GAN 更有前途的画家。
二、文生视频
尽管扩散模型在文生图方面的能力令人印象深刻,但文生视频模型的生成能力仍然非常受限。
文生视频模型通常在非常短的视频片段上进行训练,这意味着它们需要使用计算量大且速度慢的滑动窗口方法来生成长视频。因此,训得的模型难以部署和扩展,并且在保证上下文一致性和视频长度方面很受限。
文生视频的任务的挑战主要有:
1.计算挑战:确保帧间空间和时间一致性会产生长期依赖性,从而带来高计算成本,使得大多数研究人员无法负担训练此模型的费用。
2.缺乏高质量的数据集:用于文生视频的多模型数据集很少,而且通常数据集的标注很少,这使得学习复杂的运动语义很困难。
3.视频字幕的模糊性:“如何描述视频从而让模型的学习更容易”这一问题至今悬而未决。为了完整描述视频,仅一个简短的文本提示肯定是不够的。一系列的提示或一个随时间推移的故事才能用于生成视频。
如果这篇文章对你有帮助,希望多多点赞收藏!
顺便提一下,目前我在用的gpt国内镜像版,新智能AI,后续也会跟进Sora的更新。