本文来自微信公众号“ICT茶馆”,作者/掌柜。
近日,OpenAI的Sora可谓炸裂登场,OpenAI再次成为顶流。
这不得不让“红衣教主”、360集团创始人周鸿祎感叹,OpenAI的CEO奥特曼(Sam Altman)是个营销大师。能够在合适的节点推出现象级产品,吸引全球流量,抬高公司估值……
“我相信OpenAI手里应该还藏着一些秘密武器,无论是GPT-5,还是机器自我学习自动产生内容,包括AIGC。奥特曼是个营销大师,知道怎样掌握节奏,他们手里的武器并没有全拿出来。这样看来中国跟美国的AI差距可能还在加大。”周鸿祎表示。
在AIGC领域,“文生视频”最难,难度排序是文本<静态图像<声音<视频。
小冰公司CEO李笛曾在2023年上半年接受媒体采访时表示,文本生成视频当前主要短板是可控性。生成的质量不稳定,需要调整的时候不容易调整,这导致它可以用来Demo(演示),但很难实际落地。所以从这个角度看,文生视频应用空间远没有文生文本大,而且难度与成本也要高得多。
如今,Sora的出现标志着“文生视频”应用开始落地。
因为,OpenAI的Sora能在多角度的镜头切换中,就能实现对象的一致性,这是个奇迹!这种级别的多镜头一致性,是当前市面上“文生视频”模型无法企及的……更重要的是,在Sora身上,竟已经有了世界模型的雏形。通过观察大量数据,它竟然学会了许多关于世界的物理规律(当然,还不完善,比如,某人咬饼干,但饼干没有咬痕)。
专家预测,未来某天,Sora将冲击“文生3D视频”领域。
“文生视频”不是新鲜事
2022年下半年开始,谷歌、Meta以及一些创业公司相继发布了文本生成视频的系统,但这些系统效果并不理想,当时业界就等着OpenAI公司发布“文生视频”模型,看看领头羊的武器有多先进。
2022年10月Meta公布了文生视频工具Make-A-Video,这个工具可以把文字生成视频,也可以将静态图片生成连续图片,然后将这些图片连接成一段视频。尽管Make-A-Video尚显“生涩”,但当时还是引起业界“骚动”。
之后,谷歌公司CEO Sundar Pichai亲自发布了该公司的两个文生视频工具——Imagen Video与Phenaki,前者主打视频品质,后者主要挑战视频长度。
2023年2月6日,Runway发布Gen-1模型,这个模型可以通过应用文本提示或者参考图像所指定的任意风格,将现有视频转换为新视频。今年的奥斯卡将7项大奖颁给了《瞬息全宇宙》,在影片的制作过程中,就采用了这家公司的技术。
中国的Sora在哪?
从2023年初,“文生视频”赛道在中国渐热。
3月22日阿里达摩院在AI模型社区“魔搭”(ModelScope)悄悄放出“文本生成视频大模型”,在开源模型平台低调对外测试。
3月16日,百度发布文心一言也提供文字生成视频功能,在去年8月又上线了文本转视频原生插件。
现在,ICT茶馆掌柜在华为云官网上查找,可以发现华为盘古多模态大模型有视频生成功能选项,但写着“敬请期待”。
可以说,无论是国外的Runway,还是国内的基础大模型公司,各自都在做“文生视频”模型,但与Sora相比还有一定差距,一方面是体现在持续时长上,绝大多数视频时长还在4-10秒左右,其连贯性也有所不足。另一方面是镜头的组合,绝大多数视频都是单镜头;而Sora已实现了在一个视频里面,多角度镜头的组合。例如,在剪影动画中,视频从一只狼对着月亮嚎叫,直到它找到狼群,切换了不同景别的多个镜头。
这就是现实!人家目前仍是“学霸”!
但不管怎样,AI文生视频工具逐步增强,未来将会改变电商直播、产品广告、影视制作等多个行业的生态,下游应用的加速时刻也将到来。当然,技术是把双刃剑,以后版权侵权、色情视频泛滥、视频诈骗等问题也会层出不穷。
正如资深人工智能专家郭涛所说,AI文生视频、图生视频等赛道将会继续保持快速发展的趋势,未来一两年内,AI生成视频领域将会出现更多的创新和突破,包括更加智能的视频生成技术、更加丰富和多样化的应用场景和更加完善、成熟的技术标准和商业模式等。同时,这个领域也将会面临一些挑战和难点,例如数据安全和隐私保护、商业化模式和市场接受度等问题。
当然,在中美角力的当下,AI是主战场之一,我们还是期待着中国的Sora尽快到来!