现在,事情有了变化。
Vidu生成,动图经过压缩。图/生数科技
但Vidu,离Sora到底还有多少差距?
对标Sora,Vidu还差「一点」比如Sora街头行走这一段,相信会看这篇文章的读者应该都看过,一度刷爆了各大社交媒体。
Sora生成,动图经过压缩。图/OpenAI
Vidu生成,动图经过压缩。图/生数科技
虽然相比Sora那段少了很多震撼和细节展示,但不管是皮衣的质感,还是路面的反射和倒影,Vidu其实都展现了非常有说服力的效果。
更重要的是,背景、人物主体是一致的,并没有在前后发生大的变形或变化。
比如开车这一段,镜头一直跟随着汽车前移,但路旁的树木和汽车主体始终没有发生变化,并不像很多扩散模型一样,这一秒和下一秒的主体都可能出现明显的差异。
Vidu生成,动图经过压缩。图/生数科技
不过在保真度上,Vidu还是和Sora有比较明显的差距。相似的提示词(内容)下,Sora开车这一段的背景明显更接近真实世界,用比较通俗的话讲,Vidu有点「油画」。
Sora生成,动图经过压缩。图/OpenAI
但显然,Vidu作为国产大模型,还是更懂中国。
Vidu生成,动图经过压缩。图/生数科技
如果Sora的重点与其说是舞龙,实则更像展现「围观群众」的惊人模拟,那Vidu就是真真正正模拟了一条龙。
此外,Vidu还生成了一段「熊猫在湖边弹吉他」,除了主体上的拟真,背景部分的草地、湖水都相当程度地「真实」。
Vidu生成片段截图,非动图。图/生数科技
在人物生成上,Vidu也有一组画面充分展示了它的实力,从面部表情、眨眼到抬头,都非常接近实拍镜头。就算比起Sora的人物镜头,也不逊色多少。
Vidu生成,动图经过压缩。图/生数科技
突然出现的第三条腿。图/生数科技
正如OpenAI在Sora发布之初承认的,这类模型当前存在一定的局限性,比如无法模拟复杂场景的物理效应,理解某些特定因果关系等。
好饭不怕晚:如何制造Vidu?看起来,Vidu就好像Sora一样横空出世,以相当惊艳的表现引起刷屏,而且同是基于对Transformer与Diffusion架构的融合。但很多人并不知道,生数科技联合创始人兼CEO唐家渝上个月就透露过:
不仅如此,这家几乎可以算是从清华大学人工智能研究所「孵化」出来的初创公司,在2022年9月就提出了融合Diffusion和Transformer的U-ViT架构,比OpenAI提出DiT架构(Sora的底层架构)还要早。
甚至因为发布时间更早,计算机视觉顶会CVPR2023提前收录了清华大学的U-ViT论文,而以「缺乏创新」为由拒绝了OpenAIDiT论文。
但总的来说,这两家公司的思路大体一致。
Vidu生成,动图经过压缩。图/生数科技
不过很多人可能还有一个问题:明明更早提出融合架构,生数科技为什么更慢?甚至效果还差一些?
事实上不难理解。要知道,生数科技正式成立于2023年3月,虽然在不久后获得了阿里、百度、字节等公司和机构的多轮融资,但最多也就融到数亿。相比之下,OpenAI背靠微软,在算力、数据、资金、人才等方面都有着更大的优势。
同时,这也会影响到Sora和Vidu完全不同的发展路径。
而据唐家渝表示,生数科技目前要走两条路。
写在最后Sora刚发布的时候,国内一片惊叹,又是一片哀嚎。
而Vidu的发布,至少再次证明了一切皆有可能。但如果说Sora的发布是一个开始,那我相信Vidu不是结束,「甚至不是结束的开始。但这也许是开始的结束。」