中国挑战者来了！Vidu横空出世：文生视频能力比肩Sora？

admin 2025-02-11 160

现在，事情有了变化。

Vidu生成，动图经过压缩。图/生数科技

但Vidu，离Sora到底还有多少差距？

对标Sora，Vidu还差「一点」

比如Sora街头行走这一段，相信会看这篇文章的读者应该都看过，一度刷爆了各大社交媒体。

Sora生成，动图经过压缩。图/OpenAI

Vidu生成，动图经过压缩。图/生数科技

虽然相比Sora那段少了很多震撼和细节展示，但不管是皮衣的质感，还是路面的反射和倒影，Vidu其实都展现了非常有说服力的效果。

更重要的是，背景、人物主体是一致的，并没有在前后发生大的变形或变化。

比如开车这一段，镜头一直跟随着汽车前移，但路旁的树木和汽车主体始终没有发生变化，并不像很多扩散模型一样，这一秒和下一秒的主体都可能出现明显的差异。

Vidu生成，动图经过压缩。图/生数科技

不过在保真度上，Vidu还是和Sora有比较明显的差距。相似的提示词（内容）下，Sora开车这一段的背景明显更接近真实世界，用比较通俗的话讲，Vidu有点「油画」。

Sora生成，动图经过压缩。图/OpenAI

但显然，Vidu作为国产大模型，还是更懂中国。

Vidu生成，动图经过压缩。图/生数科技

如果Sora的重点与其说是舞龙，实则更像展现「围观群众」的惊人模拟，那Vidu就是真真正正模拟了一条龙。

此外，Vidu还生成了一段「熊猫在湖边弹吉他」，除了主体上的拟真，背景部分的草地、湖水都相当程度地「真实」。

Vidu生成片段截图，非动图。图/生数科技

在人物生成上，Vidu也有一组画面充分展示了它的实力，从面部表情、眨眼到抬头，都非常接近实拍镜头。就算比起Sora的人物镜头，也不逊色多少。

Vidu生成，动图经过压缩。图/生数科技

突然出现的第三条腿。图/生数科技

正如OpenAI在Sora发布之初承认的，这类模型当前存在一定的局限性，比如无法模拟复杂场景的物理效应，理解某些特定因果关系等。

好饭不怕晚：如何制造Vidu？

看起来，Vidu就好像Sora一样横空出世，以相当惊艳的表现引起刷屏，而且同是基于对Transformer与Diffusion架构的融合。但很多人并不知道，生数科技联合创始人兼CEO唐家渝上个月就透露过：

不仅如此，这家几乎可以算是从清华大学人工智能研究所「孵化」出来的初创公司，在2022年9月就提出了融合Diffusion和Transformer的U-ViT架构，比OpenAI提出DiT架构（Sora的底层架构）还要早。

甚至因为发布时间更早，计算机视觉顶会CVPR2023提前收录了清华大学的U-ViT论文，而以「缺乏创新」为由拒绝了OpenAIDiT论文。

但总的来说，这两家公司的思路大体一致。

Vidu生成，动图经过压缩。图/生数科技

不过很多人可能还有一个问题：明明更早提出融合架构，生数科技为什么更慢？甚至效果还差一些？

事实上不难理解。要知道，生数科技正式成立于2023年3月，虽然在不久后获得了阿里、百度、字节等公司和机构的多轮融资，但最多也就融到数亿。相比之下，OpenAI背靠微软，在算力、数据、资金、人才等方面都有着更大的优势。

同时，这也会影响到Sora和Vidu完全不同的发展路径。

而据唐家渝表示，生数科技目前要走两条路。

写在最后

Sora刚发布的时候，国内一片惊叹，又是一片哀嚎。

而Vidu的发布，至少再次证明了一切皆有可能。但如果说Sora的发布是一个开始，那我相信Vidu不是结束，「甚至不是结束的开始。但这也许是开始的结束。」

上一个卧室水循环电暖器颜色应该怎么选？卧室水循环电暖器颜色应该怎么选？

下一个好吃丨温暖新菜上线，驱散年末寒意好吃丨温暖新菜上线，驱散年末寒意