• 欢迎使用千万蜘蛛池,网站外链优化,蜘蛛池引蜘蛛快速提高网站收录,收藏快捷键 CTRL + D

国产开源Sora:ReVideo视频编辑可用,北大-兔展团队出品,助力全面支持国产AI算力


在日益竞争激烈的互联网市场,企业需要不断挖掘新的SEO技巧来优化网站以提高排名。最近,北大-兔展团队联合发起了一个开源项目,名为“Open-Sora-Plan”,提供了一个新的视角,用AI来生成视频用于SEO优化。该项目在GitHub上已经有10.4k颗星星,项目的最新版本是Open-Sora-Plan v1.1.0。

Open-Sora-Plan v1.1.0是一个基于Transformer的文本到视频模型,经过T5文本嵌入的训练。该项目主要由三部分构成,即Video VAE(视频变分自编码器)、Denoising Diffusion Transformer(去噪扩散型Transformer)、Condition Encoder(条件编码器)。

项目优化点

跟v1.0.0版本相比,v1.1.0版本主要优化了两个方面。

优化CausalVideoVAE的结构

v1.1.0版本对CausalVideoVAE的结构进行了优化,仅保留encoder的最后两个stage的CausalConv3D,几乎能够保持原有的性能的情况下大幅度降低开销。同时,v1.1.0版本也改进了Temporotal module,用卷积代替AvgPool,增加可学习的权重,以期望不同分支能够解耦不同特征。

采用更高质量的视觉数据与caption

该项优化主要强调图片与视频的质量,为Open-Sora-Plan提供更好的训练数据。研究人员从Pixart-Alpha获取了11M个图像文本对,他们的caption由LLaVA生成,同时使用InternVL-1.5进行补充描述。此外还从Laion-5B中筛选高质量图片以提高生成人类的质量。团队的视频数据集也从v1.0.0的0.3k小时增加到了3k小时。

优化效果展示以及问题

Open-Sora-Plan v1.1.0可以生成长达21秒的视频,很适合用于SEO优化。该项目在GitHub上有10.4k颗星星,研究人员也在不断进行优化。他们还展示了和v1.0.0的比较。当然,在优化过程中,Open-Sora-Plan v1.1.0还存在问题,例如视频在重建细粒度特征时,画面都会发生抖动。 团队成员表示,可以通过扩大模型和数据量来解决这个问题,达到更好的效果。

视频演示

项目团队对Open-Sora-Plan的现阶段能力进行了三个层面的展示,并注明演示背后是用3k小时视频数据。

10s版文生视频(10s×512×512)

这张图的Prompt是,“蓝色时刻圣托里尼岛的鸟瞰图,展示了令人惊叹的建筑”。

10s版文生视频(10s×512×512)

这张图的Prompt是,“摄像机对准一大堆老式电视机,所有电视机都显示不同的画面”。

摄像机对准一大堆老式电视机,所有电视机都显示不同的画面

2s版文生视频(2s×512×512)

给出的效果展示,有经典的小狗子,“一只戴着贝雷帽和黑色高领毛衣的柴犬”。

给出的效果展示,有经典的小狗子,“一只戴着贝雷帽和黑色高领毛衣的柴犬”

还有一幅画,画面上航船前行,波涛拍打:

还有一幅画,画面上航船前行,波涛拍打:

视频编辑(2s×512×512)

ReVideo模型是在Open-Sora-Plan v1.1.0进行视频编辑(2s×512×512)的新增组件。不论是小猫戴墨镜,还是天空飘气球,在画面连续性和角色一致性方面都表现得还算不错。

小猫戴墨镜 天空飘气球

未来展望

团队表示,未来的工作主要围绕两个方面进行。

数据缩放

团队将重点关注数据来源和数据体量,让更多的数据可以用于训练模型,提高模型的表现。

模型设计

主要集中在向CausalVideoVAE和扩散模型方向优化。

Open-Sora-Plan的团队成员认为,在未来的发展中,可以用更大的模型和数据集解决Open-Sora-Plan的缺陷,实现更好的效果。同时,该团队承诺,无论如何更迭,所有数据、代码和模型都会继续开源。

对于SEO优化而言,这个项目的出现或许会对我们的技术选型带来一些启示,也许会成为一个优惠项目的补充手段,当然需要实际应用效果的验证与验证成本的比较。

相信不久的将来会有更多的AI技术进入SEO的领域,创造出新的应用场景和商业价值。

最后,读者们可以选择在GitHub或Hugging Face上尝试这个项目。此外,

本文链接:https://www.24zzc.com/news/171693145475688.html

蜘蛛工具

  • WEB标准颜色卡
  • 中文转拼音工具
  • 域名筛选工具