在日益竞争激烈的互联网市场,企业需要不断挖掘新的SEO技巧来优化网站以提高排名。最近,北大-兔展团队联合发起了一个开源项目,名为“Open-Sora-Plan”,提供了一个新的视角,用AI来生成视频用于SEO优化。该项目在GitHub上已经有10.4k颗星星,项目的最新版本是Open-Sora-Plan v1.1.0。
Open-Sora-Plan v1.1.0是一个基于Transformer的文本到视频模型,经过T5文本嵌入的训练。该项目主要由三部分构成,即Video VAE(视频变分自编码器)、Denoising Diffusion Transformer(去噪扩散型Transformer)、Condition Encoder(条件编码器)。
跟v1.0.0版本相比,v1.1.0版本主要优化了两个方面。
v1.1.0版本对CausalVideoVAE的结构进行了优化,仅保留encoder的最后两个stage的CausalConv3D,几乎能够保持原有的性能的情况下大幅度降低开销。同时,v1.1.0版本也改进了Temporotal module,用卷积代替AvgPool,增加可学习的权重,以期望不同分支能够解耦不同特征。
该项优化主要强调图片与视频的质量,为Open-Sora-Plan提供更好的训练数据。研究人员从Pixart-Alpha获取了11M个图像文本对,他们的caption由LLaVA生成,同时使用InternVL-1.5进行补充描述。此外还从Laion-5B中筛选高质量图片以提高生成人类的质量。团队的视频数据集也从v1.0.0的0.3k小时增加到了3k小时。
Open-Sora-Plan v1.1.0可以生成长达21秒的视频,很适合用于SEO优化。该项目在GitHub上有10.4k颗星星,研究人员也在不断进行优化。他们还展示了和v1.0.0的比较。当然,在优化过程中,Open-Sora-Plan v1.1.0还存在问题,例如视频在重建细粒度特征时,画面都会发生抖动。 团队成员表示,可以通过扩大模型和数据量来解决这个问题,达到更好的效果。
项目团队对Open-Sora-Plan的现阶段能力进行了三个层面的展示,并注明演示背后是用3k小时视频数据。
这张图的Prompt是,“蓝色时刻圣托里尼岛的鸟瞰图,展示了令人惊叹的建筑”。
这张图的Prompt是,“摄像机对准一大堆老式电视机,所有电视机都显示不同的画面”。
给出的效果展示,有经典的小狗子,“一只戴着贝雷帽和黑色高领毛衣的柴犬”。
还有一幅画,画面上航船前行,波涛拍打:
ReVideo模型是在Open-Sora-Plan v1.1.0进行视频编辑(2s×512×512)的新增组件。不论是小猫戴墨镜,还是天空飘气球,在画面连续性和角色一致性方面都表现得还算不错。
团队表示,未来的工作主要围绕两个方面进行。
团队将重点关注数据来源和数据体量,让更多的数据可以用于训练模型,提高模型的表现。
主要集中在向CausalVideoVAE和扩散模型方向优化。
Open-Sora-Plan的团队成员认为,在未来的发展中,可以用更大的模型和数据集解决Open-Sora-Plan的缺陷,实现更好的效果。同时,该团队承诺,无论如何更迭,所有数据、代码和模型都会继续开源。
对于SEO优化而言,这个项目的出现或许会对我们的技术选型带来一些启示,也许会成为一个优惠项目的补充手段,当然需要实际应用效果的验证与验证成本的比较。
相信不久的将来会有更多的AI技术进入SEO的领域,创造出新的应用场景和商业价值。
最后,读者们可以选择在GitHub或Hugging Face上尝试这个项目。此外,