昨天,众多AI视频创作者翘首以盼的Runway的Gen3,终于面向部分超级合作者开放了。
我的好基友@闲人一坤也是第一时间拿到了内测资格,我就直接把号要来了。
我从中午到凌晨,跑了12个小时,几百个Case。
发现我之前开的香槟,没开早。
先放几个我觉得还不错的case。
Runway Gen3,在模型质量上,还是能把Luma和可灵拉开一些差距,特别是审美上。虽然也就是70分跟60分的区别,但至少,在模型质量上,确实是我认为的当今No.1。
现在只上了文生视频,图生和那些可控工具还没上。
给我急急急急急急急急急急急急急急急急死了。
在我跟坤哥瞎吉尔一顿跑了快100个case之后,我决定还是偏系统性的测一下,这个系统只是比瞎跑系统一点,肯定比不过南洋理工或者上海人工智能实验室那种专业级别的测试,所以别杠我,杠就是你对= =
测试的构筑方法上,其实我之前想了蛮久的,去年我其实规划过一版测试维度,大类上有语义理解、画面细节质量、运动质量、镜头移动质量、一致性、衰减性等等。
然后比如在运动幅度上,又可以拆为:人脸五官运动质量、人物肢体运动质量、动物运动质量、刚体运动质量、流体运动质量等等。。。
写完以后我就觉得太特么扯淡了,不是这个划分扯淡,是我的人力有点扯淡。真要这么跑一遍,那我就好几天啥事都不用干了。。。
所以现在,为了达到成本与效率最优解,我就非常简单粗浅的,按风格去划分,分为:
写实风格、动画风格、科幻风格、玄幻风格、抽象风格。
每个风格里面跑10~15个prompt,每个prompt roll三遍,虽然只有文生视频,但其实也基本能看出来模型整体质量和特征了。
而写prompt这活,当然是交给AI去干了。
再把这些prompt,扔到gen3里面跑case。
目前只能用文生视频,其他的功能都还没上。在最下面可以切换生成视频的片段长度,可选5s和10s两种。
生成速度非常的快,亲测10s的基本也就1分半就能跑出来,这个可比Luma好多了,那玩意动不动十几分钟。。。
所有的case,我也都放到飞书文档里,有兴趣想全看一遍的,对着我公众号关注后在后台私信"gen3"就能拿到链接了。
小心翼翼的测试
而文章碍于篇幅,我就每个风格,展示5个有代表性的case,让大家一睹为快。
(注:在gen3中生成视频我使用的都是英文,下面的是为了方便大家看所以所有prompt才都翻译成了中文)
一.写实风格
写实风格测试的东西很简单,主要就是看现实城市街景、自然风光、室内场景等,也看看人物的面部表情、光影效果、细节纹理等。
核心还是现实世界的写实。
1.特写镜头,温暖的晚霞,一位长发飘逸、面带温柔微笑的年轻女子,坐在咖啡馆的露台上,轻啜咖啡,背景中是模糊的城市景观和人群交通,氛围放松而舒适。
这个可以看到杯子是变形的,手的位置也很奇怪。除了这两问题之外,其他都还挺稳。
2.中景镜头,刺眼的正午阳光,施工现场的工人们穿着安全装备操作起重机,背景中耸立着摩天大楼,氛围动态而繁忙。
这个问题就非常多了,肢体变形,人物消失,穿过了明明在远方的杆子,摩天大楼的细节也有问题。
3.低角度镜头,戏剧性的侧面光,一位专业厨师在繁忙的厨房里切菜,周围蒸汽弥漫,锅碗瓢盆悬挂,氛围紧张而专注。
地狱难度,涉及到切菜也就是人、刀、菜的三者交互,所以基本都跟魔法一样,不能看。
4.倾斜镜头,傍晚的街灯,一位音乐家在繁华的街角弹吉他,行人匆匆而过,商店门面上明亮的霓虹灯,氛围热闹而充满活力。
算是很能夸的一个镜头了,人物主体是非常稳定的。但是背景过于复杂,很明显的BUG就是刚开始的车开过去的时候,有个粉衣服的人是跟车合为一体的。。。
5.极限特写镜头,自然光线,一位画家的手在调色板上混合颜色,背景是画布和画架,手指上沾有颜料,氛围专注而富有创造力。
很棒的一个镜头。是能明显的感受到有因果关系的,手和笔会影响颜料,还有粘连的效果。虽然肯定没法跟现实世界比,但是已经很不错了。
总结:写实风格整体看,还是人物特写和风景最稳,一旦涉及到全景或者中景,当人物没有足够的面积空间时,肢体变形就极为严重,但是如果不涉及到人物与物体的交互,那稳定性还是非常强的。
而Runway有一说一,在光影的审美上,是真的强。毕竟电影出身,审美是真舒服。
二.动画风格
主要就是看对各种风格的包容度以及审美,比如2D、3D、皮克斯、吉卜力等等。
1.特写镜头,柔和的晨光,一位粉色头发、大眼睛的年轻女孩,日式动漫风格,望着窗外,樱花在空中飘落,背景是传统的日本房屋,氛围宁静且怀旧。
风格倒是正常,樱花飘的也很好看,就是人物动态太少,跟写实比差太多了,基本没有任何表演可言。
2.中景镜头,夕阳余晖,一位未来派机器人和一个人类女孩,3D动画风格,走在霓虹灯闪烁的街道上,周围是全息标志和飞行汽车,城市景观中高耸的建筑,氛围鲜活且高科技。
我真不是故意吓大家才把这个传上来的,是他真的BUG的有特点,因为我跑出来好多前后不分的视频,这个就是典型代表。。。
3.高角度镜头,明亮的正午阳光,一群充满活力的玩具复活,皮克斯风格,在一个孩子色彩缤纷的卧室里,玩具车和动作人物四处移动,氛围愉快且充满活力。
我真不是故意吓大家才把这个传上来的,是他真的BUG的有特点,因为我跑出来好多前后不分的视频,这个就是典型代表。。。
4.跟踪镜头,柔和的黄昏光,一位勇敢的少女战士,手持发光的剑,幻想动漫风格,跑过一片迷人的森林,周围是神话生物和古老遗迹,氛围史诗且冒险。
除了手上那把剑不知道是个什么玩意,也没有神话生物和古老遗迹啥的,都挺好。
5.越肩镜头,昏暗的室内灯光,一位年轻的巫师手持魔法书,中世纪动漫风格,在宏伟的图书馆中施法,书架上摆满了古老的书籍和魔法神器,氛围神秘且魔幻。
最后的那一下特效帅炸了,就是人物的脸变形了,从一个异瞳萌妹不知道是个什么玩意,而且也不是越肩视角,不过越肩视角这个就不强求了,没几个能画出来的。
总结:动画风格整体化上,其实都挺差劲的,吉卜力、3D、美漫啥的效果表现都极差,整体审美、物理动态也比写实差很多,明显感受到了数据集的不足,runway整体还是非常的偏写实和电影的。
三.科幻风格
我自己最喜欢的风格,主要看模型的数据集和泛化能力,能不能把一些很科幻的场景表现出来。应该也是我跑得最多的case,好像文档里放了将近20个。
1.广角镜头,霓虹城市灯光反射在金属表面,一个巨型机甲从一个流线型车辆变形为高耸的机器人,齿轮和面板无缝转换,背景中有未来感的摩天大楼和飞行汽车,氛围紧张且高科技。
我是有多想不开才会让AI给我跑变形金刚。但是他居然变了出来,虽然整体都很奇怪,但是至少是变了,这个prompt理解是猛的。。。
2.中景镜头,鲜艳的蓝色和银色调,两台机甲陷入史诗般的战斗,迅速交换打击并发射能量武器,四周是烟雾和爆炸的破坏性城市战场,氛围充满动感和动作感。
真的,帅炸了,我爱惨了,这打架