“嬛嬛,朕emo啦!”
此前,一位名为“奶茶小肥仔”的博主靠模仿陈建斌的声线唱歌走红,“朕emo啦”“朕能不能睡中间”等网络热梗广为流传。新榜旗下数据工具新抖显示,“奶茶小肥仔”在抖音半年粉丝量飙升370万。
在他的视频中,网友往往只能看到《甄嬛传》的素材剪辑,如今,一款EMO模型的出现,让网友直接看到了“皇上开口唱歌”这一毫无违和感的画面。
近期,阿里通义实验室研发的AI视频生成模型“EMO”上线通义APP“全民舞台”频道,经测试,只需上传一张大头照,就可以让人物照片动起来,根据App预置的音频模板生成演唱视频。
阿里EMO模型于今年2月公开技术论文,产品化仅用了两个多月的时间。
从官方演示被一众科技圈KOL轮番转发、引爆话题度,到4月25日正式上线通义App,传出服务器一度被挤爆。
这款被外媒誉为“Sora之后最受期待的大模型之一”,真实使用效果究竟如何?Sora引发新一轮AI视频生成浪潮,国内大厂中为什么频频出圈的是阿里?“头号AI玩家”进行了一番探究。
一张图片就能生成唱歌视频了!
想听玛丽莲梦露唱《科目三》?安排!
想让《甄嬛传》的四郎开口唱“嬛嬛朕想睡中间”?安排!
以上两段视频,都是在通义App中用一张图片自动生成的。
4月25日,EMO模型正式上线通义App,EMO是Emote Portrait Alive的缩写,作为一款音频驱动的肖像视频生成框架,EMO可以根据输入视频的长度生成任意持续时间的视频。今年2月,阿里巴巴发布了这款全新的生成式AI模型EMO并公布了技术论文(链接已同步至文末)。
论文信息显示,在EMO之前的肖像说话(Talking Head)技术需针对人脸或身体部分做3D建模,通义实验室率先提出了弱控制设计,无需建模就可驱动肖像开口说话,大大降低了视频制作成本;
此外,EMO还学习并编码了人类表达情绪的能力,可以匹配音频内容和人物的表情、嘴型,还能将音频语气特征和情绪色彩呈现