哭死啊,全球狂炼大模型,一互联网的数据不够用,根本不够用。
训练模型搞得跟《饥饿游戏》似的,全球AI研究者,都在苦恼怎么才能喂饱这群数据大胃王。
尤其在多模态任务中,这一问题尤为突出。
一筹莫展之际,来自人大系的初创团队,用自家的新模型,率先在国内把“模型生成数据自己喂自己”变成了现实。
而且还是理解侧和生成侧双管齐下,两侧都能生成高质量、多模态的新数据,对模型本身进行数据反哺。
模型是啥?
中关村论坛上刚刚露面的多模态大模型Awaker1.0。
团队是谁?
智子引擎。由人大高瓴人工智能学院博士生高一钊创立,高瓴人工智能学院卢志武教授担任顾问。公司成立时还是2021年,就早早打入多模态这条“无人区”赛道。
这不是智子引擎第一次发布模型。
去年3月8日,潜心研发两年的团队对外发布了自研的第一个多模态模型,百亿级别参数的ChatImg序列模型,并基于此推出世界首个公开评测多模态对话应用ChatImg(元乘象)。
后来,ChatImg不断迭代,新模型Awaker的研发也在并行推进。后者还继承了前代模型的基础能力。
相较于前代的ChatImg序列模型,Awaker1.0采用了MoE模型架构。
要说原因嘛,是想要解决解决多模态多任务训练存在严重冲突的问题。
采用MoE模型架构,可以更好地学习多模态通用能力以及各个任务所需的独特能力,从而让整个Awaker1.0的能力在多个任务上有进一步提升。
数据胜千言:
鉴于主流多模态评测榜单存在评测数据泄露问题,智子团队从严构建了自有评测集,大部分测试图片来自个人手机相册。