8月29日,由创新工场、搜狗、美团点评、美图公司联合主办的“2018 AI Challenger全球AI挑战赛”正式开赛。
“数据、算法、计算能力是人工智能的的三大基石,其中,数据更是人工智能科研最宝贵的资产,没有足够好的数据,就无法取得世界顶级的科研成果。目前,中国有一大批潜在人工智能人才,需要大数据和竞赛平台推动进行人才培训。”启动仪式上,中国创客导师、创新工场董事长兼CEO李开复如此解释其主导创办这一比赛的初衷。
这已经是 AI Challenger 走过的第二个年头。四家主办方投入千万元规模以上的资金、新增十余个全新数据集,面向人工智能领域人才,打造国内规模最大的科研数据集平台以及最大的非商业化竞赛平台。据介绍,本次竞赛整体奖金规模达到300余万人民币。
“我最大的希望就是,未来三年,AI Challenger能消除中美年轻顶尖人才之间的差距,从我们这里走出去的优秀选手,最终成长成中国乃至世界AI产业的领军人物”李开复说。
打造“中国版 ImageNet”
数据有多重要?相信很多人都听过这样一句话:大数据是 AI 时代的石油。
李开复在开场时分享了他与数据的故事:在上世纪八十年代,李开复准备博士论文时,向其导师提出要用“超级大”的数据做语音识别。导师帮他找到了4000条语音数据,而在当时,这4000条语音数据的存储就要花费数十万美元。
有感于大数据在人工智能时代的巨大意义,李开复在2017年牵头举办了AI Challenger 全球AI挑战赛,致力于打造中国版 ImageNet。
ImageNet项目是一个用于视觉对象识别软件研究的大型可视化数据库,由人工智能大牛李飞飞在2009年于论文中提出,后逐渐发展为每年一度的赛事。如今,参与 ImageNet 的企业遍布科技行业,很多人都将此视为这一波人工智能浪潮的催化剂。
“AI Challenger 传承了 ImageNet 的公益精神,通过开放大量数据集,让更多人能够参与人工智能。”李开复说,“区别在于,AI Challenger 的数据量和赛道比 ImageNet 更丰富。”
领军AI的华裔女性、 ImageNet倡导者李飞飞
而真正启发李开复创办 AI Challenger 的灵感,来自于 ACM (ACM国际大学生程序设计竞赛)。“我觉得近20年来,促进中国计算机水平最大的一件事就是,各大高校开始参与全球 ACM 竞赛。竞赛本身规则明确,金牌、银牌的设置也符合中国重视考试的大环境。”李开复感受到竞赛对于推动科研的意义,“今天的人工智能结果都是比出来的,AI Challenger 大赛也一定要公开、可复制。本次大赛更关注‘顶尖的人才、足够的数据、能落地的成果’三大要素。”
据介绍,按照最初设定的目标,“AI Challenger全球AI挑战赛”首先要建设紧贴前沿科研任务需要的数据集,再者是要建立超大规模的高质量数据,第三个目标是要打造开放的世界级平台。
在2017年的首届大赛中,AI Challenger发布了从百万到千万量级的4个数据集。今年的AI Challenger又新增10余个数据集。其中:
搜狗新添加了问答语料,并强化了翻译数据,提供了1300万对翻译数据和300万对带有上下文场景的语料;
美团点评为本次的 AI Challenger 的细密度情感分析赛道提供支撑,提供15万条细密度情感数据,以及与 Berkeley 合作,提供无人驾驶数据;
美图提供大量短视频实时分析数据,该数据集包含20万条短视频,并采用多标签分类体系,标注信息几乎包含视频中展现的所有元素。
美图公司创始人兼CEO 吴欣鸿
更让年轻 AI 人才兴奋的是,今年的AI Challenger设置了丰厚的奖金池,整体奖金规模超过300万人民币。数据集和竞赛8月29日正式开放,并于12月18、19日进行竞赛的总决赛答辩和颁奖。
用 AI 挑战真实世界的问题
2018年,中国 AI 商业化和产业化进入关键时期。
人工智能在那些大数据积累还不完善的领域,如零售、制造、物流、农业、医疗、教育等领域,还需要经历一个长期的发展过程,也会特别严重地依赖于相关场景的数字化程度。
例如,对于一个线下零售卖场来说,如果没有大数据积累,没有摄像头等信息采集设备收集的商品信息、行为信息、场景信息等,就没法针对零售卖场的供应链和销售渠道进行优化,没法提供定制化的服务,没法与拥有大数据的电子商务网站或应用竞争。
因此,人工智能的商业化落地迫切需要符合各行业需求,同时也需要大量有科技前瞻性的训练数据集。
此外,李开复还指出,AI科研领域一直有一种倾向,就是与产业界的实际问题距离较远,科研成果到产业界的实际解决方案之间,转化率较低。
“互联网是人工智能落地的第一个领域,在下一个商业落地阶段,我们一定会看到 AI 切入到金融、零售、医疗、制造、气象、出行等领域。”李开复解释,“今年选择这几个赛道,都是看到了它们的实际应用和落地前景。”
今年 AI Challenger 的5个主赛道竞赛包括:观点型问题阅读理解竞赛、细粒度用户评论情感分析竞赛、英中文本机器翻译赛道竞赛、短视频实时分类赛道以及无人驾驶视觉感知赛道。据介绍,竞赛中涉及的技术可应用于智能客服、电商零售、安防、出行等领域。
除5个主赛道之外,AI Challenger 2018还开放5个实验赛道竞赛和相应的数据集,包括基于北京气象局3年气象数据的天气预报竞赛,农作物病害检测竞赛和数据集,国内首个眼底病变医学图像检测竞赛和数据集,以3D虚拟图像训练机器“认识”真实世界物品的竞赛和数据集,让机器借助辅助知识学习从未见过的新概念的首个国际性零样本学习竞赛和数据集。
李开复特意介绍了本次比赛新增的气象数据:“政府手中有大量优质数据,气象是非常好的适宜开放的领域,因为它并不涉及特别隐私的数据。希望北京市气象局给其他单位起到典范式作用,以后有更多的数据可以用于帮助民生。”
美团点评CTO罗道锋进一步解释:“刘慈欣在短篇小说《混沌蝴蝶》中描述过这样一个情节:一个超级计算机中灌入气象数据,就可以计算影响天气的关键点是什么、产生的蝴蝶效应是什么,进而针对天气关键点加以干预,可以制造气象灾难或者消灭气象灾难。今天 AI Challenger 的气象数据集加上 AI 算法,其实是朝着《混沌蝴蝶》迈出的第一步。”
美团点评CTO 罗道锋
值得参赛者注意的是,李开复表示,本届 AI Challenger 更加贴近商业落地,会有更多有意向创业的参赛者。创新工场将从中筛选优质参赛者,帮其商讨商业计划、对接投资。
本文为寻找中国创客(ID:xjbmaker)原创
作者 / 蔡浩爽
编辑 / 赵力