8月3日,搜狗CTO杨洪涛正式对外发布了搜狗语音交互引擎——知音,该技术致力于让人机交互更加自然,不仅“能听会说”,还具有“能理解会思考”的能力。发布现场,杨洪涛一边介绍搜狗未来几年的AI技术战略,大屏幕一边通过知音引擎进行语音交互展示,正确率可达到99%。
杨洪涛表示,自然交互和知识计算是搜狗在人工智能领域的两大战略方向,目前搜狗在AI领域的研发已经全面展开,并在智能语音领域取得了重大突破,“知音”引擎作为搜狗在自然交互方面的重要成果,充分说明了搜狗强大的技术实力,未来随着搜狗在自然交互与知识计算方面的不断完善,“知音”将会在更多场景为用户提供服务。
给语音识别装上了大脑
还记得科幻片《钢铁侠》中,托尼·史塔克的AI管家贾维斯吗?随着科技快速迭代升级,过去在科幻片中出现的情景,很多都将在日后变为现实,声音的交互会出现在生活的各类场景中。
现场,搜狗语音交互中心负责人王砚峰通过文本编辑、车内导航、生活娱乐三个场景为大家演示了语音识别交互的深度应用。通过视频可以发现,首先,“知音”解决了用户在说话过程中因语速过快而导致的吞音问题,语音识别错误率相对下降30%以上,语音识别速度提升3倍。
其次,“知音”能够在语音交互的过程中支持用户修正错误的识别结果,用搜狗手机输入法推出的“语音修改功能”,用户只需通过自然语言即可修改之前的输入文字,例如用户可以说:“把‘张’修改为立早‘章’,或者把‘张’修改为文章的‘章’,把(男)他改成女字旁的她”等,输入法便可以马上理解并执行指令。
不仅如此,“知音”还支持多轮对话,处理更复杂的用户交互逻辑,用更自然并且用户更容易接受和理解的方式进行交互,更好地感知用户语音请求背后的真正需求,从而提供更为便捷的人性化服务。比如用户说我要去首都机场,它会问 T1还是 T2,当用户确定航站楼后,它会问是出发还是接人。
“现在的语音交互分成三个技术环节,语音识别、语义理解和语音合成。其中语音识别代表的是机器的耳朵,语音理解代表是机器的大脑。‘知音’语音纠错技术相对于给语音识别加上大脑,以前语音识别没有大脑只有耳朵,它并不知道内容到底指的是什么。“王砚峰表示,如果想要做到更聪明的语音交互,要解决两个问题——一个更灵敏的耳朵和一个更聪明的大脑,这就是我们的搜狗知音引擎。”
据了解,搜狗从2012年开始研发智能语音技术,并在2013年开始进行深度学习,目前搜狗的智能语音技术已经成功应用到搜狗的全线产品中。数据显示,搜狗搜索日均语音搜索次数增长超过4倍,搜狗手机输入法日均语音输入超过1.4亿次,成为中国语音输入功能使用量最大的移动手机产品,搜狗语音技术也在用户产品的迭代中快速取得了行业领先的效果。
依托于搜狗自研深度学习技术
凭借互联网公司的天然优势以及多年来的数据和技术积累,搜狗的“知音”引擎可以做到识别速度更快、纠错能力更强、支持更加复杂多轮的交互以及更加完善的服务能力,这背后还有搜狗坚持一直以技术为驱动的战略布局。
一直以来,搜狗都将人工智能技术的研发与应用作为自身的战略发展方向,早在两年前就宣布实施“智慧战略”,深入于包括深度学习在内的前沿技术的研究、布局人工智能、引领未来搜索。
今年4月22日,搜狗宣布捐赠清华大学1.8亿元人民币,联合成立“清华大学天工智能计算研究院”,深入开发包含人工智能在内的前沿技术,相关研究成果将应用于搜狗的下一代产品中。该研究院也是目前国内一家由尖端技术公司和知名工科院校强强联合的人工智能专业研究机构,成为国内“校企联合”进行人工智能科研的领军企业,未来无疑将会为搜狗创造更广阔的发展空间。
搜狗CEO王小川认为,“搜索本身就是一种AI,随着人工智能时代的到来,搜狗将不断增强自身技术实力的积累。搜狗目前已在语音识别领域取得了重大突破,未来一方面将通过与清华合作进行人工智能领域前沿技术研发,另一方面也将在自然交互与知识计算上不断完善自身产品与服务,成为后搜索时代行业的引领者。”
分析搜狗近些年的发展不难发现,搜狗的成功很大程度上得益于公司前瞻性的产品与技术战略,无论是PC时代还是移动互联网时代,搜狗均能在当下环境中开辟出最前沿的发展思路。
随着人工智能浪潮的来临,以及物联网场景下应用需求的不断扩大,智能语音产业规模将持续快速增长。搜狗适时推出“知音”引擎,不仅有利于其在即将迎来的行业爆发期中占得良机,同时,对整个智能语音行业的技术革新也具有深刻意义。随着搜狗语音技术的日趋智能化和服务化,相信未来“知音”将会在物联网、车联网、人工智能等各个方面得到应用,并布局到更多的终端入口。