导读: 近年来随着搜索、语音交互、智能客服等场景的不断进化,问答技术的应用越来越丰富,本文将会介绍智能问答在QQ浏览器搜索引擎上的相关工作,通过精准、快速满足用户检索意图帮助搜索引擎的智能化升级。
搜索引擎从第一代由人工分类,到文本检索,到后面的整合分析,再到现在第四代智能搜索的概念,通过机器学习算法、NLP等技术来给用户呈现出更加全面,更加及时,更加精细化的结果,包括智能化的文本,以及结构化的知识,以及一些多模态的内容。
搜索场景里的Query需求大概分成几个方面,第一类是导航类的需求,第二类是资源类的需求,第三类是信息类的需求,信息类的需求占的比例会比较大,问答就是信息类需求中的一种。
在整体的搜索需求里,问答可以占到25~30%,如搜实体、搜关系、搜方法、搜因果等都可以通过问答的一些技术手段来满足。
以上是我们的一些业务的问答形态, 包括:普通的图文内容、列表型答案内容、医疗法律等垂类内容、结构化数据内容、事实性短答案等等。
接下来会分三条技术线条,每个线条展开一下重点模块,给大家分享一下这些业务落地的实际过程:
01
KBQA
Knowledge-Based QA
1. 什么是KBQA
知识图谱通过三元组的形式把知识组织成一张知识网络,里面包含着很多的实体关系和属性,当用户问一些结构化的知识的时候,比如说埃菲尔铁塔在哪里,直接通过里面的实体跟属性关系的查询,就可以找到目标答案;以及一些复杂的问题,需要在图谱中通过多条路径推理找到有支撑力的答案。
2. 解决方案
要去完成KBQA这件事情,解决方案有很多,这里列举两个例子,第一个是结构化的推理,基于组合范畴语法、句法依存解析query结构,并将其转换成图引擎的表达式,再做进一步推理;另一种是端到端,基于神经网络,把原始的用户Query,一站式的从文本转换成图引擎表达,然后做查询得出答案;同时也有基于子图挖掘的一些重要的方法等等。但这些方法在不同的场景上的适配也不太一样,比如短文本的场景、长文本的场景以及一些多轮对话的场景。
3. 方案选择
QQ浏览器知识图谱,包含亿级别的实体,几十亿级别的SPO三元组,涵盖了人物,影视,医疗等等十几个大的领域。基于当前图谱现状结合,结合搜索的一些特性,最终选择结构化推理的方案。
① 特点
② 结构化推理方案
结合这些特点,我们最终选择推理化的方案,主要包含四个模块,Query解析,算子引擎,图引擎以及排序:
Query解析:模板挖掘
强的假定:对于问答Query,一条三元组SPO,如果它的主实体Subject出现在了Query里面,并且它的Object出现在了Doc里面,我们假定这个query在说S和O之间的关系。Eg.刘德华的配偶是朱丽倩,如果刘德华出现在Query里,朱丽倩出现在了Doc里面,那我们就假定这个Query在说刘德华和朱丽倩的关系,他的意图就是在问配偶关系。
模板生成:通过这种方式我们能拿到很多这种Query+S+O的数据pair,这个Query即是在描述S和O的关系,这时只需要把Query中的主实体做槽位化,生成一个基础的模板;
噪声:基于这样的强假定会有很多噪声,但是基于搜索的海量数据下,聚合之后再做进一步的简化,把中间的一些通用词mask掉,生成通配,形成最后的模板+意图数据对;通过置信度打分排序后,头部模板质量可以得到控制。
Query解析:层次化模板匹配
简单匹配:“特朗普的大女儿”,“1991年出生是什么星座”,这类Q通过简单模板直接匹配就可以得到槽位和意图
复杂匹配:“爸爸的姐姐的儿子怎么称呼”,这种复杂的嵌套解析也是通过简单模板一层一层递归出来,第一层会匹配到 “[w:*][r:kinship]”,其中通配部分子串为“爸爸的姐姐的儿子”,第二层会匹配到“[w:*][r:son]”, 其中通配部分子串为“爸爸的姐姐”,最后一层会匹配到 “[d:entity-person][r:elder_sister]”。 这里层次化解析之后天然就出现了一个递归嵌套的结构,方便整个算子链的生成以及层次化的执行。
复杂模板:复杂嵌套解析中的模板都是普通模板生成而来,大部分模板既可以做简单Q的直接匹配或者嵌套底层的直接匹配,也可以是通配,做复杂解析中的上层嵌套匹配。
Query解析:模型预测
模板匹配的问题:模板的问题在于,即使量再大,它的泛化性还是不够,对于一些表达的变化或长尾化的Q,当前体系下的模板可以解决搜索KBQA里面需求的90%,需要泛化性的模型来兜住剩下10%的用户表达;
意图识别模型:首先识别Query中的Mention,然后将实体转化为槽位,原始Q变为槽位化的模板表达,如“[d:entity-person]的老婆是谁”,将这部分当前做Q1,再将实体槽位对应的候选意图当做Q2,做HRRNN的表示型匹配模型。一般这样简单表示型模型的匹配就可以兜住大部分剩余Query意图解析。有了上面Mention的识别,以及结构和意图的解析,接下来就进入到算子的推理执行过程。
结构化推理:算子引擎
这里可以讲算子分为三部分:
上图列举了一些图引擎、计算型、业务型算子,这三部分组合起来,根据整个嵌套解析的过程,以及针对意图的一些定制,生成针对Q的算子链;根据算子链的依赖关系,递归执行,取得最终的答案。
Eg. 爸爸的姐姐的儿子怎么称呼:对应算子链如上图所示, 爸爸是一个称谓实体,第一步先经过图引擎算子找到“爸爸”的姐姐这个目标实体,作为算子结果再去向上层执行;第二步根据当前实体找到“儿子”目标实体,再替换掉这个结果;最后顶层执行找到它的称谓;
总结:KBQA流程基本如上,以模板挖掘,模板匹配和解析为主,以模型的意图兜底为辅,再结合一些业务的定制化,综合去解决搜索里面可以通过结构化推理解决的问题。但是搜索中大部分还是非结构化查询,这些非结构化的Q还是要依靠DQA或者IRQA去解决。
02
DeepQA
Machine Reading Comprehension
1. 特点
DQA的数据来源非常简单,基于普通的网页文本就可以针对不同的Query抽取出不同的答案;另外适配的场景也比较多,不止在搜索场景,一些语音交互场景以及商品客服场景等等,都可以用DQA的方式做内容抽取。
2. 难点
难点一:QueryDoc理解;搜索中问答Query会比较杂,比较乱,中长尾分布严重,同时召回的Doc也是众多来源;
难点二:据识;抽取是整个DQA的核心,很多Query的候选Doc中没有正确答案或者无法解答, 且无答案比例比有答案比例高很多;一旦没有足够的支撑情况下出了答案,通常是一个bad case ;MRC模型经常会过召回一些答案,需要将这些答案据识掉,避免错误曝光;
难点三:答案选择;同一个Query下,会有很多的文档,每个文档也会抽出不同的答案来,最后需要在这些答案中进行选择,同时生成对应摘要;
3. 系统性解决方案
整个系统依据这些问题以及搜索场景的特性, 分为以下流程:
① Query理解
搜索里面25~30%是问答的Q,还有70%+是非问题的Q;对不适合DQA抽取Q的据识,以及一些必要的标签化是QU侧主要面临的问题,下面介绍下意图识别、时效性、分类标签这三部分的一些做法:
意图识别: 对于一些严重的是缺乏主成分的Query、无问题意图的Query、语意不清、计算类、寻址类等问题,需要模型判别据识掉;最终流入到下游系统的仅保留问题意图清晰、且适合DQA抽取的Query;
时效性识别: 这里将时效问题分为强弱无三类:
Type识别: Query类型区分了三十个类别,如时间、地点、人物等;分类标签有助于下游抽取模型避免抽取混淆,比如问一个人物,避免结果抽出一段描述或一个地点,给下游模型当作信号;同时也可以针对类别区分下游任务,如时间、地点、人物、实体等为短答案,定义类、观点类为长答案,步骤方法为列表答案等;
② Query理解-意图识别
在以上问题定义下,列举Query意图识别的模型优化过程:
如上图的优化路径显示,随着优化的不断进行,效果提升还是比较明显。
③ MRC抽取
MRC模型侧的优化:
MRC数据侧的优化:
MRC样本的构造成本非常高,远监督或弱监督方式构造出来的数据质量问题会导致天花板很低,人工精标数据生产成本特别高,所以在前期版本,尝试去引入外部数据来做一阶段抽取范式的学习,再迁移到自有数据上做二阶段的精标和微调,适配具体场景。
答案支撑片段假定: 如上图所示,对于Query+Paragraph+Answer三元组数据,将Para本身分成三部分:第一部分即答案片段本身;第二部分在答案周边的一定窗口内定义为支撑片段;在答案窗口的远端,将其定义为非支撑片段;MRC本身就是在学习文本对答案的支撑程度,远端的文本对它的支撑会比较弱;
增强方式: 在上述假定下 ① 把答案片段的实体切换成同类型的实体,仍然当成一个正样本,这样虽然置换了答案,但是它上下文的支撑没有变,它的类型也没有变;②把支撑片段去掉,换成其他的相近片段,变成一个负样本;③ 把非支撑片段替换成其他的相近的一些文字表达,当做正样本;
上述列举的三种增强方式,让模型学习到上下文语义的支撑性以及答案本身的类别及类型信息,而不是答案本身的文本信息;除此之外, 还会对一些错误样本进行主动学习,以及边界样本增强,一些相近Q的增强,最终也取得了比较好的效果。
④ 答案融合与排序
MRC侧本身的据识在负样本比例很大的情况下效果很弱,所以对于整个系统的据识,大部分都有后置rank部分来承担,这个环节可以拿到答案支撑片段的数量,支信号的强度,从而拿到每个答案在多文档下的支撑度,且最后的环节做据识,对准确率的提升也是直接能折射到业务侧,效果的折算更加直接。
每一个Query都会切分成多个Paragraph,每个Paragraph会抽出多个答案,在这些答案之间,先按照答案的文本做第一步的聚合,变成一个答案外加多个支撑para的答案组;
基于这样的答案组,采集各类特征:①baseweight类的特征,比如字表征的一些特征,紧密度特征、termweight加权特征等 ② MRC直出的一些特征,如NaProb、Top1AnswerProb等;③一些聚合类特征,如答案数量,答案重叠度特征等;④语义匹配类特征,如QT相关性和QP相关性等;基于上述特征融合成最终打分,做rank取best的同时,通过阈值做最后阶段的据识处理。
基于摩天的预训练模型、领域二阶段预训练、数据增强、模型对抗、特征提取融合排序等手段,在GLUE榜单的CMRC分榜上也取得了top 1的效果。
03
IRQA
Information Retrieval QA
IRQA跟DQA的区别比较大的是DQA是靠自然文本抽取,IRQA是依靠全网已有的一些QA内容:比如典型的综合类社区问答内容,以UGC为主,且各大社区体量非常大,包括百度知道、搜狗问问、爱问、悟空等;另外一类是近些年各大垂直类的站点崛起的比较快,有很多PGC专家生产的数据也越来越多且质量很高。
面对网络上的海量QA数据,直接用来构建FAQ库会有很大的质量问题,尤其是UGC的社区数据中,质量参差不齐,答非所问、时效性老旧、黄反政反、结构性杂乱等等需要进一步筛选和处理。
1. 系统方案
在线系统:
离线系统:
相对在线测,离线侧的FAQ库构建会显得比较重。
2. 相关性计算
语义相关性模块经历多个版本迭代,从最开始的手工特征+机器学习模型,演进到后续的表示型模型、交互型模型,再到最新的预训练模型;下面对方案进行简单的列举:
手工特征+XGB: 最早版本基于XGB字面量的特征进行匹配,33维的手工特征加上词嵌入embedding的向量特征,灌入XGB模型;效果在保准确的情况下会丢很多召回,且对Query的文字表达非常敏感,表达稍微变化一下就无法解决。
交互型模型: 第二版交互型模型,通过word和char双维度的输入解决oov问题;通过BiLSTM进行编码;通过BiMPM这种多维度attention进行信息交互;通过类似ESIM的思想对两个最终句向量做多种运算后融合,进行最终特征层面的增强;最后通过MLP取得最终score;相对XGB取得了很大的提升,但是在高准情况下召回仍然不足。
预训练模型: 问答领域的短Q虽然属于搜索子集,但是特性比较明显,做领域预训练效果明显,最后的模型选择用ELECTRA加上领域的预训练;此外配合上一些训练过程的优化、参数对抗等取得了当前最优效果; 这里对抗不只是反梯度的参数对抗,还有一些Query文本上的对抗,也能提升当前模型的拟合能力和打分的稳定性。
3. 大模型加速
搜索每天都会面临近十亿级别的流量,QPS也是万级别,面临庞大的搜索体量压力,在现役预训练模型的基础上,要对模型进行加速,这里我们做了一个二阶段的蒸馏加速:
第一阶段通过TinyBert层次化蒸馏的方法降低模型层数和参数量,降到两层之后再通过FastBert早出策略进行二阶段加速。最终发现很多简单的Q可以在一层的时候就早出出去,并且效果折损很小;
整体用ELECTRA + TinyBERT + FastBERT后效率可以在原ELECTRA基础上提升23倍, 效果折损可以控制在一个点以内。
整个的IRQA这里只介绍相关性计算这一块,其他的比如一些质量控制、意图的准入、时效性识别等在任务目标、数据处理上不一样,但是在模型选型优化角度上是很通用的,包括预训练模型的使用:Query级别的任务用我们自己领域的预训练模型,Doc级别的就用摩天。
04一些思考
上面介绍了KBQA、DQA、IRQA三个部分,也说一下团队对这些线条的一些思考:
首先IRQA对内容生态的依赖非常重,尤其是互联网里面的UGC数据使用到后期会有很强的瓶颈,包括质量和量级,更好的数据其实是PGC生产的垂直领域数据;对于垂直PGC站点来说,生产一些垂直领域的优质数据,希望借此吸引流量,同时对于搜索来说,缺乏这种特别优质的问答内容。所以这有一个非常强的结合点:垂直领域的站点以搜索的top1和问答为出口,通过内容供给合作甚至是定向生产作为SEO的结合,同时搜索以优质内容为依托,解决用户检索需求的同时满足站点生产商的流量诉求;现在一些搜索引擎也有这样的开放平台,来让这些垂类的站点来介入生产合作。其实我们这边也有一些尝试,后面也会加强这方面的探索。
第二方面就是DQA答案的事实性支撑会有些匮乏,经常会发现通过几篇文章里都抽出相同的答案,但其实答案是错的,这也和内容库的重复有关,互联网上有很多重复的内容,一旦重复的内容出现了错误就会很麻烦;另外KB里面又有一个“完备性”的问题,数据的不完备导致会出现漏召或错召;所以这里也有可能是去结合一下,通过KB的事实关联去解决DQA的支撑问题,通过DQA解决KB的完备性问题,二者结合做互补;所以后面也可能会去探索一些DQA跟KB的联合。
05
问答环节
Q:字面特征,XGB的标签是怎么来的?
A:DQA有BaseWeight的一些特征,其实是借鉴通搜粗排的一些特征,粗排会通过Query、title和Doc的一些字面打一些共现、紧密度、termweight类特征;XGB的特征也是类似的,计算各种维度的共现,一些子序列,各种基于向量的距离,以及文本的编辑距离等等。
Q:Query的时效性判定是怎么做的?标签是什么?
A:问答的Query时效的标签是一个三分类问题,做法和后面会有点类似,在我们自己的领域训练模型上做三类别分类,同时结合一些策略,因为有一些比较强的特征,比较明显的词,比如说股票价格这些东西直接就可以做识别和过滤,剩下的就是模型普通三分类,基于领域训练,没有什么特别的。最主要的是做完划分之后,强弱无标签要怎么使用,强类别直接过滤,弱类别圈定文档时间戳,同时对源数据做更高频次的更新抓取,同时在排序层对时间因子特征的权重进行放大。
Q:人工特征33维是怎么和embedding结合起来?
A:XGB匹配模型采用433维特征,400维里面分200维的Question句向量和200维的Query句向量,另外33维为手工特征,也包含了对两个句向量的各种距离计算。使用上,直接平铺灌入XGB就好。
Q:MRC上用了比赛用的预训练模型,在IR上用了另外一个预训练模型,这两个模型哪个强?有什么区别?
A:比赛的MRC以及我们自己的MRC是用搜索大规模预训练模型“摩天“, 摩天是在搜索场景上做的预训练,DQA的召回文档也是搜索的,摩天在当前DQA系统上会比普通的预训练模型好很多。我们自己做的那些做领域预训练,是针对Query的,因为问答的文档跟搜索通搜是差不多的,但是它的Query也是通搜的一个子集,虽然是子集,但差异化会很大,特性会很明显。对于Q级别的任务使用我们自己领域预训练BERT或者ELECTRA,对于Doc的处理使用摩天。
今天的分享就到这里,谢谢大家。
分享嘉宾:
分享嘉宾:常景冬 腾讯 高级研究员
编辑整理:高同学 中国科学院大学
出品平台:DataFunTalk
广告位招租-内容页尾部广告(PC) |