• 欢迎使用千万蜘蛛池,网站外链优化,蜘蛛池引蜘蛛快速提高网站收录,收藏快捷键 CTRL + D

关键词分类百度(商品核心词包括哪些内容)


本技术方案能给中小型公司提供一种简易地实现类目和属性倾向性的思路,也能达到大型电商平台实现效果,提高搜索的精准度。主要是基于SORL/ELA+IK+ FastText 实现关键词的类目和属性的相关性,思路如下:

1.维护关键词热词库,关键词相关分类以及属性

2.重写IK的词典库和IK的分词适配器,关键词+相关的分类+属性组成新的词元,加载到词典树一个分支 ,从词典加载新的词元,获取关键词分类和属性

3.利用FastText训练产品关键词和热词数据集,建立模型,可利用模型进行一般词的预测分类和属性 (可选)

4.重写SORL/ELA的查询解析器,利用IK加载热词相关的类目和属性,利用FastText模型进行普通词的预测分类和属性,返回到客户端显示,从而实现搜索关键词就可显示指定类目和属性,大大提升专业领域的搜索精准度


本方案整体架构简单明了,实现成本很低,但实现的效果很好,能媲美大型电商等搜索倾向性效果,如下图所示。


关键词+类目关联


外层关键词,就是用户输入的词,没有啥特殊处理,可以引导用户搜索热词。

集成层就是基于Lucene的Solr或Ela的开源搜索服务器,这层需要具备全文检索开发能力,对技术有一定的要求

实现层IK和FastText都是开源文本工具,IK是中文分词利器,FastText是文本分类利器。重写IK的词典加载以及分词适配器支持从分词里获取分类,对源码理解有一定要求;利用FastText实现分类倾向性,相对技术难度较低,主要是具备一些运维能力就可了

数据层,收集热词可以从用户搜索日志,以及用户发布产品关键词等多种渠道获取,相关的领域专业词获取也比较方便,如从全球纺织网的问答频道,都可以获取到很多专业词语。各种专业类目都是专业市场或小型网站的基本数据,唯一需要做的,就是需要关键词和类目关联起来,具备专业知识的一般运营人员就可搞定。

总之,按照上述架构,对技术开发能力不高,对运营人员要求更低,实现上述方案,建议2个开发人员1个运营人员1个月就可实现

分词基本流程

IK词元属性

IK分词,分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。影响分词主要元素之一就是词库。如果默认词库,分词效果就很不理想,体现不出来专业性。词库建议人工维护。这里只需要把IK词元和类目、属性关联上去就可了,如追加cate属性,关联关系也通过词库维护就可了。简单实现步骤,重写IK的词典库和IK的分词适配器,关键词+相关的分类+属性组成新的词元,加载到词典树一个分支,从词典加载匹配词元,同时从map获取自定义元素,从而获取关键词分类和属性。

词库管理

主要分热词库和专业词库两种。热词库主要就是运营人员筛选过的特定专业词库,同时结合搜索日志不定期更新完善,专业词库就是相对来说相关专业词量比较大,分类相对来说比较粗。词库管理相对来说比较简单,就是需要把词和相关分类关联起来,也就是词和类的维护管理

总之,利用开源软件就可实现搜索关键词类目倾向性,技术门槛很低,相对大型电商平台实现方案,具备极大地实现优。关键三步如下:

第一步就是词的获取,难度很低。

第二步需要领会IK源码,有一定难度。

第三步具体集成的源码,对具备一定搜索能力的公司没多大难度。

本文链接:https://www.24zzc.com/news/169674148644380.html

相关文章推荐

    无相关信息