关键字的提取是在当下互联网相关领域中应用广泛的一个技术。
所以对这方面具备初步的了解是十分必要的。
今天介绍的应用于中文关键字提取的第三方库是jieba。
结巴(jieba)是国人出的一个精品插件,可以对一段中文进行分词,有三种分词模式,可以适应不同需求。
目前已有Python、JAVA、C++和Nodejs版本。
pip install jieba
代码
cut_all 参数用来控制是否采用全模式。
jieba.load_userdict("mydict.txt") 载入自定义词库。
cut_for_search 该方法适合用于搜索引擎构建倒排索引的分词,粒度比较细。
自定义词库
mydict.txt
执行结果
jieba.analyse
通过引入jieba.analyse可以很容易的实现对于文章关键字的提取。
jieba.analyse.extract_tags 提取文本中的关键字, topK 为TF/IDF权重最大的关键字。
jieba.analyse.set_idf_path 引入自定义语料库
代码
idf.txt文件引用自:https://raw.githubusercontent.com/fxsjy/jieba/master/extra_dict/idf.txt.big
执行结果