• 欢迎使用千万蜘蛛池,网站外链优化,蜘蛛池引蜘蛛快速提高网站收录,收藏快捷键 CTRL + D

python百度关键词(python的关键字有哪些)


关键字的提取是在当下互联网相关领域中应用广泛的一个技术。

所以对这方面具备初步的了解是十分必要的。

今天介绍的应用于中文关键字提取的第三方库是jieba。

python

结巴(jieba)是国人出的一个精品插件,可以对一段中文进行分词,有三种分词模式,可以适应不同需求。

目前已有Python、JAVA、C++和Nodejs版本。

pip install jieba

代码

participle.py

cut_all 参数用来控制是否采用全模式。

jieba.load_userdict("mydict.txt") 载入自定义词库。

cut_for_search 该方法适合用于搜索引擎构建倒排索引的分词,粒度比较细。

自定义词库

mydict.txt

mydict.txt

执行结果

执行结果

jieba.analyse

通过引入jieba.analyse可以很容易的实现对于文章关键字的提取。

jieba.analyse.extract_tags 提取文本中的关键字, topK 为TF/IDF权重最大的关键字。

jieba.analyse.set_idf_path 引入自定义语料库

代码

keywordExtraction.py

idf.txt文件引用自:https://raw.githubusercontent.com/fxsjy/jieba/master/extra_dict/idf.txt.big

执行结果

执行结果

本文链接:https://www.24zzc.com/news/169660079743652.html

相关文章推荐

    无相关信息