一、 采集
流程原理
目前采集通常有两种方式:
1.定向采集:按原点分类,设定条件采集,有站有什么就采什么,再过滤处理!
2.泛采集:通用爬虫采集
我们这里用的是:据于关键词基础上,指定N个站点,定向采集
原理:借用搜索引擎指令 site: domain keyword
原理图
二、 内容处理
1. 标题
方法一:精简原始标题
步骤如下:
对原始标题分词
去除停止词
获取词缀词性
去除修饰词,如形容词、副词、介词…,保留原标题主谓宾,获取句子主干
通常基于 jieba 分词 或 nltk 实现,要删除的修饰词可以预先分析大量的标题来提取,追加到字典中。。
如:阿里巴巴部分产品页的title就是这样处理的,把用户发布的产品名中一些无关大雅的词缀干掉,提取主干放到title标签中
方法二:插入搜索词
步骤如下:
搭建xunsearch或其他的开源搜索,对采集标题创建索引
用提前准备好的搜索词(就是要做的那些词)依次到搜索接口中搜索
对搜索结果中出现的标题前方插入当前搜索词
我要做的词有“电动车电池正确使用方法”
比如匹配出来原标题
“不要再让过度放电毁了你的电动车电池”
“黄山一男子用拆线搭线的方式偷走电瓶车”
………………..
则标题前插入关键词:
“[电动车电池正确使用方法] 不要再让过度放电毁了你的电动车电池”
或“[电动车电池正确使用方法] 黄山一男子用拆线搭线的方式偷走电瓶车”
当然也可以:“{插入的搜索词}{精简后的原始标题}”
方法三:插入当前标题已包含搜索词的衍生词、相关搜索词
步骤如下:
抓取标题已包含搜索词的百度相关搜索或下拉框,
标题中插入相关搜索或下拉框的词
如:“[{百度相关搜索词1}]{原始标题}”、“[{下拉框推荐词1}{原始标题}]”
也可以: [{百度相关搜索词1}]{精简后的原始标题}”、“[{下拉框推荐词1}{精简后的原始标题}]”
2. 正文内容
正文的处理主要是针对重复性,尽量降低与原始内容的相似性
正文开头、结尾处插入随机文本
方法一:提前准备一些能够通用的文本模板,随机调用,替换关键词
方法二:正文中随机截一段文字
方法三:随机调出N条相关文章标题和概要,放到首尾
修改正文内容
基于 textrank 算法 提取文本摘要,放到正文前面。
为了防止字数过少,可以提前用 k-means 和 tf-idf ,找出当前文章的相似文章,可以提取它们正文字数最长的段落的摘要,加到当前的文章中用作字数上的补全。
聚合页面
聚合页面就是由词根挖出来的10个扩展词,每个扩展词生成一个列表页或其他形式的聚合页面,页面内容就是对应这个词采集的20篇内容。
这是最简单的模型
通常模型
以扩展词”电动车电池正确使用方法”为例子
聚合页面 要采集内容有:
怎样保护充电器吗?
怎样延长蓄电池寿命?
电动车电池充电环境要求?
这种模型通常机器+工人先预设好模型再采集内容,再处理组合。
案例:http://www.tuniu.com/g1708/tipnews-153801/
扩展词:九江适合逛街的地方
标题:关键字组合,
内容:聚合页面,内容组合
[来源:方法营销 微信:
emways
]