黄山seo关键字优化报价(seo技术)_网络推广

一、采集

流程原理

目前采集通常有两种方式：

1.定向采集：按原点分类，设定条件采集,有站有什么就采什么，再过滤处理！

2.泛采集：通用爬虫采集

我们这里用的是：据于关键词基础上，指定Ｎ个站点，定向采集

原理：借用搜索引擎指令 site: domain keyword

原理图

二、 内容处理

1. 标题

方法一：精简原始标题

步骤如下：

对原始标题分词

去除停止词

获取词缀词性

去除修饰词，如形容词、副词、介词…，保留原标题主谓宾，获取句子主干

通常基于 jieba 分词或 nltk 实现，要删除的修饰词可以预先分析大量的标题来提取，追加到字典中。。

如:阿里巴巴部分产品页的title就是这样处理的，把用户发布的产品名中一些无关大雅的词缀干掉，提取主干放到title标签中

方法二：插入搜索词

步骤如下：

搭建xunsearch或其他的开源搜索，对采集标题创建索引

用提前准备好的搜索词（就是要做的那些词）依次到搜索接口中搜索

对搜索结果中出现的标题前方插入当前搜索词

我要做的词有“电动车电池正确使用方法”

比如匹配出来原标题

“不要再让过度放电毁了你的电动车电池”

“黄山一男子用拆线搭线的方式偷走电瓶车”

………………..

则标题前插入关键词：

“[电动车电池正确使用方法] 不要再让过度放电毁了你的电动车电池”

或“[电动车电池正确使用方法] 黄山一男子用拆线搭线的方式偷走电瓶车”

当然也可以：“{插入的搜索词}{精简后的原始标题}”

方法三：插入当前标题已包含搜索词的衍生词、相关搜索词

步骤如下：

抓取标题已包含搜索词的百度相关搜索或下拉框，

标题中插入相关搜索或下拉框的词

如：“[{百度相关搜索词1}]{原始标题}”、“[{下拉框推荐词1}{原始标题}]”

也可以: [{百度相关搜索词1}]{精简后的原始标题}”、“[{下拉框推荐词1}{精简后的原始标题}]”

2. 正文内容

正文的处理主要是针对重复性，尽量降低与原始内容的相似性

正文开头、结尾处插入随机文本

方法一：提前准备一些能够通用的文本模板，随机调用，替换关键词

方法二：正文中随机截一段文字

方法三：随机调出Ｎ条相关文章标题和概要，放到首尾

修改正文内容

基于 textrank 算法提取文本摘要，放到正文前面。

为了防止字数过少，可以提前用 k-means 和 tf-idf ，找出当前文章的相似文章，可以提取它们正文字数最长的段落的摘要，加到当前的文章中用作字数上的补全。

聚合页面

聚合页面就是由词根挖出来的10个扩展词，每个扩展词生成一个列表页或其他形式的聚合页面，页面内容就是对应这个词采集的20篇内容。

这是最简单的模型

通常模型

以扩展词”电动车电池正确使用方法”为例子

聚合页面要采集内容有：

怎样保护充电器吗？

怎样延长蓄电池寿命？

电动车电池充电环境要求？

这种模型通常机器+工人先预设好模型再采集内容，再处理组合。

案例：http://www.tuniu.com/g1708/tipnews-153801/

扩展词：九江适合逛街的地方

标题：关键字组合，

内容：聚合页面，内容组合

[来源：方法营销微信： emways ]

本文链接：https://www.24zzc.com/news/169753087947836.html

黄山seo关键字优化报价(seo技术)

相关文章推荐

网络推广最新文章

蜘蛛工具

您可能感兴趣的文章

蜘蛛套餐

超级蜘蛛池优化

域名筛选工具

文本处理工具

黄山seo关键字优化报价(seo技术)

相关文章推荐

网络推广最新文章

蜘蛛工具

您可能感兴趣的文章