SEO优化例题(在线数据分析网站)_好文分享

最近看了关于推广的4本书，有两本书让我印象最深刻，一本是《走进搜索引擎》，另外一本是《SEO 搜索引擎优化：技巧、策略与实战案例》，这两本书的特点是前者用21万字详细说明了搜索引擎的原理，后者穿插了一些实际的案例来讲解具体优化技巧，所以从一定程度上讲，你看完两本书之后，你如果说还不会做搜索引擎优化、还是被割韭菜，那么不好意思，你可以远离这个行业了。

但是第1本书的唯一的缺点就是有一定的专业度，对新手小白真的不是很友好，因为这本书的作者是一位博士。书中穿插了不少公式，所以降维打击还是挺厉害的。

这本书把搜索引擎划分了4个部分，下载系统、分析系统，索引系统、查询系统。还是老规矩，我简单的4个部分做个总结。

一、下载系统

下载系统事实上其实也就是我们说的下载各类型的页面，谈到下载系统肯定要少不了爬虫系统，这部分内容主要讲起了他从以什么方式去抓页面和抓取策略的介绍，我直接拿例子做说明，在下载系统中按照域名分解抓取任务的工作由一个调度员的模块来处理。通过域名分解将不同的网页调度给不同的爬虫进行抓取。

(1）调度员通过更新规则向URL请求一个URL 抓取任务。

(2）调度员计算出该URL，然后分配给编号为0的爬虫抓取。

(3）爬虫0实际抓取的网页存放在 Page库中。

(4）爬虫0在抓取的网页中提取其他链接后反馈给调度员。

(5）调度员判断网页类型，并设定初始更新时间等后存放在URL库中，继续转（1)，周而复始。

二、分析系统

分析系统其实就是信息抽取及网页信息结构化。这句话怎么理解呢？事实上蜘蛛在抓取的url中去分析处理页面信息。在这一部分我们就需要注意点一个叫标签树的东西。而在处理这个过程需要标签分析栈，在这个过程中，其实就是提取代码块中的文本，我们这里举个例子：

测试1

测试2

测试3

...

分析系统从进栈到退栈之后，只会提取到测试1，测试2，测试3等文本信息，那么如何判断出哪些是正文信息呢？这里就需要用到投票方法，通过不同的规则去打分，打分越高的那一部分就是正文部分，怎么理解呢？比如我们得到文本块文本长度＜10个字，得分为0，10-50个字得分5等依次类推。同样的，文本块文本在左侧位置加分5，右侧位置是0，中间部分是10，换句话说，打分越高的会被判断成正文，打分低的会被判断成广告或者无效信息，那么百度判断内容的时候，也是根据这些内容判断的。

提到分析肯定就少不了网页查重。这也是决定了页面是否收录的关键因素，在这一部分的实现方法中用的最多的就是l-Match算法和Shingle 算法。

这两种算法的不同之处在于前者去掉高频和低频词汇后的词汇通过排序得到一个字符串，使用签名算法获得该字符串的签名。如果有其他文档和这个签名值相同，则判定为相似。

后者采取抽瓦片方式去把一个文档转化为一组字符串集合（每个元素为一个Shingle)，因此判断两个文档的相似性就转化为字符串集合的相似性。（我知道你听不懂，我举个例子）

比如这有两段话：

第一段：中国足球队在米卢的率领下首次获得世界杯决赛阶段的比赛资格，新浪体育播报。
第二段：米卢率领中国足球队首次杀入世界杯决赛阶段，搜狐体育播报

l-Match算法

Shingle 算法

一般说来，网页查重至少需要如下3个主要步骤:

(1）特征抽取

(2）相似度计算、评价是否相似。

(3）消重

PS:判断内容原创度方面还是依据时间戳和爬虫爬取页面先后顺序，也就说先被爬虫爬取的，时间早的，基本判断是原创。