前两天给大家介绍了什么是搜索引擎,今天和大家分享搜索引擎的工作原理,了解搜索引擎的工作原理后,我们才能知道什么样的网站更利于被抓取并展现给广大的网民。
一、搜索引擎工作原理
搜索引擎蜘蛛程序爬行抓取网页然后扫描IP和跟踪链接,搜集新出现的网页和那些上次搜集后有改变的网页,发现自上次搜集后已不存在的网页,并把数据库中的数据更新。
二、哪什么样的网站利于被抓取呢?
网页设置合理的URL链接结构和导航;还有可供网民读取的信息,如文字、图片、动画等以及规范化的URL网址结构更利于搜索引擎的抓取。
搜索引擎抓取页面后会预处理并建立索引数据库,把抓取的网页分配相应的编号,提取网页文本进行分析,记录网页及关键词等信息,以表格的形式储存。对页面内容进行分析后提取相关的网页信息包含URL、编码类型、页面内容包含的所有关键词、关键词位置、生成时间、大小、与其他网页的链接关系等,主要提取用于排名处理的网页文字。
再对页面正文内容进行切词,为这些词建立索引,得到页面和关键词之间的对应关系。对页面内容进行切分,形成与用户查询条件相匹配的关键字为单位的信息列表。和预设的海量词汇的辞典中的词比较,如果有匹配的词,则为匹配。也会根据相邻的2个或者多个词出现的概率判断这两个词是否匹配。
并建立关键词索引,在切词处理后,形成关键词列表。关键词列表的每条记录包含:关键词、关键词编号、出现次数、在网页中的位置等信息。再根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面文字中及超链接中每一个关键词的相关度或者重要性,然后用这些相关信息建立网页索引数据库。
建立网页索引数据库后,再结合页面的内外因素,计算出页面与某个关键词的相关程度,从而得到与该关键词相关的页面索引列表,从而确定搜索排名。
用户在搜索引擎中输入查询条件后,搜索引擎就在数据库中检索相关的信息,并将检索结果返回给用户。搜索引擎在往用户端返回数据的时候,并不是随机的,而是按照一定的计算方法进行排序,如搜索匹配和相关性计算等。
今天的总结就到这里了希望对大家有所帮助,如有补充的童鞋可以提出相关的意见,大家一起共同进步。