搜索引擎工作原理

杂文search,SEO,搜索引擎,百度蜘蛛

什么是搜索引擎:

一个搜索引擎由搜索器 、索引器 、检索器 和用户接口 四个部分组成。搜索器的功能是在互联网 中漫游,发现和搜集信息。索引器的功能是理解搜索器所搜索的信息,从中抽取出索引项,用于表示文档 以及生成文档库的索引表。检索器的功能是根据用户的查询在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。用户接口的作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。

—-以上引自百度百科

搜索引擎的工作主要分为以下三步

搜索引擎工作原理

数据抓取

网络上的信息存储在无数个服务器上,搜索引擎要做的就是将网络上的信息存储在自己的服务器上,然后展现给用户。那么信息的抓取就是靠爬虫来实现,比如百度蜘蛛就是爬虫的一种。爬虫所做的就是像一个网站发出请求,然后存储下来请求得到的网页,然后通过一个网页中的链接继续向下一个地址进行抓取数据。

数据索引

数据索引的创建是个巨大的工程,搜索引擎会将所得到的数据建立关键词的反转列表。这个反转列表会记录关键词在多少文档中出现、出现在哪些文档里、出现了多少次、出现在什么位置等。

数据搜索

在建立了关键词索引之后就可以进行数据的搜索展现了。搜索引擎所做的就是将结果合理的展示,从而呈献给用户最匹配的信息。

后记:

影响百度蜘蛛抓取的因素

1.路径过长。路径不可超过255个字节。

2.网站访问速度过慢

3.中文路径(搜索引擎无法识别中文)

影响搜索引擎过滤的因素

1.图片、视频等搜索引擎无法识别,需加入文字说明引导。

2.文字的质量。原创内容最受搜索引擎喜欢。原创内容发表在权重高的网站(高权重网站搜索引擎抓取速度快,会比你的网站先收录)搜索引擎会判定你是抄袭。

title信息

网页的title用于告诉用户和搜索引擎这个网页的主要内容是什么,而且当用户在百度网页搜索中搜索到你的网页时,title会作为最重要的内容显示在摘要中。
搜索引擎在判断一个网页内容权重时,title是主要参考信息之一。

meta信息

meta description是对网页内容的精练概括。如果description描述与网页内容相符,百度会把description当做摘要的选择目标之 一,一个好的description会帮助用户更方便的从搜索结果中判断你的网页内容是否和需求相符。
meta description不是权值计算的参考因素,这个标签存在与否不影响网页权值,只会用做搜索结果摘要的一个选择目标。

图片alt

建议为图片加alt说明。让搜索引擎了解图片的内容。

flash信息

百度蜘蛛只能读懂文本内容,flash、图片等非文本内容暂时不能处理,放置在flash、图片中的文字,百度无法识别。
所以如果一定要使用flash,建议给object标签添加注释信息。

现在各大浏览器厂商都在推广html5,这来源于flash的安全性以及过高的资源占用。不建议使用flash。

frame框架

不建议使用,通过iframe显示的内容可能会被百度丢弃。

Posted by 柴郡猫