»
S
I
D
E
B
A
R
«
知己知彼-了解搜索引擎的工作原理
June 3rd, 2009 by Don

搜索引擎优化是SEOs与搜索引擎之间的一场博弈。对于搜索优化人员来说,做到知己知彼,了解搜索引擎(SEs)的工作原理是非常必要的。现在就跟我们一起去“敌营”刺探军情吧!

生动点解释:你现在想象自己走进了一个庞大的图书馆里(大概有250-400亿本书),跨入图书馆你什么书也没看到,只有一个机器人图书管理员坐在一扇门前面。你走过去说:“怎么做意大利面?”  机器人二话没说,转身推开身后神秘的大门,大概0.42秒后,抱出了300万本和“怎么做意大利面”相关的图书。

你猜对了!这个庞大的图书馆就是互联网(对,它至少有250-400亿个网页);机器人就是基于Web的全文搜索引擎;而那扇门后面就是SEs的后台数据库。当你咨询“怎么做意大利面?”的时候,SEs走进数据库中,找到一切相关的网页,然后根据自己的排名算法规则,在你眨眼间输出查询结果。

下面我就关于SEs工作的四个步骤再来两句,要睡觉的同志请别打鼾 :-P

网页收集

辛辛苦苦地在互联网上爬行,并将所到之处的网页记录下来的程序被称为Crawler or Searchbot(网络蜘蛛或爬虫)。大家都知道,几乎每个网页上都包含着指向其他网页的链接。网络蜘蛛读取这些链接,并访问链接指向的网页,就像爬行在一张巨大的以网页为节点的网上。当然,网络蜘蛛并不是一只只会爬行和记录信息的低等动物,由于它实际上是一组由人类编写的程序,网络蜘蛛也被赋予了许多人类特有的智慧。因为URL和网页并不是一一对应的,所以一般的网络蜘蛛在爬行之前都会对地址进行解析,避免爬行相同的页面。

而它也并不对所有的网页一视同仁,而是根据网页本身的变化趋势,如更新周期等来选择爬行的策略。所以,如果你想让SEs的蜘蛛人经常回来收录你网页的新变化,就应该养成经常定期更新网站内容的习惯。 如果你不小心招惹了搜索引擎(比如被发现采取黑帽SEO),搜索引擎就通过网络蜘蛛来报复你,它会把你的网页放进一个黑名单,很久都不理你。

随着技术的发展,更多更聪明的蜘蛛也逐渐进入这张大网上爬行。SPHINX已经就用户个性化信息采集做出了尝试。而InfoSpiders则更加其妙,它是一种基于智能Agent的网络蜘蛛,能像人一样感知用户的兴趣变化。

数据储存

SEs的第二个工作步骤就是存储网络蜘蛛收集来的网页并建立索引数据库。和网页相关的信息可以分为元数据和网页内容两部分,其中元数据是对网页内容的描述。通常来说,元数据在后台被特制的软件管理,网页被存储在服务器的文件系统中。对于小规模的系统,可以采用存储管理器在服务器的硬盘上进行维护。不过不要忘了,网页的数目有上百亿,这时唯一能采取的策略就是分布式存储,把网页按URL散列到各节点,并通过高速局域网连接。

将网页“安顿”好之后,就要逐一好好看一下网页中到底有什么内容。不过在此之前,还有一些必要的预处理过程。网络上可能有多个域名对应同一个网站的情况,也可能出现网页的相互转载。为了避免同一个网站的内容被多次采集和索引,必须对网页进行预处理。另一个必不可少的预处理就是正文提取。网页中常常有很多广告信息,或者无用信息,在建立索引之前,需要对网页中的垃圾进行一次大扫除。

对于中文搜索引擎来说,分词也是一个重要的预处理阶段。经历了这么多准备步骤,终于可以开始提取索引了。每一个关键词被提取出来,赋予一个独特的标识号,并据此建立一个哈希结构,用于保证索引能够得到快速访问。另外,哈希的另一个好处是统一查询所有关键词的时间。否则,查询一个以”A”开头的单词要比查询一个以”Z”开头的单词花费时间多得多。

用户查询

建立好索引数据库之后,就可以接受用户的关键词查询了。对于搜索引擎来说,这一部分只不过是一个简单User Interface。但对于SEOs来说,研究用户不断变化的查询习惯是至关重要的。

排序输出

SEs工作的最后一步,也是对SEOs意义最大的一个步骤:排序输出。

还是用文章开头的那个例子,你问机器人图书管理员“怎么做意大利面?”  它想反馈给你最相关的答案,那么怎么决定谁排在输出结果的前面呢?   这就是SEOs和搜索引擎博弈的主要对象—“排名算法规则”。

首先,和找书一样,如果书(网页)的标题包含“怎么做意大利面”这几个关键字,那么你会认为这本书(网页)十有八九是讲这个的;如果关键词出现在正文第一段的前几行或者各级标题中,SEs也会认为以下的内容和关键词有关;更好理解的一点是,如果某个关键词在网页中频繁地出现,也能说明网页的相关性。(由于很多人胡乱填充关键词蒙骗SEs,Google对关键词的密度降低了权重,但Yahoo算法中还很重视density, 因此在一切合理的地方使用关键字绝对是有益无害。)

如果两个网站上拥有类似的内容,那它们就会在搜索引擎上取得相同的排名吗?怎么可能?  这就是SEs排序算法中的另一个重要标准-外部链接。Google因为成熟的PageRank算法风靡全球,而百度也拥有自主研发的超链分析算法。

不同的SEs做”搜索服务”这同一道菜,排名算法虽然各自有“秘方”,但上面提到的几点是肯定的。而且近几年的趋势是,站外SEO影响力越来越大,所以要想爬上搜索引擎的巅峰,就必须获得一定数目的高质量外链

现在你知道How Search Engines Work了吧?  如需要更通俗的解释,可以看看Rand Fishkin How do they do it?

如果你有任何SEO相关的问题,现在可以到打开后天的论坛免费得到解答!

Don
Intern
打开后天SEO&Design

本文原创为打开后天SEO&Design, www.tomorrowmorrow.com 转载请保留链接和出处.

No related posts.

One Response  
cdgdfg writes:
July 23rd, 2009 at 23:49

那它们就会在搜索引擎上取得相同的排名吗?怎么可能? 这就是SEs排序算法中的另一个重要标准-外部链接。Google因为成熟的PageRank算法风靡全球,而百度也拥有自主研发的超链分析算法。

Leave a Reply

»  回去打开后天SEO&Design
© 2009年打开后天SEO&Design