您好!欢迎来到静学网! 注册 登入
  • 致力中国及国外独立搜索引擎技术及第三方网站搜索引擎SEO排名研究

谷歌和雅虎搜索引擎技术分析比较,谷歌霸主地位不可撼动

课程目录 搜索引擎技术开发 次浏览
最近有很多关于相关性的讨论,我想我应该向大家介绍一下搜索引擎背后的一些技术,以及它们之间的潜在差异可能是什么。对搜索技术有一些有趣的看法,从飞行中的预排序结果到神经网络到基于社区的搜索。

 国外"四大 "搜索引擎的基本情况


在这些文章中,我将专注于'四大'搜索引擎的技术分析。这些是被认为拥有搜索领域的霸主。它们是谷歌、雅虎、MSN和Ask Jeeves。首先是谷歌和雅虎。
 
谷歌--谷歌可能是最知名的搜索引擎。

谷歌搜索引擎如何工作

他们主要根据他们的PageRank算法来确定相关度。PageRank本质上说,一个网站如果比他们的竞争对手有更多的入站链接,就可能是一个更好的网站,因此应该排名更高。网站管理员很快意识到这一点,也意识到他们所要做的就是建立更多的链接--足够多的链接来超越他们的竞争对手--以便获得高排名。谷歌的反应当然是多少改变了排名算法。现在,在PageRank算法中加入了权威性和相关性的元素。

谷歌雇用了数以千计的服务器来计算这些排名。他们查看了数百个因素--包括页面上和页面外的因素(如内向链接)。他们使用数百种算法来进行这些计算。从本质上讲,每个因素应该有一个算法。这些算法对页面进行加权,并分配其价值。然后,这些值被储存起来供以后使用。


当用户进行查询时,另一组算法将先前计算出的数值相互权衡,以确定整体的相关性,然后将结果输出给用户的浏览器。
 
可以想象,这种类型的处理能力要求必须是巨大的。此外,根据谷歌返回结果的速度,没有多少数据可以被写入各个服务器的硬盘中。因此,人们必须假设,谷歌索引的大部分内容实际上都驻留在内存中。

下次你进行搜索时,看看谷歌返回的结果有多快。我搜索了 "serach engine"(我故意拼错了),它返回了68900个结果。此外,该引擎还在页面的一侧返回了一些赞助的结果,以及一个拼写建议。所有这些都在0.36秒内完成。
 
而对于流行的查询,该引擎甚至更快。例如,搜索MTV奖(都是最近发生的事件),每个人只花了不到0.2秒。

而谷歌是以分散和冗余而闻名的。对于每个单一的缓存页面,可能有2-3个副本存储,甚至更多。谷歌将索引分成非常小的部分--小到每个2兆字节,正如我前面提到的,这些2兆字节的部分被存储在谷歌的所有基础设施中。每个2兆字节的部分可能被存储在一个不相关的部分旁边。例如,可能有几个来自宠物网站的页面,旁边是博客的页面,旁边是电子商务网站的页面。
 
虽然每个数据中心的行为都是独立的,但很可能存在一些任务的重叠。
 
想象一下,一个有数千台计算机的房间里,相互之间的运行是一致的。现在想象一下,同一个房间被反复复制到分布在北美的所有其他数据中心。

正是因为这些不同的数据中心,每个中心都单独行动,但有相同的最终目标,所以我们过去每月都会经历 "谷歌之舞"。谷歌之舞 "是指在这段时间内,谷歌会在各个数据中心更新其搜索结果。此外,每个数据中心都会自行更新,所以在一个数据中心排名第一的网页可能不会出现在其他数据中心的前30名。


当然,谷歌用于排名网页的因素已经随着时间的推移而改变。他们对PageRank的重视程度降低了,但它仍然很重要。重要的是要注意,在计算中移动不同的因素,可以大大影响一个网站的排名。例如,如果网站有很高的PageRank,但关键词密度很低,如果PageRank影响到后来的计算,它可能会排名第一,然而如果PageRank被提前考虑,网站可能会从结果中消失。
 
而这可能就是现在正在发生的事情--谷歌基本上已经将PageRank因素移到了最终计算的其他地方。记住,影响排名的因素可能有数百个。通过重新安排它们应用于最终排名的顺序,可以对搜索结果页上的整体位置产生巨大的影响。

谷歌似乎也已经从每月一次的更新转为一个更永久的更新索引。我们很少注意到这些变化的发生,但它们确实发生在一个更渐进的水平上,更多的重大更新发生的频率较低。

我想人们可以把谷歌看作是一系列的层--每一层都建立在前一层所做的工作之上。最上面的一层是我们通过浏览器接触到的唯一一层,然而,如果没有下面几层所做的工作,你看到的那个页面就不会存在。

现在,让我们来看看雅虎


雅虎搜索

雅虎--虽然除了雅虎的工程师之外没有人知道,但我们可以推测,雅虎的搜索技术与谷歌的非常相似。
 
雅虎之所以如此难以衡量,是因为他们没有像谷歌或MSN那样真正从头开始建立一个搜索引擎。当然,你所看到的雅虎搜索是独一无二的,然而雅虎是在他们前几年购买的其他技术的基础上建立其搜索的。
 
就在2002年圣诞节前后,雅虎购买了搜索服务Inktomi。在那之前,雅虎从Inktomi或最近的Google获得他们的搜索结果。事实上,直到他们购买Inktomi时,还有人猜测雅虎将购买谷歌。

就在这之后的几个月,Overture(一家按点击付费的广告公司)收购了Altavista--那里最早和最强大的搜索引擎之一。然后,就在几周后,Overture从FAST收购了Alltheweb.com。
 
很明显,Overture将进入算法搜索领域。
 
但在这之后不久,有传言说雅虎可能对购买Overture的部分或全部技术感兴趣。而在2003年7月,雅虎确实收购了Overture。

直到2004年2月,我们才听到关于雅虎搜索的消息--那是该公司推出自己版本的算法搜索。而这并不是许多人所期望的。一些人认为他们会简单地重塑Inktomi,而另一些人则认为他们会重塑Overture收购的一个品牌,并将Altavista或Alltheweb搜索变成雅虎搜索。

但事实并非如此。雅虎建立了他们自己的搜索,从他们拥有的所有技术中拼凑出各种功能。


他们有超快的Inktomi和Altavista爬虫,以及令人惊讶的Alltheweb和Altavista排名算法。因此,他们把这些都混在一起,得到了雅虎搜索。
 
雅虎搜索与谷歌没有什么不同。他们官方公布说,他们利用许多因素分析网页,以确定与搜索查询的相关性,而分析的结果就是用户在进行查询时看到的东西。

当然,雅虎和所有其他引擎一样,在过去一年多的时间里,一直在努力改善其排名算法。当他们刚出来的时候,他们似乎非常强调一个特定网站的主页,而不太强调入站链接,甚至是其他网站的页面。
 
然而,在过去的几个月里,我们注意到一个微妙的变化,即从只有主页的排名转变为多个网站页面的排名,而主页曾经排名在那里。
 
此外,他们对入站链接的排名往往与谷歌不同。当你在谷歌上进行链接检查和在雅虎上进行同样的检查时,谷歌的结果几乎总是倾向于更低。谷歌说这是因为他们只显示 "相关 "链接的快照,而雅虎则显示所有的链接,不管是否相关。

还有其他的不同之处,但在这篇文章中,有太多的不同之处需要去了解。
 
我只想说,谷歌和雅虎使用大致相同的技术来返回类似的结果。当然,你会看到排名上的差异,但这是由许多因素造成的。例如,雅虎的更新频率似乎比谷歌低。我曾与一些网站合作,这些网站的新页面在创建后几天内就被谷歌收录并获得排名,而有时雅虎也需要几个月的时间才能做到这一点。
 
基本上我想说的是这个。如果你所关心的只是排名,那么为谷歌优化会让你在雅虎获得不错的排名,但你可能需要更长的时间来显示在雅虎的搜索结果中。这是因为,说到底,雅虎和谷歌背后的技术是非常相似的。
 
明天,我将向你介绍两个独特的引擎。一个声称使用神经网络技术,一个使用社区作为其排名的基础。

 


静学网 , 版权所有丨如未注明 , 均为原创丨转载请注明谷歌和雅虎搜索引擎技术分析比较,谷歌霸主地位不可撼动
顶一下
(0)
踩一下
(0)
畅所欲言
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
用户名: 验证码:点击我更换图片
最新评论
友情链接:
网站优化
本网站所刊载信息,不代表静学网观点。 刊用本网站稿件,务经书面授权或注明来源。 未经授权禁止转载、摘编、复制及建立镜像,违者将依法追究法律责任。 投稿邮箱:1870447831@qq.com | 举报邮箱:1870447831@qq.com