解析谷歌PageRank网页排名算法原理

在互联网上,(dede网站个人中心模板下载),如果同一个网页被很多其他网页所链接,说明它受到普遍的承认和信赖。那么它的排名就高。这就PageRank的核心思想。

解析谷歌PageRank网页排名算法原理

PageRank算法背景:搜索结果上万条用户只关注前20位

整个互联网的网页数量是巨大的,已被百度抓取并索引的中文网页应该也是千亿级别的了,但是用户所需要的信息只有一小部分。我们在百度上搜索的几乎每一个关键词,百度都会返回成千上万条搜索结果,不论返回结果有多少,大部分人都会在前2页找自己所需要的信息,很少有人会浏览第3页或者更靠后的搜索结果。

搜索引擎的难题:如何把用户最想看到的结果排在前面?

对于搜索引擎来说,这成千上万条结果该如何排序,怎样才能把用户最想看到的结果排在前面呢?这个问题很大程度上决定了搜索引擎的质量。总的来讲,对于一个特定的查询,搜索结果的排名取决于两组信息:
1. 关于网页的质量信息,
2. 这个查询与每个网页的相关性信息。

雅虎(Yahoo)最先试图给互联网上的众多网站排序

最先试图给互联网上的众多网站排序的并不是Google,(推广的方式有哪些),而是雅虎公司。雅虎的创始人杨致远和费罗最早使用目录分类的方式让用户通过互联网检索信息。但是由于计算机存储容量和速度的限制,雅虎和同时代的其他搜索引擎都存在一个共同的问题:收录的网页太少,而且只能对网页中常见内容相关的实际用词进行索引。

PageRank算法通过投票来决定网页质量

真正找到计算网页自身质量的完美的数学模型的是Google的创始人佩奇和布林。Google的”PageRank” (网页排名) 是怎么回事呢?其实简单地说就是民主表决。打个比方,假如我们要找李开复博士,有100个人举手说自己是李开复。那么谁是真的呢?也许有好几个真的,但即使如此谁又是大家真正想找的呢?如果大家都说在创新工场的那个是真的,那么他就是真的。

谷歌PageRank算法原理

PgeRank算法对来自不同网页的链接区别对待

当然Google的PgeRank算法实际上要复杂得多。比如说,对来自不同网页的链接区别对待,因为那些排名高的网页的链接更可靠,于是要给这些链接以较大的权重。这就好比在现实世界中股东大会里的表决,要考虑每个即的股东,对最后的表决结果的影响力明显不同。PageRank 算法考虑了这个因素,即网页排名高的网站贡献的链接权重大。

PageRank的核心思想

在互联网上,如果同一个网页被很多其他网页所链接,说明它受到普遍的承认和信赖。那么它的排名就高。这就PageRank的核心思想。

解析谷歌PageRank网页排名算法原理

Google革命性的发明是PageRank的网页排名算法

网页排名算法的高明之处在于它把整个互联网当作一个整体来对待,这无意中符合了系统论的观点。相比之下,以前的信息检索大多把每一个网页当作独立的个体对待,大部分人当初只注意了网页内容和查询语句的相关性,忽略了网页之间的关系。虽然在佩奇和布林同时代也有一些人在思考如何利用网页之间的联系来衡量网页的质量,但只是摸到一些皮毛,找到一些拼凑的办法,都没有从根本上解决问题。

PR算法革命性地将准确率提高了好几倍

PageRank在当时对搜索结果的影响非常大。在1998年前后,所有互联网上能找到的搜索引擎,每十条结果只有两三条是相关的、有用的。而还在斯坦福大学实验室里的Google当时能做到每十条结果有七八条是相关的。这是一一个质的差别,给人的感觉就如同iPhone和老式诺基亚手机的差异那么大。这使Google得以迅速打败以前所有的搜索引擎。

用户搜索点击行为对搜索质量影响很大

但是今天,任何商业的搜索引擎,十条结果都有七八条是相关的了,(拼多多货源平台),而且决定搜索质量最有用的信息是用户的点击数据,相反,一项新的技术为搜索质量带来的提升空间却非常有限,用户很难感觉到差别。这也是后来微软等公司很难在搜索上有所作为的原因。

时至今日PageRank在Google所有算法中依然至关重要

今天,Google搜索引擎比最初复杂、完善了许多。但是PageRank在Google所有算法中依然是至关重要的。在学术界,(京东店铺刷粉网站),这个算法被公认为是文献检索中最大的贡献之一,并且被很多大学列为信息检索课程( Information Retrieval)的内容。佩奇也因为这个算法在30岁时当选为美国工程院院士,是继乔布斯和盖茨之后又一位当选院士的辍学生。由于PageRank算法受到专利保护,(拼多多货源平台),它带来了两个结果。首先,其他搜索引擎开始时都比较遵守游戏规则,不去侵犯它,这对当时还很弱小的Google是一个很好的保护,第二,它使得斯坦福大学拥有了超过1%的Google股票,收益超过10亿美元。

SEO人员如何利用PR算法建设外链

对于搜索引擎优化工作而言,了解搜索引擎的算法,特别是链接分析中最重要的算法——Google的PageRank算法,会有利于SEO工作的开展,详情了解广西红客的这一篇文章《通过谷歌PR分析如何更好地利用PR建设外链》