新书推介:《语义网技术体系》
作者:瞿裕忠,胡伟,程龚
   XML论坛     W3CHINA.ORG讨论区     计算机科学论坛     SOAChina论坛     Blog     开放翻译计划     新浪微博  
 
  • 首页
  • 登录
  • 注册
  • 软件下载
  • 资料下载
  • 核心成员
  • 帮助
  •   Add to Google

    >> 提高页面的PageRank(页面排名),让页面被Google检索的技巧。站长交换链接。搜索引擎优化(SEO)。Google Analytics,Google Sitemap,Google Related Links。
    [返回] 中文XML论坛 - 专业的XML技术讨论区Android开发论坛『 Google PageRank/Google排名/SEO/Google Analytics 』 → 谈 Page Rank – Google 的民主表决式网页排名技术 查看新帖用户列表

      发表一个新主题  发表一个新投票  回复主题  (订阅本版) 您是本帖的第 8823 个阅读者浏览上一篇主题  刷新本主题   树形显示贴子 浏览下一篇主题
     * 贴子主题: 谈 Page Rank – Google 的民主表决式网页排名技术 举报  打印  推荐  IE收藏夹 
       本主题类别:     
     男人出格 帅哥哟,离线,有人找我吗?巨蟹座1978-7-9
      
      
      等级:大一新生
      文章:8
      积分:81
      门派:W3CHINA.ORG
      注册:2005/11/22

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给男人出格发送一个短消息 把男人出格加入好友 查看男人出格的个人资料 搜索男人出格在『 Google PageRank/Google排名/SEO/Google Analytics 』 的所有贴子 引用回复这个贴子 回复这个贴子 查看男人出格的博客楼主
    发贴心情 谈 Page Rank – Google 的民主表决式网页排名技术

    2006年2月27日 上午 08:38:00
    发表者: 吴军, Google 工程师
    原帖地址:http://googlechinablog.com/2006/02/page-rank-google.html

    大家可能听说过,Google 革命性的发明是它名为 “Page Rank” 的网页排名算法,这项技术彻底解决了搜索结果排序的问题。其实最先试图给互联网上的众多网站排序的并不是 Google。Yahoo! 公司最初第一个用目录分类的方式让用户通过互联网检索信息,但由于当时计算机容量和速度的限制,当时的 Yahoo! 和同时代的其它搜索引擎都存在一个共同的问题: 收录的网页太少,而且只能对网页中常见内容相关的实际用词进行索引。那时,用户很难找到很相关信息。我记得 1999 年以前查找一篇论文,要换好几个搜索引擎。后来 DEC 公司开发了 AltaVista 搜索引擎,只用一台 ALPHA 服务器,却收录了比以往引擎都多的网页,而且对里面的每个词进行索引。AltaVista 虽然让用户搜索到大量结果,但大部分结果却与查询不太相关,有时找想看的网页需要翻好几页。所以最初的 AltaVista 在一定程度上解决了覆盖率的问题,但不能很好地对结果进行排序。

    Google 的 “Page Rank” (网页排名)是怎么回事呢?其实简单说就是民主表决。打个比方,假如我们要找李开复博士,有一百个人举手说自己是李开复。那么谁是真的呢?也许有好几个真的,但即使如此谁又是大家真正想找的呢?:-) 如果大家都说在 Google 公司的那个是真的,那么他就是真的。

    在互联网上,如果一个网页被很多其它网页所链接,说明它受到普遍的承认和信赖,那么它的排名就高。这就是 Page Rank 的核心思想。 当然 Google 的 Page Rank 算法实际上要复杂得多。比如说,对来自不同网页的链接对待不同,本身网页排名高的链接更可靠,于是给这些链接予较大的权重。Page Rank 考虑了这个因素,可是现在问题又来了,计算搜索结果的网页排名过程中需要用到网页本身的排名,这不成了先有鸡还是先有蛋的问题了吗?

    Google 的两个创始人拉里•佩奇 (Larry Page )和谢尔盖•布林 (Sergey Brin) 把这个问题变成了一个二维矩阵相乘的问题,并且用迭代的方法解决了这个问题。他们先假定所有网页的排名是相同的,并且根据这个初始值,算出各个网页的第一次迭代排名,然后再根据第一次迭代排名算出第二次的排名。他们两人从理论上证明了不论初始值如何选取,这种算法都保证了网页排名的估计值能收敛到他们的真实值。值得一提的事,这种算法是完全没有任何人工干预的。

    理论问题解决了,又遇到实际问题。因为互联网上网页的数量是巨大的,上面提到的二维矩阵从理论上讲有网页数目平方之多个元素。如果我们假定有十亿个网页,那么这个矩阵 就有一百亿亿个元素。这样大的矩阵相乘,计算量是非常大的。拉里和谢尔盖两人利用稀疏矩阵计算的技巧,大大的简化了计算量,并实现了这个网页排名算法。今天 Google 的工程师把这个算法移植到并行的计算机中,进一步缩短了计算时间,使网页更新的周期比以前短了许多。

    我来 Google 后,拉里 (Larry) 在和我们几个新员工座谈时,讲起他当年和谢尔盖(Sergey) 是怎么想到网页排名算法的。他说:"当时我们觉得整个互联网就像一张大的图 (Graph),每个网站就像一个节点,而每个网页的链接就像一个弧。我想,互联网可以用一个图或者矩阵描述,我也许可以用这个发现做个博士论文。" 他和谢尔盖就这样发明了 Page Rank 的算法。

    网页排名的高明之处在于它把整个互联网当作了一个整体对待。它无意识中符合了系统论的观点。相比之下,以前的信息检索大多把每一个网页当作独立的个体对待,很多人当初只注意了网页内容和查询语句的相关性,忽略了网页之间的关系。

    今天,Google 搜索引擎比最初复杂、完善了许多。但是网页排名在 Google 所有算法中依然是至关重要的。在学术界, 这个算法被公认为是文献检索中最大的贡献之一,并且被很多大学引入了信息检索课程 (Information Retrieval) 的教程。
    ——————————————————————————————————————————
    [URL=http://xxlso.com/]详细搜索[/URL]
    [URL=http://bjhtml.com/store/]超级链接[/URL]
    [URL=http://bjhtml.com/store/hosting.php]虚拟主机[/URL]
    [URL=http://bjhtml.com/store/idccenter.php]IDC服务器[/URL]


       收藏   分享  
    顶(0)
      




    ----------------------------------------------
    http://xxlso.com http://bjhtml.com

    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2006/5/20 13:25:00
     
     ilovepeidan 帅哥哟,离线,有人找我吗?
      
      
      等级:大一新生
      文章:3
      积分:68
      门派:XML.ORG.CN
      注册:2007/5/15

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给ilovepeidan发送一个短消息 把ilovepeidan加入好友 查看ilovepeidan的个人资料 搜索ilovepeidan在『 Google PageRank/Google排名/SEO/Google Analytics 』 的所有贴子 引用回复这个贴子 回复这个贴子 查看ilovepeidan的博客2
    发贴心情 
    不错,很好
    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2007/5/15 20:36:00
     
     GoogleAdSense
      
      
      等级:大一新生
      文章:1
      积分:50
      门派:无门无派
      院校:未填写
      注册:2007-01-01
    给Google AdSense发送一个短消息 把Google AdSense加入好友 查看Google AdSense的个人资料 搜索Google AdSense在『 Google PageRank/Google排名/SEO/Google Analytics 』 的所有贴子 访问Google AdSense的主页 引用回复这个贴子 回复这个贴子 查看Google AdSense的博客广告
    2024/5/11 5:02:51

    本主题贴数2,分页: [1]

    管理选项修改tag | 锁定 | 解锁 | 提升 | 删除 | 移动 | 固顶 | 总固顶 | 奖励 | 惩罚 | 发布公告
    W3C Contributing Supporter! W 3 C h i n a ( since 2003 ) 旗 下 站 点
    苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》
    62.500ms