09-09
11

面向PageRank和HITS算法的网站设计

  思亿欧曾经讨论过PageRank算法和HITS算法,同时也提到了Google,因为它是唯一一个使用PageRank算法的搜索引擎。虽然各种排序算法都是保密的,但可以肯定的是,这些算法一定比我们所讨论的更为复杂。很可能,大部分搜索引擎都采用了某种基于链接的排序算法,吸纳了PageRank算法和HITS算法的精华,同时也使用其他的数据源,这些数据源中应该包含任何具体查询与网页文本的匹配程度;目标网页的更新频率(即网页所提供的信息的新鲜度);甚至可能包括用户输入查询后,在搜索引擎返回的结果中点击链接的频度。下面基于对PageRank算法和HITS算法的分析,给出了关于如何提高网站对搜索引擎的可见性的几点建议。

  ·网站应该设计成这样:搜索引擎能够从其首页开始爬行所有网页,且能够从中找到标准的HTML链接。

  ·每个网页的HTML文件中应含有与它们主题内容相关的词语,尤其是用户可能用作检索词的那些词语。

  ·应尽可能早的创建网站,在网页的索引和排序中,网页年龄是很重要的。PageRank算法对较老的网页有利,搜索引擎不大容易发现较新的网页,因为新网页的人链较少。

  ·网站的URL应尽可能保持不变。URL的改变将会导致死链,这就意味着要失去许多访问者,因为他们无法沿着死链访问到该网站,同时PageRank值也会流失。

  ·网站应尽量获得其他网站的入链,尤其是流行网站,如Yahoo!。在网站中增添有用的信息是促进其他网站链向该网站的一种较为合适的方法,因为网站的入链数有助于提高网站的PageRank值。

  ·网站应尽量获得具有相同主题的其他网站的人链。如HITS算法所示,相关链接对于提高网站在具体主题领域中的排名是很有帮助的。

  ·不要为了提高PageRank值而舞弊。例如,创建假网页以增加该网站的人链数,或者用其他方法来创建大量的链接,如果这样,一旦被发现,搜索引擎将永远不再索引该网站。



文章来自: 本站原创
引用通告: 查看所有引用 | 我要引用此文章
Tags: HITS PageRank
相关日志:
评论: 0 | 引用: 0 | 查看次数: 193
发表评论
昵 称:
密 码: 游客发言不需要密码.
内 容:
验证码: 验证码
选 项:
虽然发表评论不用注册,但是为了保护您的发言权,建议您注册帐号.
字数限制 1000 字 | UBB代码 开启 | [img]标签 关闭