思亿欧曾经讨论过PageRank算法和HITS算法,同时也提到了Google,因为它是唯一一个使用PageRank算法的搜索引擎。虽然各种排序算法都是保密的,但可以肯定的是,这些算法一定比我们所讨论的更为复杂。很可能,大部分搜索引擎都采用了某种基于链接的排序算法,吸纳了PageRank算法和HITS算法的精华,同时也使用其他的数据源,这些数据源中应该包含任何具体查询与网页文本的匹配程度;目标网页的更新频率(即网页所提供的信息的新鲜度);甚至可能包括用户输入查询后,在搜索引擎返回的结果中点击链接的频度。下面基于对PageRank算法和HITS算法的分析,给出了关于如何提高网站对搜索引擎的可见性的几点建议。
·网站应该设计成这样:搜索引擎能够从其首页开始爬行所有网页,且能够从中找到标准的HTML链接。
·每个网页的HTML文件中应含有与它们主题内容相关的词语,尤其是用户可能用作检索词的那些词语。
·应尽可能早的创建网站,在网页的索引和排序中,网页年龄是很重要的。PageRank算法对较老的网页有利,搜索引擎不大容易发现较新的网页,因为新网页的人链较少。
·网站的URL应尽可能保持不变。URL的改变将会导致死链,这就意味着要失去许多访问者,因为他们无法沿着死链访问到该网站,同时PageRank值也会流失。
·网站应该设计成这样:搜索引擎能够从其首页开始爬行所有网页,且能够从中找到标准的HTML链接。
·每个网页的HTML文件中应含有与它们主题内容相关的词语,尤其是用户可能用作检索词的那些词语。
·应尽可能早的创建网站,在网页的索引和排序中,网页年龄是很重要的。PageRank算法对较老的网页有利,搜索引擎不大容易发现较新的网页,因为新网页的人链较少。
·网站的URL应尽可能保持不变。URL的改变将会导致死链,这就意味着要失去许多访问者,因为他们无法沿着死链访问到该网站,同时PageRank值也会流失。