Tag: 算法预览模式: 普通 | 列表
09-09
11

SEO Google算法解析系列之HillTop算法

  上一遍我们介绍了潜在语义索引(LSI),今天我们将介绍超链分析的颠峰之作:HillTop算法,作为现在Google现在最核心的排名算法之一,网上不乏大量介绍她的文献。本文侧重于原始算法的分析,不考虑过多复杂因素,让您更容易理解算法本质。

  HillTop算法集PageRank,HITs、相关性算法大成于一身,由康柏系统研究中心的Krishna Bharat和多伦多大学的George A.Mihaila在2001年提出并申请了专利,后授权于Google,2003年12月Google算法更新,其成为Google核心排名算法之一。

  HillTop是一种查询相关性链接分析算法,克服了的PageRank的查询无关性的缺点。简单的说HillTop算法是针对热门查询关键词来对搜索结果重新排序的一种算法。之所以针对热门关键词,这是因为HillTop算法运行效率较低的原因。算法主要分为两个过程:

  一、 专家页面的寻找和评分;搜索引擎根据用户查询日志发现热门关键词后,开始针对这些热门关键词寻找专家页面,成为专家页的2个必要因素,1)必须拥有足够多而且不存在隶属关系的出链,2)至少存在一个短语包含该热门关键词的所有术语。确定专家页以后,在该页面上找出所有全部包含热门关键词中术语、或者差1到2两个术语的短语,将这些短语分为三个等级,分别为全部包含,差1个和差2个术语,分别对这个三等级计算等级分,等级是分对各个等级中所有短语得分的 和,而短语得分取决于这个短语在页面中位置,分数从高到低依次标题、头部和锚文本等等,然后的综合计算这个三个等级得分就得到专家分。以下举个简单的以 “汽车消费”这个热门关键词为例,“中国汽车消费网”的首页和友情链接页就是这个关键词的专家页面,因为他具有足够多而且不隶属315che.com主机域名和同C类ip的出链,同时标题中的“中国汽车消费网”也包含“汽车”和“消费”这两个术语。接下来评分,先算第一等级(包含所有术语的短语)的得分,短语“中国汽车消费网”在标题中得到16分(假设),以及在锚文本中“中国汽车消费理财倾向大调查”得了1分,那么第一等级得分为17分,再算第二等级(差一个术语),第三等级(差两个术语)。这样再算三个等级得分的加权和,就是专家分。

  二、 对目标页评分;一个专家页对目标页的评分等于专家本身分值×专家页可区分的短语数量。取前N个指向目标页的专家页,对于多个同一隶属的专家页指向该目标页,取分值最高的专家页,然后这些专家页对目标网页的评分的和就得到,这个页面对应这个热门关键词的得分,有人称之为行业得分。

查看更多...

Tags: HillTop 算法 google

分类:Seo&Hacker | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 225
06-05
17

几种算法的排序和时间

public class Sort {

  public void swap(int a[], int i, int j) {
    int tmp = a[i];
    a[i] = a[j];
    a[j] = tmp;
  }

  public int partition(int a[], int low, int high) {
    int pivot, p_pos, i;
    p_pos = low;
    pivot = a[p_pos];
    for (i = low + 1; i<= high; i++) {
      if (a[i]> pivot) {
        p_pos++;
        swap(a, p_pos, i);
      }
    }
    swap(a, low, p_pos);
    return p_pos;
  }

  public void quicksort(int a[], int low, int high) {
    int pivot;
    if (low< high) {
      pivot = partition(a, low, high);
      quicksort(a, low, pivot - 1);
      quicksort(a, pivot + 1, high);
    }

查看更多...

Tags: 算法 排序

分类:学习 | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 724