预览模式: 普通 | 列表
09-09
11

面向PageRank和HITS算法的网站设计

  思亿欧曾经讨论过PageRank算法和HITS算法,同时也提到了Google,因为它是唯一一个使用PageRank算法的搜索引擎。虽然各种排序算法都是保密的,但可以肯定的是,这些算法一定比我们所讨论的更为复杂。很可能,大部分搜索引擎都采用了某种基于链接的排序算法,吸纳了PageRank算法和HITS算法的精华,同时也使用其他的数据源,这些数据源中应该包含任何具体查询与网页文本的匹配程度;目标网页的更新频率(即网页所提供的信息的新鲜度);甚至可能包括用户输入查询后,在搜索引擎返回的结果中点击链接的频度。下面基于对PageRank算法和HITS算法的分析,给出了关于如何提高网站对搜索引擎的可见性的几点建议。

  ·网站应该设计成这样:搜索引擎能够从其首页开始爬行所有网页,且能够从中找到标准的HTML链接。

  ·每个网页的HTML文件中应含有与它们主题内容相关的词语,尤其是用户可能用作检索词的那些词语。

  ·应尽可能早的创建网站,在网页的索引和排序中,网页年龄是很重要的。PageRank算法对较老的网页有利,搜索引擎不大容易发现较新的网页,因为新网页的人链较少。

  ·网站的URL应尽可能保持不变。URL的改变将会导致死链,这就意味着要失去许多访问者,因为他们无法沿着死链访问到该网站,同时PageRank值也会流失。

查看更多...

Tags: HITS PageRank

分类:Seo&Hacker | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 191
09-09
11

SEO Google算法解析系列之HillTop算法

  上一遍我们介绍了潜在语义索引(LSI),今天我们将介绍超链分析的颠峰之作:HillTop算法,作为现在Google现在最核心的排名算法之一,网上不乏大量介绍她的文献。本文侧重于原始算法的分析,不考虑过多复杂因素,让您更容易理解算法本质。

  HillTop算法集PageRank,HITs、相关性算法大成于一身,由康柏系统研究中心的Krishna Bharat和多伦多大学的George A.Mihaila在2001年提出并申请了专利,后授权于Google,2003年12月Google算法更新,其成为Google核心排名算法之一。

  HillTop是一种查询相关性链接分析算法,克服了的PageRank的查询无关性的缺点。简单的说HillTop算法是针对热门查询关键词来对搜索结果重新排序的一种算法。之所以针对热门关键词,这是因为HillTop算法运行效率较低的原因。算法主要分为两个过程:

  一、 专家页面的寻找和评分;搜索引擎根据用户查询日志发现热门关键词后,开始针对这些热门关键词寻找专家页面,成为专家页的2个必要因素,1)必须拥有足够多而且不存在隶属关系的出链,2)至少存在一个短语包含该热门关键词的所有术语。确定专家页以后,在该页面上找出所有全部包含热门关键词中术语、或者差1到2两个术语的短语,将这些短语分为三个等级,分别为全部包含,差1个和差2个术语,分别对这个三等级计算等级分,等级是分对各个等级中所有短语得分的 和,而短语得分取决于这个短语在页面中位置,分数从高到低依次标题、头部和锚文本等等,然后的综合计算这个三个等级得分就得到专家分。以下举个简单的以 “汽车消费”这个热门关键词为例,“中国汽车消费网”的首页和友情链接页就是这个关键词的专家页面,因为他具有足够多而且不隶属315che.com主机域名和同C类ip的出链,同时标题中的“中国汽车消费网”也包含“汽车”和“消费”这两个术语。接下来评分,先算第一等级(包含所有术语的短语)的得分,短语“中国汽车消费网”在标题中得到16分(假设),以及在锚文本中“中国汽车消费理财倾向大调查”得了1分,那么第一等级得分为17分,再算第二等级(差一个术语),第三等级(差两个术语)。这样再算三个等级得分的加权和,就是专家分。

  二、 对目标页评分;一个专家页对目标页的评分等于专家本身分值×专家页可区分的短语数量。取前N个指向目标页的专家页,对于多个同一隶属的专家页指向该目标页,取分值最高的专家页,然后这些专家页对目标网页的评分的和就得到,这个页面对应这个热门关键词的得分,有人称之为行业得分。

查看更多...

Tags: HillTop 算法 google

分类:Seo&Hacker | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 295
09-09
11

SEO Google算法解析系列之潜在语义索引(LSI)

  作为一个SEOer,我们必须对搜索引擎排名算法有一定的理解,才能真正谈优化,接下来将针对Google一系列算法就我的一点理解和心得与大家共享,希望大家多多指教,相互学习。这里我们先从关键词的相关性算法开始。

  搜索引擎作弊最快的方法当属关键词堆砌,这源于信息检索中相关性算法本身的缺陷,为了对抗这种作弊方法,搜索引擎通过潜在语义索引(Latent Semantic Indexing,LSI)算法来发现这些作弊页面,LSI算法也是信息检索领域一种古老的算法,1988年由S.T. Dumais等 人提出,主要用于自然语言理解,通过统计的方法对文档的进行语义分析,发掘同义词,相关词组等等。举个简单的例子:比方“汽车消费”这个词,通过分析大量 页面发现这个词频繁的出现在“汽车消费贷款”,“中国汽车消费网”等等这些词组中,那么机器可以认为人们的语言习惯是将“汽车消费”和“汽车消费贷款”、 “中国汽车消费网”等等联系在一起来描述一些事情。通过这样的分析发现一些由机器生成的关键词堆砌页面,因为搜索引擎认为机器生成的页面不会出现这些相关 联的词组。

  LSI算法被用于 Google的很多应用,如Adwords,Google Suggest,以及上面提到的反作弊等等。

  LSI算法提醒我们在搜索引擎优化的时候要注意页面的关键词密度,以及相关词组的使用,尽量使用比较自然的语言方式来提高页面的相关性。

Tags: LSI

分类:Seo&Hacker | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 249
09-09
11

在JSP中使用FCKEditor

首先下载FCKEditor2.6以及JAVA整合包
下载地址,或者直接下载fckeditor-java-demo-2.4.war这个文件
怎么配不说了,网上一大堆,我直接使用的demo,建议大家都在这个基础上改
还省事,还准确.
fckconfig.js说明(部分)
> FCKConfig.DefaultLanguage   = 'zh-cn' ; 这是默认语言的设置
> FCKConfig.ToolbarSets[""]这个是工具栏的显示内容,可以根据不同的角色定义很多个,然后在页面中判断用户权限,使用不同的工具栏.
例如:
   1.直接使用脚本生成

查看更多...

Tags: FCKeditor

分类:Java&Jsp | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 209
09-09
11

天枫所见所得UBB编辑器调用方法

添加内容时调用编辑器方法:
<textarea name="content" cols="80" rows="15" id="content" style="display:none</textarea>
<iframe ID="Editor" name="Editor" src="路径/ubb/edit.htm?id=content" frameBorder="0" marginHeight="0" marginWidth="0" scrolling="No" style="height:320;width:100%"></iframe>


编辑内容时调用编辑器方法:
<textarea name="content" cols="80" rows="15" id="content" style="display:none"><%=server.htmlencode(content)%></textarea>
<iframe ID="Editor" name="Editor" src="路径/ubb/edit.htm?id=content" frameBorder="0" marginHeight="0" marginWidth="0" scrolling="No" style="height:320;width:100%"></iframe>


显示数据库的内容方法:

查看更多...

Tags: 天枫 UBB 调用

分类:Sevrice&IDE | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 289
09-09
11

Pjblog Bug:myblog/common/library.asp,行 479

    Private Function checkTagID(tagID) '检测是否存在此标签(根据ID)

        checkTagID = False

        Dim log_Tag, log_TagItem

        For Each log_TagItem IN Arr_Tags

            log_Tag = Split(log_TagItem, "||")

查看更多...

Tags: PJBLOG bug

分类:OpenSource | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 239