预览模式: 普通 | 列表
09-08
29

当前几个主要的Lucene中文分词器的比较

原文见:http://blog.fulin.org/2009/08/lucene_chinese_analyzer_compare.html,更多讨论请去原文处。

1. 基本介绍:

paoding :Lucene中文分词“庖丁解牛” Paoding Analysis
imdict :imdict智能词典所采用的智能中文分词程序
mmseg4j : 用 Chih-Hao Tsai 的 MMSeg 算法 实现的中文分词器
ik :采用了特有的“正向迭代最细粒度切分算法“,多子处理器分析模式

查看更多...

Tags: 中文 分词

分类:Seo&Hacker | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 420
09-08
29

mmseg4j 多分词模式与 paoding 分词效果对比

mmseg4j 1.6支持最多分词,应网友的要求:分词效果与 paoding 对比下。观察了 paoding 部分分词结果,现总结下。

paoding 分词效果:

引用内容 引用内容
--------------------------  
清华大学  
清华 | 大 | 华大 | 大学 |  
--------------------------  
华南理工大学  

查看更多...

Tags: mmseg4j paoding

分类:Seo&Hacker | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 585
09-08
26

tomcat支持shtml

tomcat版本5.X
1、将tomcat 的server\lib目录下servlets-ssi.renametojar文件重命名为servlets-ssi.jar。

      2、修改tomcat的 conf目录下web.xml文件,找到如下代码:

   /*
      <servlet>
        <servlet-name>ssi</servlet-name>
        <servlet-class>

查看更多...

Tags: TOMCAT shtml

分类:Java&Jsp | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 327
09-08
21

爬虫如何辨别文章的原创、伪原创与转载

在谈论之前,我们首先应该明确三个基本概念:原创与伪原创以及转载

先说转载:顾名思义就是原原本本的从网络媒体上照抄照搬过来的文章。

原创:很好理解,就是第一次在网络上发表的文章内容。

  伪原创:就是对网络上收集到的一些原创内容进行N次修改,转而进行发表的文章。比如修改文章的标题,增加文章摘要,转载不完整的文章内容等等。

  搜索引擎对于原创的识别判断是如何进行的呢?

查看更多...

Tags: 爬虫

分类:Seo&Hacker | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 283
09-08
20

百度贴吧最新引流量功略(PHP版)

到百度贴吧宣传的人都清楚,那里的流量取之不尽,用之不竭。但广告宣传也是异常困难,通常宣传帖子发表没多久就会被吧主秒杀掉。这点使许多人对贴吧望而却步。不过最近出现了一个非常实用的宣传办法,利用图片轻松吸引海量流量。细心的人可以发现百度贴吧的图片,当宽度超过一定比列,我们点击会以新的窗口弹出。而这正是我们所需求

1.首先我们创建一个1.JPG的文件夹,记得,是文件夹

2.文件夹放1.jpg和index.php两个文件(以下语法放进index.php)

<?php
if($_SERVER['HTTP_REFERER']!=''){
@header("Content-type:image/jpeg");

查看更多...

Tags: 跳转

分类:Seo&Hacker | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 245
09-08
20

百度图片跳转

首先在你的服务器上建立一个ASP文件,设置成引所文件,比如index.asp
我以ASP语言为例:
<%
if Instr(request.ServerVariables("HTTP_REFERER"),"baidu")>0 Then
url="test.jpg"
else url="http://www.xxxx.cn"
end if
response.Redirect(url)
%>

查看更多...

Tags: 跳转

分类:Seo&Hacker | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 323