原文见:http://blog.fulin.org/2009/08/lucene_chinese_analyzer_compare.html,更多讨论请去原文处。
1. 基本介绍:
paoding :Lucene中文分词“庖丁解牛” Paoding Analysis
imdict :imdict智能词典所采用的智能中文分词程序
mmseg4j : 用 Chih-Hao Tsai 的 MMSeg 算法 实现的中文分词器
ik :采用了特有的“正向迭代最细粒度切分算法“,多子处理器分析模式
1. 基本介绍:
paoding :Lucene中文分词“庖丁解牛” Paoding Analysis
imdict :imdict智能词典所采用的智能中文分词程序
mmseg4j : 用 Chih-Hao Tsai 的 MMSeg 算法 实现的中文分词器
ik :采用了特有的“正向迭代最细粒度切分算法“,多子处理器分析模式
MyEclipse中新建一个MessageBundle.properties文件,如果输入中文保存时就会提示错误:
Save could not be completed.
Reason:
some characters cannot be mapped using "ISO-8859-1" character encoding.
Either change the encoding or remove the characters which are not supported
by the "ISO-8859-1" character encoding.
Save could not be completed.
Reason:
some characters cannot be mapped using "ISO-8859-1" character encoding.
Either change the encoding or remove the characters which are not supported
by the "ISO-8859-1" character encoding.
引用内容
解决办法:
打开Eclipse的Preferences,选择General->Content Types,然后修改右面的Text下的Java Properites File的默认编码方式为UTF-8,点击Update就可以了!
打开Eclipse的Preferences,选择General->Content Types,然后修改右面的Text下的Java Properites File的默认编码方式为UTF-8,点击Update就可以了!